文心一言4.0评测：有所进步，但是...

你们出事了 发表于 2024-5-16 20:12:40

一、前述

昨天中午，我在年级群中瞥见有关星火大模型讲座的动静。这引发了我与室友关于国产大模型现状的一番深入讨论。当话题转到文心一言时，由于被刻板印象和OpenAI的超强技术实力所限制，我不外脑子地直接开喷：文心一言就是歌姬吧
刚说完，我便意识到这与我一直以来的原则——未经查询拜访，就无发言权——相悖。因此，我当即采办了文心一言的会员处事，￥50，少吃一顿KFC但是成功获得锐评国产大模型的机会，可以接受。
作者是计算机专业人工智能范围的，对相关常识有所了解，加之还是理论上最有大模型需求的人群（大学生），与此同时一直使用openai提供的api以及订阅poe，而且没有恰饭，测试过程还是相对公平可信的。
大模型如何评测其实一直是一个难题，除了学术中常用的一些benchmark，还有一些人会用弱智吧100问之类的东西去评测。但是我感觉这些评测都挺扯的，真实使用过的人基本都能感到感染到一些评分很高的开源大模型能力都远逊于gpt3.5。所以我会尽量站在一个用户的角度评测它。
二、UI界面和使用逻辑

其实这个完全不需要评测，因为大师的ui基本上都没啥短处，但是文心一言的一些设计让我不得不吐槽。
首先是类似GPTs的机器人功能在web端的入口处是没有的，只能进入开发者平台中使用；移动端app则可以使用。其次是输入框文本限制，长度限制为2000个汉字，这个似乎还行，但是它的逻辑是类似twitter的，一个空格或者一个字母长度也算一个，这就导致了如果你但愿喂代码进去，稍微长一点的就完全不行。而大模型的输入限制其实是计算tokens的，这样粗暴限制长度是偷懒的行为。

2000个a

三、基础功能评测

1. 画图功能

目前大模型所拥有的画图功能其实都是通过调用SD/Dall e等画图模型获取的。文心一言的画图功能测评主要分两个方面，使用体验和效果。
在使用体验上，画图功能毫无疑问是相对差劲的。首先所有AI生成图都有AI生成的水印，这就把画图功能局限在了图一乐的阶段；其次很多图片类型不能生成——不要想歪，只要是稍微奇幻点的它就会拒绝。

基本上可以揣度出这个绘画模型基于类SD的架构，有多种模型，会选择此中一个最匹配要求的生成图片，如果触碰了红线或者没分到合适的模型就会拒绝生成。
在效果上我们简单对比

文心一言

dall e 3

效果好坏见仁见智，总体来说文心一言的是图一乐；这里没有刻意调整提示词，但是就我的体感而言，dall e 3效果优于文心一言。而且dall e 3是真的能算出产力应用，比如设计一些ppt元素插图或者logo。例如我使用了一些简单的prompt生成了一个哈工大的小插图：

Craft a 3D isometric game-style illustration, infused with the harmonious blend of blue and red hues. The scene should convey a snowy landscape under a blue sky adorned with fluffy white clouds. Central to the scene is the iconic main building of the Harbin Institute of Technolog

总结：文心一言的画图插件就图一乐
2. 说图解画

具备视觉理解能力其实对大模型来说挺重要的，毕竟文字也能被包含在图片中，只有拥有图片的理解能力大模型才能去理解互联网和生活中的绝大部门事物。
当前学术界中大模型获取多模态能力的方式一般是对齐。在具体操作上有两种方式，一种是冻结LLM的参数训练一个转换层（比如BLIP2、LLAVA等工作），另一种是从头开始训练，直接把图片切成patch然后转化为tokens图文数据一起训练（如fuyu-7b）。
文心一言的视觉理解能力是哪里来的呢，我认为其实是OCR和上文提到的对齐的综合。是的，其实还是一个类专家系统的综合。我分袂做了两次尝试：第一次尝试中文字占斗劲多，文心一言可以很好的理解文字信息，但是之后无法再获得图片中的emoji表情信息；第二次尝试中emoji占斗劲大，文心一言可以获取到emoji信息和文字信息，但是无法获取更多的文字信息。

文字占斗劲多

emoji占斗劲大

其实这个结论不长短常solid，主要因为我不太相信不用ocr，百度直接切patch可以获得这么好的文字识别效果。
具体到一些应用中，对gpt4和文心一言进行一些对比：‘

GPT4-gizmo

文心一言

我分袂让它们解释一张论文中的配图，可以看出效果上文心一言还是差了不少的，但是相对而言已经“有这个能力”了，但是对图片中的英文理解能力还是十分有限的。
总结：图片理解能力勉强凑活，但是不是很有用
3. 一镜流影

这个功能也是插件功能，听起来十分别致，完成度也还行，但是内核还是ai剪辑而不是ai生成，只不外只能使用百度本身的素材库。而且如果没有素材就完全不能创建相关视频。这个技术前景还是有的，比如撑持本身上传视频素材。
举几个简单的例子：

其实视频和配文不相关，压根没呈现维他柠檬茶

没有素材就不行

总结：有潜力，但是此刻图一乐
4. 总结

在基础能力测评中，我并没有去评价它的对话能力或者逻辑能力，对话能力和逻辑能力其实是很难有一个客不雅观的评价的，而且在单个问题上展现出的逻辑性意义可能并没有那么大。譬如我在使用GPT3.5和GPT4的过程中，并不能体会到他们在语言表达上的差异性。在我看来，大语言模型能否成功地调用各种东西在未来反而会是核心技术，所以主要评测内容为插件。
综合一下测试成果，可以说能用但是差强人意。斗劲重要的文档解析功能我并没有深入测评，因为这个效果也很一般，而且仅撑持word和pdf（虽然对一部门人来说已经够用了），在后续的工作场景评测中会提到。
当然了，这样的评测必定是有疏漏之处的，但是成果不会相差太远。
除此之外，斗劲火的GPTs功能我也没有评测，其实是因为一开始没找到入口。这个功能其实并不复杂，它更多的侧重点在社区开发者上，之后我会单独发布一篇博客讲讲这些东西。
四、工作场景评测

1. 形式主义工作场景评测

什么是形式主义工作场景测评？就是那些做得好也行，做的不好也没人关心的工作，只要字数达标，格式逻辑不出大问题就能交差。可能大学生接触的斗劲多，例如某某课结课陈述，某某读书笔记，某某公文。
毫不夸张地说，自从大模型问世以来，这已经成为我使用次数第二多的场景了。无数的水课陈述都是大模型解决的（谢谢大模型）。这方面的出产力当然长短常有用的，原本2个小时的工作量此刻调调prompt30分钟就搞定了。
场景一：文献总结撰写综述

这个场景的设定如下：我将提供一些相关资料（不提供文心一言完全无法撰写综述），要求它按照这些资料写一篇小综述。
这个工作场景的评测将以我的比来一门课的陈述为例。这个陈述中有这样一个部门，完成一个小综述的撰写，主题是认知计算在人工智能范围的应用。
prompt调试流程较长，可以点击链接查看所有流程
大致描述一下使用体验，文心一言的阅读文件的插件其实是相对来说斗劲差的，使用了之后其实并没有很好的读取到我但愿他读到的而且操作的内容，这个可能和我上传的综述文件是英文的有关系。因此我完全无法在一次提示中仅靠检索pdf内容来完成提示，必需将工作流程拆分为两部门，首先是拔取相关文献，然后基于文献内容写综述。
其次它的插件使用逻辑也有必然问题，每次上传后总会对文件自作主张的总结一番，这个其实会在必然程度上影响模型的后续回答。
其次他在格式方面的先验常识也斗劲欠缺，但是在调整prompt之后还是可以获得一个斗劲不错的成果的。
最后展示一下成果，其实他还是没有完美地按照我的要求执行，但是勉强也可以用了：

那么在这里就不得不合错误比一下GPT4了，我使用的是poe提供的解析文档的能力；在gpt4中，无论是直接解析文档一次搞定或者先提取相关文献再进行综述，效果都远远优于文心一言。甚至我可以不提供任何信息，直接让他为我写一篇相关综述。
但是话说回来，文心一言在这个场景下的可用性，已经达到了chatgpt刚出那会儿的能力，甚至还有所超越了。所以李老板说的超越gpt3.5我感觉并不算吹法螺。
场景二：代码解释课程陈述

这个场景的设定如下：给大模型输入一些代码和教程，让模型按照代完成一篇课程结题陈述。
其实这个场景也相对很常见，比如我写完了一个课程陈述的代码，但是不想写陈述了，就可以让模型按照我的代码告诉老师我干了啥。
同样是以我的一个课程陈述为例，以下为与文心一言对话的详细流程：
简单讲一下体验。诚恳说，它对代码的理解能力有点震惊到我了，我没有想到它能做到这样，进步对比之前可以说是很大了。它在代码方面应该能成为一个好辅佐。不外其他方面还是表示地一般，但是应该能持平gpt3.5。
再讲一下遇到的几个问题，首先是只能喂pdf和word，这导致md这种纯文本的格式文心一言居然无法解析，有点荒谬，加上这个功能其实底子不费事的吧；而对比明显的就是poe了，在poe提供的gpt4机器人中，只需要粘贴网页链接，就能自动爬取网页并提交gpt4解析，这一点十分有用。此外，由于2000个字母的限制，我也没有法子让文心一言分析过长的代码。
然后这里po出具体的gpt4的制作陈述过程。
2.出产力场景评测

有点累了，这一段先鸽了，主题概略是读文献的时候能否有助于理解。
五、总结与给文心一言开发团队的几条建议

总结一下，当前文心一言我认为是有所进步的，但是和gpt4以及openai一系列完善的财富链对比，就是歌姬吧（暴论，终于说出来了）。
文心一言在国产大模型中毫无疑问是top1。但是即使是top1此刻可能也就是比gpt3.5某些方面略强而已，这足以见得openai的强大。
还有一个很重要的点不能忽略，那就是gpt3.5是多语言的模型，不仅仅局限于中文或者英文，它的俄语法语日语能力不不见得比中文要弱，而文心一言显然是没有这种能力的。
文心一言4.0其实完全配得上50元的售价，甚至可能这是成本价（因为订阅人数并不多）。但是很遗憾，大模型是赢家通吃的市场，而且150或者50对真正有需求的人而言差距并不大，能否更好地满足需求才更为关键。所幸中国市场和外国市场还是纷歧样的，因为...所以文心一言必然有成长的机会与可能。
此外，我看得出来百度对于开放的功能是否会越过红线等等问题的考虑十分小心，毕竟国情在此。但是我还是但愿他能更加的不那么谨慎一些。而且我能感觉到百度更倾向于扶植文心一言的手机端app，把文心一言往娱乐化的标的目的引导。不能说这是错的，但是我不认为娱乐向用户会愿意付出50元每月的订阅费。大模型目前的2C应该把方针定为脑力劳动、主要使用电脑的人群。
具体来说，我对文心一言有这些建议：

[*]使用大模型加快审核效率
[*]完全开放机器人开发市场，让每个人都能轻松的定制属于本身的工作流程而且分享，可以插手审核，但是应该快速
[*]完全开放插件市场，而且与开发者成立合作关系，甚至可以设立相关奖金或者收入分成，赐与开发者更高的自由度
至于模型的训练或者调优方面我就不布鼓雷门了，百度在AI范围的堆集我还是相当信赖的（即使比不外openai）
六、杂思与碎碎念

从22年5月风闻相关的动静，再到11月刚开始使用chatgpt，到此刻，已颠末去了一年多时间。我此刻其实对大模型到底有没有用发生了一些怀疑。在中国使用大模型而且从中受益的人很少很少，我的身边也很少很少，即使身边的绝大大都人是计算机系的。其他专业的或者是高中同学更是少之又少，他们或许风闻过，但是也就只是把它当成一种别致的东西，或许有过体验，但是并不会感觉它很有用。
这很合理，对我来说大语言模型最大的用处就是写代码，看代码，这是切实的出产力提高，而这对其他人来说并没有什么用处。但是技术是在不竭成长的，大模型最后能带来多大的变化谁也说不清楚。当以后大模型能很好的控制电脑以及网络中的信息，当大模型的智能进一步上涨，一切或许都将纷歧样。
下一篇博客应该会写写当前市场上的大模型玩家们，如果有时间的话。
update:
比来有机会和文心一言的负责人聊了一会儿，概略能感到感染到百度的倾向是to B而不是to C，以及当前的主要任务是在提升大模型基础能力上。简单来说就是openai目前推出的功能文心一言在3个月内都不会上。
仔细想想也是一种智慧，因为真正会用也需要使用大模型的个人消费者会尽力使用openai的处事，而公司...没法子

lovekale6 发表于 2024-5-16 20:13:05

看得出来答主很用心了，我也想说说我自己的体验和看法。
作为10月20日就上手使用4.0的内测用户，我能明显感受到的是文心4的中文幻觉与中文理解能力达到了极高的水平，因为我平常下班后会写写网络小说（兴趣爱好），因此文心4的确让我眼前一亮。比方说下面这篇古代白话版的林黛玉醉打蒋门神。

遂于繁华之大观园中，黛玉独酌酒，忧心忡忡。于日，丫鬟传贾府中出霸王，名曰蒋门神。此人身如熊罴，力能扛鼎，原为守府庭园，然依恃其力，于府中欺贫怕富，横行霸道。

黛玉闻之，怒发冲冠，酒气上升。性烈如火，岂能容此恶行？因决亲自讨之。嫣然起身，如疾风之卷向蒋门神之所。

蒋门神于院中狂饮高歌，面目狰狞，目中无人。黛玉见之，冷目一闪，瞬间酒意化为勇气，疾冲而前。蒋门神不备，为黛玉所逼。其粉拳如暴雨落梨花，霎时蒋门神手忙脚乱。

试图反戈一击，然黛玉身形飘逸，易躲其拙击。两人交战片刻，如影随形，如游龙戏凤，交错之影映于烛光之下。

贾府众闻声而来，皆惊愕无言。从未见黛玉如此神勇，更不料其有此武艺。两人由院至厅，家什破损无遗，一片狼藉。

终，黛玉旋身回旋，一招“横江止逆”，将蒋门神踹于地。居高临下，俯瞰蒋门神如败絮轻视之，厉声道：“吾乃林黛玉，今日警汝，若再敢欺贫，必不轻饶！”

言毕，傲然离去，留贾府众人呆若木鸡。此战令人心旌摇曳，黛玉之英勇深入人心，惊心动魄之景，成众人回味无穷之谈。

这种中文创作水平我觉得超过GPT4了，在实际使用中，文心4能理解多种文本创作的复杂提示词要求。

可惜，文心4仅仅是在中文理解创作方面达到了强大的水准，如果使用英文，那么文心4的表现就很拉跨了，除此之外，百度研发的文心一格模型（文心一言就是通过外接文心一格来实现文生图功能的，语言模型本身不具有文生图能力）性能着实一般（但画美女还是很好看的），正如答主所说其本身还不足以为生产力做出打贡献。

我比较关注百度明年发布的文心4.5，文心5.0以及第三代昆仑芯片（百度研发的ai芯片），GPT5当然也不会落下。

目前，国内太多模型实际上是套壳Llama的，比如某星火，李某复，而百度算是国内厂商中少有的踏实钻研技术的（清华的chatglm也是真正搞技术的一类）。

最后，我想说，前三次工业革命中国都远远落后于西方国家，但今天中国却是世界最大的工业国，我认为主要原因有以下几点
1.全球化加速了技术流动
2.政府支持
3.（我认为最重要）中国有广泛的工业技术应用场景和市场

而人工智能技术也符合以上三点，同时我们知道，目前中国ai的技术处于世界第二的水平，也就是说，中国ai的开局远远好于三次工业革命时期。中国ai能不能发展起来不好说，但我们或许可以得出一点---中国ai发展起来的概率高于中国工业化发展起来的概率。[酷][酷][酷]

最后再次感谢答主的精心创作[爱][爱][爱]

xuan88 发表于 2024-5-16 20:13:31

写的不错[赞]认真的评测，几个插件纬度的考虑也比较详细，另外提供一个信息，app和网页版不太一样，也可以看下App的表现

My_宇少 发表于 2024-5-16 20:14:15

评论写的也挺好[赞]

老衲摸尼姑 发表于 2024-5-16 20:14:22

这个创作水平也一般啊。你肯定没有用过GPT4吧[捂脸]

pphh9168 发表于 2024-5-16 20:14:56

咱都说文无第一[酷][酷][酷]，我是同时使用文心4和GPT4的[酷][酷][酷]

嘉复贤 发表于 2024-5-16 20:15:50

https://zhuanlan.zhihu.com/p/669188332
我最近做了一个英语阅读的案例，大家可以参考一下，如果能与我交流就更好了[酷][酷][酷]

荵滕也杨霶IAIA 发表于 2024-5-16 20:16:05

百度网盘15一个月都大把人嫌贵，文心这个价格很难卖的动，知乎相关回答下就没几个真正买了4.0的，更别说微软的bing是免费的，这产品应当细分拆开了卖，上来就全家桶的价格，国内行不通的

忆婷发表于 2024-5-16 20:16:44

这还贵。。。。。我的天，打个车的价格

☆蓝黑帝国☆ 发表于 2024-5-16 20:17:20

你在知乎搜一下4.0，看有几个回答的内容像是自己花钱买了的，而且试用测试都不提供，很难说服大众花钱

页: [1] 2 3

T9AI - 深度人工智能平台's Archiver

文心一言4.0评测：有所进步，但是...