任重而道远 ——「文心一言」内测记录

奋斗的骡子ing · 发表于 2023-6-1 10:11:49

首先，将 2023 年称为 AI 纪元在我看来也没什么不合适的：虽说 ChatGPT 在去年就已推出，但真正在国内大火还是在本年的事情；而在这个月，OpenAI 又接连推出了 GPT-3.5-Turbo 的 API 和 GPT-4 模型，又让一大波基于 OpenAI 的二次开发的东西类软件大火；在今天，微软在发布会上再度颁布发表将把 ChatGPT 整合进 Microsoft Office 套件中。一时间，AI 仿佛成为了比来最「潮水」的词语。
而如果我们将时间倒回两年之前，就能看到其实百度早在 2021 年就已经入局 AI：文心大模型的第一个版本早在 2019 年就已发布，此后的每一年城市发布一个新版本。不外直到 ChatGPT 在国内大火后，百度才推出了本身面向公众的自然语言措置东西——文心一言。

2021年【百度世界】大会上，李彦宏和撒贝宁交流百度关于AIGC的探索

「文心一言」是什么？

百度官方介绍：

文心一言是百度全新一代常识增强大语言模型，文心大模型家族的新成员，能够与人对话互动，回答问题，协助创作，高效便捷地辅佐人们获取信息、常识和灵感。文心一言是常识增强的大语言模型，基于飞桨深度学习平台和文心常识增强大模型，持续从海量数据和大规模常识中融合学习具备常识增强、检索增强和对话增强的技术特色。文心一言有五大能力，文学创作、商业案牍创作、数理逻辑推算、中文理解、多模态生成。

为了更好的了解文心一言的能力，我们不妨就来尝尝文心一言「主打」的这五个能力，看看他们的能力分袂是怎样的。
<hr/>1 文学创作能力

Prompt：请生成一篇城市爱情故事，以“边界感”为主题。在这个 Prompt 中，如果想要生成一个满足条件的、生动的爱情故事作品，难度适中。而且斗劲考验 AI 把控情感和主题线索的能力。
来看看文心一言的表示：

   总的来说，文心一言在文学创作方面，与其说是「爱情故事」，倒不如说是第三人称叙事，还远远没有达到文学创作基础的门槛，前后逻辑不太相符，基本能勉强实现 Prompt 中的指令。不外文学创作方面本身就斗劲困难，因此也可以理解。
2 商业广告能力

   在中国特色的社会主义生活中，我选择了双十一节日中的广告词，每年一次的双十一活动，不少创新型的广告风格，但有些真的是「可圈可点」，丧掉了广告词的精髓。在这里，我们来看看文心一言的广告缔造能力：

   明显呈现了问题，不符合最后一次prompt的提问，想要的答案应该是想ChatGPT那样，会揣摩人提问的方式，比如：

   「ChatGPT」已然比「文心一言」超出跨越一个层次，然后 GPT-4 模型在这种要求的商业广告能力上也显得力不从心，看来商业广告的生成还是有很大难度。需要继续堆集数据，训练模型，逐渐提高此方面的能力。
3 数理逻辑推算

      为了去更好地验证「文心一言」的数理逻辑，简单从初中数学和逻辑思维两个角度去提问。
Prompt：请问一次函数 y=2x-3 与 X 轴的交点坐标是多少？

      看上去还有很大的提升空间，此刻已经有很多人测试过，在这里不做过多赘述。
  Prompt：有一个 3L 的烧杯和一个 5L 的烧杯，如何得到 4L 水？

   很明显有问题，基本不符合prompt的指令要求，这个回答，竟一时让我不知从哪开始辩驳。可见「文心一言」的 AI 模型目前连最基础的数字运算都还不完善。再来看看「ChatGPT」的答复：

   总的来说， GPT-4 还是有必然的的逻辑能力。
4 中文理解

   这个在我最初的理解中，应该是文心一言的强势部门。毕竟「ChatGPT」中的中文模型比例仅占到 0.2%。在测试他的中文理解能力上，我拔取了白话文、古诗文、典故三种中文形式进行测试
1）白话文理解
   在白话文的测试中，我就选去情侣之间经常说的一句话：
Prompt：你要是还不来，就给我等着吧！    在这句话里，「你给我等着吧」有一种略微的威胁、生气以及有些开打趣的语气成分在。来看看「文心一言」对于这句话的理解能力：

   在这个测试中，文心一言比我想象中的，类似于「意思是是在等待另一方」的答复要更加正确一些。但是对比于 GPT-4 模型的更加完善、全面的解释，文心一言显然只体会到了此中略微威胁、生气的情感。
2）古诗文理解
在这一个部门中，我拔取了《茅屋为秋风所破歌》的「安得广厦千万间，大辟天下寒士俱欢颜」一句。
  Prompt：「安得广厦千万间，大辟天下寒士俱欢颜」表达了什么样的情感

      对于这种非常经典的内容，理解都还不错。
3）典故理解
   本次我用选择「沉鱼落雁，沉鱼落雁」的典故来测试。
  Prompt1：中国古代四大美女是谁，分袂有什么故事典故？

  Prompt2：那沉鱼落雁，沉鱼落雁说的是？

   可见典故理解的算是基础，实际上没有理解「沉鱼落雁，沉鱼落雁」的具体意思，正确的理解应该是每一个分袂有一段故事。
5 多模态生成

      多模态生成应该是文心一言对比于「ChatGPT 」的优势（我们在这里暂且先不考虑 OpenAI 的 DALL·E 模型）。
   对于常见的 Prompt，文心一言生成的内容质量还能有最基本的保证。风格默认是写实和插画混合的风格，但是可以通过 Prompt 来改变风格。可惜在生成过程中，还是犯了文心一言的老短处：不严格遵循 Prompt 的要求。尤其是下面第二幅图，只画出了「一个人」，其他的要点都没有展此刻图片中，这是目前文心一言一个很大的问题。

   但是对于一些要求奇怪的 Prompt，比如「请你画一只热爱中国的猫」，他就会完全傻掉：

   可见「文心一言」的多模态生成还有很多提升的空间。至少先让生成的画作能严格符合 Prompt 的要求吧。
4 总结

   通过上面实际体验的截图，可以看出文心一言文字的生成质量还欠缺很多，而且多模态生成的图片也有提升的空间。但文心一言也有本身的优势，例如可以在国内网络环境下直接体验、可以生成图片等功能。
   百度作为国内最早入局 AI 的企业，但最终效果不尽人意，其实也间接说明了国内互联网环境的一些遗憾，例如充溢着大幅无意义的内容。
   而且，国内互联网很难提供一个合格的训练环境。例如知乎作为国内最大的问答平台，并没有提供一个反选「最佳回答」的选项，而有些知乎问题的最高赞往往是一些抖机灵的答案，给 AI 训练增加了很多灾度，因此文心一言目前效果不尽如人意也不完全是百度的责任。
   或许再给百度一段时间，文心一言的模型能做得更加优秀。相信文心一言也能随着迭代，克服不足，让亮点更亮。正如《离骚》中所写的：路漫漫其修远兮，吾将上下而求索。

		自动登录	找回密码
密码			立即注册

任重而道远 ——「文心一言」内测记录

本帖子中包含更多资源