找回密码
 立即注册
查看: 527|回复: 0

任重而道远 ——「文心一言」内测记录

[复制链接]

1

主题

0

回帖

8

积分

新手上路

积分
8
发表于 2023-6-1 10:11:49 | 显示全部楼层 |阅读模式
首先,将 2023 年称为 AI 纪元在我看来也没什么不合适的:虽说 ChatGPT 在去年就已推出,但真正在国内大火还是在本年的事情;而在这个月,OpenAI 又接连推出了 GPT-3.5-Turbo 的 API 和 GPT-4 模型,又让一大波基于 OpenAI 的二次开发的东西类软件大火;在今天,微软在发布会上再度颁布发表将把 ChatGPT 整合进 Microsoft Office 套件中。一时间,AI 仿佛成为了比来最「潮水」的词语。
       而如果我们将时间倒回两年之前,就能看到其实百度早在 2021 年就已经入局 AI:文心大模型的第一个版本早在 2019 年就已发布,此后的每一年城市发布一个新版本。不外直到 ChatGPT 在国内大火后,百度才推出了本身面向公众的自然语言措置东西——文心一言。



2021年【百度世界】大会上,李彦宏和撒贝宁交流百度关于AIGC的探索

「文心一言」是什么?

百度官方介绍:
文心一言是百度全新一代常识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地辅佐人们获取信息、常识和灵感。文心一言是常识增强的大语言模型,基于飞桨深度学习平台和文心常识增强大模型,持续从海量数据和大规模常识中融合学习具备常识增强、检索增强和对话增强的技术特色。 文心一言有五大能力,文学创作、商业案牍创作、数理逻辑推算、中文理解、多模态生成。
       为了更好的了解文心一言的能力,我们不妨就来尝尝文心一言「主打」的这五个能力,看看他们的能力分袂是怎样的。
<hr/>1 文学创作能力

Prompt:请生成一篇城市爱情故事,以“边界感”为主题。       在这个 Prompt 中,如果想要生成一个满足条件的、生动的爱情故事作品,难度适中。而且斗劲考验 AI 把控情感和主题线索的能力。
来看看文心一言的表示:


       总的来说,文心一言在文学创作方面,与其说是「爱情故事」,倒不如说是第三人称叙事,还远远没有达到文学创作基础的门槛,前后逻辑不太相符,基本能勉强实现 Prompt 中的指令。不外文学创作方面本身就斗劲困难,因此也可以理解。
2 商业广告能力

      在中国特色的社会主义生活中,我选择了双十一节日中的广告词,每年一次的双十一活动,不少创新型的广告风格,但有些真的是「可圈可点」,丧掉了广告词的精髓。在这里,我们来看看文心一言的广告缔造能力:


       明显呈现了问题,不符合最后一次prompt的提问,想要的答案应该是想ChatGPT那样,会揣摩人提问的方式,比如:


       「ChatGPT」已然比「文心一言」超出跨越一个层次,然后 GPT-4 模型在这种要求的商业广告能力上也显得力不从心,看来商业广告的生成还是有很大难度。需要继续堆集数据,训练模型,逐渐提高此方面的能力。
3 数理逻辑推算

        为了去更好地验证「文心一言」的数理逻辑,简单从初中数学和逻辑思维两个角度去提问。
Prompt:请问一次函数 y=2x-3 与 X 轴的交点坐标是多少?

        看上去还有很大的提升空间,此刻已经有很多人测试过,在这里不做过多赘述。
  Prompt:有一个 3L 的烧杯和一个 5L 的烧杯,如何得到 4L 水?

      很明显有问题,基本不符合prompt的指令要求,这个回答,竟一时让我不知从哪开始辩驳。可见「文心一言」的 AI 模型目前连最基础的数字运算都还不完善。再来看看「ChatGPT」的答复:


       总的来说, GPT-4 还是有必然的的逻辑能力。
4 中文理解

       这个在我最初的理解中,应该是文心一言的强势部门。毕竟「ChatGPT」中的中文模型比例仅占到 0.2%。在测试他的中文理解能力上,我拔取了白话文、古诗文、典故三种中文形式进行测试
1)白话文理解
       在白话文的测试中,我就选去情侣之间经常说的一句话:
   Prompt:你要是还不来,就给我等着吧!       在这句话里,「你给我等着吧」有一种略微的威胁、生气以及有些开打趣的语气成分在。来看看「文心一言」对于这句话的理解能力:


       在这个测试中,文心一言比我想象中的,类似于「意思是是在等待另一方」的答复要更加正确一些。但是对比于 GPT-4 模型的更加完善、全面的解释,文心一言显然只体会到了此中略微威胁、生气的情感。
2)古诗文理解
在这一个部门中,我拔取了《茅屋为秋风所破歌》的「安得广厦千万间,大辟天下寒士俱欢颜」一句。
  Prompt:「安得广厦千万间,大辟天下寒士俱欢颜」表达了什么样的情感

        对于这种非常经典的内容,理解都还不错。
3)典故理解
       本次我用选择「沉鱼落雁,沉鱼落雁」的典故来测试。
  Prompt1:中国古代四大美女是谁,分袂有什么故事典故?

  Prompt2:那沉鱼落雁,沉鱼落雁说的是?

       可见典故理解的算是基础,实际上没有理解「沉鱼落雁,沉鱼落雁」的具体意思,正确的理解应该是每一个分袂有一段故事。
5 多模态生成

        多模态生成应该是文心一言对比于「ChatGPT 」的优势(我们在这里暂且先不考虑 OpenAI 的 DALL·E 模型)。
       对于常见的 Prompt,文心一言生成的内容质量还能有最基本的保证。风格默认是写实和插画混合的风格,但是可以通过 Prompt 来改变风格。可惜在生成过程中,还是犯了文心一言的老短处:不严格遵循 Prompt 的要求。尤其是下面第二幅图,只画出了「一个人」,其他的要点都没有展此刻图片中,这是目前文心一言一个很大的问题。




     但是对于一些要求奇怪的 Prompt,比如「请你画一只热爱中国的猫」,他就会完全傻掉:


      可见「文心一言」的多模态生成还有很多提升的空间。至少先让生成的画作能严格符合 Prompt 的要求吧。
4 总结

       通过上面实际体验的截图,可以看出文心一言文字的生成质量还欠缺很多,而且多模态生成的图片也有提升的空间。但文心一言也有本身的优势,例如可以在国内网络环境下直接体验、可以生成图片等功能。
       百度作为国内最早入局 AI 的企业,但最终效果不尽人意,其实也间接说明了国内互联网环境的一些遗憾,例如充溢着大幅无意义的内容。
       而且,国内互联网很难提供一个合格的训练环境。例如知乎作为国内最大的问答平台,并没有提供一个反选「最佳回答」的选项,而有些知乎问题的最高赞往往是一些抖机灵的答案,给 AI 训练增加了很多灾度,因此文心一言目前效果不尽如人意也不完全是百度的责任。
       或许再给百度一段时间,文心一言的模型能做得更加优秀。相信文心一言也能随着迭代,克服不足,让亮点更亮。正如《离骚》中所写的:路漫漫其修远兮,吾将上下而求索。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-11-24 11:02 , Processed in 0.055767 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表