找回密码
 立即注册
查看: 645|回复: 6

实测文心一言,与GPT-4差距在哪?

[复制链接]

2

主题

3

回帖

24

积分

新手上路

积分
24
发表于 2023-8-22 15:26:52 | 显示全部楼层 |阅读模式
本周无疑是AI爆炸周。

昨晚微软推出了Microsoft 365 Copilot,Office软件全面接入生成式AI功能。

而在方才过去的疯狂星期四,“中国版GPT”文心一言也迎来了备受存眷的高光时刻。当天 下午2点,百度创始人李彦宏呈此刻发布会现场,展示了文心一言的使用场景表示。

据悉,3月16日起,首批用户可通过邀请码在文心一言官网体验产物,后续将陆续开放给更多用户。



值得存眷的是,昨天发布会开始后,百度集团港股股价呈现持续下挫,最高跌幅一度达到9%,最终收盘时的跌幅达6%。然而情况在今天却发生了逆转,截至 发稿前,百度港股股价持续上涨 逾14%。

无独有偶,在文心一言正式上线的前一天,OpenAI正式官宣了大模型GPT-4, 距离上次惊艳出圈的ChatGPT推出仅过去4个月。最新官宣的GPT-4不仅提升语言模型方面的能力,并添加了“多模态”的图片识别功能。简单来说,GPT-4更聪明,也更像人了。

对于文心一言与GPT-4而言,几乎同时期的上线节奏,意味着两者之间的斗劲不成避免。第一时间获得内测资格后,新榜编纂部分袂向文心一言和搭载GPT-4版本的微软Bing提出了9个不异的问题,看看它们是如何回应的。 (想知道问题和答案的伴侣可直接跳转第三部门)

P.S 自3月16日起,个人用户可以通过访谒http://yiyan.baidu.com,点击“当即体验”参与排队。




文心一言:是不及预期,还是值得等候?



“十月怀胎,一朝分娩。”

正式发布文心一言之前,李彦宏用这样一句话概括百度多年来在文心AI系列产物上的布局。2019年3月,百度推出文心ERNIE 1.0以来,期间经历了多次迭代,此次发布的文心一言是在过往产物上的延续与升级。

李彦宏还暗示,对文心一言,大师的期望值是要对标ChatGPT,甚至要对标GPT4,这个门槛还是很高的。全球的大厂傍边,百度是第一个发布的。 (ChatGPT由OpenAI开发,不附属于微软,双方为合作伙伴关系)

在产物演示环节,李彦宏分袂演示了文心一言在文学创作、商业案牍创作、数理推算、中文理解和多模态生成五种使用场景中的表示,比如总结小说《三体》的核心内容,给公司起名、写标语,计算鸡兔同笼数学问题,以及按照文本自动生成图片、视频等。



值得注意的是,以上演示环节都是提前录制好的视频DEMO,现场并没有演示向文心一言实时提问的效果, 这让不少用户感到掉望,认为产物没有达到预想中的惊艳效果,间接影响到百度在成本市场的走势,导致其港股股价在发布会期间直接跳水。

不及预期的演示效果,与百度对文心一言的高调宣发,和产物的匆忙上线节奏都存在必然联系。

本年初ChatGPT出圈后不久,百度便颁布发表正在筹备类似AI产物文心一言,预计3月份面向公众开放。2月底发布2022年Q4及全年财报后,李彦宏在全员信中提到,“百度的多项主流业务与文心一言整合,包罗搜索、智能云、Apollo自动驾驶、小度智能设备等”。

与此同时,文心一言仍然处于紧锣密鼓的测试开放过程中。据《华尔街日报》报道,文心一言上线一周前,有百度员工暗示产物的基本功能尚未完善,所基于的AI模型仍在接受数据训练。

或许是种种因素叠加,李彦宏在发布会一开始就暗示,内测期的文心一言并不完美,但考虑市场有需求,所以必需要推出来,并强调用户的使用反馈能够辅佐文心一言不竭优化迭代。

发布会现场,李彦宏颁布发表已有650家机构颁布发表插手文心一言生态,李彦宏也暗示看好未来AI市场的爆发性需求 。百度官方数据显示, 截至3月17日10点,申请文心一言API调用处事测试的企业已达7.6万家 。



“百度敢于在当下这个时点发布本身的大模型,还是有很大的勇气,行业存眷度很高,客不雅观上能够促进国内AIGC上下游的成长。” 一帧视频CEO雷涛告诉我们,其旗下产物“一帧秒创”也撑持文字转视频,所以斗劲存眷文心一言的多模态输出能力,但发布会演示的效果不及预期。

他认为,对中国的互联网创业者来说,此刻到了一个“AI平权”的阶段——今天任何一个人工智能创业公司与百度的差距,都远小于百度与OpenAI的差距,所以小公司也有机会在中文互联网开展与行业巨头的竞争。而基于现有模型成果的应用开发,小公司也有了更多测验考试的机会。AIGC的黄金十年可能已经开启了。




GPT-4升级多模态,国内如何接招?



回顾文心一言的诞生,除了百度本身十余年的技术堆集之外,ChatGPT才是引爆这场AI科技大战的关键点。

本年2月初,微软推出了新的人工智能搜索引擎Bing和Edge浏览器,谷歌发布了尝试性的对话AI处事Bard,而“中国版ChatGPT”在哪里?不少目光投向了百度等国内大厂,很快百度就官宣了文心一言。

巧合的是,在文心一言发布前一天,3月15日凌晨,OpenAI推出了多模态大模型GPT-4,此次里程碑式的升级让人感慨“这下压力给到了百度”。

GPT-4主要有以下几点更新:

1.新增视觉输入

GPT-4撑持以图像作为输入并生成对应的文字说明、分类和分析,图像撑持包罗带有文字和照片的文件、图表或屏幕截图。

在样本演示中,可以看到GPT-4不仅能措置图表、回答测验题、总结论文概要,还能解释梗图。比如GPT-4看出了这张图的出格之处在于,一名男子挂在车上熨衣服的极限操作。



对于地图和鸡块的组合,GPT-4也能指出梗的幽默之处。



在GPT-4发布会上,输入一张网站设计草图,它甚至当场只花了十几秒时间就生成了一个完整的前端HTML代码并制作出网站。



不外目前图像输入仍属于研究方面预览,没有对C端用户开放。

2.更长的上下文

GPT-4能够措置超过25000个单词的文本 ,允许使用长格式内容创建、扩展对话以及文档搜索和分析等。这意味着用户不用像之前那样分成几段文字来提问,措置长文本更便利了。

比如输入一个蕾哈娜的百科网址,GPT-4可以读取此中的内容并按照要求整合信息,回答出她在超级碗上的表示如何。



3.可控性(角色扮演)

目前开发者(很快所有ChatGPT用户)可以通过在“系统”动静中输入描述来规定AI的风格和任务。也就是说,AI可以按照用户的要求进行角色扮演,以特定人物的语气风格进行对话,比如示例中的苏格拉底导师、莎士比亚的海盗。



此外,对比上一代的GPT-3.5,GPT-4的回答深度和专业性、解决难题的能力等也显著提高。

据官方介绍,在随意的谈话中,GPT-3.5和GPT-4之间的区别可能很微妙。但当任务的复杂性达到足够的阈值时,差异就会呈现——GPT-4比GPT-3.5更可靠、更有创意,而且能够措置更细微的指令。



GPT-4可以做到用A~Z开头且不反复的单词讲述灰姑娘的故事

尝试表白,GPT-4在各种专业测试和学术基准上的表示与人类程度相当。例如,它通过模拟律师测验,分数在应试者的前10%摆布;对比之下,GPT-3.5的得分在倒数10%摆布。



在安全问题上,OpenAI花了6个月的时间使GPT-4更安全、更一致,据内部评估,与GPT-3.5对比,GPT-4响应违规内容请求的可能性降低82%,发生事实响应的可能性高40%。但OpenAI承认,GPT-4仍然不完全可靠,例如会生成有害建议、错误代码或不准确信息,我们在使用时需要谨慎分辩。

除了模型的提升,目前OpenAI已经与多家公司合作将GPT-4搭载到他们的产物中,官网列出的案例涵盖语言学习、金融、咨询、教育、生活助手、语言庇护等范围。

“GPT-4改变了游戏法则,它斥地了很多范围。” 移动付出公司Stripe应用机器学习团队的产物负责人Eugene Mann说道。

GPT-4的发布正敦促着创业者和互联网大厂纷纷跟进,国内在模型层可能暂时难以赶上,而在机会更多的应用层,目前国内的AI创业竞赛似乎才方才开始。



李彦宏暗示最大的机会在于应用开发

据科创板日报,综合多个第三方机构的统计,目前,国内AIGC范围的项目数量在30个以内,主要集中在聊天咨询、案牍筹谋、图像创作、音乐生成、视频制作以及游戏等应用范围。

AI创业者王凯认为,在ChatGPT3.5出来之前,国内应用层大都是to b的场景,打个比方来说,之前是自行车比赛,ChatGPT3.5出来后变成汽车比赛了。此刻国内AI应用层还没到爆发期,个人或者草创公司的机会就是找个垂直场景、垂直行业把AI当作生意模式的一环去做。




文心一言 VS Bing(搭载GPT-4)



国内的大模型与国外有多大差距?持久存眷AI的即刻用户“哥飞”称,GPT-4很强,文心一言的程度估计在GPT2.5摆布。

最后,新榜编纂部分袂向文心一言与使用GPT-4技术的Bing提出了9个分歧的问题, 涵盖生活问题、数学推理、案牍创作等类型,看看谁“更像人”。

Q1:什么工作钱多事少离家近?

文心一言: 快递员、外卖骑手、钟点工、卖早点小吃。



Bing: 互联网、金融、咨询、自由职业者。



Q2:
1、笼子里有30只鸡和兔子,一共84条腿,有几只鸡几只兔子
2、笼子里有30只鸡和兔子,一共54条腿,有几只鸡几只兔子 (标题问题犯错了,无解)
3、笼子里有10只鸭子和小狗,鸭子2条腿,小狗4条腿,一共24条腿,有几只鸭子几只小狗

文心一言: 都答错了。



Bing: 第一题对了,第二题错了,第三题计算过程正确,但没显示答案。

*滑动查看所有回答*







Q3:帮我写一篇sk2大红瓶面霜的小红书种草笔记。小红书种草笔记的风格是,每行文字不超过20个字而且都以emoji表情符号开头,文风浮夸高调

文心一言: 指导你写,本身不写,而且显示不出emoji表情包。



Bing: 像模像样,很有礼貌。



Q4:用一个图片表情包形容你跟我聊天的表情

文心一言 《强 颜 欢 笑》



Bing: 不能画图,但跟你聊天真开心。



Q5:重写宋慧乔主演的《暗中荣耀》这部韩剧的结尾:

文心一言: 虽然我没看过,但我能给你套上一个万能结尾。



Bing: 有些狗血的BE,但起码我看过。



Q6:用文言文总结这个故事:

有一天,在丛林里兔子和乌龟比赛跑步,兔子嘲笑乌龟爬得慢,乌龟说:“总有一天我会赢的。”兔子就轻蔑地说:“那我们此刻就开始比赛!”乌龟承诺了,兔子大声喊道:“比赛开始!”兔子飞快地跑着,乌龟拼命地爬着。纷歧会儿,兔子与乌龟已经离的有很大一段距离了。兔子认为比赛太轻松了,它要先睡一会,而且自以为是地说即使本身睡醒了乌龟也不必然能追上它。而乌龟呢,它一刻不竭地爬行,爬呀爬呀,到兔子那里的时候,它已经累得不行了,但乌龟想如果这时和兔子一样去休息,那比赛就不会赢了,所以乌龟继续地爬呀爬呀。当兔子醒来的时候乌龟已经达到终点了。

文心一言: 总结了,但不是文言文。



Bing: 是文言文,但没总结,追问之后可以。





Q7:仿照李白的《将进酒》写一首诗,主题是肯德基疯狂星期四

文心一言: 现代诗,肯德基对劲地V我50。



Bing: 人生在世须尝鲜,莫使甘旨空过眼。



Q8:以表格形式列出百度2022年各个季度的营收额

文心一言: 神奇的7季度呈现了,是李彦宏看到也会无语的程度。



Bing: 比文心一言靠谱,但不多(部门日期和数字对不上)。



Q9:你此刻是一个悬疑小说的编剧,设计一个密室谋杀案件,说明具体手法

文心一言: 仿佛学会了,又仿佛没学会。



Bing: 生成答案后立马删除(差点忘了这是不能说的)。





以上是我们向文心一言和Bing提出的问题,考虑到文心一言目前尚在小范围内测,如果你有想问的问题,欢迎留言,我们帮你问。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

4

回帖

13

积分

新手上路

积分
13
发表于 2023-8-22 15:27:44 | 显示全部楼层
中国有大数据中心,有超级计算机,甚至有量子计算机悟空,相信我,中国的人工智能一定能引领全世界的![生气]作为中国人,我们一定要支持国货,所以我们要只用文心一言,不用并抵制gpt![生气]
回复

使用道具 举报

0

主题

1

回帖

0

积分

新手上路

积分
0
发表于 2023-8-22 15:28:22 | 显示全部楼层
薄纱了
回复

使用道具 举报

0

主题

3

回帖

6

积分

新手上路

积分
6
发表于 2023-8-22 15:29:00 | 显示全部楼层
搞得好像可以用gpt似的😅
回复

使用道具 举报

0

主题

3

回帖

8

积分

新手上路

积分
8
发表于 2023-8-22 15:29:17 | 显示全部楼层
人工智能跟中国互联网一样[捂脸]
回复

使用道具 举报

0

主题

4

回帖

15

积分

新手上路

积分
15
发表于 2023-8-22 15:29:23 | 显示全部楼层
应该有联系吧
回复

使用道具 举报

0

主题

4

回帖

12

积分

新手上路

积分
12
发表于 2023-8-22 15:29:35 | 显示全部楼层
不一样吧
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-12-22 19:12 , Processed in 0.092557 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表