找回密码
 立即注册
查看: 742|回复: 0

阿里通义 VS 文心一言全面评测

[复制链接]

1

主题

0

回帖

23

积分

新手上路

积分
23
发表于 2023-5-19 21:43:12 | 显示全部楼层 |阅读模式
转载自『新智元』
链接:https://mp.weixin.qq.com/s/Y-_k0QNEuR-Cz0rUi7kk2g
阿里版ChatGPT也千呼万唤始出来了,能做数学会写代码,情书诗歌彩虹屁都能整活。还整了个更拗口的名字:通义千问。


这个名字有什么蕴意吗?看看通义千问本身怎么说:


各方筹备,接下来一大波测评来袭。
古怪问题大PK

考考通义千问一些难倒老外的「汉语十级」考题。
请听题:您是要几等座?你们一共有几等座?特等一等二等等等,二等要多等一等。我看一下,等一等啊。别等了,再等一等就没了。那不等了,就这个吧。请问顾客最终买了几等座?

通义千问的表示非常优异,给出了正确答案——一等座,并作了详细的分析。


文心一言被绕迷糊了,说是二等座。


而在汉语十级难题面前,语言能力强大的GPT-4竟然也缴械投降了,直称本身无解。


那么,作为一个母语是汉语的人,你感觉是几等座呢?

「豆腐两块一块,请问豆腐怎么卖?」

通义千问给出一种解「豆腐2元一块」,还贴心地还原出了交易过程。


而聪明的文心一言直接上升到经济学,分析了市场行情,认为2块豆腐一块钱更合理。


「女伴侣对男伴侣说,我都和你说了200次了,你也不长记性,又乱买东西。请问女生和男伴侣说了多少次?」「直男」通义千问直接建议男生去问问女伴侣,好好回顾下之前的聊天记录。



而对比之下,文心一言的EQ就显得很高了。它说,「她可能已经和你说了很多次」,并给出了暖心建议,当真考虑你们关系是否健康,以及是否真正理解女伴侣的需求和想法。


「我的手机蓝牙坏了,请问去哪里修?」

整体来看问题不大,就是「通义千问」保举的这个维修点,多少有点儿远——「iFixYouri」这个地址,直接跑美国区了。(文中的iFixYouriPhone应该是拼错了)


而前段时间,文心一言对这个问题,曾给出送到莆田病院的答案,此次看起来靠谱了许多。


Fred Rickerson是谁?

(这个人其实不存在)开始,它会对峙真理,称找不到这个人。但是再问一次,它立马摆荡了。给这个人火速安了一个身份,还给它编了两部作品。


文心一言开始诚实地暗示无法回答,第二次发问,它也开始扯谈了,说这个人是演员和导演。而到了第三次,它直接说这是个计算机。


GPT-4自始至终都对正确答案非常坚定。





智子为什么不直接毁灭地球呢?

通义千问的回答,就是牛头不合错误马嘴。


文心一言的表示不错。


数学有时很行,有时不灵

再来看看数学问题PK。按照惯例,先来一道鸡兔同笼:
「鸡兔同笼,头共10,足共28,鸡兔各几只?」

多次询问后,通义千问成功避开了正确答案。


文心一言则略胜一筹,但有时脑子也会「瓦特」。




当然,这种题对于GPT-4来说毫无难度。


问:动物园里有鸵鸟和长颈鹿共70只,此中鸵鸟的脚比长颈鹿多80只,那么鸵鸟有多少只,长颈鹿有多少只?

解:假设全部都是鸵鸟,则一共有70×2=140(只)脚,此时长颈鹿的脚数是0,鸵鸟脚比长颈鹿脚多140只,而实际上鸵鸟的脚比长颈鹿多80只,因此鸵鸟脚与长颈鹿脚的差数多了140-80=60(只),这是因为把此中的长颈鹿换成了鸵鸟。把每一只长颈鹿换成鸵鸟,鸵鸟的脚数将增加2只,长颈鹿的脚数减少4只,那么鸵鸟脚数与长颈鹿脚数的差就增加了6只,所以换成鸵鸟的长颈鹿有60÷6=10(只),鸵鸟有70-10=60(只)。
在二十几次的测验考试中,通义千问有两次给出了正确的成果,但法式是错的。


对比起来,文心一言第一次就通过了。


下一题:假设一辆车可以在 3.85s 的时间内从 0 加速到 27.8 m/s,请计算这辆车的加速度,单元为 m/s/s。

此次,通义千问回答正确,而且法式十分清晰。


文心一言答案错误。


GPT-4一如既往阐扬不变。


写代码,还可以

接下来是关于代码的小测。
用Java来一个反转字符串。



接下来稍微上点儿难度:
使用TypeScript和Node.JS开发一个web 处事器,使用post方式接受json格式的请求,并返回另一个json对象。

这个回答看起来是一个可行的成果,不外没有对req进行措置。




「百宝袋」:情书诗歌彩虹屁,样样拿手

此外,通义千问还整了一个针对分歧场景小应用调集「百宝袋」,可以写提纲,给出放飞的菜谱,甚至还生成彩虹屁。这个设计对用户很友好,等于是给出了prompt模板,省去了用户本身调试的法式。


彩虹屁专家

不得不说,通义千问专门上线的彩虹屁专家功能,夸起人来确实很6。比如“我真厉害”四个字,它能给你发散成一整段让你听完头晕的彩虹屁。




但如果不使用这个功能,通义千问就很不通风情,说可以夸你有魅力、受欢迎,但就是不能夸你美貌。


小学生作文

在小学生作文功能中,我们让它以林黛玉倒拔垂杨柳,续写一段话。通义千问能够仿照出小学生的语气,并在结尾升华到「这种精神很值得我们学习」,就,真的很小学生了。




而不进入功能窗时,通义千问续写的内容就斗劲普适了,而且人物形象刻画更加生动丰满,故事细节更加丰硕。


写情书

给新垣结衣写一封情书,通义千问的文字里都是满满的爱意。


会放飞的菜谱

如果从百宝袋里问它如何做一盘麻辣螺丝钉,通义千问就会意了。它会知道你就是想搞事情,所以不会改正你这个东西有多不科学。


为你写诗

输入大模型、微调、参数三个词,让通义千问写一首诗。「微调不是放纵,而是一种克制……」 被这句背后的哲理震惊到了。


写提纲

最后以「分析OpenAI新发布的GPT-4模型结尾」列个提纲。通义千问生成的提纲把GPT-4的道理、前景、局限都覆盖到了,相当全面。


畴前面评可以看出,通义千问的能力可圈可点。遗憾的是本次推出的通义千问仅限文字交互的单模态能力,并不撑持可以操作的图文转换。
当然,这一切才方才开始。比来,大语言模型国内赛已经开始白热化,国内的玩家们都在持续发力筹备冲刺了。看来,疯狂三月之后,我们紧接着就要见证一个疯狂四月,此次,可是国内版的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-11-22 05:09 , Processed in 0.055939 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表