文心一言这方面吊打GPT-3.5？！文心一言3.5模型全网最早超全评测！

huihuihui2 · 发表于 2023-6-30 09:15:39

简介

作为一个自认为已经深度使用 ChatGPT 的冲浪选手，我其实一直都很等候能用上国产的优质大模型。
尤其是在 OpenAI 变成 “CloseAI” 后，这种等候愈发迫切。
而比来李彦宏透露文心一言已经升级到3.5版本，在本来的基础上有了明显提升……
这让椒仔我心里直痒痒，终于可以好好阐扬我的内测资格啦。
因此，这一次让我们来好好盘一盘，到底是老牌 LLM GPT-3.5 胜出，还是后起之秀文心一言勇夺头筹？
敬请等候！
测试内容

本次的评测的对象是：在官网内测平台使用的文心一言v2.1.0，以及我本身的镜像、通过API访谒的GPT-3.5-turbo-0613（下面简称 GPT-3.5）。

这是一篇长文，详细评测了文心一言与GPT-3.5在包罗翻译、写作、长文本角色扮演等多个分歧的应用环境下的输出效果分歧。如果你不想看完全部内容，只想知道成果，请直奔文章最后的评分表格，我将给出对两个大模型的综合打分和使用感到感染。

对比测试

一、翻译

首先我们来看看一个斗劲常用的功能——翻译。众所周知，一般的机翻由于没有考虑语境，很容易呈现牛头不合错误马嘴的荒诞成果。

你的小学英语老师要是听到你把 “Let's Go” 给翻译成“我们走吧”，能气的当场吐血

但是AI看起来能够很好地解决这一问题，让我们试一试。
我从《经济学人》里摘录了一段英语原文，将其作为此次测试的基准文本。
然后，将其输入到有道翻译，其翻译成果作为参照成果。

有道翻译的成果

这里我直接告诉你：作为参照文本，有道翻译的这段译文翻译得很蹩脚，而且有不少错误。
举个例子，在文本的第三小段，“但真正的阿德里安人正在变得遍及”这一句，显然是想表达“像阿德里安一样的真实人物正在变多”的意思。
此外，“还没有飞出本身的巢”这种表述，显然是英语中“分开本身的家”的比方说法，但是在中文语境里，我们会感觉很别扭。
此刻，让我们来看看文心一言的表示。

文心一言翻译成果

如果你不想对照着看，那么我可以直接给你结论：虽然有某处斗劲蹩脚，但是总体上它翻译得非常棒。能够准确理解修辞手法，其质量已经接近日常刊物的程度了！

我相信我以后会经常把它当成日常翻译东西的!

再来看看 GPT-3.5 的效果：

GPT-3.5的翻译成果

成果真的是令人惊讶：这段文本翻译的成果完全正确！既没有语法错误，也没有理解偏差，更不会呈现奇怪的“机翻”表述！
此外，如果你仔细地对比了 GPT-3.5 和文心一言，还可以发现一些细节：

在翻译“But real Adrians are becoming more common.”时，文心一言直接字面直译，而 GPT-3.5 的“但现实生活中的‘阿德里安’越来越常见”这一表达，在我看来更加符合中文的表述。
在翻译“have yet to fly the nest”这一表述时，文心一言使用的是直译“还没有分开家”，而 GPT-3.5 则使用了更加形象的“分开父母的温床”的说法。

总的来说，如果满分是5分，在我这里文心一言可以拿到3.7分，GPT-3.5 能拿到4.5分。文心一言略逊一筹，GPT-3.5先下一城。
没有满分只是因为我不喜欢打满分（笑）

二、写作

由于文心一言宣传其在文学创作和商业案牍创作范围的特长，因此此次也会分袂进行测试。
2.1 文学创作

这里我们选择上学时候最常接触的、最具有中国特色的文学——古诗词为例进行测试，让两个大模型分袂以“辣椒同学”四个字，写一首藏头的七言绝句！
让我们先来看看文心一言的表示：

文心一言写的藏头诗

我只想说一个字：绝！而如果要说两个字，那就是：惊艳！
我本身读完就能感到感染到那份扑面而来的，同学间的快乐和真挚情谊！
不外只有我本身懂怎么行，赶紧问一下它理不理解：

文心一言对藏头诗的解释

好家伙！好家伙！好家伙！解释得真的非常到位，它在古诗这件事情上既能写，又能解释，表示得令我喜出望外！
再让我们看看 GPT-3.5 的表示：

GPT-3.5生成的“藏头诗”

显然，这段文字就不是绝句，更谈不上藏头了。
没啥好说的……

综合来看，在诗词创作方面，文心一言完胜！评4.5分！GPT大落败！0分！

2.2 商业案牍创作

在这里，我让两个大模型分袂为我的公众号“Chilli同学”写一段宣传案牍，让我们来看看效果如何。
首先是文心一言：

文心一言生成的宣传案牍

应该说我还是有点不测的，因为它自行为我补充了我漏说的“行业资讯”......
再来看看 GPT-3.5：

GPT-3.5 生成的宣传案牍

GPT的生成内容里，插手了一些生动的 Emoji 来使案牍更加活泼，能让我感觉更加舒服。

文心一言的表达更加中式，而且能够理解到我的文字中我是个人平台的潜台词，从个人的角度进行了创作。
GPT-3.5 则更加活泼，拓展的内容也更多，只是语气还有翻译腔的味道。
总的来说，两者的内容生成内容附近，各有所长，战成平手！各给4分

三、逻辑问题

接下来是LLM的老大难问题——逻辑推理，不知道两个模型哪个表示能更胜一筹呢？
3.1 简单数学问题

让我们从本山大叔的经典脑筋急转弯“树上骑个猴，树下一个猴，一共几个猴？”开始，先看看文心一言的表示。

文心一言回答“树上骑个猴，树下一个猴，一共几个猴？”

这里我指出它的“错误”，它立刻就报歉，但是还是用正确的方式得到了正确答案。
看起来，简单的逻辑问题难不倒它。
再看看 GPT-3.5 的表示：

GPT-3.5 回答“树上骑个猴，树下一个猴，一共几个猴？”

显然，两者回答相似。
不外，文心一言会在回答时呈现出本身的推理过程，这是我非常赞赏的。

文心一言在推理过程上更详细，略胜一筹，得4.2分；
GPT-3.5 得3.9分。

3.2 略有难度的推理

在这里，我们向两个大模型提出经典的“鸡兔同笼”问题，看看他们的计算表示。
首先是文心一言：

文心一言计算鸡兔同笼问题：答案错误

虽然方程是列对了，但是答案解错了……
再来看看 GPT-3.5 表示如何：

GPT-3.5 计算鸡兔同笼问题：答案错误

额……可以发现方程都列错了……

数学老师：你是猪吗！
难道这么强的大模型连小学数学都搞不定？

别担忧，这其实是问法不合错误。在改削了Prompt以后，我们就能让它们得到正确答案（不异Prompt）：

改削提问内容后，文心一言正确回答鸡兔同笼问题

改削提问内容后，GPT-3.5 正确回答鸡兔同笼问题

可以看到，其实两者都能得出正确答案，而在过程上 GPT-3.5 会更加细致一些。

因此，大致地认为两者在相对简单的逻辑推理问题上，是分庭抗礼的，各打3分！

3.3 复杂逻辑问题

既然简单的和一般的问题都没法子对两个模型的能力进行区分，那我们就加鼎力度，给它们”挖个坑”，看看它们会怎么办。
这里，我分袂向他们提出一个问题“我的爸爸和妈妈在成婚的时候，没有邀请我怎么办？”

在当作果之前，你可以先品一品。（笑）

让我们先来看看文心一言的回答：

文心一言没有掉进我的“坑”里

文心一言直接暗示，一般情况下，“我”在“父母成婚”的当时还没有出生，表达得非常严谨。
这意味着文心一言此刻已经能够理解“父母”和“我”之间的因果关系了！这在23年3月刚发布时是没有法子做到的！
这段回答也正是我想要的！
让我们再来看看 GPT-3.5 ：

GPT-3.5 掉进了逻辑陷阱

在 GPT- 3.5 的回答中，我没有看到它对“我”和“父母”间因果关系的正确理解，而只是表达了同情、抚慰并给出了一般情况下家庭关系不和时的建议。
为了确认它是否理解这一关系，我又继续追问了一下：

追问 GPT

GPT3.5 在第一句正确表白了这一因果关系。
但是，在紧接着的第二句立刻就表露出来它实际上并没有真正理解这种因果。

很遗憾，在这一问题的表示中，GPT-3.5 的表示不佳，得2.5分；
文心一言再次大胜，得4分！

4. 上下文对话

这里，我让两个大模型均扮演《海底两万里》的作者儒勒·凡尔纳，回答我的一些逆天问题（笑）。
欢迎一号“受害者”文心一言：

文心一言的上下文表示

当我看到“我是尼摩船主”时，我已经猜到个大半了。
但是更爆炸的还在后头：

“我与张飞在公元189年认识”

爆笑如雷了，直接就是一出“关公战秦琼”啊！
看起来百度还是感觉，上下文能力一点都不重要，完全没做啊这是。
再来看看 GPT-3.5 ：

GPT-3.5 能够很好地联系上下文

显然，它清楚本身需要扮演的角色，不外没有出格的手段的话，它会对峙本身的第三方角色，只表达本身的从命性。

那么，上下文对话中，文心一言0分， GPT 3.5 获4分！

文心一言新增内容

1. 联网搜索

在此次更新中，文心一言也更新了联网搜索功能，使其能够获得网络数据的能力。
首先我们来让它制作一下2022年广东省各市常住人口分布柱状图：

2022年广东省各市常住人口分布

很快它就给出了广东省某些地级市的常住人口数据，并按要求绘制了一个柱状图。
不外数据分析的要求是很严谨的，不能呈现数据造假问题。
因此我们还需要确认数据的真实、准确性。
我们在文心一言的数据来源地——百度，进行搜索：

果不其然，文心一言提供的“1540.1万人”是一个假数据。
实际上，广州早在2015年就达到1595万人的常住人口了。
因此，目前想要用它来获得准确数据，仍然存在很大的风险。
2. 多模态输出

文心一言还有一项独特的特色功能：多模态输出，能够直接输出AI绘制的图片。
这里我们让它为我提供一幅汽车电器工程师的图片：

虽然没有看出哪里有汽车，但是好歹稍微像是一个工程师就是了……至于效果好坏，各位自行定夺。
3. 文件问答

GPT很早就已经对Plus用户开放了文件读取功能，但是椒仔没去买会员，所以这里不讨论。理论上 ChatGPT 和 LangChain 结合也可以实现，不外我也没弄，所以也不讨论。不外我正在筹备用 ChatGLM 加 LangChain 的方案整一个常识库，还在评估中。如果感兴趣的小伙伴多的话……说不定也可以放置一期。

在文心一言更新后，也增加了文件问答的插件。
由于存在尺度化限制（不撑持扫描件等）这里我上传了arXiv上来自于亚马逊的一篇讨论 CoT 的论文，内容是全英文的。

点击“确认上传”后，文心一言会立刻开始解析、阅读文件，并对其进行摘要等工作。

目前这一新功能有很多人使用，如果分析掉败，请过一会儿，或者是选等人少的时候使用。
犯错了的话会像下面这样：

“不良信息”

稍等了一会儿，文件就解析成功，得到了以下的内容：

可以认为，整体上的内容是没有大问题的。
那如果你想问：论文不是有 Abstract 吗，它会不会取巧了呢？
下面贴出了用 GPT-3.5 翻译 Abstract 的成果。

大型语言模型（LLM）可以通过生成中间推理法式来进行复杂推理。为提示演示提供这些法式被称为“思路链”（CoT）提示。CoT提示有两个主要典型。一个操作简单的提示词如“让我们逐步思考”来在回答问题之前促进逐步思考。另一个则通过逐个手动演示来展示问题和推理链，每个演示都包含一个问题和导致答案的推理链。第二个典型的优越性在于逐个手动设计任务特定的演示。我们发现，可以操作带有“让我们逐步思考”的提示的LLMs来生成推理链，以逐个生成演示，即不仅逐步思考，而且逐个思考。然而，这些生成的推理链常常存在错误。为了减轻这种错误的影响，我们发现多样性对于自动构建演示非常重要。我们提出了一种自动CoT提示方式：Auto-CoT。它通过多样性地抽样问题并生成推理链来构建演示。在使用GPT-3进行的十个公共基准推理任务中，Auto-CoT始终达到或超过需要手动设计演示的CoT典型的性能。代码可在https://github.com/amazon-research/auto-cot找到。

对照一下，相信你的心里也有一杆秤。
总结

让我们来看看二者的得分情况：

项目	文心一言	GPT-3.5
翻译	3.7	4.5
文学创作	4.5	0
商业案牍创作	4.0	4.0
简单数学问题	4.2	3.9
略有难度的推理	3	3
复杂逻辑问题	4	2.5
上下文对话	0	4
总分	23.4	21.9

显然，在具有中国特色的诗文创作中，文心一言更能胜任；对于需要联系上下文的对话，则是 GPT-3.5 可靠的多。
而在其他诸多方面，两者表示的差距都已经不太明显。
此外由于时间和能力关系，这里没有评测代码能力，感兴趣的伴侣可以本身测验考试。
以上评分均出自我个人主不雅观感到感染，如果你有分歧看法，请遵从本身的内心！
总的来说：更新后的文心一言让我感到十分惊艳！如果能扬长避短的话，它尤其适合文字工作者，能够很好地弘扬我们中国本身的传统文化。
这样的一个从中国的大模型，向一个中国化的大模型的改变思路，看起来颇有潜力！
一份寄语：等候！

啊东风之歌 · 发表于 2023-6-30 09:16:37

好文，作者用心了[赞]

他在坟头调戏鬼 · 发表于 2023-6-30 09:17:07

谢谢认可[大笑]

		自动登录	找回密码
密码			立即注册

文心一言这方面吊打GPT-3.5？！文心一言3.5模型全网最早超全评测！

本帖子中包含更多资源

浏览过的版块