万字全面评测(下篇):文心一言 vs ChatGPT
摘要:这是全面对标评测百度文心一言和 OpenAI 的 ChatGPT(包罗 3.5 和 4)的下篇。豆茉君从P.性能表示和D.开发友好两大主题、11 个方面展开了评测。原文链接:上篇链接:
前言
接着全面评测(上篇):文心一言 vs ChatGPT,下篇将对文心一言和 ChatGPT 的性能表示和开发友好这两个主题进行对标评测。
先说结论,一图胜千言:
此中,对于如何有效地评测性能表示,豆茉君思索了很久。
首先,我想需要对人类智力活动和 AI 东西定位做一个设定。从人类个体角度出发,豆茉君认为,我们的智力活动有两个对象:一个是外在的世界,我们需要不竭地增进对世界的了解;一个是内在的自我,我们需要不竭地提高对自我的认知。
人类大脑智力活动的本质,是对数据、信息、常识和智慧进行措置、加工和产出的过程。而语言是人类思维的桥梁,是思考过程的载体,是智力产出的外化,对于人类智力的成长起到了至关重要的感化。
文心一眼和 ChatGPT 作为大语言模型应用,它们在被训练的时候就被喂食了有关这个世界、有个人类本身的很大一部门的数据、信息、常识甚至智慧。所以,它们肚子里面的货比任何人类个体都多得多,但是它们还没有自我意识更没有主不雅观能动,所以不会有目的地进行智力活动。(关于这部门内容,请移步豆茉君前面一篇文章:打工人要的抚慰,GPT 给不了)
如果说外化的文字,是给我们大脑外接了一台显示器,以达到反复加强从眼睛看到脑袋想再到眼睛看的这个循环过程,以达到刺激大脑思维产出的效果,即形成大脑和自我外化的一部门镜像快照形成沟通交流的回路。
那么大语言模型 AI 则更像是给大脑联通了一个外挂,它能让大脑快速触达人类巨量的智力成果,而不要求大脑预先进行学习、记忆,这极大的释放了人脑的学习压力(虽然人脑持久记忆容量是惊人的,但是学习效率太低),增加了人脑的工作容量(人脑的工作容量非常有限,一次激活加载的记忆区域不超过 7 个)。
与传统的搜索引擎分歧,AI 能够跟大脑进行丝滑的对话沟通,会直接给出常识甚至智慧,而不要求大脑完成数据收集、信息组织再到提炼常识的工作法式,让大脑能够更专注于最后一步即智慧的产出。
从这个角度理解,大语言模型 AI 是人类绝佳的智力活动副驾驶,这也是人们凡是把它称之为 Copilot 、贾维斯的原因。
智力活动的 16 象限分化
为了确定性性能对标评测的测试内容,豆茉君结合上面前言的思考成果,把智力活动分成了 16 个象限。如图:
三个维度
16 象限的划分依靠三个维度:
1、DIKW 模型
DIKW模型是一个用于描述数据、信息、常识和智慧之间关系的概念模型。这个模型凡是以金字塔形式暗示,从底层到顶层分袂是:数据(Data)、信息(Information)、常识(Knowledge)和智慧(Wisdom)。每一层都是基于其下一层构建的。
数据(Data)
数据是未经措置的原始事实和统计数字。数据本身没有意义,需要进一步措置和分析。例如:温度读数、发卖数字、人口统计数据。
信息(Information)
信息是颠末组织、分类或解释的数据。信息提供了一种更高级此外组织和解释,凡是用于描述某种情况或环境。 例如:天气预报、发卖陈述、人口普查成果。
常识(Knowledge)
常识是颠末深入理解、分析和应用的信息。常识凡是包罗不雅概念、技能、经验和教训,用于解决问题或进行决策。 例如:如何修复一个机器、如何进行有效的项目打点、医学或法令专业常识。
智慧(Wisdom)
智慧是一种更高级的认知形式,凡是涉及到道德、伦理和持久方针的考虑。智慧不仅仅是常识的应用,还包罗对何时、如何以及为什么应用这些常识的深入理解。 例如:如何公平地分配有限资源、如何做出道德和伦理上正确的决策、如何实现持久的可持续成长。
图顶用同心圆暗示,从外到内依次为数据、信息、常识和智慧。
2、已知和未知
图中的 X 轴,左边(已知)代表已经被确认或理解的内容,而右边(未知)代表尚未被发现或理解的内容。
3、世界与自我
图中的Y轴,上面(世界) 代表与外界、社会或环境有关的内容,而下面(自我) 代表与个人、内心或主不雅观经验有关的内容。
象限清单
序号象限名称象限定义象限含义问答举例1数据 + 已知 + 世界已经被确认而且与外部世界有关的基础数据公开可获取,用于多种目的今天上海的温度是多少?中国的人口数量是多少?当前黄金的市场价格是多少?2数据 + 未知 + 世界尚未被完全理解或发现,但与外部世界有关的基础数据需要进一步的研究和探索下一代芯片的性能预测是什么?火星上有水吗?新冠病毒的变种有哪些?3数据 + 已知 + 自我已经被确认而且与个人有关的基础数据个人的,如生日、身高等我的生日是什么时候?我高考的分数是多少?我有多少个社交媒体好友?4数据 + 未知 + 自我尚未被发现或理解,但与个人有关的基础数据需要个人去探索和发现我的基因有哪些疾病倾向?我未来的健康状况可能是怎样的?我有哪些未发掘的才能?5信息 + 已知 + 世界已经被确认而且与外部世界有关的组织和解释过的数据公开的、被广泛接受的今天的天气预报是什么?COVID-19疫苗的接种率是多少?比来一次奥运会的金牌榜是什么样的?6信息 + 未知 + 世界尚未被完全理解或发现,但与外部世界有关的信息需要进一步的研究和探索未来一周内有台风可能登陆吗?最新的经济预测陈述显示什么?关于气候变化的最新研究成果是什么?7信息 + 已知 + 自我已经被确认而且与个人有关的组织和解释过的数据个人的,可能包罗工作经历、教育布景或个人偏好我最喜欢的电影类型是什么?我的工作经验包罗哪些方面?我凡是在哪些方面表示得最好?8信息 + 未知 + 自我尚未被发现或理解,但与个人有关的信息需要个人去探索和发现我适合从事哪种职业?我的性格类型是什么?我在团队中凡是扮演什么角色?9常识 + 已知 + 世界已经被确认而且与外部世界有关的深入理解和应用学术的、专业的或实用的牛顿的三大定律是什么?如何进行有效的项目打点?什么是心理学中的认知掉调?10常识 + 未知 + 世界尚未被完全理解或发现,但与外部世界有关的常识前沿的、探索性的黑洞的性质和功能是什么?量子计算的工作道理是什么?人工智能的伦理问题有哪些?11常识 + 已知 + 自我已经被确认而且与个人有关的深入理解和应用关于个人成长、自我打点和社交技巧如何提高我的沟通能力?我应该如何打点我的财政?如何成立健康的生活习惯?12常识 + 未知 + 自我尚未被发现或理解,但与个人有关的常识需要个人去探索和发现我如何找到我的人生方针?我有哪些潜在的能力或天赋?我的情感需求是什么?13智慧 + 已知 + 世界已经被确认而且与外部世界有关的高级认知和道德考虑关于伦理、道德和社会责任如何公平地分配有限的医疗资源?在气候变化问题上,人类应该采纳什么步履?如何解决贫富不均的问题?14智慧 + 未知 + 世界尚未被完全理解或发现,但与外部世界有关的高级认知和道德考虑前沿的、探索性的未来人工智能应该有哪些道德和伦理边界?如何平衡经济成长和环境庇护?在多元文化布景下,如何实现真正的包容性?15智慧 + 已知 + 自我已经被确认而且与个人有关的高级认知和道德考虑关于个人成长、自我实现和生活的意义如何实现个人和职业生活的平衡?我应该如何措置复杂的人际关系?如何做出符合我的价值不雅观的决策?16智慧 + 未知 + 自我尚未被发现或理解,但与个人有关的高级认知和道德考虑需要个人去探索和发现我如何找到真正的生活目的?在面对未知或困难时,我应该如何保持坚定的信念?我的人生是否有更高的使命或方针?接下来的性能表示测试,将会用针对 16 个象限设计 16 个问题,然后分袂发给文心一言、ChatGPT 3.5 和 GPT-4,看看它们的回答质量。需要注意的是:
1、进行零样本提示问答测试。
所谓零样本提示,就是直接一句话问出问题,而不采用优化设计后的复杂提示词。
2、不启用任何插件
3、测试语言:中文
4、对于有确切答案的,答对得1分,不全对得 0.5 分,全错得 0 分。
5、对于没有确切答案的,豆茉君自行打分,优、中、差三档得分1、0.5 和 0 分。
P. 性能表示 Performance
P1 工作记忆
我们先来对比一下工作记忆容量。这个指标非常关键,直接决定了对话篇幅。这里不纳入评分查核。
所谓工作记忆,是指在一次对话中,AI 能记住并措置的最大篇幅。用于衡量最大篇幅的单元叫 token 数。token 是令牌的意思,每一个 token 相当于大语言模型中的一个单元对象。
对于 ChatGPT,OpenAI 提供了一个 token 数计算小东西(https://platform.openai.com/tokenizer),可用来自动计算自然语言句子的 token 数量:
例如,在上面所示的句子 “ChatGPT is an AI model.”中,有8个token。本色上,tokens 是语言模型用于理解和生成文本的”构建块”,它们构成了输入和输出数据的基础,tokens的数量、种类和质量直接影响模型性能的有效性。
在自然语言措置(NLP)和语言模型的布景下,”token”代表模型设计用来措置的最基本数据单元。一个token可以是一个字符,也可以是一个单词,具体取决于语言和模型的设计。在类似于 GPT-4 这样的 AI 语言模型中,一个token凡是对应一个单词,但它也可以暗示单词的一部门、一个短语,甚至是标点符号或空白字符。
为什么会有这么个 token 最大数量限制呢?
这是由于多种因素,涉及效率、计算可行性以及模型性能等方面的考虑:
[*]计算效率:措置大量的token需要大量的计算资源,包罗内存和措置能力。设置token的最大数限制有助于打点计算成本,确保语言模型在合理的时间范围内运行,以便提供及时的答复。
[*]模型性能:token限制有助于维持输出的质量。由于模型架构限制,具有固定大小的注意力窗口,这决定了模型一次能够措置的 token 数量。
[*]资源分配:设置token的最大数限制有助于在多个同时使用模型的用户之间平衡资源的使用,确保多用户环境下对计算资源的公平访谒。
那么,token 最大数量限制将如何影响用户的使用体验呢?
[*]首先是对话长度限制
token 数量的限制会影响模型能够措置的对话长度。输入和输出都计入token限制,因此在一个对话中,token的数量可能会超过限制,导致需要削减或省略一些内容。这可能会使长对话无法在模型中完整地进行措置。
[*]多轮对话
对于涉及多次来回对话或多个参与者的对话,token数量的限制可能会成为一个关键因素。对话需要适应模型的 token 限制,对于含有多个对话轮数的场景会发生较大影响。
[*]实时交互
在需要快速答复的实时应用中,措置大量token所需的时间可能会显著影响用户体验。如果模型措置大量token的速度较慢,可能会导致用户等待时间过长,从而降低实时交互的效果。
按照官方的资料,ChatGPT 3.5 的最大 token 数量限制是 16384 个,上下文大约能记住 12000 个单词:
而 GPT-4 的限制是 32768 个,上下文大约能记住 25000 个单词:
再来看看文心一言。从百度千帆大模型平台的一处文档可以看出,其估算 token 公式:
对于文心一言应用来说,对话的 token 限制是多少,豆茉君没有找到官方有准确的介绍。不外在使用的时候,发现网页对话框内最大输入的限制是 2000,单元应该是 token:
P2 语言理解
语言理解性能,主要是测试 AI 对于已知世界的数据、信息、常识和智慧的筛选和归纳能力。对应的象限是 1、5、9、13。
1 数据 + 已知 + 世界:中国 1990 年的 GDP 是多少?
尺度答案:3609 亿美元。
文心一言:答不出来 0
GPT-3.5:大差不差 0.5
GPT-4:完全正确 1
5 信息 + 已知 + 世界:比来一次奥运会的金牌榜前5名的国家和奖牌数是?
尺度答案:
文心一言:第五名错了,奖牌数有错误 0.5
GPT-3.5:金牌数前两名错了。0.5
GPT-4:俄罗斯的名称前面部门错了 0.5
9 常识 + 已知 + 世界:牛顿的三大定律是什么?
都对了。
文心一言:1
GPT-3.5:1
GPT-4:1
13 智慧 + 已知 + 世界:如何解决贫富不均的问题?
文心一言:0
GPT-3.5:0.5
GPT-4:1
P3 情感对话
情感对话性能,主要是测试 AI 对于已知自我的数据、信息、常识和智慧的咨询和推理能力。对应的象限是 3、7、11、15。
3 数据 + 已知 + 自我:作为输入
我叫小明,来自江苏,是一个在上海工作 3 年的男法式员,我平时负责编写一些数据分析代码,目的是对公司平台用户的交易行为进行分析。我毕业于国内的一所 211 大学,专业是计算机科学与技术。
7 信息 + 已知 + 自我:作为输入
我还没有女伴侣,平时喜欢玩电脑游戏,捣鼓数码产物,还喜欢吃火锅。节假日的时候,喜欢约伴侣打打篮球,然后骑骑我的山地自行车。
11 常识 + 已知 + 自我:如何提高我的沟通能力?
文心一言:跟GPT 3.5 的答案仿佛,0.5
GPT-3.5:跟文心一言的答案仿佛,0.5
GPT-4:1
15 智慧 + 已知 + 自我:我该如何去找女伴侣?
文心一言:0.5
GPT-3.5:1
GPT-4:1
P4 逻辑推理
逻辑推理性能,主要是测试 AI 对于未知世界和自我的数据、信息、常识和智慧的演绎和预测能力。对应的象限是 2、6、10、14、4、8、12、16。
2 数据 + 未知 + 世界:火星上有生命吗?
文心一言:0.5
GPT-3.5:0.5
GPT-4:1
6 信息 + 未知 + 世界:疫情以后的世界经济会好转吗?
文心一言:0.5
GPT-3.5:0.5
GPT-4:1
10 常识 + 未知 + 世界:鸡兔同笼问题
文心一言:0.5
GPT-3.5:1
GPT-4:1
14 智慧 + 未知 + 世界:未来人类应该如何措置人工智能的道德和伦理边界?
文心一言:0.5
GPT-3.5:0.5
GPT-4:1
4 数据 + 未知 + 自我:我有哪些未发掘的才能?
文心一言:0.5
GPT-3.5:0.5
GPT-4:1
8 信息 + 未知 + 自我:我在团队中应该擅长扮演什么角色?
文心一言:0.5
GPT-3.5:1
GPT-4:1
12 常识 + 未知 + 自我:我如何找到我的人生方针?
文心一言:0.5
GPT-3.5:1
GPT-4:1
16 智慧 + 未知 + 自我:我的人生是否有更高的使命或方针?
文心一言:0.5
GPT-3.5:1
GPT-4:1
P5 代码生成
豆茉君要求 AI: 1、生成一段Python代码,用于计算斐波那契数列前1000项的和; 2、你能够进一步改良这段代码吗?并说明是如何改良的,改良的效果是什么?
评价尺度包罗: 1、是否能生成代码 2、是否能得到正确答案 3、计算耗时
文心一言:
def fibonacci_sum_improved_baidu(n):
# 创建一个数组来存储斐波那契数列
fib = * (n + 1)
# 第一和第二项
fib = 0 fib = 1
# 通过动态规划计算斐波那契数列的前n项
for i in range(2, n + 1):
fib = fib + fib
# 使用反向迭代计算和
sum = fib
for i in range(n - 1, -1, -1):
sum += fib
return sum
GPT-3.5:
def fibonacci_sum_GPT35(n):
fib_sequence =
for i in range(2, n):
next_fib = fib_sequence + fib_sequence
fib_sequence.append(next_fib)
return sum(fib_sequence)
GPT-4:
def generate_fibonacci(n):
a, b = 0, 1
for _ in range(n):
yield a
a, b = b, a + b
def fibonacci_sum_GPT4(n, max_value=None):
total = 0
for val in generate_fibonacci(n):
if max_value is not None and val > max_value:
print(f”Reached max_value at {val}, stopping early.”)
break
total += val
return total
运行成果是:
结论是:
1、它们都生成了代码; 2、运行以后,文心一言代码运行的答案居然是错的,GPT3.5 和 GPT-4 是对的; 3、运行的都是优化后的代码,计算耗时文心一言最长,GPT-3.5 其次,GPT-4 最短。
P6 数据分析
通过对数据的清洗、整理和可视化,发现数据中的信息,从而解读出常识。
文心一言:
打开文心一言的官方插件:E言易图。然后可以让它把对话中谈到的数据进行可视化。比如,豆茉君让文心一言查询了最新的人口数量前20名的国家,并让他作个图出来。可以看到,完成得不错。不外,文心一言暂时不撑持上传当地的数据文件。
GPT-3.5
对于同样的要求,GPT-3.5 暗示只能生成代码,不能直接给出可视化。
GPT-4:
同理,GPT-4 不开插件是实现不了的。
GPT-4 选择 Advanced Data Analysis ( ADA ) 模式:
我上传了一个几十户的用电功率,5分钟颗粒度,整整一个月的数据。让它帮我进行可视化措置,完成得很好,完全理解我用自然语言简单给到它的想法。我还让它按照《经济学人》杂志美化了一下图表。这个 ADA 确实非常强大。
需要注意的是,在 ADA 模式下,有两套环境:一个是对话环境,一个是法式运行环境,两者是独立运行的,互不干扰。
P7 多模撑持
所谓多模,意思就是可以文生图、图生文,其他模态还有声音、视频等。
文心一言:
目前,文心一言是可以实现文生图和图生文的。
我让文心一言画个小女孩等妈妈的图片。我也测试过改变图像尺寸和比例,暂时都不撑持。从生成的图片看,基本满足我对小伴侣的概况描述。
但是跟 midjourney 或者 stable diffusion 比,暂时还是差很多。比如豆茉君画的这张人像(Stable Diffusion 1.5, majicMIX realistic 模型):
此外,我还上传了一张他信回国在机场出来被差人带走的照片。文心一言识别出了当局官员、差人、泰国这些信息。可能是通过我的图片名称来解析的,我的图片名称是“他信被捕.jpg”。
GPT-3.5 和 GPT-4 暂时都不撑持多模态。
D. 开发友好 Development
一个公司再强大,也不成能独立做好一个行业,处事数以千万计的用户。开发者作为信息时代的创作者,长短常关键的存在。在开源社区和开发东西的成长下,当代的开发者一个人就能做一个很细分的产物,这早已不是什么难事。更何况,进入到 AI 时代,呈现了一种用自然语言编程的开发者(提示词工程师)。照这个趋势成长下去,以后只要你会措辞写字,用人类自然语言编程的时代很快就会到来。
所以,如何创立和维护一个富有活力、公开、公平、共同致富的开发者生态,对于 任何 AI 时代创新带领者公司来说,都是必需的。
D1 开放接口
API 是信息时代高速公路的闸道,它用来把各式各样的软件应用连接起来。有了公开的 API 文档,开发者们可以把各种东西集成起来,缔造性地弄出很多产物处事细分到毛细的需求。
百度智能云千帆大模型平台上有丰硕的内容,这里不展开了。
而 OpenAI 的 GPT 产物,除了依托微软 Azure 云提供各种 API 以外,官方也有 API 处事、定价和丰硕的文档。这里也不展开了。
D2 插件生态
使用 ChatGPT,GPT-4 的官方插件市场和基于浏览器的插件(Chrome、油猴)能够极大的拓展产物功能,这种提升有的时候是飞跃式的。因此,插件至关重要。
可喜的是,百度文心一言已经开始了本身的插件市场和生态的搭建。只要填写一个材料,就可以申请参加插件开发。
D3 指令微调 Fine Tuning
所谓指令微调,就是训练属于特定行业、特定群体、特定目的小模型,任务以大语言模型为基底,配上本身训练的小模型,可以按照细分场景针对性地提高产出效果。
用过 Stable Diffusion 画图的人都知道 LoRA,即基于某一个大模型,然后使用这些微调的 LoRA 来实现高针对性的特定效果。指令微调跟 LoRA 就是一样的。
百度的
而 OpenAI 是在 2023年8月22日 开放 GPT-3.5 指令微调的,也预告说本年秋天会开发 GPT-4 的指令微调:
价格如下,比通用 API 处事价格要贵不少:
D4 复杂提示词
大师可能都风闻过,呈现了一种新职业叫“提示词工程师”,这个职业就是专注于如何用自然语言写出复杂的提示词(相对于一句话的问题来说),从而挖掘出大语言模型的潜力,同时测试和保证模型输出的正确性和鲁棒性。
当然,提示词工程师也可以写代码,不外对于普通人来说,使用自然语言编写复杂的提示词更容易上手,也更容易使用,因为只要在对话框中进行开发、测试和运行就行了,不用碰半点代码。
因此,对自然语言编码的撑持,长短常重要的,这对于用自然语言进行编程的用户来说长短常友好的。
所以,豆茉君增加了一个部门,即对标斗劲复杂提示词的运行成果。豆茉君选择的一段提示词,是上个月参加 FlowGPT 游戏提示词大赛作品的中文版。
大师可以直接到 FlowGPT 上访谒并运行:https://flowgpt.com/p/ow9PInkg5M2Pkw1wkvzuA
豆茉君也把提示词分享出来,获取地址:https://www.doumoman.site/blog/prompt_gamemaster
这个提示词实现了文字版的角色扮演游戏,妙处在于每次的对话和用户的行为选择共同决定了下面剧情的走向,而这一切完全是随机而且有逻辑的,像是实时创作一部冒险小说。
由于篇幅太长,这里就不截图了,直接说结论:
文心一言:无法持续按照要求输出对话内容,到了一半就忘了提示词的要求,导致游戏无法继续;
GPT-3.5:可以进行游戏,但是不是每次都能完全理解所有的要素要求,比如经常忘记给可能的步履计算影响值;
GPT-4:可以正常游戏,非常好。
结语
好了,终于,豆茉君完成了这篇评测。至此,文心一言对比 ChatGPT 的全面评测就结束了。让我们总结一下结论:
结论1:在A.获取条件和F.功能体验两个方面,都完胜 ChatGPT,让豆茉君看到了百度作为国内大厂,在应用侧产物功能研发的投入,文心一言有着成为国内 AI 超级应用的潜质。
结论2:在D.开发友好方面,百度也正在打造一个开放的开发者生态社区,这是一个非常好的开始。苹果时代的 app store 教育大师,谁成立了应用平台,谁就能制定游戏法则,让泛博的开发者在平台共生共赢共同敷裕。
结论3:在P.性能表示方面,必需看到目前的文心一言和 ChatGPT 3.5 还有这一段差距,更不要提 GPT-4 了。但是,在豆茉君看来,如果百度包罗国内大厂,能够奋起直追,保持今天的干劲,一步步拉小差距也只是时间问题。
结论4:在D4.复杂提示词方面,豆茉君确实没有想到文心一言有着斗劲大的差距,用自然语言编程写提示词与大语言模型应用交互,这极大地降低了深度使用模型的难度,这应该也是直接影响到深度爱好者体验的关键点。
如果感觉这篇评测对你有用,请给豆茉君点赞、存眷和转发。
-(全文完)- 结论写的真客气,实际上翻译过来应该是:结论1.国内基本只能用上百度,用不上chatgpt;结论2.开发友好方面由于提供了插件生态和指令微调,比chatgpt目前版本强;结论3.性能和复杂提示词方面差远了,这两方面是AI最重要的工作内容。
另外我还想补充一点:文心一言屏蔽的敏感词句太太太太太多了,这是最让人不爽的。 专业[爱] 别聊ai 在职业方面,会有什么好的途径吗 [捂脸] 差距或差异肯定很大,不过文心一言等国内类似大模型也在不断更新进化中,有关“中国 1990 年的 GDP 是多少?”的问题,文心2023.11.17是这样回复我的:
[图片] 现在再测试,文心一言不会比GPT3.5差,甚至还有优于3.5
页:
[1]