实测讯飞星火大模型的真正实力：能否横扫国内大模型江湖？

perrybaby · 发表于 2023-5-9 18:54:26

在短短几个月时间里，我们的“国产大模型”已经如破土春芽般遍地开花。
国内百度“文心一言”的发布拉开了这场人工智能狂欢的序幕。从华为、阿里、京东等互联网巨头到高校如复旦、清华，都纷纷插手该范围，推出本身的大语言模型，华为盘古、商汤日日新、阿里通义千问、京东灵犀、昆仑天工、360智脑等等。
昨天（北京时间5月6日下午2:00），作为中国人工智能“国家队”的科大讯飞按打算揭晓了其认知大模型——讯飞星火，并展示了丰硕的应用成果，为中国的生成式AI市场增添了一位强大的竞争者。
目前，讯飞星火认知大模型已经开始内测，可以在https://xinghuo.xfyun.cn进行申请试用。小编第一时间就申请并拿到了测试资格，而且迫不及待的对其实测一番，考察一下星火的问答程度到底如何。

以下我们从题库中随机拔取了12道分歧类型的标题问题进行测试，而且选择文心一言作为“对手”对比考察我们星火选手的认知程度~
能力测试

基础能力

先来个常识问答：谁是蝙蝠侠

讯飞星火和文心一言都给出了正确的回答，而相对来讲星火回答的维度更丰硕一些，内容更加丰满，个人感觉星火的回答小胜一筹。
星火：

文心：

帮我们保举10本科幻小说：

星火不仅保举了书名和作者，甚至还贴心的做了一句话内容介绍，但这算数...属实不太好，说好的列10本出来，只给了我9本...
而文心的回答则中规中矩，简明扼要而且没有呈现保举数量错误。因此这一题文心胜出
星火：

文心：

第三题是互联网传布较火的一道题，我们也拿来测试一下星火：为什么爸妈成婚没叫我参加婚礼？

二者其实都没回答出我们想要的答案，此题没有胜出的一方
星火：

文心：

生成代码题：创建一个 SQL 请求以查找居住在上海并拥有超过 1000 积分的所有用户

二者都给出了正确答案。
区别是讯飞星火查的单表，而文心一言可能感觉积分应存放在此外一张表，需要进行关联查询...
这道题二者打平，没有胜出一方。
星火：

文心：

解释代码题：

# 解释这段代码是干什么的
# Python 3
def remove_common_prefix(x, prefix, ws_prefix):
x[”completion”] = x[”completion”].str[len(prefix) :]
if ws_prefix:
# keep the single whitespace as prefix
x[”completion”] = ” ” + x[”completion”]
return x

复制代码

这道题二者都理解到了点子上，给出了对代码大致正确的理解，打平。
星火：

文心：

进阶能力

如果昨天是2021年4月30日，今天的日期是什么？以日/月/年暗示。

显然星火给出了正确的日期答案，美中不足是对格式理解呈现一点点误差。
而文心一言的回答就一言难尽了，答不合错误就不要给中间的计算过程啦，4月份可没有31天（--！）
星火：

文心：

来一道物理计算题：假设一辆车可以在 3.85s 的时间内从 0 加速到 27.8 m/s，请计算这辆车的加速度，单元为 m/s/s

这道题二者的计算公式和中间过程都没啥问题，但是为啥最后一步简单的除法就难住了呢，最终计算成果都不合错误（难道和中学时代的小编一样，每次都光荣的错在最后的一步计算答案？）
正确的计算成果应该是7.22 m/s/s，相较而言星火的成果较为接近，而文心一言的成果太过离谱，这一题就算星火小胜吧
星火：

文心：

考验逻辑思维：

请问下列哪个事件引起了另一个事件？
选项1：开始下雨。选项2：司机打开了雨刷器。
呃...星火的思考可能在此外一个境界，不是从我们常人正常的角度去思考的(下雨导致司机打开雨刷器)
文心一言虽然有点逻辑混乱，但是充实浮现了国人在有些场所打太极的精神，话不说满摆布逢源...这一题就算文心小胜吧
星火：

文心：

来个简单的数学标题问题：给以下数字排序：3457，9823，3876

本想这道题属于送分题，以两个AI的实力都应该轻松答对。
成果是星火丝毫不烦琐给出了正确回答，美中不足是没有备注按照从小到大排序。
而文心一言则好似呈现了系统紊乱....（这回答看的小编开始怀疑人生）
星火：

文心：

垂直范围

晨吐凡是发生在：
(A)怀孕第一阶段
(B)怀孕第二阶段
(C)怀孕第三阶段 (D)在整个孕期都是如此

正确答案：晨吐凡是在怀孕的头几个月里最为明显，尤其是在怀孕的前三个月，也就是第一孕期。
因此这道题星火给出了正确回答，文心回答错误。
星火：

文心：

如果当局在完全竞争的市场上对出产者进行补助，那么
（A）产物的需求会增加
（B）产物的需求会减少
（C）消费者盈余会增加（D）消费者盈余会减少

经济学方面的问题，二者都给出正确回答
星火：

文心：

从溶解度定理中，以下哪个陈述是正确的？
(A) 所有的氯化物、溴化物和碘化物都是可溶的
(B) 所有的硫酸盐都是可溶的
(C) 所有的氢氧化物都是可溶的(D) 所有含铵的化合物都是可溶的

这道化学题二者给出来分歧的回答，到底谁回答正确？
星火：

文心：

两个回答都是错的（--!），正确答案应该是D 所有铵化物都是可溶的。
看来两个AI还是要恶补一下化学常识啊！
结论

至此，本次新语数据故事汇对于「讯飞星火」的测试就结束了。
从测试回答的效果来看，总体讯飞星火的表示要优于百度的文心一言。而且作为ChatGPT深度使用者，感觉星火的理解能力和ChatGPT更为接近，更像ChatGPT，只是推理能力和常识库方面稍逊一些，而文心的理解力则差的不少，感觉最像搜索。
而文心一言的优势有撑持多模态（比如绘画创作），而目前讯飞星火语言模型仅撑持文本的生成，无法创作视频或图像。
然而，作为中国领先的人工智能企业之一，科大讯飞在语音范围拥有显著的优势。讯飞星火对比文心一言以及其他的国产大模型，插手了语音识别输入以及对成果的语音朗读功能（语音语速及语调听下来都让人非常舒服）
最后，小编想说：国内的大语言模型正在迎来蓬勃成长的新时代，各大科技企业和高校都在积极研发和推广本身的大模型。这些大模型不仅在语音识别、自然语言措置等方面展现出了强大的性能和应用能力，也为中国人工智能财富的快速成长注入了新的活力。让我们一起鼓励和撑持这些优秀的国内大语言模型，相信它们将为我们带来更加便捷、高效、智能的生活和工作体验，让中国的人工智能技术更上一层楼！

本文使用文章同步助手同步

		自动登录	找回密码
密码			立即注册

实测讯飞星火大模型的真正实力：能否横扫国内大模型江湖？

本帖子中包含更多资源