找回密码
 立即注册
查看: 695|回复: 0

实测讯飞星火大模型的真正实力:能否横扫国内大模型江湖?

[复制链接]

1

主题

0

回帖

21

积分

新手上路

积分
21
发表于 2023-5-9 18:54:26 | 显示全部楼层 |阅读模式
短短几个月时间里,我们的“国产大模型”已经如破土春芽般遍地开花。
国内百度“文心一言”的发布拉开了这场人工智能狂欢的序幕。从华为、阿里、京东等互联网巨头到高校如复旦、清华,都纷纷插手该范围,推出本身的大语言模型,华为盘古、商汤日日新、阿里通义千问、京东灵犀、昆仑天工、360智脑等等。
昨天(北京时间5月6日下午2:00),作为中国人工智能“国家队”的科大讯飞按打算揭晓了其认知大模型——讯飞星火,并展示了丰硕的应用成果,为中国的生成式AI市场增添了一位强大的竞争者。
目前,讯飞星火认知大模型已经开始内测,可以在https://xinghuo.xfyun.cn进行申请试用。小编第一时间就申请并拿到了测试资格,而且迫不及待的对其实测一番,考察一下星火的问答程度到底如何。


以下我们从题库中随机拔取了12道分歧类型的标题问题进行测试,而且选择文心一言作为“对手”对比考察我们星火选手的认知程度~
能力测试

基础能力


  • 先来个常识问答:谁是蝙蝠侠
讯飞星火和文心一言都给出了正确的回答,而相对来讲星火回答的维度更丰硕一些,内容更加丰满,个人感觉星火的回答小胜一筹。
星火:


文心:



  • 帮我们保举10本科幻小说:
星火不仅保举了书名和作者,甚至还贴心的做了一句话内容介绍,但这算数...属实不太好,说好的列10本出来,只给了我9本...
而文心的回答则中规中矩,简明扼要而且没有呈现保举数量错误。因此这一题文心胜出
星火:


文心:



  • 第三题是互联网传布较火的一道题,我们也拿来测试一下星火:为什么爸妈成婚没叫我参加婚礼?
二者其实都没回答出我们想要的答案,此题没有胜出的一方
星火:


文心:



  • 生成代码题:创建一个 SQL 请求以查找居住在上海并拥有超过 1000 积分的所有用户
二者都给出了正确答案。
区别是讯飞星火查的单表,而文心一言可能感觉积分应存放在此外一张表,需要进行关联查询...
这道题二者打平,没有胜出一方。
星火:


文心:



  • 解释代码题:
  1. # 解释这段代码是干什么的
  2. # Python 3
  3. def remove_common_prefix(x, prefix, ws_prefix):
  4.     x[”completion”] = x[”completion”].str[len(prefix) :]
  5.     if ws_prefix:
  6.     # keep the single whitespace as prefix
  7.         x[”completion”] = ” ” + x[”completion”]
  8.     return x
复制代码
这道题二者都理解到了点子上,给出了对代码大致正确的理解,打平。
星火:


文心:


进阶能力


  • 如果昨天是2021年4月30日,今天的日期是什么?以日/月/年暗示。
显然星火给出了正确的日期答案,美中不足是对格式理解呈现一点点误差。
而文心一言的回答就一言难尽了,答不合错误就不要给中间的计算过程啦,4月份可没有31天(--!)
星火:


文心:



  • 来一道物理计算题:假设一辆车可以在 3.85s 的时间内从 0 加速到 27.8 m/s,请计算这辆车的加速度,单元为 m/s/s
这道题二者的计算公式和中间过程都没啥问题,但是为啥最后一步简单的除法就难住了呢,最终计算成果都不合错误(难道和中学时代的小编一样,每次都光荣的错在最后的一步计算答案?)
正确的计算成果应该是7.22 m/s/s,相较而言星火的成果较为接近,而文心一言的成果太过离谱,这一题就算星火小胜吧
星火:


文心:



  • 考验逻辑思维:
请问下列哪个事件引起了另一个事件?
选项1:开始下雨。选项2:司机打开了雨刷器。
呃...星火的思考可能在此外一个境界,不是从我们常人正常的角度去思考的(下雨导致司机打开雨刷器)
文心一言虽然有点逻辑混乱,但是充实浮现了国人在有些场所打太极的精神,话不说满摆布逢源...这一题就算文心小胜吧
星火:


文心:



  • 来个简单的数学标题问题:给以下数字排序:3457,9823,3876
本想这道题属于送分题,以两个AI的实力都应该轻松答对。
成果是星火丝毫不烦琐给出了正确回答,美中不足是没有备注按照从小到大排序。
而文心一言则好似呈现了系统紊乱....(这回答看的小编开始怀疑人生)
星火:


文心:


垂直范围


  • 晨吐凡是发生在:
    (A)怀孕第一阶段
    (B)怀孕第二阶段
    (C)怀孕第三阶段 (D)在整个孕期都是如此
正确答案:晨吐凡是在怀孕的头几个月里最为明显,尤其是在怀孕的前三个月,也就是第一孕期。
因此这道题星火给出了正确回答,文心回答错误。
星火:


文心:



  • 如果当局在完全竞争的市场上对出产者进行补助,那么
    (A)产物的需求会增加
    (B)产物的需求会减少
    (C)消费者盈余会增加(D)消费者盈余会减少
经济学方面的问题,二者都给出正确回答
星火:


文心:



  • 从溶解度定理中,以下哪个陈述是正确的?
    (A) 所有的氯化物、溴化物和碘化物都是可溶的
    (B) 所有的硫酸盐都是可溶的
    (C) 所有的氢氧化物都是可溶的(D) 所有含铵的化合物都是可溶的
这道化学题二者给出来分歧的回答,到底谁回答正确?
星火:


文心:


两个回答都是错的(--!),正确答案应该是D 所有铵化物都是可溶的。
看来两个AI还是要恶补一下化学常识啊!
结论

至此,本次新语数据故事汇对于「讯飞星火」的测试就结束了。
从测试回答的效果来看,总体讯飞星火的表示要优于百度的文心一言。而且作为ChatGPT深度使用者,感觉星火的理解能力和ChatGPT更为接近,更像ChatGPT,只是推理能力和常识库方面稍逊一些,而文心的理解力则差的不少,感觉最像搜索。
而文心一言的优势有撑持多模态(比如绘画创作),而目前讯飞星火语言模型仅撑持文本的生成,无法创作视频或图像。
然而,作为中国领先的人工智能企业之一,科大讯飞在语音范围拥有显著的优势。讯飞星火对比文心一言以及其他的国产大模型,插手了语音识别输入以及对成果的语音朗读功能(语音语速及语调听下来都让人非常舒服)
最后,小编想说:国内的大语言模型正在迎来蓬勃成长的新时代,各大科技企业和高校都在积极研发和推广本身的大模型。这些大模型不仅在语音识别、自然语言措置等方面展现出了强大的性能和应用能力,也为中国人工智能财富的快速成长注入了新的活力。让我们一起鼓励和撑持这些优秀的国内大语言模型,相信它们将为我们带来更加便捷、高效、智能的生活和工作体验,让中国的人工智能技术更上一层楼!
本文使用 文章同步助手 同步

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-12-22 13:49 , Processed in 0.056537 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表