这几家大模型混战，讯飞星火比想象中更猛

惠东公路局 · 发表于 2023-6-26 08:43:22

国产大模型又有新动作了。

6月9日，在科大讯飞24周年庆上，讯飞星火认知大模型V1.5正式发布。

对比于一个月之前发布的版本，此次同步上线了星火APP，升级了多轮对话，逻辑和数学能力也同步提升。数据显示，星火认知大模型V1.5常识问答能力提升24%，逻辑推理能力提升10%，数字能力提升9%。

而且此次升级后，用户还可以“养成”独特的AI助手，什么PPT大纲助手、周报小助理等等，都可以通过不竭地调试，创建出符合需求的助理。据了解，此次讯飞星火V1.5版本面向生活、工作等用户高频使用场景上线200个小助手功能。

借着这个机会，笔者结合其他博主的测评，来对升级后的讯飞星火，也进行一个评估。下面，开整！

1高考“大对决”

近期最热的事莫过于高考了。十年寒窗苦读，巅峰对决时刻方见真章。大模型也赶上了这波高考，积极参与了语文作文、数学等测验。

数学方面，讯飞星火展现出的优势更为明显。

搜狐科技通过拔取2023年上海数学试卷的10道填空题，对市面上主流的5款大模型产物进行了测试。

成果显示，最“聪明”的讯飞星火答对了5题，正确率50%；百度的文心一言和ChatGPT答对了4题，正确率为40%；360智脑和阿里的通义千问则是“全军覆没”，一道题都没答对。

▲图源：搜狐科技

此次升级发布会，也重点提到了对数学能力的升级。事实上，在此之前数学能力就已经是讯飞星火的强项了。

科创板日报在5月26日的一篇文章中，也曾对文心一言、通义千问、云从大模型进行了测试，但这些大模型在数理逻辑推算能力方面，表示都斗劲普通，答案准确度较低。

文中拔取了两道题，展示的测评对象包罗文心一言、360智脑和讯飞星火，成果是两道题都只有讯飞星火答对了。文章开头也指出，科大讯飞星火认知在数理能力表示尤为突出。那我们具体看看此中的一题。

文心一言：

360智脑：

讯飞星火：

下面来一道更难的标题问题，看看升级后的讯飞星火能做到什么程度：

看得懂的大佬可以辅佐分辩一下正误，不外据悉这道题涵盖了微积分和多元函数积分等常识点，难度还是斗劲大的。另一方面，这也显示出讯飞星火在措置复杂数学题方面的能力，这离不开科大讯飞在教育范围近20年的堆集。

语文方面，蓝鲸财经记者工作平台专门对ChatGPT、文心一言、通义千问的高考作文写作做出了测评。篇幅有限，我们只选用全国甲卷的作文命题，然后补上我此外对星火大模型的测试。

先看百度的文心一言：

再来看通义千问：

最后是讯飞星火：

首先是标题问题要求的篇幅方面，通义千问明显不符合800字要求，文心一言和讯飞星火都过关。

内容质量上，就个人感到感染来说，离往年的满分作文有相当的距离，不外相较而言，文心一言和讯飞星火在“联想与思考”上展现出了更多的优势。

2谁是“打工人的福音”？

高考测试浮现的更多的是基础能力，大模型到底能帮我们做什么，还是得回归到实际应用上来。此前，娱成功本论也从分歧的维度对几款主流大模型做了一个测评，对它们的实用功能进行了综合评估：

评估显示，讯飞星火在小红书带货案牍、歌词写作、淘宝商详页、公关稿、科幻小说初始创意、新闻稿、广告宣传片案牍等方面的得分都位于国产大模型最高分，总分也仅次于GPT3.5位居国产模型第一位。

从笔者所从事的行业来说，目前这种认知类大模型的应用场景，主要还是指向基础的文本创作和商业案牍等方面。

《科创板日报》曾让文心一言和通义千问仿照三体风格写一篇800字科幻小说，我们再加上讯飞星火尝尝。

文心一言的回答：

通义千问的回答：

讯飞星火的回答：

总体来说，讯飞星火无论是篇幅方面，还是内容的完整性方面，都要更高一点，甚至还有个标题。

文学创作方面浮现出的差异，不仅仅和中文语料的堆集有关，更和逻辑推理和算法有关。文心一言背靠着的百度，目前仍是中国最大的中文搜索引擎，也许胜在语料；星火后方的科大讯飞，也是早在2011年，就承建了语音及语言信息措置国家工程尝试室，胜在算法；通义千问背靠阿里，未来应用场景十分丰硕，但在最底子的中文语料上，仍需更多优质文本数据。

基础的文本创作能力展示了，我们再看看它们实际的工作表示。

TMT时报的记者测试了文心一言和通义千问在商业案牍方面的能力，我们加上讯飞星火再尝尝。

文心一言：

通义千问：

讯飞星火：

文心一言的回答扣住了主题，但过长的案牍从“海报案牍”的角度可能没有那么贴切；此次通义千问的表示明显好了很多，不外作为商业案牍，相较于讯飞星火的回答，节日气息有余，商业推广成分不足，总体来说，完成度都是斗劲高的。

我们再看一个日常工作辅助方面，写一篇季度总结的稿子。

文心一言：

通义千问：

讯飞星火：

文心一言虽然没能第一时间给出要求的稿子，不外在提示后也顺利完成了；通义千问多了些礼貌用语，也基本完成指令要求；讯飞星火整体看下来最为突出，层次清晰，重点突出，堪称打工人福音。

我们在开篇也提到过，科大讯飞本身就在办公、教育、医疗等方面深耕多年，中文语料堆集深厚，产物也斗劲成熟。升级后的讯飞星火甚至还推出了星火助手这样颇具未来感的产物，200多个小助手几乎是覆盖了各行各业，所以能有这样的表示，也属于情理之中。

3身边的“白话老师”

讯飞星火此次的升级发布会上，还有一个斗劲引人存眷的处所是新推出的“星火语伴”APP。

作为一款教育辅助类软件，分歧于市面上绝大部门面向学生的外语学习类相关软件，星火语伴主要是面向大学生和商务人士。针对这部门人群，主要提供的就是即时外语沟通，而这种沟通，则是通过AI虚拟老师来实现。

大致可以理解为下载星火语伴后，你就直接有了一个随时在身边的外语老师，这个老师既可以作为外语陪练带你提升白话能力，也可以措置绝大部门外语环境下的日常需求。

比如你是大学生，想提升本身的白话程度，就可以和软件中的虚拟老师进行对话。

这种方式的好处在于，可以通过虚拟老师即时对话，缔造出一个良好的语言环境。

目前这个功能还需要通过内测，我看了一下需求介绍，还是斗劲等候的。

当然，对于有些商务人士来说，这样陪练学习的时间成本太高了，但又有一些出行需求。那么思路打开，比如你想独自去一家法国餐厅，但语言不通，那么你完全可以通过这款软件和处事生沟通，你在看菜单时，也可以通过拍照的方式进行阅读。

目前这款软件撑持9种分歧的语言，包罗语音、图片、聊天多种交互方式。

从笔者个人的角度来说，就测验考试过不少英语学习相关的软件，甚至还此外花钱买了整年的套餐，主要也是想提高白话程度，当然那些软件也有一些操练、纠错等功能，但除了开始时热血上头，后面也都不了了之。

而星火语伴在这些基本的功能外，还增加了实时对话场景，这就极大地加深了沉浸感，而且从发布会上展示的效果来看，虚拟老师无论颜值气质，还是专业程度，都很难挑出什么短处。加上搭载了AI大模型，体验过的应该不少人跟笔者有同感，这种对话其实蛮有意思的，主不雅观能动性大大提高。

所以，良好的产物基础，加上AI大模型的加持，最终的产物呈现或许可以等候一下。

4安全问题

除了具体的各项能力方面，还有一个大师都斗劲存眷的问题就是安全。

之前三星投诉GPT泄露了其机密数据的新闻还历历在目，星火虽然发布相对晚了一点，但就像科大讯飞董事长刘庆峰说的，讯飞星火在安全性上的考虑确实斗劲谨慎，“兼顾信息安全和伦理人文”。

在等待内测审核通过的时候，我就注意到了“插件市场”部门。

界面中内容提到了可以通过私有化部署插件，保证企业内部数据的安全性和隐私性。虽然我们不太容易通过测评来展现，但是“伦理人文”这种还是可以试一下的。

先来颗炸弹尝尝。

被强制结束对话了，不死心的我又从头开启对话试了下。

试过多次后，都是以强制结束对话告终。那咱换一个话题。

这回倒是答复我了，但是不仅没给出具体方案，还被教育了一顿，的确哭笑不得。想必在指令和内容方面都有所设定，很有边界感，属于稳健型选手，气质拿捏了。

5尾声

测评到此刻，基本也能对讯飞星火大模型有个斗劲系统全面的了解了。

目前市面上几个斗劲知名的大模型之间，讯飞星火的优势还是斗劲明显的。此外，国产大模型的持续训练，短期内各家或许还难见分晓，那么如何快速投入应用，以战养战，来维持大模型的不竭迭代，也成了一道亟需回答的问题。讯飞星火在这方面的意识也是斗劲领先的。

中肯地讲，目前的讯飞星火离电影中的智能语音工作助手，必定还有不小的差距，但是星火大模型已经完成了0-1的部门。先是能做到，在此基础上，后续如何做好只是时间问题。

正如科大讯飞董事长刘庆峰强调的那样，流水不争先，争的是滔滔不停。

		自动登录	找回密码
密码			立即注册

这几家大模型混战，讯飞星火比想象中更猛

本帖子中包含更多资源