国产AI大模型横评(6月)(含讯飞1.5版本)
#0. 前言从去年底ChatGPT发布开始,国内的百度文心,阿里通义等依次登场。在这个AI大模型的大帆海时代元年,搞个文档记录各家的大模型的各项能力是如何进化的还是很有意思。
但在B站看了很多评测视频,一方面感觉up主整活和看乐子的倾向很重,个人不太认同。一方面认为这种需要持久+按期更新的横评榜单还是以文字形式发布最好。
于是有了今天的第一篇。
#1. 评测原则
首先明确一点,我们但愿AI大模型辅佐我们更好的工作和生活,而不是为了看AI乐子。所以在问题设计上需要考虑尽量让AI理解意图,而不是奔着把AI搞翻车。
其次,AI不等于搜索引擎,他并不是全知全能,我们也不应该把AI当百科全书来用,更应该看中AI的语言应用,逻辑分析,归纳,演绎能力。把AI当做一个具备基本生活常识+必要学科常识的“人”来提问。如果未来各个模型都接入了实时搜索能力,那我的问题也会打开这方面限制。
在此基础上,我筹备了9个分类共30个问题(数量持续添加),这些分类涵盖:常识,学科常识,文言文翻译,英文翻译,数学计算,文学创作,角色扮演,逻辑推理,归纳理解。每类问题数量不超过5个,避免有偏科的模型在一类问题上拿太多分。
这里出于赐顾帮衬现阶段国产模型的目的,不考察代码和英文问答。等到各家都具备相关能力,也会插手相关问题。
为了防止目前还未发布的大模型(比如腾讯系,字节系)使用我的问题集做提前训练,相当于作弊,这些问题将不会公开。
每个问题反复3次取最好。打分分3个维度:
[*]正确性:比如计算正确,推理正确,常识正确,识别到错误等
[*]表达:比如解释详细,法式清晰,没有废话
[*]异常:比如违背一般人常识,不遵循指令,文不合错误题
#2. 参赛选手
百度文心一言 2.0.3 版本(6月7日更新)
阿里通义 1.0.1 版本(5月22更新)
讯飞星火 1.5.0 版本(6月9日更新)
360智脑beta-2.0.0
本次评测暂不插手GPT-4和Claude+,因为截止到发文,我还没测完,预计在7月榜单里参战。
此外还此外大模型我城市在第一时间申请内测,然后第一时间更新评测数据。
#3. 6月榜单
正确表达异常文心一言1892阿里通义435讯飞星火1252360智脑328分类型的正确性得分
文心一言阿里通义讯飞星火360智脑常识2120学科常识2020翻译3011数学4021文学创作2230角色扮演1101语言应用2010逻辑推理0000归纳理解2010#4. 备注
[*]文心在5月23发布2.0.1之后,正确的分数从5跳涨到14,直接晋升第一梯队。
[*]讯飞在6月9发布1.5.0之后,对比1.0.0版本,正确也从4跳涨到12,单文学创作一项就从0分涨了3分,学科常识的表达分数也从0到3,基本和讯飞在发布会上传布鼓吹的能力项目对的上。
由于第一次写,还有很多细节可能没讲到,大师有质疑请提出。或者要求把某个模型插手横评也请提出。 我自己使用也觉得大更后的文心一言能用了,不知道为啥还是很多人喷,就是好慢啊,星火app真的和bard一个级别的响应速度,gpt4都看哭了
页:
[1]