日本:国家医疗执照测验 | Bing聊天将达到78%[高于70%的临界分数],ChatGPT将达到38% | 78 | 是 | Bing Chat | 2023年3月9日 | 是 | | ‘ChatGPT的准确性低于之前使用美国医学执照测验的研究。有限的日语数据可能影响了ChatGPT用日语正确回答医学问题的能力。。。必应具有通过日本国家医疗许可测验的准确度 |
西班牙语体检(MIR) | Bing聊天将达到93%,ChatGPT将达到70%,均高于临界分数 | 93 | 是 | Bing Chat | 2023年3月2日 | 不 | | “我问了185个问题,不包罗我删除的25个需要图片的问题。为了平衡测验,我为挑战增加了10道保留题。在185个问题中,Bing Chat答对了172个,在13个问题中掉败,成功率为93% |
《时代》杂志封面 | ChatGPT登上了《时代》杂志2023年2月27日的封面。 | - | 是 | ChatGPT | 2023年2月27日 | No | | 艾伦:这不是一种真正的能力,但绝对是一种成就! |
CEO | ChatGPT appointed to CEO of CS India. | - | - | ChatGPT | 2023年2月9日 | No | | “作为首席执行官,ChatGPT将负责监督CS India的日常运营,并敦促该组织的成长和扩张。ChatGPT将操作其先进的语言措置技能来分析市场趋势,确定新的影响机会,并制定战略…” |
软件开发工作 | ChatGPT将被聘为谷歌的L3软件开发人员:该职位年薪183000美元。 | - | 是 | ChatGPT | 2023年1月31日 | No | | link1
link2“ChatGPT在接受编码职位面试时被L3聘用” |
法理学/法令裁决 | ChatGPT辅佐法官做出裁决(哥伦比亚)。 | - | - | ChatGPT | 2023年1月31日 | No | | English:
Spanish: “1月31日,卡塔赫纳第一劳动法院在著名的人工智能ChatGPT的辅佐下解决了一项监护诉讼,辩称其适用了2022年第2213号法令,该法令规定在某些情况下可以使用这些虚拟东西。” |
政治 | ChatGPT撰写了几项法案(美国)。 | - | - | ChatGPT | 2023年1月26日 | 是 | | Regulate ChatGPT: Mental health & ChatGPT: |
MBA | ChatGPT将通过沃顿商学院的MBA学位测验。 | B/B- | 是 | ChatGPT | 2023年1月22日 | 是 | | “考虑到这一表示,ChatGPT本可以在测验中获得B到B的分数。” |
会计 | GPT-3.5将通过美国注册会计师测验。 | 57.6% | 是 | text-davinci-003 | 2023年1月11日 | 是 | | “该模型正确回答了57.6%的问题” |
法令 | GPT-3.5将在美国通过门槛。 | 50.3% | 是 | text-davinci-003 | 2022年12月29日 | 是 | | “GPT-3.5在完整的NCBE MBE实践测验中获得50.3%的标题正确率” |
医学 | ChatGPT将通过美国医学执照测验(USMLE)。 | >60% | 是 | ChatGPT | 2022年12月20日 | 是 | | “ChatGPT在所有查抄中的准确率都在50%以上,在大大都分析中都超过了60%。USMLE的通过阈值虽然每年都在变化,但大约为60%。因此,ChatGPT此刻完全在通过范围内。” |
智商(流动性/能力) | ChatGPT在Raven的进步矩阵能力测试中表示优于大学生。 | >98% | 是 | text-davinci-003 | 2022年12月19日 | 是 | | More info at:link |
AWS证书 | ChatGPT将通过AWS认证云从业者测验。 | 80% | 是 | ChatGPT | 2022年12月8日 | No | | “最终得分:800/1000;一次传球为720” |
智商(仅限于口头) | ChatGPT得分IQ=147,99.9%ile。 | >99.9% | 是 | ChatGPT | 2022年12月6日 | No | | “今日心理学言语语言智力智商测试,它得到147分!” |
SAT测验 | ChatGPT在SAT测验中的成就为1020/1600。 | 52% | 是 | ChatGPT | 2022年12月2日 | No | | “按照collegeboard的数据,1020/1600的分数约为第52百分位。” |
一般常识 | GPT-3将在《危险边缘》中击败IBM Watson!问题。 | 100% | 是 | davinci | 20219月20日 | No | | Watson得分88%,GPT-3得分100%。 |
智商(比奈-西蒙量表,仅口头) | GPT-3在99.9%的ile中得分(仅限估计值) | 99.9% | 是 | davinci | 20215月11日 | No | | “截至2021,我预计使用当前的智商仪器设计来评估人工智能的智能并不容易……一些子测验中,人工智能很容易处于世界人口的前0.01%(措置速度、记忆力),而其他子测验可能要低得多。” |
一般常识 | GPT-3在琐事方面胜过普通人。 | 73% | 是 | davinci | 20213月12日 | No | | “GPT-3在156个琐事问题中有73%是正确的。这与52%的用户平均程度对比是有利的。” |
推理 | GPT-3将通过SAT模拟部门。 | 65.2% | 是 | davinci | 2020年5月28日 | 是 | | “GPT-3在几次射击中获得了65.2%的成就……大学申请者的平均得分为57%(随机猜测的成果为20%)。” |
查看2020-2023年大型语言模型的更多基准: | link |
Date | Milestone |
11/Jun/2018 | GPT-1 announced on the OpenAI blog. |
14/Feb/2019 | GPT-2 announced on the OpenAI blog. |
28/May/2020 | Initial GPT-3 preprint paper published to arXiv. |
11/Jun/2020 | GPT-3 API private beta. |
22/Sep/2020 | GPT-3 licensed to Microsoft. |
18/Nov/2021 | GPT-3 API opened to the public. |
27/Jan/2022 | InstructGPT released as text-davinci-002, now known as GPT-3.5. InstructGPT preprint paper Mar/2022. |
28/Jul/2022 | Exploring data-optimal models with FIM, paper on arXiv. |
1/Sep/2022 | GPT-3 model pricing cut by 66% for davinci model. |
21/Sep/2022 | Whisper (speech recognition) announced on the OpenAI blog. |
28/Nov/2022 | GPT-3.5 expanded to text-davinci-003, announced via email:
1. Higher quality writing.
2. Handles more complex instructions.3. Better at longer form content generation. |
30/Nov/2022 | ChatGPT announced on the OpenAI blog. |
1/Feb/2023 | ChatGPT hits 100 million monthly active unique users (via UBS report). |
1/Mar/2023 | ChatGPT API announced on the OpenAI blog. |
Next… | GPT-4… |
Table. Timeline from GPT-1 to ChatGPT.