ChatGPT下架官方检测东西，承认AI文字无法分辩

zz纯子 发表于 2023-9-1 14:07:56

梦晨发自凹非寺
量子位 | 公众号 QbitAI没有公告，OpenAI悄然封锁了AI文本检测东西，页面直接404了。

官方对此没有公开回应，几天后才有人找到一则简短说明，藏在半年前东西发布的博客页面中。
……AI检测器由于准确率较低而不再可用……我们正在研究更有效的文本检测技术，并承诺开发音频和视觉检测技术。

对于CloseAIOpenAI不发公告就杀死一个产物这种行为，很多网友是不对劲的。

但是对封锁AI检测器本身倒是有不少人暗示附和，出格是学生群体。
太多老师相信这玩意有效，大量冤枉学生用AI作弊，已经变成了一场猎巫运动。

准确率和瞎猜差不多

这个官方检测东西，准确率究竟有多低呢？
OpenAI本身给出的数据，只能正确识别26%的AI生成文本，同时冤枉9%的人类编写文本。

1月份刚发布时就被网友总结为“和瞎猜差不多”。
此外有人做过尝试发现，市面上各种检测东西会把圣经、美国宪法等历史文本都被判定可能为AI编写，总不能写下这些内容的历史人物都是时间穿越者吧？
但还是有很多老师试图用各种检测方式来查抄学生作业。
最著名的一次，得克萨斯农工大学一位传授差点判定半个班的学生延毕。

目前最新的趋势是，教师要求学生用在线文档写作业并查抄编纂记录，但聪明的学生也能找到规避法子。

最终对于教育范围，有人提出可能大作业/课程论文将成为历史，闭卷测验或白话测验将成为主流。

目前的检测方式都能规避

网友指出，OpenAI同时开发生成和检测东西本身就是矛盾的。
如果一边做的好就意味着另一边没做好，同时还有可能存在利益冲突。

但是第三方开发的检测方式，可靠性也不高。
最早被称为“ChatGPT克星”的是普林斯顿本科生Edward Tian开发的GPTZero，用复杂性和长短句的变化来衡量文章是否由AI生成。
当时GPTZero打算专为教育工作者打造，老师可以把全班学生的作业丢进去检测。
但到了7月份，作者承认已放弃了检测学生作弊这个标的目的，打算下个版本的GPTZero将不再检测文本是否由AI生成，而是突出最像人写的部门。

此外一个很受存眷的检测方式，是马里兰大学开发的水印法，要求大模型在生成文本的时候就藏下记号，并用统计方式识别。

但是规避的法子也很简单，比如有人开发了简单的同义词替换东西，就能粉碎统计特征。

甚至有人开始怀疑，人们到底是为了什么非要区分这个。
就像数字到底是人计算的还是计算机完成的，早就没人在意了。
演讲者的稿是本身写的还是秘书写的，不是也没人在意吗。

人类行为学研究，正在用AI充任被试

无法区分AI和人类的内容，似乎也不全是坏事。
已经有心理尝试用AI代替人类被试加速研究了。
Cell子刊上一篇文章指出，在精心设计的尝试场景中，ChatGPT的反映与大约95%的人类参与者的反映呈相关性。
而且机器被试不会疲倦，使科学家能以前所未有的速度收集数据并测试有关人类行为的理论。

而在比来一篇Science主刊的不雅概念文章上，滑铁卢大学心理学传授Igor Grossman认为：
“人工智能可以改变社会科学研究的游戏法则，谨慎的成见打点和数据保真度是关键。”

参考链接：
https://twitter.com/KevinAFischer/status/1683898199981928450
https://www.reddit.com/r/ChatGPT/comments/159j8rc/openai_quietly_kills_its_own_ai_classifier_citing/
https://news.ycombinator.com/item?id=36862850
https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(23)00098-0
https://www.science.org/doi/10.1126/science.adi1778
https://theconversation.com/beyond-the-hype-how-ai-could-change-the-game-for-social-science-research-208086
—完—
@量子位 · 追踪AI技术和产物新动态
深有感到的伴侣，欢迎附和、存眷、分享三连վ'ᴗ' ի ❤

AmyLi 发表于 2023-9-1 14:08:43

AI文生文本来就是提取学习模仿人类语料，随着时间推移会无限接近人类[开心]

zg_cqdj 发表于 2023-9-1 14:09:36

LLM生成的短文本肯定无法鉴别，长文本还是有一定准确率的。我当年就是专门搞机器生成文本鉴别的。当年这个领域有个很有名的会议，叫information hidding，每年全球录用20篇左右文章，我曾经连续中过两篇文章。其中一篇叫lost in n-best list,就是研究怎么在机器翻译的文本中隐藏信息，以及如何检测文本是否机器生成的。

散步人生 发表于 2023-9-1 14:10:21

随着监管到来，会越来越像某些群体

tainesun 发表于 2023-9-1 14:10:35

我之前测了下GPT Zero，我用的是我自己草稿然后用GPT3.5和4.0润色和重写的英文邮件，结果它告诉我0%GPT生成（两个都是）……

baozhen1990ok 发表于 2023-9-1 14:11:11

最搞笑的是用ai检测你是不是ai

黑白色格调 发表于 2023-9-1 14:11:17

知乎可以[捂脸]

快乐荧光 发表于 2023-9-1 14:11:34

知乎这种问答式的文本还是比较检测出来的

页: [1]

T9AI - 深度人工智能平台's Archiver

ChatGPT下架官方检测东西，承认AI文字无法分辩