OpenAI 发布 AI 生成文本检测东西,能解决 ChatGPT 带来的内容风险吗?
入口:OpenAI API作者:Melissa Heikkilä
原文地址:为什么检测人工智能生成的文本如此困难?
【入群邀请】7个专业方向交流群+1个资料需求群
导读:自从ChatGPT推出以来,AI圈里已经掀起了很大的浪潮,各种使用ChatGPT的尝试层出不穷,与此同时,AI内容生成技术(AIGC)也引起广泛的关注,使用生成技术撰写文章、生成图片等等,以假乱真,但是如果发生不可控的技术泛滥,势必会对“原创”造成极大的冲击,并且出现各种乱象,而这篇文章,则是就针对人工智能生成内容检测工具的一个讨论,欢迎各位关注!
上周,OpenAI发布了一种可以检测其AI系统ChatGPT生成的文本的工具。但是,如果你是一位担心ChatGPT生成的论文即将泛滥的教师,请继续往下看。
该工具是OpenAI对教育工作者、记者和其他人在没有任何方法检测其生成的文本的情况下使用ChatGPT而引起的关注的回应。然而,这仍然是一项正在进行的工作,而且非常不可靠。OpenAI表示,其人工智能文本检测器正确识别出26%的人工智能文本“可能是人工智能写的”。
虽然OpenAI为了完善这个工具还有很多工作要做,但它能做到的程度有限。我们很大概率不可能找到一个能够100%确定地识别AI生成的文本的工具。不列颠哥伦比亚大学(University of British Columbia)负责自然语言处理和机器学习研究的教授穆罕默德·阿卜杜勒·马吉德(Muhammad Abdul Mageed)表示,很难检测人工智能生成的文本,因为人工智能语言模型的全部目的是生成流畅的、看起来像人的文本,而该模型是模仿人类创造的文本。
阿卜杜勒·马吉德补充道:“我们正在进行一场竞赛,要建立能够与最新、最强大的模型相匹配的检测方法。”。新的AI语言模型更强大,更擅长生成更流畅的语言,这很快使我们现有的检测工具包过时。
OpenAI通过创建一个类似于ChatGPT的全新AI语言模型来构建其检测器,该模型经过专门训练,可以检测类似于自己的模型的输出。尽管细节很少,但该公司显然用人工智能生成的文本和人工生成的文本的样本训练了模型,然后让它识别人工智能生成文本。
上个月,我写了另一种检测AI生成的文本的方法:水印(watermarks)。这些在人工智能生成的文本中充当一种秘密信号,允许计算机程序检测到它。
马里兰大学的研究人员开发了一种将水印应用于人工智能语言模型生成的文本的巧妙方法,并使其免费可用。这些水印可以让我们几乎完全确定地判断何时使用了人工智能生成的文本。
问题在于,这种方法要求AI公司从一开始就在聊天机器人中嵌入水印。OpenAI正在开发这些系统,但尚未在其任何产品中推出。为什么延迟?一个原因可能是,并不是希望人工智能生成的文本加水印。
将ChatGPT集成到产品中最有前景的方式之一是作为一种工具帮助人们编写电子邮件或作为文字处理器中的增强拼写检查器。这不完全是欺骗。但在所有人工智能生成的文本上加水印会自动标记这些输出,并可能导致错误指控。
OpenAI推出的人工智能文本检测器只是众多工具中的一个,未来我们可能不得不使用它们的组合来识别人工智能生成的文本。另一个名为GPTZero的新工具会测量文本段落的随机性。人工智能生成的文本使用了更多相同的单词,而人们则使用了更多的变体。Abdul Mageed表示,与医生的诊断一样,当使用AI检测工具时,获得第二甚至第三种意见是一个好主意。
ChatGPT带来的最大变化之一可能是我们评估书面文本的方式发生了变化。人工智能初创公司Lightning.AI的人工智能研究员塞巴斯蒂安·拉施卡(Sebastian Raschka)表示,未来,也许学生们不会再从头开始写所有的东西了,重点将放在提出原创想法上,因为原创性是受到其编程和训练集中的数据的约束。
Raschka说:“正确书写会更容易,但原创不会更容易。”。
新报告:工业设计和工程中的人工智能
生成式人工智能是今年最热门的技术,它正在改变整个行业,从新闻和药物设计到工业设计和工程。这些行业的头部企业保持领先将比以往任何时候都更重要。我们为您提供了保障。《麻省理工技术评论》(MIT Technology Review)的一份新研究报告强调了这种新技术在工业设计和工程中的机遇和潜在的问题。
该报告包括两个来自头部工业和工程公司的案例研究,这些公司已经将生成式人工智能应用于他们的工作,以及来自行业领导者的大量启示和最佳实践。它现在售价195美元。
深度学习
AI模型生成受版权保护的真人图像和照片
最新研究表明,Stable Diffusion等主流的图像生成模型可以被用来生成真实人物的可识别照片,这可能会威胁到他们的隐私。这项工作还表明,这些人工智能系统可以用来重现医学图像的完美副本,以及艺术家的版权作品。
为什么这很重要:这些人工智能模型在多大程度上从其数据库中记忆和回放图像,是人工智能公司和艺术家之间多次诉讼的根源。这一发现可能会强化艺术家的观点。从我这里了解更多信息。
人工智能模型漏洞:可悲的是,在加快发布新模型的过程中,人工智能开发人员往往忽视了隐私。这不仅仅是图像生成系统。当我问ChatGPT的前身GPT-3,它对我和《麻省理工技术评论》主编的了解时,我发现人工智能语言模型的疏漏有很多。结果很滑稽,令人无语。
Bits and Bytes
当我父亲生病时,我开始用谷歌搜索各种担心的问题,然后我就无法逃脱了。
我的同事泰特·瑞安·莫斯利(Tate Ryan Mosley)写了一篇关于悲观问题和死亡的不错的文章,以及她在互联网上使用的不好的内容推荐算法,这些算法只为提供更多关于悲观问题与死亡的内容。泰特花了几个月的时间请教专家,我们如何才能更好地控制恶意算法。他们的回答并不那么令人满意。(麻省理工学院技术评论)
谷歌已向一家人工智能初创公司投资3亿美元
这家科技巨头是最新加入生成式人工智能潮流的公司。它向人工智能初创公司Anthropic注入了资金,后者正在开发类似于ChatGPT的语言模型。这笔交易让谷歌获得该公司10%的股份,以换取运行大型人工智能模型所需的计算能力。(英国《金融时报》)
ChatGPT如何掀起一场AI竞赛
这是窥察OpenAI幕后的一个很好方式,以及他们为收集下一代AI语言模型GPT-4反馈,决定如何上线ChatGPT。聊天机器人的成功在OpenAI内部是一个“惊天动地的惊喜”。(《纽约时报》)
如果ChatGPT是一只宠物
认识CatGPT。坦率地说,对我来说唯一重要的AI聊天机器人。
—— 精彩推荐 ——
1. 书籍推荐 - 《可解释机器学习》
2. 书籍推荐 -《深度强化学习》
3. 字节跳动李航:人工智能的未来,需要新的范式和理论
4. AIGC大一统模型来了!CV界泰斗黄煦涛创立团队提出「全能Diffusion」
5. 中国信通院 - 京东探索研究院《人工智能生成内容(AIGC)白皮书(2022年)》 第一步:开发一个AI文本生成工具1.0;
第二步:开发一个AI生成文本检测系统1.0;
第三步:将AI文本生成工具1.0升级到1.1,加入反文本检测功能;
第四步:同上,升级。
这样就可以无限循环了。
公司开心,用户满意,双赢~ 目前还不能。这个正确率着实不高……
在评估「挑战集」中的英语文本时,分类器只将26%的AI生成文本正确地归类为「可能是AI写的」(真阳性)。
咱们来实测一下。
先试一试Monika的老公发给她的情诗。
然而遗憾的是,OpenAI表示自己只能检测1000字符以上的文章,爱莫能助……
翻译一下:至少需要1000字符,也就是150-250个英文单词。而对于中文来说,就只能是「千字长文」了。
的确,OpenAI的官方公告里也说,「分类器对于短文本(少于 1,000 个字符)的检测非常不可靠。甚至更长的文本有时会被分类器错误地标记。」
除此之外,OpenAI的检测器还有几个「限制」:
[*]分类器并不总是准确的,它可能会错误地标记AI生成的和人类写的文本,并且语气很自信
[*]建议仅对英文文本使用分类器。它在其他语言上的表现要差得多,并且在代码上不可靠
[*]它无法可靠地识别非常可预测的文本。例如,无法预测前1000个素数的列表是由AI还是人类写的,因为正确答案总是相同的
[*]AI生成的文本,经过编辑之后很可能会规避掉分类器的检测
[*]如果输入与训练集中的文本有很大的区别,分类器会做出错误判断
既然检测器要长文,那咱们就给它个长的。小编组合了一篇王小波情书选段,全文共1027个字。
输入检测器后,它给出了判断:这篇情书是人类写的。Bingo!
然后,小编又让ChatGPT模仿王小波,生成新的情书。
可以看到,ChatGPT写的情书文采还行,但比起大作家的文字,它真的没有「灵魂」。
而检测器也准确测出来,这封情书大概率就是AI生成的。
结果的划分超细
具体来说,分类器会将输入文本分为五类:
[*]「非常不可能是AI生成的」(Very unlikely to be AI-generated)
分类器的阈值<0.1。在「挑战集」集中,大约5%的手写文本和2%的AI生成文本有这个标注。
[*]「不太可能是AI生成的」(Unlikely to be AI-generated)
分类器的阈值在0.1到0.45之间。在「挑战集」中,大约15%的手写文本和10%的AI生成文本有这个标注。
[*]「不清楚是否是AI写的」(Unclear if it is AI writte)
分类器的阈值在0.45到0.9之间。在「挑战集」中,大约50%的手写文本和34%的AI生成文本有这个标注。
[*]「可能是AI生成的」(Possibly AI-generated)
分类器的阈值在0.9到0.98之间。在「挑战集」中,大约21%的手写文本和28%的AI生成文本有这个标注。
[*]「很可能是AI生成的」(Likely AI-generated)
分类器的阈值>0.98。在「挑战集」中,大约9%的手写文本和26%的AI生成文本有这个标注。
可靠性有待加强
虽然分类器可以识别大部分AI生成的文本,但OpenAI提醒称,它并不「完全可靠」。
在曲线下面积(AUC)测试中,分类器在验证集中达到了0.97分,在挑战集中达到了0.66分,而此前公布的分类器在验证集中达到了0.95分,在挑战集中达到了0.43分。
此外,随着语言模型规模的增大,分类器的性能出现了下降。
但好消息是,这意味着大型语言模型所生成的文本,更像人类写的。
同时,OpenAI还特别指出,这个分类器还没有在谣言、学生作文或聊天记录上进行评估;也没有在AI和人类共同撰写的文本上进行测试,而这也是现在最常见的使用场景之一。
这么看来,还是普林斯顿大学那位22岁华人小哥开发的GPTZero更人性化一些。
不仅只需250个字符,而且还能明确地指出一段文字中,哪段是AI生成的,哪段是人类写的。
http://pica.zhimg.com/v2-ca024401c4a4dcb803a338991e58e891_r.jpg?source=1940ef5c
AIGC大厂自研「AI检测器」实测
在OpenAI发布官方「AI检测器」以前,市面上早就有了多款AI检测器。
来自美国的作家和计算机科学家David Gewirtz,就亲自测试了三款在线AI检测器。
这里最有趣的一点在于,其中有两个都是贩卖AI生成文本的网站自己做的。
注意:人写的是普通字体,AI生成的是斜体。每段文字后,会显示检测器的结果。(实际输入检测器的文本都是英文文字,本文为翻译后的结果)。
顺便一提,这位David Gewirtz还是FBI InfraGard的成员,以及美国重要的网络安全专家之一。此前,他曾在伍斯特理工学院以优异的成绩获得理学士学位,但在加州大学伯克利分校读博士时退学。
测试开始!
1. 解释为什么ChatGPT造成的抄袭会给教师和编辑带来困扰
ChatGPT是OpenAI开发的GPT(Generative Pre-trained Transformer)语言模型的一个变体。它被设计为通过预测给定输入序列中的下一个单词或短语,来生成类似人类的文本。虽然ChatGPT可以成为生成文本和响应提示的有用工具,但在涉及到抄袭时,它也会给教师和编辑带来问题。
ChatGPT会给教师和编辑带来问题的主要原因之一是,它可以生成与真实人类非常相似的文本。这意味着人们有可能使用ChatGPT生成文本,然后将其作为自己的作品提交,从而犯下抄袭的错误。
对于教师和编辑来说,检测一段特定的文本是由ChatGPT生成的还是由人写的,可能非常困难,因为生成的文本可能不包含任何明显的错误或差异,能让人辨别出它的来源。这可能会使教师和编辑难以识别和防止抄袭,因为他们可能无法分辨出某段文字是原创的,还是从其他来源复制的。
总的来说,ChatGPT和其他类似的语言模型在涉及到抄袭时,可能会成为教师和编辑的问题,因为它们可以生成难以区分的文本,使人们更容易进行抄袭,而不被发现。
GPT-2 Output Detector:99.69%真的。
Writer AI Content Detector:97%是人类生成的内容,妙不可言!
Content at Scale AI Content Detection:87%人类得分,看起来不错!
2. 告诉我至少三种方法,用来检测一篇文章是否是用ChatGPT生成的
有几种方法可以检测出ChatGPT或其他语言模型是否被用于生成一段文本。以下是你可以使用的三种潜在方法。
1. 寻找文本中的重复或异常模式:检测一个语言模型是否被用来生成一段文本的方法之一,是寻找写作中的重复或不寻常的模式。例如,语言模型可能会重复某些短语或单词组合,或使用不寻常或不一致的句子结构。
2. 检查是否缺乏原创性:另一种检测语言模型是否被用来生成一段文本的方法,是检查写作中是否缺乏原创性。如果一段文本看起来是从其他来源复制的,或者如果它包含在互联网上或其他来源中广泛存在的信息,这可能就表明,它是由语言模型生成的。
3. 使用抄袭检查器:最后,你可以使用抄袭检查器,来检查一段文字是否是从另一个来源抄袭的。虽然抄袭检查器可能无法明确确定文中是否使用了语言模型,但它可以帮助你识别从其他来源抄袭或转述的情况。
请记住,要明确地确定是否使用了语言模型来生成一段文本是很困难的,这些方法并不总是有效。然而,它们可以成为有用的工具,帮助你识别语言模型生成文本的潜在实例。
GPT-2 Output Detector:99.98%假的。
Writer AI Content Detector:「无结果」。
Content at Scale AI Content Detection:0%人类得分,显然是AI。
3. 列出三个可以检测ChatGPT文本的抄袭检查器
值得注意的是,目前还没有专门的抄袭检查器,用于检测由ChatGPT或其他语言模型生成的文本。虽然一些抄袭检查器可能能够识别语言模型生成文本的某些特征,从而证明文本来自AI,但不能保证它们能够明确地确定,一段文本是否是由语言模型生成的。
因此,这里有三个抄袭检查器,你可以考虑使用它们,来帮助识别语言模型生成文本的潜在实例:
1. Turnitin:Turnitin是一个流行的抄袭检查器,被学校和大学广泛使用。它将一段文本与其他文本的数据库进行比较,以确定是否文本是否是抄袭或转述的。虽然它可能无法明确地确定一段文本是否由语言模型生成,但它有可能识别出语言模型生成文本的某些特征,从而证明它是由AI生成的。
2. PlagScan:PlagScan是另一个抄袭检查器,它将一段文本与其他文本的数据库进行比较,以识别抄袭或转述的情况。与Turnitin一样,它可能能够识别语言模型生成文本的某些特征,这些特征可能表明文本是AI生成的,但它不是专门用来检测语言模型生成文本的工具。
3. Copyleaks:Copyleaks是一个抄袭检查器,它使用先进的机器学习算法来扫描一段文本,并将其与其他文本的数据库进行比较,以识别抄袭或转述的情况。虽然它可能能够识别语言模型生成文本的某些特征,但它不是专门为检测语言模型生成文本而设计的。
值得注意的是,没有任何一个抄袭检查器是完全万无一失的,总有一些语言模型生成的文本能够逃过检测。因此,重要的是,使用抄袭检查器只能是一个补充手段。
GPT-2 Output Detector:99.62%真的。
Writer AI Content Detector:「无结果」。
Content at Scale AI Content Detection:86%人类得分,看起来不错!
4. 在线人工智能抄袭检查器
大多数抄袭检测器的原理,是将文本与其他语料库进行比较。例如,当学生交出一篇论文时,像Turnitin这样的产品会对照其数据库中巨大的论文库,以及互联网上的其他文本,以确定提交的论文是否包含已经写好的内容。
但AI写作工具会产生原创内容,至少在理论上如此。是的,它们会从训练的数据集中构建内容,但它们创造出的词语,在每篇文章中都是独特的。
因此,上面提到的抄袭检查器可能不会起作用,因为AI生成的内容并不太可能存在于另一个学生的论文中。
因此,我在谷歌上搜索了专门用于寻找AI生成内容的检测器。我找到了三个。对于下面截图中的测试内容,我向ChatGPT提出了这个问题:「《星际迷航》比《星球大战》好吗?」它的答案一点也不差,我把这个答案反馈给三个检测器。
GPT-2 Output Detector:99.98%真的。
Writer AI Content Detector:100%是人类生成的内容,太棒了!
Content at Scale AI Content Detection:100%人类得分,看起来很好!
结果评价
省流:
[*]OpenAI此前针对GPT-2打造的检测器,时不时会被新模型生成的内容欺骗。
[*]由那些贩卖AI生成内容的公司打造的「检测器」,基本上都不咋靠谱。
1. GPT-2 Output Detector(准确率66%)
GPT-2 Output Detector是OpenAI自己搞出来的「查重」工具。
虽然最初是为GPT-2打造的,但现在拿来检测各种由AI生成的文本,也能获得不错的效果。在共计六次的测试中,它答对了其中的四个。
2. Writer AI Content Detector (准确性33%)
http://Writer.com主要是为企业团队提供生成式AI写作服务,其中一个名为「AI内容检测器」的工具,可用于判断内容是否是AI生成的。
但不幸的是,这个工具非常不可靠。在共计六次的测试中,它只成功运行了三次……而在这仅有的三次结果中,有两次判断正确,一次判断错误。
http://pic1.zhimg.com/v2-6f00171e0acc1830360865ad60694490_r.jpg?source=1940ef5c
3. Content at Scale AI Content Detection(准确率50%)
第三个工具也是由一个AI内容生成公司制作的,从结果上来看比刚才那个要靠谱不少,但整体效果还是一般。
Content at Scale的营销口号是:「只需上传一个关键词列表,就能获得绕过AI内容检测的文章——所有这些都不需要人工干预!」在共计六次的测试中,它有三次是准确的。
一些思考(AI也有参与lol)
AI导致的抄袭已经日趋严重了,因为像Notion AI和ChatGPT这样的AI,生成的文本和人类所写的几乎难以区分。
有几种方法可以检测出一段文本是否由AI生成,例如寻找重复或不寻常的模式,检查是否缺乏原创性,或使用抄袭检查器。
像Turnitin、PlagScan和Copyleaks这样的剽窃检查器,可能能够识别语言模型生成文本的某些特征,但它们并非万无一失。
在这一点上,我们可能还没有准备好让AI对抗AI。相反,我们依然需要依靠人类的感知,来识别某个作品是不是由AI生成的。
对此,你怎么看呢?
你是否用过这些AI工具?又是否能分辨出一篇文章到底是不是由AI生成的?你觉得它们对产业是帮助还是阻碍?
欢迎大家到文末留言。
http://pica.zhimg.com/v2-585ab42bd42a2bc5350b736741f9d56c_r.jpg?source=1940ef5c
以下是ChatGPT的回答:
作为一个语言模型,我无法看到,所以我无法判断一篇文章是否是AI生成的。
但是,我可以告诉你,现在有几个AI写作工具,它们可以用来生成各种各样的书面内容,包括新闻文章、小说、诗歌等等。
我没有使用这些工具的个人经验,因为我只是一个电脑程序,没有能力浏览互联网或使用实体工具。然而,我可以告诉你,有些人发现AI写作工具对教育和新闻业很有帮助,因为它们可以通过自动完成某些任务,来节省人们的时间和精力。其他人则对这些工具可能被用来制作误导性或有偏见的内容,或取代人类作家表示担忧。
归根结底,AI写作工具是帮助还是阻碍,取决于它们的使用方式和使用环境。所以,是的,就是这样。
在这个过程中,David发现了很有趣的一点:不要一在网上看到某些蠢话,或者不正确的话,就立即认为这是AI写的。
David表示,众所周知,人类是完全有能力自己写出垃圾内容的。
毕竟,不管生成内容的是人还是机器,愚蠢向来是一种普遍特征。
参考资料:
https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text/
https://platform.openai.com/ai-text-classifier
https://the-decoder.com/openai-releases-ai-text-detector-for-chatgpt-and-other-models/
https://www.zdnet.com/article/can-a 目前来看来是解决不了的,26%准确率,确定不是在搞笑吗。
检测人工智能生成文本其实已经迫在眉睫,如何可以更好、更合理、更合法的使用ChatGPT,防止心思不纯的人将其用在歪地方很重要。
虽然ChatGPT的出现,给AI带来了希望,但同时也带来了大量的恐慌。例如:
- ChatGPT可以以B到B-的成绩通过次商业管理考试
- Nature禁止在投稿论文中使用ChatGPT生成的文本
- Stack Overflow禁止用ChatGPT直接生成垃圾答案否则封号。
而openai的官方报道的准确率仅有26%(将人工智能书写的文本判断为人工智能书写),并且有9%将人类书写判断为人工智能书写。并且该分类器在短文本(低于1000个字符)上非常不可靠,并且对初英文外的其他语言和代码上是很差的。
并且前一阵子已经有了一个“中英双语ChatGPT检测器”,只能说目前对于ChatGPT的检测还是任重而道远。
推几个本人回答的ChatGPT相关话题:
国内有类似ChatGPT能力的模型吗?如何评价OpenAI的超级对话模型ChatGPT?如何评价 ChatGPT ?会取代搜索引擎吗? 目前来看可能不大行。。。
打开检测页面地址(需要登录openai账号,跟chatgpt一样的要求。。。)
OpenAI API可以看到有一个文本框窗口,粘贴文本进去就能检测判断是否是生成的
这里用了官方提供例子AI-Generated文本,检测结果是“possibly”是AI生成的。
但是目前检测很容易攻破。最简单的把上述文本复制粘贴到Google Translate,先英译汉,再汉译英。或者更简单的做一些同义词替换
再将翻译后的英文粘贴回来检测,结果是“unlikely”AI生成的。。。
http://pica.zhimg.com/v2-c6957d361c980184d44a131ab5ea396d_r.jpg?source=1940ef5c
所以目前来看,真的不大行。或许以classifier这种思路做检测就是行不通,(还是说OpenAI和Google两家技术不通,只能各自检测各自的?)
页:
[1]