你是如何判断一个内容是由 AI 生成的？

沧浪先生 · 发表于 2025-7-8 21:04:12

人类与 AI 的共创之路，将会把我们带向哪里？4 月 1 日至 4 月 26 日，我们一起漫谈 AI 时代人类创作可能的明天。
更多出色见：

沁纷赋痖521 · 发表于 2025-7-8 21:05:12

不如用 AI 来对付 AI 吧！
揪出「AI 缝合怪」「电子作家」最方便快捷的方法就是交给 AI！使用 AI 检测工具，能够以 96% 左右的准确率识别 AI 生成的内容。
比如 AI or Not 检测工具：https://www.aiornot.com/dashboard/home
这个工具需要登录，但检测速度快且准确率高，能够迅速检查图像、音频、KYC 文件和视频是否由 AI 生成。

AI or Not 提供免费计划，每月 10 次图像检查；基础计划，每月 5 美元，100 次图像检查；专业计划，每月 250 美元，10000 次图像检查；以及定制的企业计划。更高级别的计划包括 API 访问和音频检查等附加功能。

严正申明：无广！

青龙偃月EEBB · 发表于 2025-7-8 21:05:55

一个特点是过于工整，或者在非专业类回答下夹杂比较多专业名词。
另外就是缺乏情感表达，过于理性，缺少个人经验而是充满理论总结和推演。
当然这其实可以通过一些提示词技巧来避免，比如提示AI 减少过于条理化的表达，或者主动对AI 补充一些个人经验或情感。

草莓妹女魔頭 · 发表于 2025-7-8 21:06:26

ai的话就是由于快创作导致有一些细节不符合常理，在图片内容尤其明显，例如手指处就是偏明显的，文字方面拿英语来说（英专生）内容比较空泛，从几个大点来说，如果是拿原文训练的话还行，基本和问题的回答没什么出入，其实在英文方面，AI做得已经比较好了，如果是作文，很明显一些资料会空出来，例如以“有什么什么研究表明”，往往没有实际的数据，因为你描述的东西不一定存在案例，但AI就给你胡编乱造出来，因为它以达成目的为主。

香港长跑发烧友 · 发表于 2025-7-8 21:06:40

对于判断一个内容是由 AI 生成的是如何判断呢？其实我认为每个人和每个人判断的角度是不一样的，每个人有着每个人的想法和观点，而我对于AI生成的和不是AI生成的判断最重要的办法就是，AI生成的内容都是通过大数据分析筛选拼凑出来的文章，虽然看起来比较人机，不能吧把词汇描写的琳琳精致，却会给人一种不真实的感觉，不像我们真人创作出来的，不仅仅找不到一样的，它是唯一的，我们在创作出来的时候还给文章注入了情感，所以我们在读的时候总是给人眼前一亮的感觉。

yu滴o · 发表于 2025-7-8 21:07:05

正好结合我在另一题下的回答来谈谈我对「文字是否由AI生成」的整体判断标准：
「AI 识别眼力赛」文字组开赛！你能否分辨出哪个由 AI 生成，哪个是人的创作？
先抓重点复述一下这10题我的判断依据：

第1组：人工的语句更加简洁有力，AI则过于冗杂重复。
第2组：人工使用了不常见的、AI不太可能从语料中学到的意象/词汇；人工整体上的描写顺序比较自然，AI句与句之间的连接转换显得比较生硬。
第3组：AI乱用比喻。
第4组：人工写的有短碎句、口语化的表达、比较灵活的句式，AI暂时做不到。另外AI不太理解何时应保持用语连续一致、何时应该进行变化。
第5组：人工的语句恰当地运用了对仗和拟人手法；AI引入了和莫名其妙、和后文无关的意象。
第6组：人工有着某种「拙劣的西式中文」的语法风格和非常规的用词，以至于我一开始认为这是译者故意摆烂的结果
第7组：人工的用词精炼，叙事视角转换流畅有逻辑；AI使用了无理的比喻，叙事视角转换凌乱，前后句逻辑上的关联和使用的连接词矛盾。
第8组：AI堆砌辞藻。
第9组：人工形容词活用作动词；结合上下文可知，AI的某处改写改变了原意。
第10组：AI花里胡哨。

这里我先排除掉第7组——除此之外的各组都已经有答主确认了原文出处，只有第7组是出题人用自己的续写和AI的续写进行对比（虽然我相信我的判断是正确的，但是还是先不放这个大话为好……
其次再排除掉第6组——这个原因就不多说了……
剩下的这几组大概可以（有重复地）分为三类：

第1、2、3、5、8、10组：遣词造句问题；
第4、9组：写作手法问题；
第2、5、9组：文本理解问题。

前两个基本上是老生常谈了，比如这个展示如何被DeepSeek腌入味的回答：
大家评论「一眼 DeepSeek」时，一般是看到了什么才做出的这个判断？
作者 @momo （太多momo了……

纹，蚀，锈，骸，铸，褪，瞳，灾，皱，烙，
裂，吞，洇，融，茧，叩，焚，叠，屑，噬，
痂，印，疤，渍，绡，斑，熔，嵌，烫，烬，
褶皱，蝴蝶，青铜，指纹，掌纹，褪色，蝉蜕，琥珀，窗棂，纽扣，蛛网，涟漪，徽章，劫灰，熔铸，洪荒，裂缝，投影，数据，混沌，闭环，叠加，坍缩，构建，硅基，晶格，矩阵，算法，悖论，奇点，逻辑，多维，符号，转化，内嵌，嬗变，维度，赛博，虹膜，意象，解构，电子，多元，代码，像素，熵增，解剖，递归
AI，拼贴，意识流，蒙太奇，区块链，
存在主义，量子纠缠，拓扑结构，时空错位，
二进制编码，莫比乌斯环，三十七年前的蝉蜕，

但是我认为，通过喂更多的语料，前两个问题还是能改善的；
所以这里我重点谈谈最后这个「文本理解问题」。
<hr/>我试着做了个小实验，把第2组的人工原文喂给Claude 3.7 Sonnet让它改写，然后逐步给它增加语料，比如原作者欧阳江河的诗集，然后我得到了下面这一组结果：
第2组人工原文：

双唇紧闭的、咬紧牙齿的春天，
从舌头吐出毒蛇的咝咝声，
阴影和饥饿穿过狼肺，
在直立的血液中扭紧、动摇。

第2组AI生成

沉默的春天咬紧牙关，
舌尖游出银鳞的咒语，
暗影啃食着月光的残渣，
血潮直立，拧碎每一粒盐的清醒。

Claude 3.7 Sonnet + 自定义“欧阳江河”风格

咬合命运的春天，双唇紧锁，
从语言的裂隙中漫溢毒性的低语，
饥饿与阴影在野性肺叶间游走，
血液的立柱摇晃，如同时间在颤抖的真理中旋转。

Claude 3.7 Sonnet + 自定义“欧阳江河”风格 + 微调prompt

双唇紧闭的春天，在牙齿的迷宫中
吐出如同时间碎片的毒咝声，
阴影与饥饿在狼肺深处交织成诗，
血液直立如柱，在不安中扭转历史的脊梁。

Claude 3.7 Sonnet + 自定义“欧阳江河”风格 + 在prompt中附上诗集

春天紧咬着唇齿，不言不语，
蛇信从舌尖吐出黑暗的毒音，
饥渴的阴影穿透狼的肺叶，
血液在站立中震颤，在扭曲中凝固。

Claude 3.7 Sonnet + Extended Reasoning + 自定义“欧阳江河”风格 + 在prompt中附上诗集

这春天紧咬牙关、吞噬言语，
蛇毒般的叹息从喉咙深处逸出，
饥饿如阴影穿透狼的肺叶，
而血液直立着，在寒颤中扭曲自身。

首先注意到的一点是，一开始Claude也有点DeepSeek化了，出现了比如”时间碎片“、‘扭转历史的脊梁“和”时间在颤抖的真理中旋转“这种假大空的意象。
但是当我在prompt中附上诗集以后，某种程度上抑制了Claude的自由发挥，遣词造句上味儿就没那么重了。
这也就是我说的，通过喂语料限制AI的发挥空间，一定程度上可以改善它瞎用词的毛病，也可以控制它更接近我们想要的文字风格（比如原题第6组AI生成的接近民国杂文那种半文半白的风格）。
<hr/>但紧接着问题就来了。每一个AI改写的最后一句话，都出现了一个相同的错误：
请问各位读者，在原诗当中，“扭紧、动摇”的主语是谁？
我想大多数读者都能意识到，主语应该是上一句的“阴影和饥饿”。
然而，AI改写却分别给出了“血潮拧碎盐的清醒”、“血液如时间旋转”、“血液扭转历史的脊梁”、“血液在扭曲中凝固”、“血液扭曲自身”的错误答案——这是跟这个“血液”过不去了……
另外，最后两个改写在第三句话中都把”阴影和饥饿“这个并列结构改成了偏正结构，前一个是“饥渴的阴影”，后一个是“饥饿如阴影”
也就是说，AI在改写时，根本就没有读懂这句诗，甚至连最基本的语法结构都没搞清楚。
所以在第9组中我提到：

其实读完B就能意识到A中将“魂魄的白”改写为“富有灵魂的白”是错误的：这里不是说“白”有了自己的灵魂，而是说这是一种从灵魂深处感受到的、某种世界本源上的“白”（或者说“纯净”）。

这实在是超出AI的能力范围太多了。
<hr/>某种意义上，我觉得这其实是非常经典的「温诺格拉德」测试的升级版。
所谓「温诺格拉德」测试是指这样的问题：
如果你是图灵测试者，你会问机器什么问题？ @王笑笑

猫坐在毯子上，因为它很温暖。什么很温暖？
猫坐在毯子上，因为它很冷。什么很冷？

回答这类问题需要了解世界运行的各种常识，比如什么是猫，什么是毯子，当猫坐在毯子上时，是谁需要谁，谁温暖谁。
我擅自作个划分：什么是猫，什么是毯子，这可以算作是“一阶常识”，而猫与毯子的互动，这其实是”二阶常识“：它蕴含了”一阶常识“（你得知道猫和毯子是什么，才能谈论猫与毯子的互动），但又有额外的信息（猫因为冷才会要毯子，毯子得是暖和的猫才会要）。
按照这个划分法，上面这个文学作品改写的任务当中蕴含的”常识“，至少得是“三阶常识”。
AI不仅得明白“阴影和饥饿”是什么（一阶），还得明白”阴影和饥饿“为什么会”扭紧、动摇“（二阶），还得明白为什么这些和前面的“春天“有关系（三阶），等等。
我大概判断，因为「温诺格拉德」测试的流行，LLM都有针对性地处理，所以AI大多数时候是能处理二阶常识的，但是对于更高阶的常识恐怕就有点无能为力了；甚至由于它用它不足以理解三阶常识的脑子去试着理解，连带着一些更低阶的常识能解决的问题它也解决不了了。
比如说，我试着直接问Claude，最后一句当中的“扭曲、动摇”的主语是谁（在我的划分里这是个二阶问题），它的回答一开始是正确的：

在这首诗中，&#34;扭紧、动摇&#34;的主语是&#34;阴影和饥饿&#34;。根据句子结构，阴影和饥饿穿过狼肺后，在直立的血液中扭紧、动摇。
整个句式构建了一幅紧张而动荡的春天意象，其中自然力量（阴影和饥饿）像蛇一样穿行于狼的身体中，然后在血液中造成扭曲和动摇，暗示了一种原始、野性的生存状态。

然而到了第二段话，且不谈狼本身也是比喻义（毕竟原文过短，理解不出来实属正常），单说这里“自然力量（阴影和饥饿）像蛇一样穿行于狼的身体中”就比较明显地理解有误，因为关于蛇的部分和关于狼的部分其实是相对独立地并列存在的。
<hr/>正是因为AI其实理解不了很深层次的逻辑关联，所以会出现这样一种情况：
看似文本上符合逻辑要求，但是其意义上却没有这种逻辑顺序。
换句话说，AI会非常准确、专业地使用连接词，比如“因为……所以……”，但是它写的“因为”后面的内容，不一定和“所以”后面的内容构成因果关系；它写的“……然而……”前后也不一定是转折。
我之前用AI辅助写报告的时候就注意到，比如谈论某事件A有五篇报道，其中两篇A1/A2是关于A的起因，一篇A3是关于A的现状，还有两篇A4/A5是关于A的未来发展。
如果让人工分三段总结一下这五篇文章，我觉得大多数人都能准确地分成起因、现状、未来这样。但是如果让AI分三段总结，几乎不能保证它会把哪几篇报道分在一起；同时，分在一起的文章会被无脑建立联系，没有因果关系也强行上“因为……所以……“等等。

		自动登录	找回密码
密码			立即注册