如果互联网逐渐充溢 AI 生成的有瑕疵的内容，将来基于这些信息训练的 AI 会不会更加离谱？

@lucky · 发表于 2023-6-20 19:42:28

自在狗LXY · 发表于 2023-6-20 19:43:16

我觉得会，所以我和 ChatGPT 聊了一下，以下内容是 ChatGPT 写的。
注：这是一篇 ChatGPT 创作的倡议书，著作权归 ChatGPT 所有。后文附我和 ChatGPT 的对谈过程。
<hr/>倡议书：
当今社会，人工智能已经成为了日常生活和工作中的重要组成部分。AI技术需要大量的语料库来训练和提高其性能，但是，如何获取真实、有用的语料库仍然是一个难点。同时，随着AI技术的发展，越来越多的人开始使用AI生成的内容，这也引发了一些新的问题。
在此背景下，我们倡议网友或AI使用人员在发表AI生成的内容时，明确标注其为AIGC（Artificial Intelligence Generated Content）内容。这有助于我们更好地识别和管理不同类型的语料库，并且让我们更好地理解AI技术的现状和发展趋势。
AI学习的大概原理是通过大量的语料库进行训练，以建立相应的模型，从而使AI能够对人类的问题作出相应的回答和决策。但是，对于一些非常先进的AI生成的内容，它们并非真实的语言使用情况，可能包含很多错误或不准确的信息，对模型的性能可能会产生不利影响。
因此，我们需要尽可能多地获取真实、有用的语料库，并在使用AI生成的内容时明确标注其为AIGC内容。这样可以保证模型在训练时学习到的是真实的语言使用情况，从而提高模型的性能。标注AIGC内容还能够帮助人们更好地了解AI生成的文本的特点和局限性。
在这里，我们向广大网友和AI使用人员呼吁：在发表AIGC内容时，请明确标注其为AIGC内容。我们相信这样的倡议可以使AI技术更好地服务于人类，也能够让我们更好地掌握AI技术的发展方向和趋势。
<hr/>（以下是生成这篇倡议书的对谈过程）
问：你好，假设我是一名记者，需要采访有关人工智能学习语料相关的内容，现在我会和你交流几个问题。

答：你好，我很乐意回答你有关人工智能学习语料的问题。请问有什么需要我帮忙解答的吗？

问：ChatGPT是否依靠大量的语料内容进行训练？你的英文语料、中文语料主要来源是什么？

答：是的，我依靠大量的语料内容进行训练。我被训练的模型使用了数十亿级别的文本语料，包括英文、中文和其他多种语言的文本。
我的英文语料来源包括维基百科、新闻、网站、图书、社交媒体和其他公开的文本数据集。中文语料来源包括维基百科、新闻、博客、论坛和其他公开的文本数据集。
这些语料都是经过筛选和清理的，以确保其质量和可用性，同时也保护了隐私和版权。通过这些语料的训练，我可以更好地理解并回答用户提出的问题。

问：现在网络上有很多由各种AI生成的文本，你是否能有效分辨这些文本？AIGC内容是在原语料库的基础上生成的，你觉得AI重复学习这些AI文本有意义吗？是否会造成信息量的不断损失？

答：作为一名人工智能模型，我可以区分由人类撰写的文本和由其他AI生成的文本。然而，对于一些非常先进的AI生成的文本，我可能也会无法轻易分辨出其真实性。
对于AI生成的语料，有一些研究表明，过度依赖这些语料会导致模型的性能下降。这是因为这些AI生成的语料并非真实的语言使用情况，它们可能包含很多错误或不准确的信息。如果模型过多地使用这些语料进行训练，那么模型可能会学习到这些错误和不准确的信息，导致其性能下降。
此外，如果一直使用相同的AI生成的语料来训练模型，会导致模型过度适应这些语料，并失去对其他更广泛的语言使用情况的适应性。因此，不断向模型引入新的真实语料是十分重要的，以保证模型能够适应各种不同的语言使用情况，并且具有更好的泛化能力。

问：现在网络上已经有很多人发布AIGC内容了，你觉得是否有必要要求或者倡议他们在发布这些内容时明确标注为AIGC内容，以便在整理语料库时进行剔除，保证ChatGPT尽可能多地学习真实语料而非AIGC内容。

答：我认为标注AIGC内容是有必要的，这样能够帮助整理语料库时更好地区分出真实语料和由AI生成的内容，从而减少对模型性能的影响。标注AIGC内容还能够帮助人们更好地了解AI生成的文本的特点和局限性。
另外，一些研究人员和开发者已经在这方面提出了倡议和标准。例如，OpenAI在其GPT-3的论文中明确指出，其模型使用的语料库不包括自动生成的文本，而是由人类编辑的内容。因此，对于AIGC内容，应该标注其来源和特点，以便更好地管理和利用这些数据。

问：好的，很高兴我们在这个问题的看法上达成了一致。现在，请结合我们刚才所采访的内容，帮我写一篇倡议书，倡议网友或AI使用人员在发表AIGC内容时，明确标注其为AIGC内容。你应该阐明AI学习的大概原理和真实语料库的重要性，以达到倡议的目的和效果。

答：（生成上文的倡议书）

<hr/>后记：
之所以讨论这个问题，主要有两个原因：
一是现在 ChatGPT 太火了，各种平台，各个网站，都有或认真或寻乐子的人在以各种各样的方式发布 AIGC 内容，这本身并不是什么问题，毕竟发明工具就是要用的，能有更快捷的工作方式为何不用。
二是我在试用 NewBing 之后，发现 NewBing 答案中给出的（中文）参考来源，很大比例都是知乎。再联想到越来多人都在用 ChatGPT 答题，我在想将来会不会有这样一种恶性循环，网络上逐渐充斥着 AIGC 内容，AI 再不断学习这些内容，真实语料越来越少，最终生成的内容质量必然也会下降。
AIGC 是基于训练语料库或模型的重组内容，举个不恰当的例子，这种生成方式好比「有损压缩」，尽管它能够有一定理解能力，并对文本进行重组，但其中的信息量相比真实文本是有所下降的。如果不能有效分辨、剔除这些 AIGC 文本，在将来的训练中语料库的质量也会下降。
这可能是我的杞人忧天，但不论从政策监管（网信办关于深度合成内容的管理办法），还是平台运作考虑，还是为了将来的内容质量，大家都应该标明「包含 AI 创作内容」。
很高兴看到，知乎已经在创作声明中，添加了这样的选项：

因此，我希望大家在发布 ChatGPT 内容时，随手声明为「AI 辅助创作」。说不定将来的搜索引擎就会屏蔽/剔除这些内容。不过这只是一份倡议，也请大家随心而行。
附互联网信息服务深度合成管理规定-中共中央网络安全和信息化委员会办公室（这是对提供服务平台的要求）

第十七条 深度合成服务提供者提供以下深度合成服务，可能导致公众混淆或者误认的，应当在生成或者编辑的信息内容的合理位置、区域进行显著标识，向公众提示深度合成情况：
（一）智能对话、智能写作等模拟自然人进行文本的生成或者编辑服务；
（二）合成人声、仿声等语音生成或者显著改变个人身份特征的编辑服务；
（三）人脸生成、人脸替换、人脸操控、姿态操控等人物图像、视频生成或者显著改变个人身份特征的编辑服务；
（四）沉浸式拟真场景等生成或者编辑服务；
（五）其他具有生成或者显著改变信息内容功能的服务。
深度合成服务提供者提供前款规定之外的深度合成服务的，应当提供显著标识功能，并提示深度合成服务使用者可以进行显著标识。

以上。

linjianqa · 发表于 2023-6-20 19:43:32

不会更加离谱，而是更加平庸
AI也不是从GPT才开始学会生成内容的，所有分类，检测，识别，转换模型都是在生成内容，只是生成的内容很简单而已，但是这些生成的内容是不可以重新用于训练的，那样会造成模型逐渐劣化，会劣化到一定程度之后稳定在一个低水平。
比如 OCR的文字识别模型，你找很多很多图片让它识别，但是识别结果一定有错误，所以识别结果是不能直接再送给模型作为训练样本的，必须经过人工校对修正才行。
机器翻译也是同理，你不能把机器翻译的结果拿去当平行语料做训练，必须人工校对修正后才行。
OCR，机器翻译这种模型，如果可以利用自身生成的结果做训练那么它的样本早就是无穷多了，实际上是根本不可以。你这样做就会导致模型越来越差，最终停留在一个较差的水平上。就像数学上一个函数经过无数次迭代最终会收敛到极限。
OCR，机器翻译这种还是小模型，小样本，相比GPT来说，所以可以控制它的输入样本不受污染，但是GPT模型普及后，生成的内容将会是海量的，这些内容根本不可能由人工筛选修订，那么这些生成的内容就会进入后续的训练样本，从而污染模型，导致模型逐渐劣化。
对于检测识别转换类的模型，劣化的表现就是错误率上升，对于GPT这种生成式模型劣化的表现就是越来越平庸，它不会犯语法字词错误，但是生成的内容越来越空洞，没有思想，越来越像正确的废话文学表演艺术家。
AIGC逐渐普及的趋势是不可避免的，但是人类也需要应对方式，那就是重新重视起人类的创作能力，也许真正人类的创作会变得更有价值，那些经过人类反复确认修订的事实，那些有灵魂的优美的文学，那些充满严谨逻辑思辨的著作，会被赋予更高的价值，也许会产生一种新的价值评估分配体系，用来给真正的知识标定价格。

心在江湖飘 · 发表于 2023-6-20 19:44:15

就好比一个数据集中存在一个错误数据，他不会去判断这个数据到底是不是错的，这个数据作为AI的训练样本进行无数次迭代，最终生成有瑕疵的结果，然后这个有瑕疵的结果又会成为其他AI的训练样本。类似误差传播效应，越迭代越离谱基本上是板上钉钉的。在不加监管和清理错误数据的情况下，GPT的爆火已经可以遇见一场互联网数据灾难的发生。
这种时候，对于个人而言，还是要充分发挥个人意识的主观能动性，理性的去判断和摄入有用信息，不要把AI当成信条，而是作为辅助决策的工具。人才是根本的创造者。

LINSJX · 发表于 2023-6-20 19:44:53

很多人鼓吹ai生成内容的速度，说这是利好，是优势。
但是在我看来，这可能是一个很恐怖的隐患。
如果ai一个月就可以在互联网上填充出之前人类几年输出的内容，那一年后呢？五年后呢？
那以后你上网，很可能无论是图片还是音乐还是文字，百分之99的内容都是ai填充的，而且你还很难分辨出来，再加上目前ai这种似是而非的内容质量。
这不就是妥妥的污染吗？
到时候信息流被污染了，人类失去了上网的热情，ai也很难再利用人类输出的优质内容进化，那等待全人类的也许就是互联网的崩溃。
所以，ai内容的强制标注，无论是为了维护人类信息流的纯粹，还是为了ai的后续进化，都是必不可少的。

nihaoooo · 发表于 2023-6-20 19:45:39

一句话回答：是的，原始数据不可能做到完美无瑕，所以我们必须要对语料库先进行数据清洗，再喂给算法生成模型。
<hr/>训练语言模型需要的是有监督学习，也就是我们在生成式AI训练时一直强调的数据清洗。数据清洗，顾名思义就是在本身的原始数据集上对低质量的、无效的数据进行筛选。
我没有训练过语言模型（在坐的各位想必也是没有在那几个大公司训练上亿参数的语言模型的经历的），但是快五个月研究AI绘画的经历中，我和小伙伴们研究过训练自己的stable diffusion的checkpointing。在一次次的成功与失败中，我深刻地意识到对原始图库的筛查是多么的重要。炼一个模型绝对不是你写个爬虫把网站的图片爬下来然后扔进丹炉里炼那么简单，对图片质量的把控和图片内容的筛查、清洗才是当你跑了多少个epoch后最终质量的决定性因素。
我记不清ChatGPT的详细数据了，但是我记得论文里说的是OpenAI花了半年的时间来进行整理和微调，做RLHF人类反馈中学习强化学习，做人工数据清洗，只是打标签既耗时又耗钱（人工标注这块实际上是最花钱的）。

下面来举一个反例，如果我们拿着有毒的有害的数据训练出的语言模型是什么样子（#滑稽）：

据说是百度的语言模型的测试截图，是个杠精

		自动登录	找回密码
密码			立即注册

如果互联网逐渐充溢 AI 生成的有瑕疵的内容，将来基于这些信息训练的 AI 会不会更加离谱？

本帖子中包含更多资源

本帖子中包含更多资源