lixuexin22 发表于 2024-1-16 13:23:22

如何评价 ChatGPT 的本质,其实是一个性能强大的数据无损压缩器?

在比来OpenAI的学术分享会中,Jack Rae提出了一个重要的论断:大语言模型的本质,其实是一个性能强大的数据无损压缩器。

三月1234321 发表于 2024-1-16 13:23:59

这个说法其实是非常有道理的,也是个很重要的角度。
无损压缩算法是啥,我们拿最常见的LZW压缩算法为例。压缩时将符号序列(也就是文本)从左到右输入,遇到未见过的子序列就提取出来放到一个表中,遇到见过的子序列就用表的索引替代,最后得到了一个词汇表和一个数字序列。解压缩时,根据词汇表将数字序列替换为词汇,就还原了符号序列。
所以在无损压缩算法中,符号序列的表示形式变了,但信息一点也没有丢掉。
而基于大语言模型的AI的学习过程其实也是提取符号序列之间的统计关系,这样就可以根据我们prompt进去的符号序列推测我们想要获得的符号序列。而ChatGPT记住是这些符号序列之间的关系,而非所有用来学习的文档。我们可以prompt进去的符号序列的长度是被限制的,这就类似于LWZ算法中那个词汇表和数字序列,属于已经“被压缩”的内容。而ChatGPT可以将这个较短的符号序列展开为较长的符号序列,也就是我们见到的它的回答,属于“被压缩”的内容。
至于ChatGPT到底是不是无损压缩,提出提供的信息看不出来。

忘典 发表于 2024-1-16 13:24:29

我不认为ChatGPT和所谓无损压缩有什么关系,关键在于数据是如何存储,检索并生成的。个人认为ChatGPT所代表的生成式大模型更接近70年代爆红的符号学派的知识库系统。
首先,大语言模型是基于Transformer的深度神经网络,它对数据进行Word Embedding和Context Attention两级建模,把Word Embedding替换为其他模态数据可以统一处理多模态数据。深度神经网络是通用的统计模型,其参数是通过统计学习自动获得,大模型的生成也是基于十分简单的统计原理。与之对比,知识库系统的参数是人工输入,生成是通过数理逻辑的谓词演算。大模型的统计生成方法是否等效与二阶谓词演算是个极为重要的理论问题。现在GPT4已经表现出了一定的推理能力,我认为大模型生成和二阶谓词演算在极限条件下是等效的,谁能证明它很可能获得图灵奖。
当然二者也有很大不同。以求解NP完全问题为例,谓词演算可以很简单的得到确定解但无法在P内完成,使得符号学派在80年代成为中看不中用的垃圾。大模型可以在P内完成,但要牺牲准确性,给人以一本正经说瞎话的印象。一个需要NP的计算来保证准确,另一个需要超大的参数来提高准确,二者在极限条件下等效,而后者显然更实用。
所以说大模型本质上是一个有损的数据存储和生成系统,数据在训练和生成时都是有损的,目的是通过牺牲准确性,建立一个通用的在P内求得NP完全近似解的方法。如果是无损的话,也就证明了NP完全等于P。一个无损的数据压缩系统必然会成为符号学派知识库一样的,准确但无法真正解决任何难题的垃圾。

heyond 发表于 2024-1-16 13:25:29

感知到的表象,和本质的区别巨大!
chatgpt回答
问:Jack Rae提出了一个重要的论断:大语言模型的本质,其实是一个性能强大的数据无损压缩器

答:Jack Rae的这个论断是有一定道理的。大语言模型本质上是一个神经网络模型,它的目标是预测下一个单词或者一段文本,这个预测过程需要使用大量的文本数据进行训练。在训练的过程中,大语言模型会学习到文本中的统计规律和语言结构,从而能够生成符合语法和语义的自然语言文本。但是,这个预测的过程也可以被看作是对文本数据的压缩,即将大量的文本数据转化为一个神经网络模型,通过对输入文本的编码和解码来生成输出文本。
因此,从这个角度来看,大语言模型的确可以被看作是一个性能强大的数据无损压缩器,它可以将大量的文本数据压缩到一个神经网络模型中,同时还能够实现对输入文本的自然语言生成。这个性质使得大语言模型在自然语言处理领域中具有广泛的应用,比如文本生成、机器翻译、语音识别等。

问:为什么是无损压缩呢
答:大语言模型之所以被称为是一个无损压缩器,是因为它可以将原始的文本数据进行编码,然后在解码的过程中生成与原始数据完全一致的文本输出,即没有丢失任何信息。这种压缩方式被称为无损压缩,因为压缩后的数据可以被完整地恢复到原始数据,而不会损失任何信息。
在大语言模型中,原始的文本数据被编码为一个数学模型,这个数学模型可以使用更少的参数和内存来表示原始数据,因此可以视为一种数据压缩。在解码的过程中,数学模型被用来生成输出文本,这个输出文本可以与原始文本完全一致,因此没有丢失任何信息。因此,大语言模型被认为是一种无损压缩器。

问:如果是一个无损压缩器,为什么每次给出的回复会不同
尽管大语言模型可以被视为一个无损压缩器,但是由于其内部的复杂性和随机性,它并不是一个完全确定性的模型。这意味着,尽管输入相同,模型的输出结果可能会有所不同。这是因为模型的内部参数和随机性会影响模型的预测结果,同时输入的微小变化也可能会导致输出的差异。
在聊天机器人中,每次输入的文本可能略有不同,比如语言表达方式的变化、问题的具体细节等等,这些微小的变化可能会导致聊天机器人的输出结果有所不同。同时,聊天机器人的设计也可能会对输出结果产生影响,比如选择不同的回复策略、设置不同的回复概率等等,这些因素也可能导致输出结果的不同。
因此,尽管大语言模型可以被视为一个无损压缩器,但是由于其内部的复杂性和随机性,每次输出的结果可能会有所不同。


问:Jack Rae是谁
Jack Rae是一位研究人员,他是英国剑桥大学(University of Cambridge)的博士生,同时也是深度学习研究机构Mila的研究员之一。他的研究方向主要是深度学习和自然语言处理,他在这些领域中做出了一些有价值的贡献。其中,他提出的“大语言模型的本质是一个性能强大的数据无损压缩器”的论断,引起了广泛的讨论和关注。这个论断被认为是对大语言模型本质的一个深刻理解和解释。

jingjing8811 发表于 2024-1-16 13:25:50

Ilya Sutskever @ilyasut · Apr 20 The Ray of compression shines brightlyOpenAI的首席科学家Ilya也在不同场合多次谈了compression

作为研究数据压缩的人必须得蹭下热度

[*]LLM的pretrain过程等价于文本无损压缩的编码和解码过程:
压缩即智能:从数据压缩的角度理解chatgpt的训练epoch数

[*]无损压缩不是唯一解释,且无损压缩和pretrain过程对应的好,和推理过程对应的不好。而做rate-perception tradeoff的有损压缩能够同时解释训练和推理,且能大概推导出训练数据大小和模型大小的tradeoff
压缩即智能:如何科学地理解 ChatGPT Is a Blurry JPEG of the Web

[*]其实Hutter prize就有关于无损压缩和有损压缩的争议。有损压缩能够为pretrain,SFT和RLHF提供一个统一的解释
压缩即智能:从有损压缩统一理解ChatGPT的pretrain,SFT和RLHF

[*]“Lossless和lossy解释“还能推导出更多东西或提供更深入的理解吗?我还在思考

上帝也疯狂 发表于 2024-1-16 13:26:09

没那么多玄乎的,只是对学习做了一个重新定义。
先指明,题干里说的“数据无损压缩器”很有歧义,会让我们以为LLM真的是在做数据压缩。实际上Jack Rae只是在说:“学习”可以被理解为对有效信息进行无损压缩的过程。
有效信息的定义才是关键:实际上就是“语义信息”。以stable diffusion为例,一张图片里面绝大多数的pixel都是无用的,关键是能和prompt关联上的特征。
换而言之,大模型的学习过程并不是把原训练数据“无损压缩”并储存在参数中,实际上还是“有损”的,只是是丢掉了“非语义”的信息,只保留语义信息。
到这里的话,说LLM=compression基本上还是废话:谁不知道啊?压缩在哪里呢?提取语义信息就叫压缩了?
然后Jack Rae就进一步表示,不同的模型,不同的工具还是有差别的——虽然都是语义信息,但是不同的模型表示一个相同的知识所耗费的代价不一样:比如一步字典通过枚举英语的所有单词来记录英语;但是另一本字典用更少的枚举单词,附带介绍了英语的构词法,来省略掉绝大多数英语单词,那后者的压缩效率就高。



从单词卡片到语法书——信息密度的提升

所以说,通过优化算法架构、基于Plugin的工具集成和合成数据的运用等方法来实现,模型的“压缩效率”是可以提升的。
后面就是一堆展望性的东西了:视觉和多模态。人脑中最多的信息都是视觉信息,文本什么的微不足道(毕竟以前人类还多数是文盲呢),所以LLM只搞语言是没前途的,得和视觉联动、搞多模态。



视觉相关记忆占据人类大脑的最主要部分

再就是说合成数据,网络上的训练集是有限的,都快喂光了。所以AI还想再有突破,得搞些不存在的数据,也就是合成数据,而非仅仅依赖现实世界中采集到的样本。 @睡前消息 这一部分又可以“打脸”督公,OpenAI的科学家都说可以靠合成数据了(滑稽)。



人类已经制造的数据有限,但是可以制造的数据无限
页: [1]
查看完整版本: 如何评价 ChatGPT 的本质,其实是一个性能强大的数据无损压缩器?