为什么Yann lecun(杨立昆)对chatGPT持否认态度?
在推特上杨立昆不认为chatGPT有重大创新,也不认为大语言模型是通用人工智能的正确标的目的? LeCun的意思是这玩意就跟三体里人类两百多年造出了最高可达光速15%的星际战舰一样,确实挺厉害,但是属于力大砖飞而不是基础层面的新概念和新方向。至于他为什么这么说那鬼知道。也许他是站在更高层次看问题,也许他只是看到GPT这么火酸了。 2023年4月7日修改被打脸了,meta提出segment anything了,看来图像分割有被解决的希望了。
<hr/>原回答
在讨论chatgpt的局限之前我们不妨思考一下,为何大规模预训练模型首先出现在nlp领域而不是cv领域?深度学习在nlp上的发展进度为何遥遥领先cv?
要知道在2017年transformer出现之前,cv领域的发展是领先nlp的。然而当transformer出现以后,nlp领域的研究就一发不可收拾,经历了以下过程。
1.transformer统一了nlp领域的特征提取算子,具有全局信息感知能力的transformer以压倒性优势击败了传统的rnn。
2.bert模型展示了大规模预训练模型的威力。训练好的预训练模型经过小规模的微调就可以很好的适应下游任务。从这开始,agi的实现出现了曙光。
3.chatgpt横空出世,大规模预训练模型+prompt 让绝大多数上游任务的研究变得毫无意义。
讲到这里,我们可以思考一下cv和nlp这两个原本是平行的研究领域为何产生了不同的发展结果。
nlp的研究对象是文字,cv的研究对象是视频图像数据。文字是人造的信息载体,天生就高度抽象化,规则化,信息密度远远高于视觉数据。这就导致了cv中一些非常困难的上游任务在nlp中并不存在。例如像素级别的图像分割是cv至今都未解决的问题。而自然语言分词技术基本上可以说是被解决了。
可以用数学语言来这样总结,cv领域中的数据分布模型的复杂程度要远远大于nlp。而目前的深度学习技术简单来说就是通过朴素贝叶斯公式,以采样的方式构造数据集,将其分布假设为先验分布(这一假设很多时候并不成立),并通过网络模型估计概率密度分布,预测事件的后验分布。
上面的叙述简单来说,任务的困难程度,完全由真实世界中数据分布的复杂程度决定(因为这是模型需要估计的目标)。另外采样数据和真实数据之间的分布差异也是影响模型精确性的一个重要因素。
所以为什么深度学习在nlp比cv发展的快呢?因为文字数据分布复杂性肯定远远低于图像数据呗。并且在构造数据集的时候文字也远比图像容易。
所以nlp领域远比cv更适合使用概率模型进行分析。所以问题来了,chatgpt这类大语言模型的成功能够复制到cv领域吗?从nlp到cv,数据的复杂性应该是成几何倍数的增长,低效的概率分布模型能在撞到算力墙之前拟合如此复杂的视觉数据分布吗?
我个人认为除非算力无限膨胀,现有的深度学习研究或早或晚都会撞上算力墙或者受到工程上的限制。这可能受制约未来大模型发展的一个最重要的瓶颈。 立昆本人昨天在社交网络上对于这个问题的回复在这里搬运一下。
(绝大部分)机器翻译的内容如下:
我对当前(自回归)大型语言模型(AR-LLMs)的坚定看法
1. 它们可用作写作辅助工具。
2. 他们是“被动的”,不做规划和推理。
3. 他们粗略地编造或检索东西。
4. 这可以通过人工反馈来缓解但无法解决。
5. 更好的系统将会到来。
6. 目前的LLM应该只是作为写作的辅助工具,仅此而已。
7. 将它们与搜索引擎等工具结合起来非常重要。
8. *将会*有更好的系统,它们是真实的、无毒的和可控的。 他们只是不会成为自回归的LLMs。
9.我在捍卫Galactica作为科学写作辅助工具时持有的观点一直与上述一致。
10. 警告人们 AR-LLM 是编造的,不应该用来获得事实建议。
11. 警告 LLM 只能掌握一小部分人类知识的肤浅部分。
12. 清楚更好的系统将会出现,但它们将基于不同的原理。
它们不会是自回归 LLM。
13. 为什么 LLM 在生成代码方面比生成一般文本要好得多?
因为,与现实世界不同,程序操纵的宇宙(变量的状态)是有限的、离散的、确定的和完全可观察的。
现实世界并非如此。
14. 与Galactica最尖刻的批评者所声称的不同
- LLMs*正*被用作写作辅助工具。
- 他们*不会*通过让无意识的群众相信他们编造的废话来破坏社会结构。
- 人们会将它们用于对他们有帮助的事情。原文如下:
My unwavering opinion on current (auto-regressive) LLMs
1. They are useful as writing aids.
2. They are &#34;reactive&#34; & don&#39;t plan nor reason.
3. They make stuff up or retrieve stuff approximately.
4. That can be mitigated but not fixed by human feedback.
5. Better systems will come.
6. Current LLMs should be used as writing aids, not much more.
7. Marrying them with tools such as search engines is highly non trivial.
8. There *will* be better systems that are factual, non toxic, and controllable. They just won&#39;t be auto-regressive LLMs.
9.I have been consistent with the above while defending Galactica as a scientific writing aid.
10. Warning folks that AR-LLMs make stuff up and should not be used to get factual advice.
11. Warning that only a small superficial portion of human knowledge can ever be captured by LLMs.
12. Being clear that better system will be appearing, but they will be based on different principles.
They will not be auto-regressive LLMs.
13. Why do LLMs appear much better at generating code than generating general text?
Because, unlike the real world, the universe that a program manipulates (the state of the variables) is limited, discrete, deterministic, and fully observable.
The real world is none of that.
14. Unlike what the most acerbic critics of Galactica have claimed
- LLMs *are* being used as writing aids.
- They *will not* destroy the fabric of society by causing the mindless masses to believe their made-up nonsense.
- People will use them for what they are helpful with. 我拿chatgpt练英文,贼好用。
技术一定要看它的应用,你非要拿2g技术支撑4k流媒体,那不是缘木求鱼么?
现阶段chatgpt就是2g,杨认为未来是5g,不能走2g路线到5g,这也是很正常的思维啊。未来肯定有比chatgpt更牛的技术出现,替代它。
但是这并不妨碍我享受2g这个过程。 道理就和gary marcus喷lecun本人和deep learning一样。
只不过以前lecun面对jurgen的指控,都是一番我先做work了的论调。结果现在活的和Jurgen一样,指控chatgpt都是实现自己提出的idea。看来人总归是会活成自己曾经讨厌的样子。只不过本应是学界泰斗,却天天在推特上狂喷也够可悲的…
页:
[1]