2023年后，AI 还有什么研究标的目的有前景？

爱爱冷卡 · 发表于 2023-5-10 17:05:58

着眼目前就行了。

在安静的位置 · 发表于 2023-5-10 17:06:06

凡是可以轻易获取大量训练数据的任务都不要做，做那些极难或者无法获取训练数据的任务。对于后者，研究自然而然地就从model-centric转向了data-centric, 探索如何更好地获取或者模拟大量的训练数据。
我们实验室近两年重点关注的研究方向：图像合成(image composition)，其实就是从data-centric角度出发，探索如何更好地获取或者模拟大量的训练数据，包括采用真实图片还是渲染图片还是两者结合、需要采用什么样的标注形式、如何利用其他任务的模型辅助得到训练数据，等等。
图像合成是指把一张图片的前景剪切下来，粘贴到另外一张背景图片上，得到一张合成图。然而，通过剪切复制得到的合成图可能会有诸多问题，影响合成图的真实性。图像合成技术旨在解决合成图中前景和背景之间的外观不一致性、几何不一致性、语义不一致性，提升合成图的质量。图像合成可以拆分成几个子任务，每个子任务解决一个子问题。我们实验室围绕图像合成与视频合成已经开展了一系列研究工作。接下来对图像合成可以做的方向做个简单的梳理，如下图所示。

图像和谐化(image harmonization)旨在解决前景和背景颜色光照的不一致性。当背景图片是艺术风格图片时，图像和谐化的变种叫做风格图像和谐化(painterly/style image harmonization)。作为图像和谐化的对抗性任务，不和谐区域检测(inharmonious region localization)旨在检测图像中的不和谐区域。
物体阴影生成(object shadow generation)旨在为前景物体生成合理的阴影。
物体放置(object placement)旨在为前景物体预测合理的位置、大小、透视角度。作为物体放置的对抗性任务，违背上下文物体检测(out-of-context object detection)旨在检测图像中位置、大小不合理的物体。
图像合成相关的论文、代码、模型可参考下面的链接。
Awesome Image Composition还有一个在线demo可供玩耍，have fun!
Image Composition Demo图像合成的每个子任务都可以拓展到视频合成，也可以拓展到3D，也可以和大模型结合。最后，欢迎关注我的微信公众号 Newly，会不定期更新实验室的研究进展。

心情好的马云 · 发表于 2023-5-10 17:06:41

每当看到还有什么坑，还有什么研究方向，视觉是不是已经瓶颈期了，我就一阵窒息。。。仿佛VisGPT早就出世了，视觉任务都解决了似的。一说起语义分割啦，目标检测啦，就都说点刷不动了，太卷云云。
然后我每年习惯性的去榜单，找到排名最高的有代码的语义分割文章，下载代码，下载模型，在我的图片上跑一下，面对垃圾一般的结果失望的删掉刚才下载的东西一脸懵逼。。。这，就是所谓的sota？每年都去查“Unsupervised Semantic Segmentation”，点开最新的文章，一看，mIoU都没超30。
情况就是这么个情况。我一边眼巴巴地看着学术界的同志们在那往死里卷，文章如何如何不好发，一边又在等米下锅，老问题却慢慢地变得无人问津，好不焦急。卷是挺卷的，就是感觉卷了个寂寞。你看看这个问题里的回答，有谁敢说语义分割吗？没有！都有点耻于提这任务了，会被笑话吧可能。。。没前景，什么是前景，发文章是前景啊，那语义分割确实没前景。。。但也确实没解决啊这问题。
今年ChatGPT出来，又听了Sam Altman最近的访谈，又结合了自己工作的体验，对李飞飞的贡献有了新的体会。只要有了榜，有了非常具体的目标，研究者就会蜂拥而上把点刷上去。榜就跟一个杠杆的支点一样，能撬动整个领域的发展。所以定义榜单的工作非常重要。李飞飞从06年起就专注于做ImageNet，眼光还是很长远的。
就比如Sam Altman说，做这个模型，就预训练那一块，其实早就做完了。GPT-4在SuperGLUE之类的榜单上都打不过其他大模型。或者说，仅就打榜而言，GPT-4并不是特别出挑的。但要让这个东西能让人用，必须要做大量辅助工作，比如RLHF，或者说Alignment。一来这些工作让模型变得可用了，等于说给模型配了个UI，二来让模型更加“安全”，比如不会宣传恐怖活动，不教人制作炸弹之类的。
这说明什么？ChatGPT的成功，在于跳出榜单的视野，去考虑其他的东西。如果只考虑打榜，甚至有可能GPT3.5发表了都不见得有多吸引人，毕竟连sota都不是。换句话说，他们对现在的榜不满足了，自己搞了个榜，或者说，不再去overfit某个榜了。比如他们弄了个事实错误的检测标准，这不就能驱动模型向减少事实错误的方向迭代吗？
现在计算机视觉的发展水平，其实还很低幼。人家GPT4都可以直接拿来给各种任务生成训练数据了，现在哪个视觉模型能达到这个水平？差得太远了。这还是缺乏足够强大的榜单导致的，现在的那些榜单都太弱了。ImageNet应该说算是一个合格的数据集了，但可惜那只是图像识别数据集，几乎是视觉领域里最最简单的任务。
现在就缺一个好汉，还得是特有钱的那种，给计算机视觉领域搞一个像样的数据集。。。或者定义一个新的指标什么的，给一点guidance，把这个领域带一带。我敢说计算机视觉绝对满地都是坑，只是大家都被仅有的几个数据集和那几个指标蒙蔽了，忽略了很多重要的问题。要我说，最经典的那些感知问题，目标识别，语义分割，深度估计，通通都很有前景，只是大家都看不到而已。只关注那几个榜，发论文只看sota，那确实，就没几个有前景的方向。

hymeimei · 发表于 2023-5-10 17:07:38

Data-centric AI。我们先说说什么是Data-centric AI，再讨论为什么。
什么是Data-centric AI?

https://arxiv.org/abs/2301.04819

Data-centric AI是一种搭建AI系统的新理念，被吴恩达老师大力倡导。我们这里引用下他给出的定义

Data-centric AI is the discipline of systematically engineering the data used to build an AI system.
— Andrew Ng

传统的搭建AI模型的方法主要是去迭代模型，数据相对固定。比如，我们通常会聚焦于几个基准数据集，然后设计各式各样的模型去提高预测准确率。这种方式我们称作以模型为中心（model-centric）。然而，model-centric没有考虑到实际应用中数据可能出现的各种问题，例如不准确的标签，数据重复和异常数据等。准确率高的模型只能确保很好地「拟合」了数据，并不一定意味着实际应用中会有很好的表现。
与model-centric不同，Data-centric更侧重于提高数据的质量和数量。也就是说Data-centric AI关注的是数据本身，而模型相对固定。采用Data-centric AI的方法在实际场景中会有更大的潜力，因为数据很大程度上决定了模型能力的上限。
需要注意的是，「Data-centric」与「Data-driven」（数据驱动），是两个根本上不同的概念。后者仅强调使用数据去指导AI系统的搭建，这仍是聚焦于开发模型而不是去改变数据。
为什么Data-centric AI是未来？

https://arxiv.org/abs/2303.10158

以往大家研究的重点都在模型。但如今，经过了多年的研究，模型设计已经相对比较成熟，特别是在Transformer出现之后（目前我们似乎还看不到Transformer的上限）。从GPT-1到ChatGPT/GPT-4，所用的训练数据大体经历了以下变化：小数据（小是对于OpenAI而言，对普通研究者来说也不小了）->大一点的高质量数据->更大一点的更高质量数据->高质量人类（指能通过考试的标注者）标注的高质量数据。模型设计并没有很显著的变化（除了参数更多以顺应更多的数据），这正符合了Data-centric AI的理念。从ChatGPT/GPT-4的成功，我们可以发现，高质量的标注数据是至关重要的。OpenAI对数据和标签质量的重视程度令人发指。

https://arxiv.org/abs/2303.10158

从另一个角度来看，现在的ChatGPT/GPT-4模型已经足够强大，强大到我们只需要调整提示（推理数据）来达到各种目的，而模型则保持不变。例如，我们可以提供一段长文本，再加上特定的指令，比方说「summarize it」或者「TL;DR」，模型就能自动生成摘要。在这种新兴模式下，Data-centric AI变得更为重要，以后很多AI打工人可能再也不用训练模型了，只用做提示工程（prompt engineering）。
因此，在大模型时代，Data-centric AI的理念将越来越重要。
在这个AI发展日新月异的时代，我们需要不断学习。我们对Data-centric AI这个领域进行了总结，希望能帮助大家快速高效地了解这个领域：
Data-centric Artificial Intelligence: A Survey Data-centric AI: Perspectives and Challenges Awesome Data-centric AI相关文章和回答：
一堆废纸：GPT模型成功的背后用到了哪些以数据为中心的人工智能（Data-centric AI）技术？进行data-centric的研究时，需要的算力大吗？大模型LLM领域，有哪些可以作为学术研究方向？

hhhyyy · 发表于 2023-5-10 17:08:04

我真的很好奇，OpenAI到底用了什么魔法让GPT-4达到这么好的效果，相比较让大家惊艳的ChatGPT，GPT-4不只是多模态领域，在语义理解和逻辑上还有巨大的突破。
如果说是数据和算力的话，Google应该没有差距这么大，但是事实上Google做出来的东西和文心一言五五开，甚至很多地方不如文心一言。
但是OpenAI所有人都没有发什么论文，或者传达过自己有什么新发现或者新方法让大模型有很好的效果，我只能猜想是OpenAI里面的某个组提前几年，做了一些工程性的工作，比如更高效地微调之类的，所以在大模型上有个一两年的代差。
偏题了，我认为好的研究方向还有：

大模型+多模态+插件，这是属于业界的事情，这将极大地解放生产力，而且这一轮的人工智能浪潮应该不会褪去，最重要的就是ChatGPT出现了，新的软件开发和办公范式已经出现，LLM加持下的APP效果以及车辆、机器人能有多棒，目前还未知。
可解释性机器学习，LLM的效果为什么这么好，每个部分究竟有什么用处，指导网络结构的设计。在大语言模型智能是如何产生的。
AI for SCIENCE：可以分为四大类，第一解决以往不能解决的科学计算问题，在时间复杂度可接受的情况下，高度逼近可行解。第二类是复杂过程建模。第三类是组合优化问题。第四类是从数据中发现新定律。这会是高校主力进攻方向，谁掌握了AI时代的研究新范式，谁就能做出一流的研究成果。
强化学习下的感知与决策：这个我不太懂，但是未来这是军工和无人驾驶主要研究方向。
图神经网络：建立知识库，可能成为大模型之后，AGI进一步发展的基石。
符号主义与机器推理：自古以来，盛极必衰，返璞归真，搞不好两年过去AI古典主义大爆发，爆发点很有可能在于人类揭示大脑神经元的工作方式，然后机器能有自主意识，实现推理。
使用安全性、伦理性，量化评估指标。
研究梯度下降以外的新的优化算法。
设计针对AI大模型和特定任务的芯片和其他定制化硬件，把摩尔定律最后一点柠檬汁全部榨出来。

<hr/>怎么这么多人骂我说Bard和文心五五开[捂脸]我没用过Bard啊，但是用过Bard都骂它，我这里表述不严谨，大家见谅，大家都是读书人，戾气不要太重啊，我们可以好好讨论，别阴阳怪气

弗利萨大帝 · 发表于 2023-5-10 17:08:25

工业界方向：OpenAI正在做或者将要做的（ChatGPT Plugin和LLM for action）
学术界方向：OpenAI想做但不高兴做的

		自动登录	找回密码
密码			立即注册

2023年后，AI 还有什么研究标的目的有前景？

本帖子中包含更多资源

本帖子中包含更多资源