找回密码
 立即注册
查看: 872|回复: 5

2023年后,AI 还有什么研究标的目的有前景?

[复制链接]

2

主题

0

回帖

11

积分

新手上路

积分
11
发表于 2023-5-10 17:05:58 | 显示全部楼层 |阅读模式
着眼目前就行了。
回复

使用道具 举报

0

主题

2

回帖

2

积分

新手上路

积分
2
发表于 2023-5-10 17:06:06 | 显示全部楼层
凡是可以轻易获取大量训练数据的任务都不要做,做那些极难或者无法获取训练数据的任务。对于后者,研究自然而然地就从model-centric转向了data-centric, 探索如何更好地获取或者模拟大量的训练数据。
我们实验室近两年重点关注的研究方向:图像合成(image composition),其实就是从data-centric角度出发,探索如何更好地获取或者模拟大量的训练数据,包括采用真实图片还是渲染图片还是两者结合、需要采用什么样的标注形式、如何利用其他任务的模型辅助得到训练数据,等等。
图像合成是指把一张图片的前景剪切下来,粘贴到另外一张背景图片上,得到一张合成图。然而,通过剪切复制得到的合成图可能会有诸多问题,影响合成图的真实性。图像合成技术旨在解决合成图中前景和背景之间的外观不一致性、几何不一致性、语义不一致性,提升合成图的质量。图像合成可以拆分成几个子任务,每个子任务解决一个子问题。我们实验室围绕图像合成与视频合成已经开展了一系列研究工作。接下来对图像合成可以做的方向做个简单的梳理,如下图所示。


图像和谐化(image harmonization)旨在解决前景和背景颜色光照的不一致性。当背景图片是艺术风格图片时,图像和谐化的变种叫做风格图像和谐化(painterly/style image harmonization)。作为图像和谐化的对抗性任务,不和谐区域检测(inharmonious region localization)旨在检测图像中的不和谐区域。
物体阴影生成(object shadow generation)旨在为前景物体生成合理的阴影。
物体放置(object placement)旨在为前景物体预测合理的位置、大小、透视角度。作为物体放置的对抗性任务,违背上下文物体检测(out-of-context object detection)旨在检测图像中位置、大小不合理的物体。
图像合成相关的论文、代码、模型可参考下面的链接。
Awesome Image Composition还有一个在线demo可供玩耍,have fun!
Image Composition Demo图像合成的每个子任务都可以拓展到视频合成,也可以拓展到3D,也可以和大模型结合。最后,欢迎关注我的微信公众号 Newly,会不定期更新实验室的研究进展。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

2

回帖

9

积分

新手上路

积分
9
发表于 2023-5-10 17:06:41 | 显示全部楼层
每当看到还有什么坑,还有什么研究方向,视觉是不是已经瓶颈期了,我就一阵窒息。。。仿佛VisGPT早就出世了,视觉任务都解决了似的。一说起语义分割啦,目标检测啦,就都说点刷不动了,太卷云云。
然后我每年习惯性的去榜单,找到排名最高的有代码的语义分割文章,下载代码,下载模型,在我的图片上跑一下,面对垃圾一般的结果失望的删掉刚才下载的东西一脸懵逼。。。这,就是所谓的sota?每年都去查“Unsupervised Semantic Segmentation”,点开最新的文章,一看,mIoU都没超30。
情况就是这么个情况。我一边眼巴巴地看着学术界的同志们在那往死里卷,文章如何如何不好发,一边又在等米下锅,老问题却慢慢地变得无人问津,好不焦急。卷是挺卷的,就是感觉卷了个寂寞。你看看这个问题里的回答,有谁敢说语义分割吗?没有!都有点耻于提这任务了,会被笑话吧可能 。。。没前景,什么是前景,发文章是前景啊,那语义分割确实没前景。。。但也确实没解决啊这问题。
今年ChatGPT出来,又听了Sam Altman最近的访谈,又结合了自己工作的体验,对李飞飞的贡献有了新的体会。只要有了榜,有了非常具体的目标,研究者就会蜂拥而上把点刷上去。榜就跟一个杠杆的支点一样,能撬动整个领域的发展。所以定义榜单的工作非常重要。李飞飞从06年起就专注于做ImageNet,眼光还是很长远的。
就比如Sam Altman说,做这个模型,就预训练那一块,其实早就做完了。GPT-4在SuperGLUE之类的榜单上都打不过其他大模型。或者说,仅就打榜而言,GPT-4并不是特别出挑的。但要让这个东西能让人用,必须要做大量辅助工作,比如RLHF,或者说Alignment。一来这些工作让模型变得可用了,等于说给模型配了个UI,二来让模型更加“安全”,比如不会宣传恐怖活动,不教人制作炸弹之类的。
这说明什么?ChatGPT的成功,在于跳出榜单的视野,去考虑其他的东西。如果只考虑打榜,甚至有可能GPT3.5发表了都不见得有多吸引人,毕竟连sota都不是。换句话说,他们对现在的榜不满足了,自己搞了个榜,或者说,不再去overfit某个榜了。比如他们弄了个事实错误的检测标准,这不就能驱动模型向减少事实错误的方向迭代吗?
现在计算机视觉的发展水平,其实还很低幼。人家GPT4都可以直接拿来给各种任务生成训练数据了,现在哪个视觉模型能达到这个水平?差得太远了。这还是缺乏足够强大的榜单导致的,现在的那些榜单都太弱了。ImageNet应该说算是一个合格的数据集了,但可惜那只是图像识别数据集,几乎是视觉领域里最最简单的任务。
现在就缺一个好汉,还得是特有钱的那种,给计算机视觉领域搞一个像样的数据集。。。或者定义一个新的指标什么的,给一点guidance,把这个领域带一带。我敢说计算机视觉绝对满地都是坑,只是大家都被仅有的几个数据集和那几个指标蒙蔽了,忽略了很多重要的问题。要我说,最经典的那些感知问题,目标识别,语义分割,深度估计,通通都很有前景,只是大家都看不到而已。只关注那几个榜,发论文只看sota,那确实,就没几个有前景的方向。
回复

使用道具 举报

0

主题

4

回帖

3

积分

新手上路

积分
3
发表于 2023-5-10 17:07:38 | 显示全部楼层
Data-centric AI。我们先说说什么是Data-centric AI,再讨论为什么。
什么是Data-centric AI?




https://arxiv.org/abs/2301.04819

Data-centric AI是一种搭建AI系统的新理念,被吴恩达老师大力倡导。我们这里引用下他给出的定义
Data-centric AI is the discipline of systematically engineering the data used to build an AI system.
— Andrew Ng
传统的搭建AI模型的方法主要是去迭代模型,数据相对固定。比如,我们通常会聚焦于几个基准数据集,然后设计各式各样的模型去提高预测准确率。这种方式我们称作以模型为中心(model-centric)。然而,model-centric没有考虑到实际应用中数据可能出现的各种问题,例如不准确的标签,数据重复和异常数据等。准确率高的模型只能确保很好地「拟合」了数据,并不一定意味着实际应用中会有很好的表现。
与model-centric不同,Data-centric更侧重于提高数据的质量和数量。也就是说Data-centric AI关注的是数据本身,而模型相对固定。采用Data-centric AI的方法在实际场景中会有更大的潜力,因为数据很大程度上决定了模型能力的上限。
需要注意的是,「Data-centric」与「Data-driven」(数据驱动),是两个根本上不同的概念。后者仅强调使用数据去指导AI系统的搭建,这仍是聚焦于开发模型而不是去改变数据。
为什么Data-centric AI是未来?




https://arxiv.org/abs/2303.10158

以往大家研究的重点都在模型。但如今,经过了多年的研究,模型设计已经相对比较成熟,特别是在Transformer出现之后(目前我们似乎还看不到Transformer的上限)。从GPT-1到ChatGPT/GPT-4,所用的训练数据大体经历了以下变化:小数据(小是对于OpenAI而言,对普通研究者来说也不小了)->大一点的高质量数据->更大一点的更高质量数据->高质量人类(指能通过考试的标注者)标注的高质量数据。模型设计并没有很显著的变化(除了参数更多以顺应更多的数据),这正符合了Data-centric AI的理念。从ChatGPT/GPT-4的成功,我们可以发现,高质量的标注数据是至关重要的。OpenAI对数据和标签质量的重视程度令人发指。



https://arxiv.org/abs/2303.10158

从另一个角度来看,现在的ChatGPT/GPT-4模型已经足够强大,强大到我们只需要调整提示(推理数据)来达到各种目的,而模型则保持不变。例如,我们可以提供一段长文本,再加上特定的指令,比方说「summarize it」或者「TL;DR」,模型就能自动生成摘要。在这种新兴模式下,Data-centric AI变得更为重要,以后很多AI打工人可能再也不用训练模型了,只用做提示工程(prompt engineering)。
因此,在大模型时代,Data-centric AI的理念将越来越重要
在这个AI发展日新月异的时代,我们需要不断学习。我们对Data-centric AI这个领域进行了总结,希望能帮助大家快速高效地了解这个领域:
Data-centric Artificial Intelligence: A SurveyData-centric AI: Perspectives and ChallengesAwesome Data-centric AI相关文章和回答:
一堆废纸:GPT模型成功的背后用到了哪些以数据为中心的人工智能(Data-centric AI)技术?进行data-centric的研究时,需要的算力大吗?大模型LLM领域,有哪些可以作为学术研究方向?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

1

回帖

9

积分

新手上路

积分
9
发表于 2023-5-10 17:08:04 | 显示全部楼层
我真的很好奇,OpenAI到底用了什么魔法让GPT-4达到这么好的效果,相比较让大家惊艳的ChatGPT,GPT-4不只是多模态领域,在语义理解和逻辑上还有巨大的突破。
如果说是数据和算力的话,Google应该没有差距这么大,但是事实上Google做出来的东西和文心一言五五开,甚至很多地方不如文心一言。
但是OpenAI所有人都没有发什么论文,或者传达过自己有什么新发现或者新方法让大模型有很好的效果,我只能猜想是OpenAI里面的某个组提前几年,做了一些工程性的工作,比如更高效地微调之类的,所以在大模型上有个一两年的代差。
偏题了,我认为好的研究方向还有:

  • 大模型+多模态+插件,这是属于业界的事情,这将极大地解放生产力,而且这一轮的人工智能浪潮应该不会褪去,最重要的就是ChatGPT出现了,新的软件开发和办公范式已经出现,LLM加持下的APP效果以及车辆、机器人能有多棒,目前还未知。
  • 可解释性机器学习,LLM的效果为什么这么好,每个部分究竟有什么用处,指导网络结构的设计。在大语言模型智能是如何产生的。
  • AI for SCIENCE:可以分为四大类,第一解决以往不能解决的科学计算问题,在时间复杂度可接受的情况下,高度逼近可行解。第二类是复杂过程建模。第三类是组合优化问题。第四类是从数据中发现新定律。这会是高校主力进攻方向,谁掌握了AI时代的研究新范式,谁就能做出一流的研究成果。
  • 强化学习下的感知与决策:这个我不太懂,但是未来这是军工和无人驾驶主要研究方向。
  • 图神经网络:建立知识库,可能成为大模型之后,AGI进一步发展的基石。
  • 符号主义与机器推理:自古以来,盛极必衰,返璞归真,搞不好两年过去AI古典主义大爆发,爆发点很有可能在于人类揭示大脑神经元的工作方式,然后机器能有自主意识,实现推理。
  • 使用安全性、伦理性,量化评估指标。
  • 研究梯度下降以外的新的优化算法。
  • 设计针对AI大模型和特定任务的芯片和其他定制化硬件,把摩尔定律最后一点柠檬汁全部榨出来。
<hr/>怎么这么多人骂我说Bard和文心五五开[捂脸]我没用过Bard啊,但是用过Bard都骂它,我这里表述不严谨,大家见谅,大家都是读书人,戾气不要太重啊,我们可以好好讨论,别阴阳怪气
回复

使用道具 举报

0

主题

2

回帖

19

积分

新手上路

积分
19
发表于 2023-5-10 17:08:25 | 显示全部楼层
工业界方向:OpenAI正在做或者将要做的(ChatGPT Plugin和LLM for action)
学术界方向:OpenAI想做但不高兴做的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2025-1-8 11:12 , Processed in 0.060996 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表