ChatGPT 更新多模态，撑持图片和语音输入，会带来哪些新体验和影响？

死了 · 发表于 2024-7-17 09:22:34

近日 OpenAI 颁布发表推出新版 ChatGPT，增加了两项新功能：语音输入和图像输入。据 OpenAI 称，新功能将在未来两周内向 ChatGPT Plus 订阅用户推出，其他人也将“很快”能够使用这些功能。

语音输入功能类似于手机上的语音助手，用户只需按下一个按钮，说出本身的问题，ChatGPT 就会将其转换为文本，然后生成答案，再将答案转换为语音，播放给用户。OpenAI 暗示，这样的交互方式更加自然和便捷，而且由于 LLM 的技术优势，答案的质量也会更高。OpenAI 还开发了一种新的文本转语音模型，可以按照几秒钟的样本语音，生成与之相似的人声。用户可以从五种选项中选择 ChatGPT 的声音，而且这种模型还有更多的潜在用途。例如，OpenAI 正在与 Spotify 合作，将播客翻译成其他语言，同时保留播客主持人的声音。不外，这种模型也存在一些风险，比如可能被恶意操作来冒充公众人物或进行诈骗。因此，OpenAI 暗示，这种模型不会被广泛开放，而是会受到严格的控制和限制。
图像输入功能则类似于 Google Lens，用户可以拍摄本身感兴趣的事物，并上传到 ChatGPT 中。ChatGPT 会测验考试识别用户想要询问的内容，并给出相应的回答。用户还可以用应用中的绘图东西来辅佐表达本身的问题，或者配合语音或文本输入来进行交流。ChatGPT 的优势在于它可以进行多轮对话，而不是一次性搜索。如果用户对答案不对劲或想要更多信息，可以继续向 ChatGPT 提问，从而得到更准确和全面的答案。当然，图像搜索也有一些潜在问题。例如，在措置人物图片时，OpenAI 暗示他们限制了 ChatGPT 对人物进行分析和直接评价的能力，既为了保证准确性，也为了庇护隐私，这意味着上传一个人的照片就能知道他 / 她是谁还无法实现。
IT之家注意到，自从 2022 年初推出 ChatGPT 以来，OpenAI 一直在努力为其机器人增加更多功能和能力，同时避免造成新的问题呈现。通过此次更新，该公司试图在这条界线上寻找平衡点，通过有意识地限制其新模型能做什么来实现这一方针。但是这种方式并不是长久之计，随着越来越多的人使用语音控制和图像搜索，以及 ChatGPT 逐渐成为一个真正的多模态、有用的虚拟助手，要保持安全和合理的边界会变得越来越困难。

hlddstwe · 发表于 2024-7-17 09:23:24

不得不说，与ChatGPT的交流更像人了。
这次多模态的更新，炸裂程度堪比当初插件功能。
GPT-4V多模态的推出，意味着ChatGPT已经可以看、听、说了。和它的交流，更像你的一个朋友，还是全能型的。
你可以问问它如何调整自行车座椅的高度？

GPT给你生活建议

也可以让它帮你回忆一下这些明星叫什么？

GPT识别图像

下面一起来看看到底是怎样的更新，让全网沸腾了！

语音输入

作为最令人瞩目的新功能之一，语音输入吸引了一大批粉丝。
以前只能够通过插件商店的一些第三方插件进行语音输入，体感自然没那么好。现在有了官方语音识别技术的加持，一切都是那么丝滑。
那么我们该如何使用语音输入的功能呢？
你只需要点击APP中的耳机按钮，用口语提问题，GPT会用语音回应你，并且你们的对话内容会自动转换为文本存储在聊天记录中。并且GPT的回答非常流畅，甚至有思考的停顿和呼吸音，与GPT的交流就像和人交流一样便捷自然。
GPT强大的语音输入，有什么具体的应用场景吗？
ChatGPT的语音助手可以为你提供生活和旅行建议，可以是你心情低落时安慰你的朋友，也可以是你遇到困难时为你排忧解难的高人，甚至可以充当你的网络男/女友。
最近，在网上就出现了许多让GPT扮演男友提供情绪价值的视频。

GPT男友

当然，GPT也可以成为孩子的口语老师。

GPT口语老师

图像识别

这是GPT的另一项重要升级，让用户与其的图片交互更加顺畅。
具体是如何操作呢？
你可以拍一张感兴趣的物体、场景图片或是问题，将图片上传至ChatGPT，其会理解你提出的问题，并给出相应的答案。
例如你可以拍摄一辆自行车的图片，问问gpt该如何调整座椅高度。它会尝试识别图像中的元素，并告诉你如何修复。

GPT帮助调整座椅高度

无论是语音输入还是图像识别，都是为了能够和用户的交互有更好的体验，再加上ChatGPT强大的知识库，妥妥变身超级助手。

多模态能力增强

在前段时间“GPT变懒”的消息传的沸沸扬扬，紧接着就有消息泄露出GPT-4.5即将发布。
许多网友也在自己的GPT中询问其模型具体名称，部分用户获得了“gpt-4.5-turbo”的回答，这很难不让人猜测是为GPT-4.5的发布做铺垫。
我们看看已知的消息中，GPT-4.5拥有怎样的能力呢？

泄露的GPT-4.5

GPT-4.5具备全新的多模态能力，能够支持文本、语音、图片、视频、3D信息等，支持跨模态的理解，且具有复杂推理能力。

GPT5将要来临？

知名博主在社交媒体上爆出GPT-5将在2024年初震撼发布。消息一出，引起轰动。

博主爆料GPT5将面世

不知到时GPT5出来的时候，又会带给我们怎样的惊喜。

结语

GPT多模态的升级代表AI技术的不断迭代和前进的方向，也让我们和GPT之间的交互变得更加顺畅了。
相信经过不断的升级，AI能够拥有更广泛的使用场景，为教育、医疗、工程领域提供更有力的支持，这将是一次伟大的科技革命！
随着AI技术的不断发展，ChatGPT也将引领多模态AI 的未来，为各个领域提供更多的可能性。

喜欢的话，记得给我点赞收藏哦~更多AI内容，请移步主页关注@佳雯聊AI

cctcc · 发表于 2024-7-17 09:23:59

GPT4 的图像理解能力开放出来了。对于这个功能，GPT4 3月份就已经对外宣布已经制作出来了，但是到了10月份才释放出来，这半年时间，大家都在等着憋着，那憋得真是相当难受啊。
先说结论吧，如果图文理解能力满分 10分的话，GPT4 这一版的模型能力，大概可以得 7 分。当然，即便是7 分，应该也是目前全世界能够拿得出的最佳模型了。
具体通过例子讲一下优缺点：
由于这个模型在处理图像方面，中文还比较弱，所以我就全程用英文提问了。当然，模型理解语言的能力还是很强，问句里有语法毛病都不耽误正确处理。
jionlp logo 理解

我提问的第一个问题还是比较简单的，关于 jionlp 的 logo 的理解如下：

这个图像信息量比较少，模型给出的结果也非常炸裂，基本上把所有描述信息都给出了，甚至标记了字母i 的点是一个红心。

但是结果也有不完善的地方，P 实际上是蓝色，L 是绿色，模型搞错了。
火情场景识别

这个图像理解能力还是非常关键的，所以尝试例子如下图：

回答答案基本也把所有关键信息都答出来了，包括水体、道路、树林、城市、火灾、烟雾等。

这个图像理解能力：bravo!!
湖边场景理解

模型理解可以说没啥大问题，但是我这里还需要解释一下，这幅图的真实情况是青海湖边，而非海边。但是这不能责怪模型理解错误，因为图像中的信息不充分，自然会引起歧义。

事实上，单幅图像的理解能力，我认为，始终存在这种模糊不清，没法解释的情况。这种情况，一方面是提问者需要事先给出先验信息，另一方面，通过视频理解可以消除部分歧义。

停车场识别

模型理解能力无误。但是，到目前的几个例子中，全部都在描述图像中有什么物品。

如果我换个问法，模型是难以回答的。我是这样提问的，图像中的停车场，是否还有很多可用的停车位？模型给出的答案是：

答案中首先重复了一遍图像中的景物，这部分信息是冗余的。然后回答无法判断是否有可用停车位，因为它认为信息量不足。
人类判断当然是比较容易的，一眼就可以看出，停车场中还是有很多空位置的，模型在理解一些细微的细节上，以及行为理解上，还是有一些问题的。
街景问答

这次我选择了一副中国传统民居景区街景的图像，并且仅仅提问图像中是否有很多人聚集。

模型回答的结果是正确的，的确有很多人存在。但是模型还是事无巨细地阐述了一遍图像的整个内容，包括建筑形式，树，道路地板等等。不过，它把红灯笼当作了红色的伞，出现了错误。

个人认为，模型在这里是有一定的训练不足的。主要是模型从基础预训练到回答问题的迁移上做的不够。

我承认，模型从网络上拿了很多的 image-caption（图像-图像的描述文字）数据对来训练。但是，模型迁移做的不够好，模型没有做到专问专答，也就是，我问什么，你答什么，不要扯别的有的没的。针对上面的例子，我问是否有密集的人群，你直接告诉我有，或者无，即可，不必再啰嗦别的东西

细微目标问答

还是上面的类似场景，图像中有一条小河，里面有几艘乌篷船。需要仔细观察才能看到。于是我这么提问：

模型回答没有船只，然后又把所有图像中的目标和场景描述了一遍，通过这个例子以及前面的一个细微目标的例子，可以看出，模型在处理这些细小问题上仍然是不足的。

中文、英文、数字字符问答

我给出衣服中国街景图片，如果放大看，图里的一些广告牌包含了中文汉字，以及一些韩文字符。于是我提问可否识别其中的文字

答案是否定的，模型识别不了。而且回答逻辑也有一些问题，它告诉我说，它看不到图像……不知道是模型理解问题，还是后端程序处理有bug，没把图像传给模型。

为了验证模型到底是因为字符太小而识别不到，还是压根就识别不了中文。我又让模型回答如下图的问题，让模型识别字符：

模型回答中，字母和数字是正确的，但是中文回答错误。模型把车牌号前面的 “苏”字忽略掉了。

为了确保小目标的识别准确，再试一次相对比较模糊的车牌号（单从博客里看，确实看不清楚，但是放大看依然可以辨认的）：

这次，模型回答依然正确，但除了汉字，模型把“川”字，识别成了 “K”。

综上，再结合模型对 JioNLP 的识别。可以看出，模型可以识别英文、数字，但是不能识别汉字，不论字符是清晰还是相对模糊难以辨认（但必须在人类可辨认的前提下）。

以图搜图识别

一个常见搜索场景就是以图搜索，举一个例子。让模型回答尽可能多的有关图像中的信息

模型完成的还不错。相关信息也都给出了正确的回答。只不过，这里图像中是否包含日语“進撃の巨人”并不重要。模型是依据漫画巨人来识别的。同时给出了相关的动漫信息。

表格识别

表格其实很复杂的，如果单纯利用规则来解析表格，面对结构复杂的表格，规则是很难 cover 的，这和利用规则来识别敏感词是一个道理。
这里我给出了一个表格，表格中的数据是中国的男女性别比最高的区县的排名，其中最右侧列是男女性别比例，403 表示如果该地区有100个女性，则对应的有 403 个男性：

但是模型对这个表格无能为力，给不出任何有效信息。

我认为 GPT4 在模型预训练中，就基本上没有此类数据。

图像推理

前面所有的例子，都是所见即所得。也就是图像里有什么，模型就回答什么。但是我们也希望模型能够依据图像做一些推理工作，比如下面的例子，我希望模型告诉我，图中的女明星为啥要穿的这么 drama？

模型给出的答案，也还算可以吧。我更期望它回答出这是东北，也包括中国北方过去常用的大花布。女明星穿这个也是为了博眼球。可能这样的答案不够政治正确。

地图辨认

图中是哪个国家的地图？

毫无疑问，是中国，还是比较容易的。

结论

基本上，这就是对 GPT4 图像理解的尝试了，总结主要有以下几点：
1、模型理解能力其实还算不错，主要能力着眼于 image-caption。也就是图像信息描述。也会基于图像给出周边信息。
2、模型针对特定问答的迁移做的还不够。主要在于不太能够专问专答。
3、模型难以理解中文、韩文等非拉丁、非数字字符。
4、细微目标的理解仍然不足，场景信息量越大，越复杂，模型越难理解细微目标。
5、模型响应时长略长。
总之，我尝试的例子数量其实还是不多，以上结论还不是特别充分。期待有新的进展。。。

等待着鱼 · 发表于 2024-7-17 09:24:39

终于得到推送了！马上测了一波，应该说这个模型在某些方面的能力超出了我的预计，太牛逼了，但在某些方面的能力又差了点，但也算是预期之内吧。总的来说，非常惊人的智能。
我先总结一下

模型的识别和解释能力 - 超过人类，上大分

首先是模型的语义识别能力，非常强，这是他最强的能力了应该。很可能已经超越人类。
模型已经有了很强的解释能力，是很强，不是一般般的那种，就是说如果你问他为什么识别成这样，他能进行解释。而且解释的非常清楚，准确。解释能力我觉得可能已经超过了人类，我们人类识别某个东西正确率是很高的，但不一定能说清楚背后的逻辑，但这个GPT4-V可以，完全实现了我在这个答案中的预期：
深度学习的可解释性方向的研究是不是巨坑？这种解释力是全方位的，比如我让他识别了东京塔；宗教绘画里的故事，任务；神话题材绘画的人物；荷兰黄金时期绘画的风格；KITTI自动驾驶数据集中的交通标志等等，对不同的识别任务，能够给出很详细的解释。
对细节的观察能力 - 还可以

然后就是模型对细节的观察力，我发现这个是需要prompt的。就是说你如果让模型专注于某个细节，然后让他告诉你这个细节的信息，他是能做到的。但如果你不去prompt，就是泛泛地问，他不会去关注细节。这是非常让我震惊的，因为人也是这样不是吗？有意识的去查看细节才能看清楚，否则就是大略看看。这说明图像tokenizer的设计应该挺精巧的，因为语言产生的注意力要能够对各个层级的信息进行query，图像的token肯定也有层级之分。
能够识别图片中的文字，什么语言都可以，但要达到高准确率也是需要prompt的，就是让他盯着字看然后识别出来，他是可以的。
不过对细节的观察力比较有限，我让他给两幅图片找不同，他能找出来一些不同，但找不出所有，有时候哪怕你prompt他仔细看，他也会漏看，或者明明没有却说看到了，还是有幻觉问题。当然给两张图片找不同的游戏就算是人类也是经常会漏看的，这也侧面说明这个模型非常像人。
空间理解能力 - 比较差

三维空间理解能力是我比较在意的一点，可惜这个模型没能涌现出很强的三维视觉。他不是完全没有，你问他画面中物体的距离他也能说个马马虎虎。但问题是他一切都是以图像而不是现实世界为识别对象的。就是当你的问题涉及到物体和环境元素的方位，他的第一思路永远是基于二维图像的上下左右。比如我问他图片中草坪上坐着的人群的相对方位，他不太能基于草坪这个三维平面思考，仍然是基于二维图像中的位置思考。
时间理解能力 - 很差

我给他一幅KITTI自动驾驶数据集中的图，是一辆车在路上开，旁边的车道一辆车正掠过，他居然没看出来，说那辆车是停在路边的。。。但事实上是个人都能看出来那辆车是在开着的。可见他对世界的时序发展是没有概念的。
结合空间和时间理解能力的底下，这个模型可以说基本没有世界模型的潜力，这是比较让人失望的。
自动驾驶

我给他放了连续的两帧KITTI自动驾驶数据集中的图像，让他基于连续帧对场景内其他车辆的行为进行估计，如果不进行prompt的话，他注意不到其他车辆在移动，但如果给他prompt，是能够比较准确的估计其他车辆的运动和距离的。要把他prompt成能开车的状态应该是可以的，但需要非常复杂的prompt engineering。具体看后面的单帧和多帧自动驾驶场景测试。
安全性

敏感问题坚决不回答，不进行伦理判断，不识别人物的个人信息。做得很好，毕竟是Ilya亲自推进的方向。
<hr/>案例展示

分析古典油画，解释画面风格和画面内容

看图识别图中的德语文字并猜地点

勉强算是猜出来了吧！

看图找不同

单帧自动驾驶场景识别

连续帧自动驾驶场景识别

欣赏冷门绘画作品并解释

时代不对，内容分析正确，艺术史基础知识正确：

时代不对，内容分析正确，艺术史基础知识正确：

模型安全性与对齐

非常牛逼，毕竟是Ilya最专注的部分。只要是和真人识别有关的都不行。上面那个慕尼黑工大不能识别，可能也是安全性原因。
另外进行比较之类的也是不可以的，违反伦理：

<hr/>之前的答案

之前就demo过多模态了，放出来只是迟早问题，过了这么久才放出来，肯定是在对齐，保证安全。所以技术报告也是着重强调安全问题。
两个月前在西西里Karpathy就透露说，GPT-V很厉害，其视觉能力在很多任务上都达到了sota。而实现方法也是简单到令人发指，就是把图像tokenize一下当成文字token一起训练预测下一个token。
我仍然比较期待模型的解释能力，就是感知视觉内容时，有没有逻辑推理，能不能对识别结果进行解释。
比较失望的是没有加入新数据训练，因为叫GPT4-V…说明没有新数据…但他们到底是从一开始就有一个GPT4-V的版本还是基于GPT4继续训练的就不得而知了。如果是基于GPT4继续训练，加进去的大量图像token对模型的语言能力是增强还是减弱？如果语言能力变强了那就厉害了，说明“图文并茂”的数据比单独的语言数据更有利于智能的产生。
如果语言和图像真的能在紧耦合式的训练中涌现出智能，我觉得想象空间会很大。
比如给他带有文字的图片，他能不能识别图片中的文字并直接翻译？我估计多半可以。
比如他能不能告诉我图片中某个物体在图片中的三维位置？这涉及到三维感知能力，在不精确的文字指导下，如果也能涌现出三维感知，那就太炸裂了…我觉得多半不行。
比如给他一个网页或ppt的设计图，或是我的绘画或摄影作品，他能不能给我评判一下并教我改进？我估计是可以的。
把一个车载相机拍摄的十幅图片叠在一起给他，他能直接给出驾驶指令吗？
理解的精细度有多高？比如给他两幅图片找不同，他能找出多细微的不同？
对艺术类图片的理解能到达什么深度？对艺术作品中的宗教符号和故事能理解吗？
总之，太多值得期待的东西了，苍蝇搓手中～

_幂毒攻心 · 发表于 2024-7-17 09:25:07

说巨大变革可能有点儿夸张，但是确确实实会改变你我的生活，这意味着ChatGPT不再仅仅是一个文本驱动的工具，它可以看、听、和说话。这对于用户来说将开启全新的可能性，从实时图像分析到语音交流，这对特定用户群体，如视觉障碍者，也是一个福音。
很强，跟GPT4.0一样，会陆续开放给ChatGPT Plus用户，时间在两周内。

Plus and Enterprise users will get to experience voice and images in the next two weeks. We’re excited to roll out these capabilities to other groups of users, including developers, soon after.

这就是所谓的多模态吧，因为早在几个月前OpenAI就宣称自己的模型可以接收图片并且进行图像理解。
比如说这个他们之前放出的demo，ChatGPT会觉得这个接口跟手机连接在一起会很搞笑。

但是直到今天，OpenAI才终于放话出来要开放给用户了。
其实这次的更新就两点：增加了多模态的两个维度：语音voice和图像image 输入。
两个主要更新的内容：

1 可以跟ChatGPT进行语音交互

这个对于不方便打字或者打字比较不熟练的人，你可以直接跟它语音交流。
因为之前ChatGPT的手机APP其实也可以做语音输入，但是只能是文字输出，而现在，可以直接语音交流了，这样可能在很多情况下效率会更高，也更有趣，比如你可以让它讲一个睡前故事等。

https://www.zhihu.com/video/1690009760391421952
还有各种音色供你选择。

开启方法（在开放之后）

进入ChatGPT移动应用的设置。
在设置中选择加入语音对话。
在主屏幕右上角找到耳机按钮，选择您喜欢的声音，共有五个选择。
语音功能使用新的文本到语音技术，可以从文本和示范语音中生成逼真的声音。
OpenAI与专业声音演员合作，为每个声音创建了独特的特点。
ChatGPT还使用开源语音识别系统Whisper来将您的口头输入转录成文本。

2 图像输入与理解

现在，你可以向ChatGPT发送多张图像，进行基于图像的对话。这项技术有着广泛的应用，从解决问题到分析工作数据，甚至是计划晚餐，都可以轻松实现。要专注于图像的特定部分，还可以使用移动应用中的绘图工具。这个更新将为我们的数字生活带来更多的便利和创新。
下面是OpenAI的一个案例，你可以看到这种交互是非常有用同时也非常的新颖。

https://www.zhihu.com/video/1690009720952500224
其实看到这里，你就会发现GPT这类的大模型，做的就是一个人造大脑的工作，基本上就是要把人的五官可以感受到并可以做出分析的能力，赋予给大模型，而最终版的大模型一定是可以听，可以看，可以说，可以感知的一个多模态状态，对于GPT等大模型的使用，其实对于每个人都很重要，因为它集合了及其庞大的知识和强大的逻辑，可以帮人解决很多实际的问题，对于它的使用，我建议大家可以看看知乎知学堂开设的「大模型与人工智能课程」⬇️ ⬇️ ⬇️
课程邀请了2名圈内AI技术大牛讲课，趁着现在还免费，建议IT人都去看看，语言不限，如果了解Python 收获会更大！

这次的更新有两个很明显的好处：
用户友好性： 这一更新注重用户友好性。拍照、录制声音，这些都是用户通常已经习惯的操作。这种直观性使得ChatGPT更容易融入我们的日常生活，比如解决家庭问题、辅助学习或者进行创造性的语音交流。
声音合成技术： OpenAI采用了新的文本到语音技术，可以从少量文本和示范语音中生成人类般逼真的声音。这不仅提高了交互的沉浸感，还为有声讲述、音频制作等领域带来了新的创造性可能性。
不过在最后，也有一些顾虑，那就是随着图像的输入，安全和道德问题变得更加重要，如何判断哪些图像有潜在的风险，其实是一个不小的挑战。

收车。 · 发表于 2024-7-17 09:25:29

ChatGPT的又一次重大更新，炸裂程度堪比当初推出的插件功能。
更新的功能并不复杂，就两点：

能听能说（语音支持）。仅支持移动端（iOS和安卓）。
能看（图像支持）。支持全平台。

两个功能预计未来两周内推出，仅向ChatGPT Plus用户开放。（预计又要迎来一波订阅量高峰了）
语音支持

严格来说，此前的 ChatGPT 在移动端也是支持语音的，用过的知友应该都体验过APP上的语音输入功能。
但是之前的ChatGPT是只能“听”（语音转文本），不能“说”（文本转语音，TTS），只有耳朵没有嘴。
而这次更新让ChatGPT既能听又能说，官方的叫法是“back-and-forth conversation”（来回对话），让用户能跟ChatGPT进行语音交谈。
由“一去”变成“一去一回”，这差别可大了。应用场景会多很多，比如，
1、口语老师。把ChatGPT当英语口语老师，跟它进行对话练习，简直是想锻炼口语的同学的福音。
其实之前ChatGPT刚出来的时候，就有人这么干过，但需要安装浏览器插件，进行语音-文字和文字-语音的转换，由于不是官方支持的，所以像识别质量和发音效果这些是没法保证的。
而根据OpenAI的介绍，ChatGPT更新后，将由一个全新的文本转语音（TTS）模型提供语音功能支持，它能够仅从文本和几秒钟的样本语音中生成类似人类的音频，结合Whisper模型的语音转文本，一同保证用户与ChatGPT进行语音交流的质量和流畅度。

The new voice capability is powered by a new text-to-speech model, capable of generating human-like audio from just text and a few seconds of sample speech. We collaborated with professional voice actors to create each of the voices. We also use Whisper, our open-source speech recognition system, to transcribe your spoken words into text.
新的语音功能由新的文本转语音模型提供支持，能够仅从文本和几秒钟的样本语音中生成类似人类的音频。我们与专业配音演员合作创作了每一个声音。我们还使用我们的开源语音识别系统 Whisper 将您的口语转录为文本。

关于这个TTS模型，OpenAI没有介绍更多细节，但我认为这将是他们未来重点研发和运营的一个新模型，以后可能还会像Whisper一样通过API提供给用户使用。
以及可能很快又有一批第三方插件没有活路了。
2、语音客服/智能机器人。
以ChatGPT对自然语言的理解能力，当一个客服绰绰有余，现在有了语音支持，文本-语音、语音-文本随意转换，还能可以变换、模仿更多人声，充当个语音客服或者导购机器人之类的将是绝杀。
当初的“人工”智能可以变成真正的“人工智能”了。

“人工”智能

图像支持

OpenAI 在技术报告中透露 GPT-4V 模型在2022年就已经完成训练了[1]。

而支持多模态的GPT-4也早在今年3月就发布了，只是图像功能一直没有开放给ChatGPT用户使用，到底是因为算力不足，还是总体效果不理想，亦或是其他什么原因就不得而知了。
但是现在“图像输入”终于来了。
在这几个月的时间里，已经有不少公司率先把图像功能加入到自家的Chatbot产品中了，比如谷歌的Bard，百度的文心等。
所以现在这个时间点来看，功能本身已经并不新鲜，重要的是实际效果，以及到底能不能覆盖更多的应用场景。
看了OpenAI的演示之后，还是被惊艳了一下。
ChatGPT手把手教你修自行车

先拍一张山地车的照片；

问ChatGPT如何把车座调低。

ChatGPT根据输入的图像和问题给出解决步骤。

不太确定操作步骤，给一张特写图。

内六角螺栓也能识别并理解其功能。
接下来再把说明书和工具箱拍给ChatGPT，询问它是否有合适的工具。

ChatGPT的回答。

最后，在ChatGPT的指导下，“手残党”成功调低自行车车座。

说实话，这个演示给中ChatGPT的图片理解能力着实有些夸张了。也难怪网友们都表示很惊叹。

ChatGPT 完全体还有多远？

ChatGPT自从被推出就被当作人工智能（至少在LLM领域）产品的天花板，所以每一次更新都能引起很多人的关注。
今年伴随着类ChatGPT等AIGC产品的诞生，让人们看到了大模型的能力。
大模型因此也被认为是最有可能实现通用人工智能（AGI）的途径。
而大模型的佼佼者OpenAI/ChatGPT自然也被寄予厚望和最多的关注。
之前发布ChatGPT的插件功能，被认为是ChatGPT通向人工智能的重要一步。
OpenAI给ChatGPT的发展路线就像照着AGI这样的完全体不断拼凑，每次重大更新就是在拼图上增加一块。
如果把通用人工智能比作现实世界中的“三维生物”，那么只能处理文本这单一模态信息ChatGPT可算作“一维生物”，而此次更新后的ChatGPT则进化到能处理文本、语音、图像的“二维生物”。
距离AGI还差环境感知、自主决策等具身智能的属性和功能。
这个距离到底有多远还未可知，但是每一次进化，都让我们离AGI更近一步。
我很好奇在说、听、看之后，接下来 OpenAI 还会赋予 ChatGPT 什么能力。

		自动登录	找回密码
密码			立即注册

ChatGPT 更新多模态，撑持图片和语音输入，会带来哪些新体验和影响？

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源