如何评价OpenAI最新发布的撑持图像和语音对话的ChatGPT？

lx291507510 · 发表于 2023-10-5 15:00:46

OpenAI最新发布的撑持图像和语音对话的ChatGPT是人工智能范围的一项重大进展，将对我们的数字生活和交互方式发生深远影响。
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

黑手强 · 发表于 2023-10-5 15:01:34

盲人可以通过一个小巧的设备，随时与ChatGPT交互，获取关于周围环境的信息。例如，当他们走在街上，可以询问ChatGPT：&#34;我现在在哪里？&#34;或者&#34;前面有什么障碍物？&#34;，而ChatGPT可以通过与设备的摄像头和传感器实时交互，为盲人提供精确的回答。
有听力障碍的人可以通过简单的手势或文字与ChatGPT交互，得到即时的语音回复。这意味着，无论是在学习、工作还是日常生活中，他们都可以更加自如地获取信息，无需依赖他人。
技术让世界更加美好！

鈅鋰 · 发表于 2023-10-5 15:02:05

用来破解验证码
”那个，不好使。这个，好使！”

爱上你我很快乐 · 发表于 2023-10-5 15:02:20

新版ChatGPT开启一种更直观的交互方式，可以向AI展示正在谈论的内容。
其实一同公布的还有多模态版GPT-4V模型System Card。
其中最令人惊讶的是，多模态版早在2022年3月就训练完了……

看到这里，有网友灵魂发问：有多少创业公司在刚刚5分钟之内死掉了？

看听说皆备，全新交互方式

更新后的ChatGPT移动APP里，可以直接拍照上传，并针对照片中的内容提出问题。
比如“如何调整自行车座椅高度”，ChatGPT会给出详细步骤。

如果你完全不熟悉自行车结构也没关系，还可以圈出照片的一部分问ChatGPT“说的是这个吗？”。
就像在现实世界中用手给别人指一个东西一样。

不知道用什么工具，甚至可以把工具箱打开拍给ChatGPT，它不光能指出需要的工具在左边，连标签上的文字也能看懂。

提前得到使用资格的用户也分享了一些测试结果。
可以分析自动化工作流程图。

但是没有认出一张剧照具体出自哪部电影。

△认出的朋友欢迎在评论区回复
语音部分的演示还是上周DALL·E 3演示的联动彩蛋。
让ChatGPT把5岁小朋友幻想中的“超级向日葵刺猬”讲成一个完整的睡前故事。

△DALL·E3演示
ChatGPT这次讲的故事文字摘录如下：

多模态GPT-4V能力大揭秘

结合所有公布的视频演示与GPT-4V System Card中的内容，手快的网友已经总结出GPT-4V的视觉能力大揭秘。

物体检测：GPT-4V可以检测和识别图像中的常见物体，如汽车、动物、家居用品等。其物体识别能力在标准图像数据集上进行了评估。
文本识别：该模型具有光学字符识别 (OCR) 功能，可以检测图像中的打印或手写文本并将其转录为机器可读文本。这在文档、标志、标题等图像中进行了测试。
人脸识别：GPT-4V可以定位并识别图像中的人脸。它具有一定的能力，可以根据面部特征识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。
验证码解决：在解决基于文本和图像的验证码时，GPT-4V显示出了视觉推理能力。这表明该模型具有高级解谜能力。
地理定位：GPT-4V 具有识别风景图像中描绘的城市或地理位置的能力，这证明模型吸收了关于现实世界的知识，但也代表有泄露隐私的风险。
复杂图像：该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。它错过了上下文细节。

同时也总结了GPT-4V目前的局限性。

空间关系：模型可能很难理解图像中对象的精确空间布局和位置。它可能无法正确传达对象之间的相对位置。
对象重叠：当图像中的对象严重重叠时，GPT-4V 有时无法区分一个对象的结束位置和下一个对象的开始位置。它可以将不同的对象混合在一起。
背景/前景：模型并不总是准确地感知图像的前景和背景中的对象。它可能会错误地描述对象关系。
遮挡：当图像中某些对象被其他对象部分遮挡或遮挡时，GPT-4V 可能无法识别被遮挡的对象或错过它们与周围对象的关系。
细节：模型经常会错过或误解非常小的物体、文本或图像中的复杂细节，从而导致错误的关系描述。
上下文推理：GPT-4V缺乏强大的视觉推理能力来深入分析图像的上下文并描述对象之间的隐式关系。
置信度：模型可能会错误地描述对象关系，与图像内容不符。

同时System Card中也重点声明了“目前在科学研究和医疗用途中性能不可靠”。

另外后续还要继续研究，是否应该让模型识别公众人物，是否应该允许模型从人物图像中推断性别、种族或情感等问题。
有网友已经想好，等更新了要问的第一件事是Sam Altman照片的背包里装的是什么。

那么，你想好第一件事问什么了么？

参考链接：
[1]https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
[2]https://openai.com/research/gpt-4v-system-card
[3]https://x.com/IntuitMachine/status/1706307412401979455
[4]https://x.com/youraimarketer/status/1706461715078975778
—完—
@量子位 · 追踪AI技术和产品新动态
深有感触的朋友，欢迎赞同、关注、分享三连վ&#39;ᴗ&#39; ի ❤

ＪＢ · 发表于 2023-10-5 15:02:32

很强，跟GPT4.0一样，会陆续开放给ChatGPT Plus用户，时间在两周内。

Plus and Enterprise users will get to experience voice and images in the next two weeks. We’re excited to roll out these capabilities to other groups of users, including developers, soon after.

这就是所谓的多模态吧，因为早在几个月前OpenAI就宣称自己的模型可以接收图片并且进行图像理解。
比如说这个他们之前放出的demo，ChatGPT会觉得这个接口跟手机连接在一起会很搞笑。

但是直到今天，OpenAI才终于放话出来要开放给用户了。
其实这次的更新就两点：增加了多模态的两个维度：语音voice和图像image 输入。
这意味着ChatGPT不再仅仅是一个文本驱动的工具，它可以看、听、和说话。这对于用户来说将开启全新的可能性，从实时图像分析到语音交流，这对特定用户群体，如视觉障碍者，也是一个福音。

两个主要更新的内容：

1 可以跟ChatGPT进行语音交互

这个对于不方便打字或者打字比较不熟练的人，你可以直接跟它语音交流。
因为之前ChatGPT的手机APP其实也可以做语音输入，但是只能是文字输出，而现在，可以直接语音交流了，这样可能在很多情况下效率会更高，也更有趣，比如你可以让它讲一个睡前故事等。

https://www.zhihu.com/video/1689809515690901504
还有各种音色供你选择。

开启方法（在开放之后）

进入ChatGPT移动应用的设置。
在设置中选择加入语音对话。
在主屏幕右上角找到耳机按钮，选择您喜欢的声音，共有五个选择。
语音功能使用新的文本到语音技术，可以从文本和示范语音中生成逼真的声音。
OpenAI与专业声音演员合作，为每个声音创建了独特的特点。
ChatGPT还使用开源语音识别系统Whisper来将您的口头输入转录成文本。

2 图像输入与理解

现在，你可以向ChatGPT发送多张图像，进行基于图像的对话。这项技术有着广泛的应用，从解决问题到分析工作数据，甚至是计划晚餐，都可以轻松实现。要专注于图像的特定部分，还可以使用移动应用中的绘图工具。这个更新将为我们的数字生活带来更多的便利和创新。
下面是OpenAI的一个案例，你可以看到这种交互是非常有用同时也非常的新颖。

https://www.zhihu.com/video/1689805054582939648
其实看到这里，你就会发现ChatGPT这类的大模型，做的就是一个人造大脑的工作，基本上就是要把人的五官可以感受到并可以做出分析的能力，赋予给大模型，而最终版的大模型一定是可以听，可以看，可以说，可以感知的一个多模态状态，对于ChatGPT等大模型的使用，其实对于每个人都很重要，因为它集合了及其庞大的知识和强大的逻辑，可以帮人解决很多实际的问题，对于它的使用，我建议大家可以看看知乎知学堂开设的「大模型与人工智能课程」⬇️ ⬇️ ⬇️
这次的更新有两个很明显的好处：
用户友好性： 这一更新注重用户友好性。拍照、录制声音，这些都是用户通常已经习惯的操作。这种直观性使得ChatGPT更容易融入我们的日常生活，比如解决家庭问题、辅助学习或者进行创造性的语音交流。
声音合成技术： OpenAI采用了新的文本到语音技术，可以从少量文本和示范语音中生成人类般逼真的声音。这不仅提高了交互的沉浸感，还为有声讲述、音频制作等领域带来了新的创造性可能性。
不过在最后，也有一些顾虑，那就是随着图像的输入，安全和道德问题变得更加重要，如何判断哪些图像有潜在的风险，其实是一个不小的挑战。

只爱你一人497 · 发表于 2023-10-5 15:02:52

先占个坑.
听了一下官网的demo, 感觉和11labs还有差距, 按理说有chatgpt加持, 文本理解应该不是问题. 但是引号里的内容, 角色切换非常不明显. 而且音质有比较明显的artifact, 外放可感那种.
究其原因, 我乍一想可能是为了上线后收集数据开始飞轮?
抛砖引玉, 让子弹再飞一会.

		自动登录	找回密码
密码			立即注册

如何评价OpenAI最新发布的撑持图像和语音对话的ChatGPT？

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源