只读

OpenAI 发布新旗舰模型 GPT-4o，实时处理音频、视觉和文本

5/15/2024 10:32:47 PM

HomeAIOpenAI 发布新旗舰模型 GPT-4o，实时处理音频、视觉和文本
OpenAI 发布新旗舰模型 GPT-4o，实时处理音频、视觉和文本AI 业界消息 2024/05/14 青小蛙 21
OpenAI 在昨天发布了新旗舰模型 GPT-4o(“o” for “omni”)，它可以同时处理文本、音频、视频，让你与 AI 的交流变得和人一样，你可以和它面对面视频，它会在很短的时间内做出响应。那个电影里的贾维斯，大概就这来了。

主要特点

GPT-4o 能接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出。

它可以在短至 232 毫秒、平均 320 毫秒的时间内对音频输入做出响应，这类似于对话中的人类响应时间。

在 GPT-4o 之前，您可以使用语音模式与 ChatGPT 对话，平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)

以前为了实现这一目标，语音模式是由三个独立模型组成的管道：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。

而 GPT-4o 跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。

它在英语和代码文本上的性能与 GPT-4 Turbo 相当，在非英语语言文本上的性能也有显著提高，同时在应用程序接口（API）上的速度更快，价格便宜 50%。

与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

如何使用

GPT-4o 的文本和图像（无视频）功能今天开始在 ChatGPT 中推出。Plus 付费用户比免费版多 5 倍的消息限制，免费版本可用 GPT-4o。

未来几周将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。

开发人员（API 用户）现在可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，价格降低一半，速率限制提高 5 倍。

未来几周内在 API 中向一小群值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。

链接地址

https://www.appinn.com/hello-gpt-4o-openai/

关注“AppFuns”微信公众号，发现更多有趣的产品

全部评论（0）

名称

邮箱

友情链接

@2018-2026 关于更新记录广告合作产品死亡目录提交产品提交促销产品产品对比客户端

本站大部分内容来源于网络和网友推荐，并不能确保安全性和可信性，请读者自己识别，另如有侵犯您的合法权益请联系我们。