HomeAIOpenAI 发布新旗舰模型 GPT-4o,实时处理音频、视觉和文本
OpenAI 发布新旗舰模型 GPT-4o,实时处理音频、视觉和文本AI 业界消息 2024/05/14 青小蛙 21
OpenAI 在昨天发布了新旗舰模型 GPT-4o(“o” for “omni”),它可以同时处理文本、音频、视频,让你与 AI 的交流变得和人一样,你可以和它面对面视频,它会在很短的时间内做出响应。那个电影里的贾维斯,大概就这来了。
GPT-4o 能接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。
它可以在短至 232 毫秒、平均 320 毫秒的时间内对音频输入做出响应,这类似于对话中的人类响应时间。
在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)
以前为了实现这一目标,语音模式是由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。
而 GPT-4o 跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。
它在英语和代码文本上的性能与 GPT-4 Turbo 相当,在非英语语言文本上的性能也有显著提高,同时在应用程序接口(API)上的速度更快,价格便宜 50%。
与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
GPT-4o 的文本和图像(无视频)功能今天开始在 ChatGPT 中推出。Plus 付费用户比免费版多 5 倍的消息限制,免费版本可用 GPT-4o。
未来几周将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。
开发人员(API 用户)现在可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。
未来几周内在 API 中向一小群值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。