GPT-5 简介

8/8/2025 5:34:02 PM
0

我们迄今为止最智能、最快、最有用的模型,具有内置思维,可将专家级智能交到每个人手中。

我们正在推出 GPT-5,这是我们迄今为止最好的人工智能系统。GPT-5 是我们之前所有模型在智能方面的重大飞跃,在编码、数学、写作、健康、视觉感知等方面具有最先进的性能。它是一个统一的系统,知道何时快速响应,何时思考更长时间以提供专家级响应。GPT-5 可供所有用户使用,Plus 订阅者可以使用更多,而 Pro 订阅者可以访问 GPT-5 pro,该版本具有扩展推理功能,可提供更全面、更准确的答案。

一个统一的系统

GPT-5 是一个统一的系统,具有智能、高效的模型,可以回答大多数问题,更深层次的推理模型(GPT-5 思维)可以解决更难的问题,以及一个实时路由器,可以根据对话类型、复杂性、工具需求和您的明确意图(例如,如果您在提示中说“认真考虑一下”)。路由器在真实信号上持续训练,包括用户切换模型的时间、响应的偏好率和测量的正确性,并随着时间的推移而改进。达到使用限制后,每个模型的迷你版本将处理剩余的查询。在不久的将来,我们计划将这些功能集成到一个模型中。

更智能、更广泛使用的模型

GPT-5 不仅在基准测试上优于以前的模型并更快地回答问题,而且最重要的是,它对现实世界的查询更有用。我们在减少幻觉、改善指令遵循和最大限度地减少阿谀奉承方面取得了重大进展,同时提高了 GPT-5 在 ChatGPT 三种最常见的用途(写作、编码和健康)中的性能。

编码

GPT-5 是我们迄今为止最强大的编码模型。它显示了在复杂前端生成和调试大型存储库方面的特别改进。它通常只需一个提示即可创建美观且响应迅速的网站、应用程序和游戏,并着眼于审美敏感性,直观而有品位地将想法变为现实。早期的测试人员还注意到了它的设计选择,对间距、排版和空白等内容有了更好的了解。看这里了解有关 GPT-5 为开发人员解锁内容的完整详细信息。

以下是 GPT-5 仅通过一个提示创建的一些示例:

  • 滚球小游戏

  • 像素艺术

  • 打字游戏

  • 滚筒模拟器

  • Lofi 可视化工具

创意表达和写作

GPT-5 是我们迄今为止最有能力的写作合作者,能够帮助您引导和转化粗略的想法,并将其转化为具有文学深度和节奏的引人入胜、引起共鸣的写作。它更可靠地处理涉及结构歧义的写作,例如维持不押韵的抑扬格五音步或自然流动的自由诗,将对形式的尊重与表达清晰度相结合。这些改进的写作能力意味着 ChatGPT 可以更好地帮助您完成日常任务,例如起草和编辑报告、电子邮件、备忘录等。GPT-5 和 GPT-4o 的写作风格可以在下表中进行比较。

健康

GPT-5 是我们迄今为止解决健康相关问题的最佳模型,使用户能够了解并倡导他们的健康。该模型的得分明显高于之前的任何模型健康长凳,我们今年早些时候根据现实场景和医生定义的标准发布的评估。与以前的模型相比,它更像是一个积极的思想伙伴,主动标记潜在的问题并提出问题以提供更有用的答案。该模型现在还提供更精确、更可靠的响应,适应用户的上下文、知识水平和地理位置,使其能够在各种场景中提供更安全、更有用的响应。重要的是,ChatGPT 并不能取代医疗专业人员——将其视为帮助您了解结果的合作伙伴,在与提供者交谈的时间内提出正确的问题,并在您做出决策时权衡各种选择。

您可以在以下示例中看到 GPT-5 在各个领域比我们之前的模型更好的一些方面——更丰富、更详细、更有用:

  • 诗歌

  • 了解癌症风险

  • 婚礼祝酒词

  • 乐队全球巡演策划

  • 投手康复计划

评估

GPT-5 在各个方面都更加智能,这体现在它在学术和人类评估的基准测试中的表现,特别是在数学、编码、视觉感知和健康方面。它在数学(AIME 94.6 无工具 AIME 2025 上为 2025%)、真实世界编码(SWE-bench Verify 为 74.9%,Aider Polyglot 为 88%)、多模态理解(MMMU 为 84.2%)和健康(HealthBench Hard 为 46.2%)——这些进步体现在日常使用中。凭借 GPT-5 pro 的扩展推理,该模型还在 GPQA 上设定了新的 SOTA,无需工具即可得分 88.4%。

遵循指令和代理工具使用

GPT-5 在测试指令遵循和代理工具使用的基准测试中取得了显着进展,这些功能使其能够可靠地执行多步骤请求、跨不同工具进行协调并适应上下文变化。在实践中,这意味着它更擅长处理复杂的、不断变化的任务;GPT-5 可以更忠实地遵循您的指示,并使用其可用的工具端到端完成更多工作。

模态

该模型在一系列多模态基准测试中表现出色,涵盖视觉、基于视频、空间和科学推理。更强的多模态性能意味着 ChatGPT 可以更准确地推理图像和其他非文本输入——无论是解释图表、总结演示文稿的照片,还是回答有关图表的问题。

具有重要经济意义的任务

GPT-5 也是我们在内部基准测试中表现最佳的模型,用于衡量复杂、具有经济价值的知识工作的性能。在使用推理时,GPT-5 在大约一半的情况下与专家相当或更好,同时在涵盖法律、物流、销售和工程等 40 多个职业的任务中优于 o3 和 ChatGPT Agent。

更快、更高效的思维

GPT-5 从更少的思考时间中获得更多价值。在我们的评估中,GPT-5(有思维)的表现优于 OpenAI o3,在视觉推理、代理编码和研究生水平的科学问题解决等各个功能中的输出令牌减少了 50-80%。

GPT-5 是在 Microsoft Azure AI 超级计算机上训练的。

构建更健壮、更可靠、更有用的模型

对实际查询的更准确答案

GPT-5 出现幻觉的可能性明显低于我们以前的模型。在代表 ChatGPT 生产流量的匿名提示上启用网络搜索后,GPT-5 的响应包含事实错误的可能性比 GPT-4o 低 ~45%,而在思考时,GPT-5 的响应包含事实错误的可能性比 OpenAI o80 低 ~3%。

我们特别投资于使我们的模型在对复杂的开放式问题进行推理时更加可靠。因此,我们添加了新的评估来对开放式事实进行压力测试。我们测量了 GPT-5 在思考两个公共事实基准的开放式事实寻求提示时的幻觉率:长事实(在新窗口中打开)(概念和对象)和FAct评分(在新窗口中打开).在所有这些基准测试中,“GPT-5 思维”显示幻觉急剧下降——大约是 o3 的六倍——标志着在生成始终如一的准确长篇内容方面取得了明显的飞跃。

更诚实的回应

除了提高真实性外,GPT-5(具有思维能力)更诚实地向用户传达其行动和能力,特别是对于不可能、未指定或缺少关键工具的任务。为了在训练过程中获得高额奖励,推理模型可能会学会谎称成功完成任务或对不确定的答案过于自信。例如,为了测试这一点,我们从多模态基准 CharXiv 的提示中删除了所有图像,发现 OpenAI o3 在 86.7% 的情况下仍然对不存在的图像给出了自信的答案,而 GPT-5 的这一比例仅为 9%。

在推理时,GPT-5 更准确地识别任务何时无法完成,并清楚地传达其极限。我们评估了涉及不可能的编码任务和缺失多模态资产的设置的欺骗率,发现 GPT-5(有思维)的欺骗性比 o3 低。在代表真实生产 ChatGPT 流量的大量对话中,我们已将欺骗率从 o3 的 4.8% 降低到 GPT-5 推理响应的 2.1%。虽然这对用户来说是一个有意义的改进,但仍有更多工作要做,我们正在继续研究以提高模型的真实性和诚实性。

更安全、更有用的响应

GPT-5 推进了安全前沿。过去,ChatGPT 主要依赖于基于拒绝的安全训练:根据用户的提示,模型应该要么遵守,要么拒绝。虽然这种类型的训练适用于明显的恶意提示,但它可能难以处理用户意图不明确或信息可能以良性或恶意方式使用的情况。拒绝训练对于病毒学等两用领域尤其不灵活,在这些领域,良性请求可以在高级别上安全地完成,但如果详细完成,可能会使不良行为者成为可能。

对于 GPT-5,我们引入了一种新的安全训练形式——安全完成——它教模型在可能的情况下给出最有用的答案,同时仍然保持在安全范围内。有时,这可能意味着部分回答用户的问题或仅在高级别上回答。如果模型需要拒绝,GPT-5 会经过训练,透明地告诉您拒绝的原因,并提供安全的替代方案。在对照实验和我们的生产模型中,我们发现这种方法更加细致入微,能够更好地导航两用问题,对模棱两可的意图具有更强的鲁棒性,并减少不必要的过度拒绝。

减少阿谀奉承,精致风格

总体而言,与 GPT-5o 相比,GPT-4 不那么令人愉快,使用更少的不必要的表情符号,并且在后续行动中更加微妙和深思熟虑。它应该感觉不像“与人工智能交谈”,而更像是一个拥有博士级智力的乐于助人的朋友聊天。

今年早些时候,我们发布了 GPT-4o 的更新这无意中使模型过于阿谀奉承,或者过于奉承或讨人喜欢。我们迅速回滚更改此后,我们一直致力于通过以下方式理解和减少这种行为:

制定新的评估以衡量阿谀奉承水平

改进我们的训练,使模型不那么阿谀奉承——例如,添加通常会导致过度一致的示例,然后教它不要这样做。

在使用专门设计用于引发阿谀奉承反应的提示进行有针对性的阿谀奉承评估中,GPT-5 显着减少了阿谀奉承的回复(从 14.5% 降至不到 6%)。有时,减少阿谀奉承会降低用户满意度,但我们所做的改进将阿谀奉承减少了一半以上,同时也带来了其他可衡量的收益,因此用户继续进行高质量、建设性的对话——这符合我们的目标帮助人们很好地使用 ChatGPT.

自定义 ChatGPT 的更多方法

GPT-5 在遵循指令方面明显更好,我们看到其遵循自定义指令的能力也得到了相应的提高。

我们还为所有 ChatGPT 用户推出了四个新预设个性的研究预览,这得益于可纵性的改进。这些个性最初可用于文本聊天,稍后可用于语音,可让您设置 ChatGPT 的交互方式——无论是简洁专业、深思熟虑和支持,还是有点讽刺——而无需编写自定义提示。四个初始选项,愤世嫉俗、机器人、听众和书,是选择加入的,可以随时在设置中调整,并旨在匹配您的沟通风格。

所有这些新人物都达到或超过了我们在减少阿谀奉承方面的内部评估标准。

我们期待根据早期反馈进行学习和迭代。

生物风险综合保障措施

我们决定将“GPT-5思维”模型视为生物和化学领域的高能力,并实施了强有力的保障措施,以充分降低相关风险。我们严格测试了该模型,并在我们的安全评估下进行了安全评估准备框架,与 CAISI 和英国 AISI 等合作伙伴完成 5,000 小时的红队合作。

与我们对 ChatGPT Agent 的方法类似,虽然我们没有明确的证据表明该模型可以有意义地帮助新手造成严重的生物伤害——我们的定义的阈值(在新窗口中打开)对于高能力——我们正在采取预防性方法,现在正在启动所需的保障措施,以便在此类能力可用时提高准备状态。因此,“GPT-5 思维”拥有强大的安全堆栈和多层生物学防御系统:全面的威胁建模,通过我们新的安全完成范式训练模型不输出有害内容,始终在线的分类器和推理监视器,以及清晰的执行管道。

GPT-5 专业版

对于最具挑战性、最复杂的任务,我们还发布了 GPT-5 pro,取代了 OpenAI o3-pro,后者是 GPT-5 的变体,思考时间更长,使用规模化但高效的并行测试时计算,提供最高质量和最全面的答案。GPT-5 pro 在几个具有挑战性的智能基准测试中实现了 GPT-5 系列中的最高性能,包括在包含极其困难的科学问题的 GPQA 上最先进的性能。

在对 1000 多个具有经济价值的现实世界推理提示的评估中,外部专家在 67.8% 的时间内更喜欢 GPT-5 pro,而不是“GPT-5 思维”。GPT-5 pro 的重大错误减少了 22%,并且在健康、科学、数学和编码方面表现出色。专家们认为其回应相关、有用且全面。

如何使用 GPT-5

GPT-5 是 ChatGPT 中的新默认设置,取代了 GPT-4o、OpenAI o3、OpenAI o4-mini、GPT-4.1 和 GPT-4.5 供登录用户使用。只需打开 ChatGPT 并输入您的问题;GPT-5 处理其余部分,当响应从中受益时自动应用推理。付费用户仍然可以从模型选择器中选择“GPT-5 Thinking”,或者在提示中输入“认真思考”之类的内容,以确保在生成响应时使用推理。

可用性和访问

GPT-5 今天开始向所有 Plus、Pro、Team 和 Free 用户推出,Enterprise 和 Edu 将在一周内访问。Pro、Plus 和 Team 用户也可以在Codex CLI(在新窗口中打开)通过使用 ChatGPT 登录。

与 GPT-4o 一样,免费和付费访问 GPT-5 之间的区别在于使用量。Pro 订阅者可以无限制地访问 GPT-5 和 GPT-5 Pro。此外,用户可以舒适地将其用作日常问题的默认模型,其使用率明显高于免费用户。团队、企业和 Edu 客户还可以舒适地将 GPT-5 用作日常工作的默认模型,并具有慷慨的限制,使整个组织可以轻松依赖 GPT-5。对于 ChatGPT 免费套餐用户,完整的推理功能可能需要几天时间才能完全推出。一旦免费用户达到 GPT-5 使用限制,他们将过渡到 GPT-5 mini,这是一种更小、更快、功能强大的模型。

关注“AppFuns”微信公众号,发现更多有趣的产品
全部评论(0)