OpenAI 发布最强编程模型 GPT-5.1-Codex-Max：AI 程序员能“通宵”，性能跑分反超谷歌 Gemini

抖音秀热点资讯 2025-11-20 15:28:07 48

11 月 20 日消息，OpenAI 昨日（11 月 19 日）发布博文，宣布推出 GPT-5.1-Codex-Max 智能体编程模型，显著提升了长远推理能力、效率和实时交互能力。此外该模型将取代 GPT-5.1-Codex，成为 Codex 集成界面上的默认模型。

援引博文介绍，此次发布紧随谷歌 Gemini 3 Pro 之后，但在多个关键编程基准测试中，Codex-Max 展现出更强的实力。例如，在衡量解决实际软件问题的 SWE-Bench Verified 测试中，Codex-Max 以 77.9% 的准确率小幅领先于 Gemini 3 Pro 的 76.2%。

Codex-Max 在 Terminal-Bench 2.0 测试中也领先，准确率达到 58.1%，而 Gemini 的准确率为 54.2%；在 LiveCodeBench Pro（一项竞争激烈的编码 Elo 基准测试）测试中，它的得分与 Gemini 的 2439 分持平。

GPT-5.1-Codex-Max 的一项重大架构升级是引入了名为“压缩”（Compaction）的机制。该机制允许模型在接近其上下文窗口限制时，智能地保留关键上下文信息并丢弃无关细节，从而实现跨越数百万 token 的连续工作而不会出现性能下降。

得益于此，该模型在内部测试中已成功完成持续超过 24 小时的复杂任务，如多步骤代码重构和自主调试。同时，这项技术还提升了约 30% 的 token 效率，有效降低了成本与延迟。

新模型目前已集成到 OpenAI 自家的多个 Codex 开发环境中，包括其官方命令行工具（Codex CLI）、内部代码审查工具以及各类交互式编程环境。

开发者可以通过这些工具体验到模型强大的实时交互能力，例如在可视化界面中进行强化学习训练或模拟光学定律。不过，GPT-5.1-Codex-Max 尚未通过公共 API 提供，但官方表示即将开放。普通用户则需要订阅 ChatGPT Plus、Pro 或企业版等付费计划才能使用。

OpenAI 透露，其内部 95% 的工程师每周都会使用 Codex，自采用以来，这些工程师平均多提交了约 70% 的拉取请求（Pull Requests），显著提升了内部开发速度。

尽管 Codex-Max 具备高度的自主性，OpenAI 仍强调它应作为编码“助手”而非人类的替代品。为保证透明度，模型会生成详细的终端日志和测试引用，以便开发者审查和验证其生成的所有代码。此外，模型在默认情况下运行于严格的沙盒环境中，并禁用了网络访问，以确保安全性。

本文地址： http://douyinshow.com/700386.html

文章来源： IT之家