Claude 3.7 Sonnet 和 Claude Code 【译】

image 今天,我们宣布推出迄今为止我们最智能的模型——Claude 3.7 Sonnet1。这是市场上首个混合推理模型。Claude 3.7 Sonnet 既能瞬时作答,也能进行分步骤的推理思考,且这种思考过程会对用户可见。API 用户还可以对模型的思考时长进行精细化控制。

Claude 3.7 Sonnet 在编程和前端网页开发方面表现尤为突出。伴随这个新模型,我们还推出了一个用于代理式编程的命令行工具——Claude Code。目前 Claude Code 作为一款有限的研究预览版本向开发者开放,允许他们从终端直接将大量工程任务委派给 Claude。

image 现在,Claude 3.7 Sonnet 已在所有Claude订阅计划(包括免费版、专业版、团队版和企业版)以及Anthropic API、Amazon Bedrock和Google Cloud 的 Vertex AI上全面上线。扩展思考模式(extended thinking mode)在除免费版 Claude 以外的所有平台均可使用。

在标准模式和扩展思考模式下,Claude 3.7 Sonnet 的定价与前代模型相同:输入 token 每百万收取 3 美元,输出 token(包括思考 token)每百万收取 15 美元。

Claude 3.7 Sonnet:将前沿推理切实落地

在开发 Claude 3.7 Sonnet 的过程中,我们采用了与市场上其他推理模型不同的理念。就像人类使用同一个大脑既能快速回应,也能深入思考一样,我们认为前沿模型的推理应该是一种整合的能力,而不是由不同模型分别实现。这样的统一方法也能为用户带来更流畅的使用体验。

Claude 3.7 Sonnet 具体体现在以下几个方面。首先,Claude 3.7 Sonnet 同时既是普通大语言模型,也是推理模型:你可以自行决定何时让模型以常规模式回答,何时让它在回答之前进行更长时间的思考。在标准模式下,Claude 3.7 Sonnet 是对 Claude 3.5 Sonnet 的升级版本;在扩展思考模式下,Claude 会先进行自省,再给出答案,这提升了它在数学、物理、指令执行、编程以及其他许多任务上的表现。我们发现,在两种模式下,对模型的提示工程大体类似。

其次,通过 API 使用 Claude 3.7 Sonnet 时,用户还可以控制思考的“预算”:你可以指定 Claude 的思考 token 不超过 N(最高可达模型 128K token 的输出上限)。这样你就能在速度(和成本)与答案质量之间做出平衡。

第三,在研发我们的推理模型时,我们对数学和计算机科学竞赛类问题的关注有所减少,转而将重点放在更加贴近实际业务应用的真实世界任务上。

早期测试显示,Claude 在编程能力上依旧处于领先地位,从应对复杂代码库到更先进的工具使用,都有显著提升。Cursor 指出,在真实场景下的编程任务中,Claude 再次展现出同类中最好的水准;Cognition 发现它在规划代码修改和处理全栈更新方面表现远超其他模型;Vercel 强调了 Claude 在复杂代理工作流中的卓越精确度;Replit 成功用 Claude 从零开始构建复杂的 Web 应用和仪表盘,而其他模型往往会在同等场景下停滞不前;Canva 的测试表明,Claude 编写的代码不仅可投入生产使用,而且设计品味出众,大幅减少了错误率。

image 在 SWE-bench Verified 基准测试中,Claude 3.7 Sonnet 达到了目前最先进的水平。该测试主要评估 AI 模型在解决真实软件问题方面的能力。更多关于 scaffold 的信息可见附录。

image 在 TAU-bench 框架(主要测试 AI 代理与用户及工具交互处理复杂真实世界任务)中,Claude 3.7 Sonnet 同样表现领先。更多关于 scaffold 的信息可见附录。

image Claude 3.7 Sonnet 在指令执行、通用推理、多模态能力和代理式编程领域表现出众,使用扩展思考后在数学和科学方面有显著提升。除了传统基准测试外,它在我们口袋妖怪游戏测试中也超越了此前所有的模型版本。

Claude Code

自 2024 年 6 月以来,Sonnet 一直是全球开发者的首选模型。今天,我们进一步为开发者赋能,推出了我们的首款代理式编程工具——Claude Code(有限研究预览版)。

Claude Code 是一种主动协作伙伴,能够搜索并阅读代码、编辑文件、编写并运行测试、提交并推送代码到 GitHub,还能使用命令行工具——并在每一步操作中与你保持同步。

虽然 Claude Code 还处于早期阶段,但它已经成为我们团队必不可少的工具,特别是在测试驱动开发、排查复杂问题以及大规模重构方面都表现突出。在早期测试中,Claude Code 能在一次性操作中完成原本需要 45 分钟以上手动工作的任务,大幅减少了开发时间和工作量。

在接下来的几周里,我们会持续改进它,包括增强工具调用的稳定性、支持长时命令、改进应用内渲染,以及让 Claude 更好地理解自身能力。

我们推出 Claude Code 的目标是更好地了解开发者在编码场景下对 Claude 的使用方式,为后续的模型升级提供依据。如果你加入本次预览,就能使用和我们相同的强大工具来构建并改进 Claude,你的反馈也将直接塑造它的未来。

在你的代码库中与 Claude 协作

我们也改进了 Claude.ai 上的编程体验。GitHub 集成现已在所有 Claude 订阅计划中开放,开发者可以将自己的代码库直接连接到 Claude。

Claude 3.7 Sonnet 是我们迄今为止最优秀的编程模型。结合对个人、工作和开源项目的更深入理解,Claude 将成为你调试、开发新功能和为重要项目编写文档时更为强大的伙伴。

负责任地构建

在发布 Claude 3.7 Sonnet 之前,我们进行了广泛的测试和评估,并与外部专家合作,确保它在安全性、可靠性和稳定性方面满足我们的标准。相较于之前的版本,Claude 3.7 Sonnet 在区分有害与安全请求时也更为细致,不必要的拒绝率减少了45%。

本次版本的系统卡片详述了多个类别的新安全结果,并提供了有关我们“Responsible Scaling Policy”评估的细节,让其他 AI 实验室和研究者也可借鉴。卡片还提到了随着计算机使用而可能出现的新风险,尤其是 prompt 注入攻击,并解释了我们如何评估这些漏洞以及训练 Claude 以抵御和缓解此类风险。此外,它也探讨了推理模型的潜在安全优势:理解模型如何决策,以及模型的推理过程是否可信和可靠。你可以阅读完整的系统卡片了解更多细节。

展望未来

Claude 3.7 Sonnet 和 Claude Code 标志着我们向能真正增强人类能力的 AI 系统迈出了重要一步。它们具备深度推理、自治工作以及高效协作的能力,让我们更接近一个 AI 能够拓展并丰富人类所能实现的未来。

image 我们非常期待大家探索这些新功能,并期待看到你们将用它们创造什么。一如既往,我们欢迎你们通过反馈邮箱与我们联系,让我们在持续改进和完善模型的过程中,倾听你的声音。