Anthropic 发布其最新推 AI 模型 Claude 3.7 Sonnet 混合推理模型以及相关的 Claude Code 工具。

这一新型的混合推理模型旨在通过提供两种思维模式(即时响应与扩展推理),提高 AI 在复杂任务中的表现。

核心亮点

  • Claude 3.7 Sonnet:最智能的 Claude 版本,首个混合推理模型(Hybrid Reasoning Model),可灵活切换即时响应深度推理模式。
  • Claude Code:专为开发者打造的智能代码助手,具备代码搜索、自动修改、测试、GitHub 集成等功能。
  • 优化计算成本与性能:通过 API 控制 AI 最多思考多少个 token,用户可以自由权衡速度与质量
  • 全面优化编程能力:在代码生成、前端开发、复杂代码库管理、全栈开发等领域大幅提升性能,击败同类 AI 模型。
  • 安全性提升:误拒无害请求的概率降低 45%,并增强防御提示注入攻击(Prompt Injection Attacks)

混合推理模型的定义

  • Claude 3.7 Sonnet 被定位为“业界首款混合推理模型”(industry-first hybrid reasoning model)。所谓“混合”,指的是它能够在快速回答和深入推理之间无缝切换,用户可以根据任务需求动态调整其行为。
  • 标准模式(Standard Mode):针对简单查询或需要即时响应的场景,提供接近实时的答案,类似于 ChatGPT 或早期 Claude 模型的表现。
  • 扩展思考模式(Extended Thinking Mode):针对复杂的多步骤任务,模型会模拟人类的思考过程,逐步分析问题、探索多种可能性,最终给出更准确、深思熟虑的回答。

与前代模型相比,Claude 3.7 Sonnet 在处理数学、物理、指令跟随和编码任务等方面都显示出显著的提升。此外,用户现在可以更精确地控制 AI 的思考时长,进一步优化了其在多任务环境中的表现。

用户控制权

  • 用户可以通过调整“思考时间”来平衡速度、成本和答案质量。例如,短思考时间适合快速问答,长思考时间适合学术研究或复杂编码。
  • 这种控制权是 Anthropic 的创新点,相较于其他模型(如 OpenAI 的 o1 或 Google 的 Gemini),用户无需切换不同模型,只需在一个模型内调整参数即可。

在性能测试方面,Claude 3.7 Sonnet 在 SWE-bench 基准测试中表现优异,Claude 3.7 Sonnet在“定制支架”下的准确率为70.3%(基础表现为62.3%),而Claude 3.5 Sonnet、OpenAI o1、OpenAI o3-mini(高)和DeepSeek R1等模型的准确率均为49%左右。

Claude 3.7 Sonnet 的核心升级

Anthropic 在 Claude 3.7 Sonnet 中引入了全新混合推理模式,使 AI 既能即时响应,也能在需要时进行更深层次的思考

混合推理能力(Hybrid Reasoning Model)

Claude 3.7 Sonnet 在单一模型中结合了快速响应与深度推理,可以根据需求选择不同的处理方式:

  • 标准模式(即时响应):作为 Claude 3.5 Sonnet 的升级版,能够提供更快、更精确的回答,适合对话式交互和快速任务处理。

  • 扩展思考模式(Extended Thinking Mode)

    • AI 在回答之前会先进行自我反思,从而提高在数学、物理、代码编写、复杂指令执行等方面的能力。
    • 适用于需要严谨推理、细致分析或复杂计算的任务。

  • 工作原理: 在此模式下,Claude 3.7 Sonnet 会分配额外的时间和计算资源,用于分解问题、制定计划、检查假设并验证结果。这种“思考深度”通过额外的“思考令牌”(thinking tokens)实现。

    模型会生成一个内部“草稿纸”(scratchpad),记录其推理步骤,用户可以看到这一过程,类似于人类在纸上演算。

  • 适用场景

    • 数学与逻辑:解决多步骤数学证明或逻辑推理问题,例如研究生级别的 GPQA 测试题目。
    • 科学研究:分析实验数据、生成假设或解释复杂现象。
    • 战略规划:为商业案例提供多角度分析和建议。
  • 计费机制: 扩展思考模式会增加上下文窗口的使用量,额外的思考令牌按输出令牌计费(每百万令牌 15 美元)。这意味着复杂任务的成本会高于标准模式,但用户可以根据预算自行调节。
  • 透明性: “草稿纸”功能不仅提升了答案质量,还增加了模型的可解释性。用户可以追踪模型的推理路径,发现潜在错误或提出改进建议。

内容生成与创意任务

  • 能力提升: 在写作、编辑和内容生成方面,Claude 3.7 Sonnet 比前代模型更流畅、更具创造性,同时保持了 Anthropic 一贯的“安全”与“中立”风格。
  • 示例

    • 生成长篇文章、润色草稿、编写营销文案或创作故事大纲。
    • 在扩展思考模式下,可以生成更具逻辑性和深度的内容,例如学术论文初稿。

API 控制思考预算

  • 开发者可以自定义 Claude 的思考时间,控制 AI 的最大思考 token 数(最高可达 128K)。
  • 允许用户根据具体应用场景平衡计算成本与回答质量

    • 需要快速响应时,可设置低 token 限制。
    • 需要高质量、深度推理时,可允许更长时间思考。

真实世界优化

  • Claude 3.7 Sonnet 不再仅仅优化数学和计算机竞赛题,而是更关注企业级真实应用

    • 提高在商业、工程、科研等实际场景的可用性。
    • 例如:可以优化供应链分析、金融建模、企业决策辅助等应用。

Claude 3.7 Sonnet 在编程方面的突破

Claude 3.7 Sonnet 在代码生成、前端开发、软件维护、全栈开发等方面实现了重大突破

强化的编程能力

  • Claude 3.7 Sonnet 在 SWE-bench Verified 评测中达到了业界最佳水平

    • SWE-bench Verified 是评估 AI 解决实际软件开发问题能力的权威测试。
  • Claude 3.7 Sonnet 在多个代码相关任务中优于所有现有 AI

    • 复杂代码库管理
    • 自动化工具调用
    • 代码变更规划
    • 全栈开发
    • 错误检测与修复
  • Claude 3.7 在多个行业领先平台的测试中表现优异

    • Cursor:在真实世界编程任务中,Claude 3.7 Sonnet 击败所有竞品
    • Cognition:比其他模型更擅长代码变更规划、管理全栈开发
    • Vercel:Claude 3.7 Sonnet 在复杂智能代理(Agent)开发方面表现出色。
    • Replit:Claude 3.7 Sonnet 能够独立构建完整的 Web 应用与数据面板,而其他模型在此任务上失败。

Claude Code——智能代码助手

Anthropic 推出了全新的Claude Code,这是一个命令行工具,可以显著提高开发效率:

  • 主要能力:

    • 代码搜索与阅读
    • 自动化代码编辑
    • 编写和运行测试
    • GitHub 代码提交
    • 使用命令行工具
  • Claude Code 可以一次性完成复杂编程任务,大幅降低开发者的工作量:

    • 在内部测试中,Claude Code 仅需一次运行就能完成通常需要 45 分钟人工编写的代码

代理能力与计算机使用

  • 改进点: Claude 3.7 Sonnet 在“计算机使用”(computer use)任务中表现出色,这类任务要求模型模拟人类与计算机的交互。
  • 具体包括:移动光标、点击按钮、输入文本、导航界面等。
  • 应用场景

    • 自动化工作流:例如,自动填写表单、从网页提取数据或操作桌面应用程序。
    • AI 代理开发:支持构建能够自主完成多步骤任务的智能代理。
  • 技术实现: Anthropic 可能通过增强模型的视觉和动作理解能力实现了这一功能,但具体技术细节未在公告中透露。

GitHub 集成

Claude 3.7 Sonnet 支持 GitHub 集成,允许开发者将自己的代码库直接连接到 Claude

  • 适用于:

    • 修复 bug
    • 开发新功能
    • 编写文档
    • 代码审查
  • 全平台可用

    • Claude 代码功能支持所有付费计划(Pro、Team、Enterprise),但免费版受限。

性能数据与基准测试

  • 关键基准

    • GPQA(研究生级推理): 扩展思考模式下准确率为 78.2%,超越 DeepSeek R1(约 75%)并接近 OpenAI o1(具体数据未公布,但业内估计在 80% 左右)。
    • SWE-bench Verified(编码): 标准模式下 70.3%,扩展模式下更高,领先于大多数竞争对手。
    • HumanEval(代码生成): 未提供具体数据,但 Anthropic 声称其表现“显著优于” Claude 3.5 Sonnet。
  • 与其他模型对比

    • OpenAI o1:o1 在推理任务中表现出色,但需要单独调用,且成本较高。
    • Google Gemini Flash Thinking:速度快但推理深度有限。
    • DeepSeek R1:价格低廉,但在复杂任务中表现不如 Claude 3.7 Sonnet。
  • 进步幅度: 与 Claude 3.5 Sonnet 相比,3.7 版本在推理和编码任务中的提升约为 10-15%,具体视任务复杂度而定。

定价与可用性

  • 定价详情

    • 标准模式与扩展思考模式:均为每百万输入令牌 3 美元,每百万输出令牌 15 美元。
  • 与其他模型对比

    • OpenAI o3-mini:输入 1.10 美元/百万,输出 4.40 美元/百万。
    • DeepSeek R1:输入 0.55 美元/百万,输出 2.19 美元/百万。

    Claude 3.7 Sonnet 的定价偏高,但其混合能力可能减少用户对多种模型的需求。

  • 上下文窗口: 未明确提及,但 Anthropic 通常提供 200k 令牌的上下文窗口,预计 3.7 版本保持或略有提升。
  • 可用性

    • 订阅用户:免费版、Pro、Team 和 Enterprise 用户均可访问,但扩展思考模式仅限付费用户。
    • API 访问:通过 Anthropic API、Amazon Bedrock 和 Google Vertex AI 提供。
    • 区域限制:公告未提及,但 Anthropic 服务通常覆盖全球主要市场。

Claude 3.7 Sonnet 的安全性改进

Anthropic 加强了 Claude 3.7 Sonnet 的安全性和可靠性,重点包括:

更精准的请求处理

  • 减少 45% 误拒无害请求的情况,提高 AI 的实用性。
  • 通过更细腻的分类,Claude 3.7 Sonnet 可以更准确地区分恶意请求和正常请求,避免不必要的限制。

提升抗攻击能力

  • 防御提示注入攻击(Prompt Injection Attacks)

    • Claude 3.7 Sonnet 经过专门训练,可识别并抵御此类攻击。
    • 能够更安全地处理敏感信息,减少 AI 被操纵的风险。

AI 透明度提升

  • 增强推理透明度,让用户更容易理解 AI 的决策过程。
  • 可解释性提高,使 AI 的输出更加值得信赖。

官方介绍:https://www.anthropic.com/news/claude-3-7-sonnet

推理思考测试:https://www.anthropic.com/news/visible-extended-thinking

技术报告:https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf