Anthropic重磅推出Claude 3.7 Sonnet混合推理模型，同步发布Claude Code开发工具

Anthropic 发布其最新推 AI 模型 Claude 3.7 Sonnet 混合推理模型以及相关的 Claude Code 工具。

这一新型的混合推理模型旨在通过提供两种思维模式（即时响应与扩展推理），提高 AI 在复杂任务中的表现。

核心亮点：

Claude 3.7 Sonnet：最智能的 Claude 版本，首个混合推理模型（Hybrid Reasoning Model），可灵活切换即时响应与深度推理模式。
Claude Code：专为开发者打造的智能代码助手，具备代码搜索、自动修改、测试、GitHub 集成等功能。
优化计算成本与性能：通过 API 控制 AI 最多思考多少个 token，用户可以自由权衡速度与质量。
全面优化编程能力：在代码生成、前端开发、复杂代码库管理、全栈开发等领域大幅提升性能，击败同类 AI 模型。
安全性提升：误拒无害请求的概率降低 45%，并增强防御提示注入攻击（Prompt Injection Attacks）。

混合推理模型的定义：

Claude 3.7 Sonnet 被定位为“业界首款混合推理模型”（industry-first hybrid reasoning model）。所谓“混合”，指的是它能够在快速回答和深入推理之间无缝切换，用户可以根据任务需求动态调整其行为。
标准模式（Standard Mode）：针对简单查询或需要即时响应的场景，提供接近实时的答案，类似于 ChatGPT 或早期 Claude 模型的表现。
扩展思考模式（Extended Thinking Mode）：针对复杂的多步骤任务，模型会模拟人类的思考过程，逐步分析问题、探索多种可能性，最终给出更准确、深思熟虑的回答。

与前代模型相比，Claude 3.7 Sonnet 在处理数学、物理、指令跟随和编码任务等方面都显示出显著的提升。此外，用户现在可以更精确地控制 AI 的思考时长，进一步优化了其在多任务环境中的表现。

用户控制权：

用户可以通过调整“思考时间”来平衡速度、成本和答案质量。例如，短思考时间适合快速问答，长思考时间适合学术研究或复杂编码。
这种控制权是 Anthropic 的创新点，相较于其他模型（如 OpenAI 的 o1 或 Google 的 Gemini），用户无需切换不同模型，只需在一个模型内调整参数即可。

在性能测试方面，Claude 3.7 Sonnet 在 SWE-bench 基准测试中表现优异，Claude 3.7 Sonnet在“定制支架”下的准确率为70.3%（基础表现为62.3%），而Claude 3.5 Sonnet、OpenAI o1、OpenAI o3-mini（高）和DeepSeek R1等模型的准确率均为49%左右。

Claude 3.7 Sonnet 的核心升级

Anthropic 在 Claude 3.7 Sonnet 中引入了全新混合推理模式，使 AI 既能即时响应，也能在需要时进行更深层次的思考。

混合推理能力（Hybrid Reasoning Model）

Claude 3.7 Sonnet 在单一模型中结合了快速响应与深度推理，可以根据需求选择不同的处理方式：

标准模式（即时响应）：作为 Claude 3.5 Sonnet 的升级版，能够提供更快、更精确的回答，适合对话式交互和快速任务处理。
扩展思考模式（Extended Thinking Mode）
- AI 在回答之前会先进行自我反思，从而提高在数学、物理、代码编写、复杂指令执行等方面的能力。
- 适用于需要严谨推理、细致分析或复杂计算的任务。
工作原理：在此模式下，Claude 3.7 Sonnet 会分配额外的时间和计算资源，用于分解问题、制定计划、检查假设并验证结果。这种“思考深度”通过额外的“思考令牌”（thinking tokens）实现。

模型会生成一个内部“草稿纸”（scratchpad），记录其推理步骤，用户可以看到这一过程，类似于人类在纸上演算。
适用场景：
- 数学与逻辑：解决多步骤数学证明或逻辑推理问题，例如研究生级别的 GPQA 测试题目。
- 科学研究：分析实验数据、生成假设或解释复杂现象。
- 战略规划：为商业案例提供多角度分析和建议。
计费机制：扩展思考模式会增加上下文窗口的使用量，额外的思考令牌按输出令牌计费（每百万令牌 15 美元）。这意味着复杂任务的成本会高于标准模式，但用户可以根据预算自行调节。
透明性： “草稿纸”功能不仅提升了答案质量，还增加了模型的可解释性。用户可以追踪模型的推理路径，发现潜在错误或提出改进建议。

内容生成与创意任务

能力提升：在写作、编辑和内容生成方面，Claude 3.7 Sonnet 比前代模型更流畅、更具创造性，同时保持了 Anthropic 一贯的“安全”与“中立”风格。
示例：
- 生成长篇文章、润色草稿、编写营销文案或创作故事大纲。
- 在扩展思考模式下，可以生成更具逻辑性和深度的内容，例如学术论文初稿。

API 控制思考预算

开发者可以自定义 Claude 的思考时间，控制 AI 的最大思考 token 数（最高可达 128K）。
允许用户根据具体应用场景平衡计算成本与回答质量：
- 需要快速响应时，可设置低 token 限制。
- 需要高质量、深度推理时，可允许更长时间思考。

真实世界优化

Claude 3.7 Sonnet 不再仅仅优化数学和计算机竞赛题，而是更关注企业级真实应用：
- 提高在商业、工程、科研等实际场景的可用性。
- 例如：可以优化供应链分析、金融建模、企业决策辅助等应用。

Claude 3.7 Sonnet 在编程方面的突破

Claude 3.7 Sonnet 在代码生成、前端开发、软件维护、全栈开发等方面实现了重大突破。

强化的编程能力

Claude 3.7 Sonnet 在 SWE-bench Verified 评测中达到了业界最佳水平：
- SWE-bench Verified 是评估 AI 解决实际软件开发问题能力的权威测试。
Claude 3.7 Sonnet 在多个代码相关任务中优于所有现有 AI：
- 复杂代码库管理
- 自动化工具调用
- 代码变更规划
- 全栈开发
- 错误检测与修复
Claude 3.7 在多个行业领先平台的测试中表现优异：
- Cursor：在真实世界编程任务中，Claude 3.7 Sonnet 击败所有竞品。
- Cognition：比其他模型更擅长代码变更规划、管理全栈开发。
- Vercel：Claude 3.7 Sonnet 在复杂智能代理（Agent）开发方面表现出色。
- Replit：Claude 3.7 Sonnet 能够独立构建完整的 Web 应用与数据面板，而其他模型在此任务上失败。

Claude Code——智能代码助手

Anthropic 推出了全新的Claude Code，这是一个命令行工具，可以显著提高开发效率：

主要能力：
- 代码搜索与阅读
- 自动化代码编辑
- 编写和运行测试
- GitHub 代码提交
- 使用命令行工具
Claude Code 可以一次性完成复杂编程任务，大幅降低开发者的工作量：
- 在内部测试中，Claude Code 仅需一次运行就能完成通常需要 45 分钟人工编写的代码。

代理能力与计算机使用

改进点： Claude 3.7 Sonnet 在“计算机使用”（computer use）任务中表现出色，这类任务要求模型模拟人类与计算机的交互。
具体包括：移动光标、点击按钮、输入文本、导航界面等。
应用场景：
- 自动化工作流：例如，自动填写表单、从网页提取数据或操作桌面应用程序。
- AI 代理开发：支持构建能够自主完成多步骤任务的智能代理。
技术实现： Anthropic 可能通过增强模型的视觉和动作理解能力实现了这一功能，但具体技术细节未在公告中透露。

GitHub 集成

Claude 3.7 Sonnet 支持 GitHub 集成，允许开发者将自己的代码库直接连接到 Claude：

适用于：
- 修复 bug
- 开发新功能
- 编写文档
- 代码审查
全平台可用：
- Claude 代码功能支持所有付费计划（Pro、Team、Enterprise），但免费版受限。

性能数据与基准测试

关键基准：
- GPQA（研究生级推理）：扩展思考模式下准确率为 78.2%，超越 DeepSeek R1（约 75%）并接近 OpenAI o1（具体数据未公布，但业内估计在 80% 左右）。
- SWE-bench Verified（编码）：标准模式下 70.3%，扩展模式下更高，领先于大多数竞争对手。
- HumanEval（代码生成）：未提供具体数据，但 Anthropic 声称其表现“显著优于” Claude 3.5 Sonnet。
与其他模型对比：
- OpenAI o1：o1 在推理任务中表现出色，但需要单独调用，且成本较高。
- Google Gemini Flash Thinking：速度快但推理深度有限。
- DeepSeek R1：价格低廉，但在复杂任务中表现不如 Claude 3.7 Sonnet。
进步幅度：与 Claude 3.5 Sonnet 相比，3.7 版本在推理和编码任务中的提升约为 10-15%，具体视任务复杂度而定。

定价与可用性

定价详情：
- 标准模式与扩展思考模式：均为每百万输入令牌 3 美元，每百万输出令牌 15 美元。
与其他模型对比：
- OpenAI o3-mini：输入 1.10 美元/百万，输出 4.40 美元/百万。
- DeepSeek R1：输入 0.55 美元/百万，输出 2.19 美元/百万。
Claude 3.7 Sonnet 的定价偏高，但其混合能力可能减少用户对多种模型的需求。
上下文窗口：未明确提及，但 Anthropic 通常提供 200k 令牌的上下文窗口，预计 3.7 版本保持或略有提升。
可用性：
- 订阅用户：免费版、Pro、Team 和 Enterprise 用户均可访问，但扩展思考模式仅限付费用户。
- API 访问：通过 Anthropic API、Amazon Bedrock 和 Google Vertex AI 提供。
- 区域限制：公告未提及，但 Anthropic 服务通常覆盖全球主要市场。

Claude 3.7 Sonnet 的安全性改进

Anthropic 加强了 Claude 3.7 Sonnet 的安全性和可靠性，重点包括：

更精准的请求处理

减少 45% 误拒无害请求的情况，提高 AI 的实用性。
通过更细腻的分类，Claude 3.7 Sonnet 可以更准确地区分恶意请求和正常请求，避免不必要的限制。

提升抗攻击能力

防御提示注入攻击（Prompt Injection Attacks）：
- Claude 3.7 Sonnet 经过专门训练，可识别并抵御此类攻击。
- 能够更安全地处理敏感信息，减少 AI 被操纵的风险。

AI 透明度提升

增强推理透明度，让用户更容易理解 AI 的决策过程。
可解释性提高，使 AI 的输出更加值得信赖。

官方介绍：https://www.anthropic.com/news/claude-3-7-sonnet

推理思考测试：https://www.anthropic.com/news/visible-extended-thinking

技术报告：https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf

如果觉得文章对你有用，请随意赞赏

快讯

Anthropic重磅推出Claude 3.7 Sonnet混合推理模型，同步发布Claude Code开发工具

https://soraor.com/archives/ai-today_20250227152212

作者

破晓

发布于

2025-02-27

更新于

2025-02-27

许可协议

CC BY 4.0