Anthropic 发布了 Claude 模型的第四代系列:Claude Opus 4Claude Sonnet 4,这不仅是对原有模型的升级,更是面向未来 AI 应用场景的系统性进化。

无论是代码生成、复杂推理、长时间任务处理,还是智能代理构建,它们都展现出显著优势。

在 Claude 4 的发布会上 Anthropic CPO Mike Krieger 详细阐述了 Agent 底层的三大能力

  • 情境智能(Contextual Intelligence):不再是简单的指令执行,而是理解"为什么"和"如何做"。你与 Agent 的第 100 次任务应该比第 1 次好得多,就像新员工的第 100 天应该比第 1 天表现更好;

    Claude 4 展示了这种能力的极致。在测试中,它会主动创建"记忆文件"保存关键信息。玩 Pokemon 时,它甚至会写导航笔记:"尝试 5 次相同方法后卡住;如果卡住,尝试相反方向;室内导航时走到房间另一边。" 这种自主学习和知识积累,正是人类员工的核心价值。

  • 长时间执行(Long-running Execution):处理需要数小时甚至数天的复杂任务,协调其他 Agent 和人类。这不仅是耐力问题,更是保持目标一致性和上下文连贯性的能力;
  • 真正的协作(Genuine Collaboration):透明的推理过程,适应人类工作风格。关键是"智能自主"与"人类监督"的平衡 —— AI 处理繁琐细节,人类把控大方向。

    视频内容来自@indigo

核心模型介绍

✅ Claude Opus 4 — 强大且持久的高级模型

  • 主打:专业级编程能力、持续任务执行力
  • 在两个权威代码基准测试中表现领先:

    • SWE-bench 得分:72.5%
    • Terminal-bench 得分:43.2%
  • 能够连续运行数小时,处理成百上千个推理步骤,特别适合 AI 代理类任务和长周期研发场景。

应用反馈(真实用户验证):

  • Cursor:认为是“代码理解能力的重大飞跃”。
  • Replit:多文件代码修改更精准。
  • Block:“在代码编辑与调试中显著提升质量和稳定性”。
  • Rakuten:其代理能独立运行7小时,性能稳定。
  • Cognition:成功应对过去模型无法处理的复杂决策。

✅ Claude Sonnet 4 — 平衡高效的通用模型

  • 主打:日常任务中高性能与高效率并存
  • SWE-bench 得分为 72.7%,略高于 Opus 4,特别擅长代码自动化和合理推理。
  • 虽整体性能不及 Opus 4,但更加高效、响应更快,适合产品内嵌或即时响应型任务。

应用反馈:

  • GitHub Copilot:将以 Sonnet 4 为新引擎,部署到新版智能编程助手。
  • iGent:用于多功能自主开发任务,代码导航误差几乎为零。
  • Sourcegraph:认为 Sonnet 4 提升了代码质量和任务持续性。

新功能亮点

  • 支持“工具使用+长期思考”(beta 版):

    • 模型可调用搜索等工具进行交替推理,提高回答质量。
    • 支持并行使用多个工具,效率提升

  • 记忆能力大幅提升

    • 可通过访问本地文件建立“长期记忆”,提取并保留关键事实

示例:Opus 4 在玩宝可梦时,会自动写笔记来记录策略,这些是模型自主生成的真实笔记。

💾 新增“记忆”功能

  • 模型可创建“记忆文件”,用于储存任务关键数据。
  • 应用于 AI 代理任务时表现尤为出色,能在连续会话中保持上下文一致性。

🧮 任务简化与可控思维展示

  • 引入“思维摘要器”,在推理链过长时进行精炼,仅对约 5% 情况使用。
  • 开发者可申请“Developer Mode”,查看完整推理轨迹,用于高级 prompt 调试。

性能对比与实际验证

📈 基准测试领先

  • Opus 4 和 Sonnet 4 均在真实软件工程基准(SWE-bench Verified)中居首。
  • Opus 4 在多个长时间、多回合推理基准中表现优异,显著超越 Claude 3.7。
  • Sonnet 4 虽略逊于 Opus 4,但比 3.7 稳定性与精度大幅提升。

🧪 用户反馈验证

  • Cursor:最先进的代码模型,深度理解大型代码库。
  • Replit:多文件修改精度和一致性大幅提升。
  • GitHub Copilot:将采用 Sonnet 4 驱动其新一代代码代理。
  • iGent / Sourcegraph:多功能自主开发、错误率接近 0,代码质量提升明显。

Claude Code 全面上线

Claude Code 是为开发者设计的编程助手,现在正式全面开放:

🧰 功能整合与平台兼容

  • 支持 GitHub Actions 后台任务处理。
  • 原生集成 VS Code 与 JetBrains,模型编辑直接出现在文件中,支持行内注释与变更追踪。
  • 可在 IDE 终端中运行 Claude Code,实现“本地 AI 编程伙伴”。

🧪 SDK 与自动化能力

  • 发布 Claude Code SDK,可构建自定义 AI 工具和智能代理。
  • 示例项目“Claude Code on GitHub”进入 beta 测试,可在 pull request 中:

    • 自动回应评审建议
    • 修复 CI 错误
    • 修改代码片段

Anthropic API 推出 AI Agent 构建新能力

Anthropic 正式在其 API 中发布了四项面向 AI 智能代理(agent)开发的新功能。这些功能均已进入公开 beta 阶段,与 Claude Opus 4 与 Sonnet 4 模型共同协作,大幅提升开发者构建智能代理的能力、效率和灵活性。

  1. 代码执行工具:在 API 层面运行并调试代码。
  2. MCP 连接器:连接到多组件工作流或外部服务。
  3. 文件 API:实现 Claude 与外部文件系统的数据交互。
  4. Prompt 缓存机制:prompt 最多缓存1小时,提升性能和一致性。

四大新功能详细解读

1️⃣ 代码执行工具(Code Execution Tool)

Claude 不再只是“写代码”,而是能运行 Python 代码,具备完整的分析执行能力。

  • 在沙箱环境中运行 Python,生成可视化图表与分析报告。
  • 可进行:

    • 金融建模(如资产组合分析、预测)
    • 科学计算(如模拟与实验数据处理)
    • 商业智能(如销售分析、自动报表生成)
    • 文档处理(格式转换、数据提取、报表生成)
    • 统计分析(如回归、假设检验、预测模型)

📌 使用政策:每天免费 50 小时,超出部分按 $0.05/小时/容器计费。


2️⃣ MCP 连接器(Model Context Protocol Connector)

这一功能简化了 Claude 连接外部系统的过程,让开发者无需手动编写客户端代码。

  • 支持连接至任何远程 MCP 服务,如 Zapier、Asana 等。
  • 自动处理以下任务:

    • 连接管理、工具发现、认证与错误处理
    • 智能调用远程工具,自动决定调用顺序和参数
  • 示例:构建一个项目管理 agent,可以读取 Asana 中的任务、分配工作,并结合代码执行进行数据分析。

📌 无需手动集成 API,开发效率大幅提升。


3️⃣ 文件 API(Files API)

这项能力解决了在多轮对话中处理大量文件的效率问题。

  • 支持一次上传、多次引用:

    • 无需每轮上传相同文件,适合知识库、技术文档、结构化数据等场景。
  • 文件可被代码执行工具直接访问:

    • 如上传一个 CSV 数据集,可持续在多个任务中分析、生成图表、生成摘要等。

📌 减少重复上传和上下文构建成本。


4️⃣ Prompt 扩展缓存(Extended Prompt Caching)

优化长期任务或上下文丰富交互的性能与成本:

  • 原有缓存 TTL(生存时间)为 5 分钟,现在提供 1 小时扩展选项。
  • 带来:

    • 最大 90% 成本下降
    • 最高 85% 延迟降低
  • 场景包括:

    • 多轮工作流
    • 分阶段分析或协调任务
    • 跨会话保持完整上下文的代理

📌 非常适合需要维护上下文一致性的企业级 Agent 应用。


安全与思维透明性

  • 模型在复杂任务中减少了 65% 的“捷径”行为。
  • 引入“思维总结功能”对仅约 5% 的任务进行摘要,保留更清晰的推理轨迹。
  • 提供 Developer Mode 支持高级提示工程(prompt engineering)。

产品与定价

  • Opus 4:输入 $15 / 输出 $75 每百万 token。
  • Sonnet 4:输入 $3 / 输出 $15,每百万 token。
  • 两者均可通过 Anthropic API、Amazon Bedrock 与 Google Cloud Vertex AI 获取。
  • Sonnet 4 对免费用户开放;Opus 4 含于 Pro/Max/Team/Enterprise 计划中。

官方介绍:

https://www.anthropic.com/news/claude-4

https://www.anthropic.com/news/agent-capabilities-api