信息差

重磅！Claude Opus 4与Sonnet 4震撼发布：专业编程能力大升级，持续数小时处理超长推理任务

Anthropic 发布了 Claude 模型的第四代系列：Claude Opus 4 和 Claude Sonnet 4，这不仅是对原有模型的升级，更是面向未来 AI 应用场景的系统性进化。

无论是代码生成、复杂推理、长时间任务处理，还是智能代理构建，它们都展现出显著优势。

在 Claude 4 的发布会上 Anthropic CPO Mike Krieger 详细阐述了 Agent 底层的三大能力：

情境智能（Contextual Intelligence）：不再是简单的指令执行，而是理解"为什么"和"如何做"。你与 Agent 的第 100 次任务应该比第 1 次好得多，就像新员工的第 100 天应该比第 1 天表现更好；

Claude 4 展示了这种能力的极致。在测试中，它会主动创建"记忆文件"保存关键信息。玩 Pokemon 时，它甚至会写导航笔记："尝试 5 次相同方法后卡住；如果卡住，尝试相反方向；室内导航时走到房间另一边。" 这种自主学习和知识积累，正是人类员工的核心价值。
长时间执行（Long-running Execution）：处理需要数小时甚至数天的复杂任务，协调其他 Agent 和人类。这不仅是耐力问题，更是保持目标一致性和上下文连贯性的能力；
真正的协作（Genuine Collaboration）：透明的推理过程，适应人类工作风格。关键是"智能自主"与"人类监督"的平衡 —— AI 处理繁琐细节，人类把控大方向。

视频内容来自@indigo

核心模型介绍

✅ Claude Opus 4 — 强大且持久的高级模型

主打：专业级编程能力、持续任务执行力
在两个权威代码基准测试中表现领先：
- SWE-bench 得分：72.5%
- Terminal-bench 得分：43.2%
能够连续运行数小时，处理成百上千个推理步骤，特别适合 AI 代理类任务和长周期研发场景。

应用反馈（真实用户验证）：

Cursor：认为是“代码理解能力的重大飞跃”。
Replit：多文件代码修改更精准。
Block：“在代码编辑与调试中显著提升质量和稳定性”。
Rakuten：其代理能独立运行7小时，性能稳定。
Cognition：成功应对过去模型无法处理的复杂决策。

✅ Claude Sonnet 4 — 平衡高效的通用模型

主打：日常任务中高性能与高效率并存
SWE-bench 得分为 72.7%，略高于 Opus 4，特别擅长代码自动化和合理推理。
虽整体性能不及 Opus 4，但更加高效、响应更快，适合产品内嵌或即时响应型任务。

应用反馈：

GitHub Copilot：将以 Sonnet 4 为新引擎，部署到新版智能编程助手。
iGent：用于多功能自主开发任务，代码导航误差几乎为零。
Sourcegraph：认为 Sonnet 4 提升了代码质量和任务持续性。

新功能亮点

支持“工具使用+长期思考”（beta 版）：
- 模型可调用搜索等工具进行交替推理，提高回答质量。
- 支持并行使用多个工具，效率提升
记忆能力大幅提升：
- 可通过访问本地文件建立“长期记忆”，提取并保留关键事实

示例：Opus 4 在玩宝可梦时，会自动写笔记来记录策略，这些是模型自主生成的真实笔记。

💾 新增“记忆”功能

模型可创建“记忆文件”，用于储存任务关键数据。
应用于 AI 代理任务时表现尤为出色，能在连续会话中保持上下文一致性。

🧮 任务简化与可控思维展示

引入“思维摘要器”，在推理链过长时进行精炼，仅对约 5% 情况使用。
开发者可申请“Developer Mode”，查看完整推理轨迹，用于高级 prompt 调试。

性能对比与实际验证

📈 基准测试领先

Opus 4 和 Sonnet 4 均在真实软件工程基准（SWE-bench Verified）中居首。
Opus 4 在多个长时间、多回合推理基准中表现优异，显著超越 Claude 3.7。
Sonnet 4 虽略逊于 Opus 4，但比 3.7 稳定性与精度大幅提升。

🧪 用户反馈验证

Cursor：最先进的代码模型，深度理解大型代码库。
Replit：多文件修改精度和一致性大幅提升。
GitHub Copilot：将采用 Sonnet 4 驱动其新一代代码代理。
iGent / Sourcegraph：多功能自主开发、错误率接近 0，代码质量提升明显。

Claude Code 全面上线

Claude Code 是为开发者设计的编程助手，现在正式全面开放：

🧰 功能整合与平台兼容

支持 GitHub Actions 后台任务处理。
原生集成 VS Code 与 JetBrains，模型编辑直接出现在文件中，支持行内注释与变更追踪。
可在 IDE 终端中运行 Claude Code，实现“本地 AI 编程伙伴”。

🧪 SDK 与自动化能力

发布 Claude Code SDK，可构建自定义 AI 工具和智能代理。
示例项目“Claude Code on GitHub”进入 beta 测试，可在 pull request 中：
- 自动回应评审建议
- 修复 CI 错误
- 修改代码片段

Anthropic API 推出 AI Agent 构建新能力

Anthropic 正式在其 API 中发布了四项面向 AI 智能代理（agent）开发的新功能。这些功能均已进入公开 beta 阶段，与 Claude Opus 4 与 Sonnet 4 模型共同协作，大幅提升开发者构建智能代理的能力、效率和灵活性。

代码执行工具：在 API 层面运行并调试代码。
MCP 连接器：连接到多组件工作流或外部服务。
文件 API：实现 Claude 与外部文件系统的数据交互。
Prompt 缓存机制：prompt 最多缓存1小时，提升性能和一致性。

四大新功能详细解读

1️⃣ 代码执行工具（Code Execution Tool）

Claude 不再只是“写代码”，而是能运行 Python 代码，具备完整的分析执行能力。

在沙箱环境中运行 Python，生成可视化图表与分析报告。
可进行：
- 金融建模（如资产组合分析、预测）
- 科学计算（如模拟与实验数据处理）
- 商业智能（如销售分析、自动报表生成）
- 文档处理（格式转换、数据提取、报表生成）
- 统计分析（如回归、假设检验、预测模型）

📌 使用政策：每天免费 50 小时，超出部分按 $0.05/小时/容器计费。

2️⃣ MCP 连接器（Model Context Protocol Connector）

这一功能简化了 Claude 连接外部系统的过程，让开发者无需手动编写客户端代码。

支持连接至任何远程 MCP 服务，如 Zapier、Asana 等。
自动处理以下任务：
- 连接管理、工具发现、认证与错误处理
- 智能调用远程工具，自动决定调用顺序和参数
示例：构建一个项目管理 agent，可以读取 Asana 中的任务、分配工作，并结合代码执行进行数据分析。

📌 无需手动集成 API，开发效率大幅提升。

3️⃣ 文件 API（Files API）

这项能力解决了在多轮对话中处理大量文件的效率问题。

支持一次上传、多次引用：
- 无需每轮上传相同文件，适合知识库、技术文档、结构化数据等场景。
文件可被代码执行工具直接访问：
- 如上传一个 CSV 数据集，可持续在多个任务中分析、生成图表、生成摘要等。

📌 减少重复上传和上下文构建成本。

4️⃣ Prompt 扩展缓存（Extended Prompt Caching）

优化长期任务或上下文丰富交互的性能与成本：

原有缓存 TTL（生存时间）为 5 分钟，现在提供 1 小时扩展选项。
带来：
- 最大 90% 成本下降
- 最高 85% 延迟降低
场景包括：
- 多轮工作流
- 分阶段分析或协调任务
- 跨会话保持完整上下文的代理

📌 非常适合需要维护上下文一致性的企业级 Agent 应用。

安全与思维透明性

模型在复杂任务中减少了 65% 的“捷径”行为。
引入“思维总结功能”对仅约 5% 的任务进行摘要，保留更清晰的推理轨迹。
提供 Developer Mode 支持高级提示工程（prompt engineering）。

产品与定价

Opus 4：输入 $15 / 输出 $75 每百万 token。
Sonnet 4：输入 $3 / 输出 $15，每百万 token。
两者均可通过 Anthropic API、Amazon Bedrock 与 Google Cloud Vertex AI 获取。
Sonnet 4 对免费用户开放；Opus 4 含于 Pro/Max/Team/Enterprise 计划中。

官方介绍：

https://www.anthropic.com/news/claude-4

https://www.anthropic.com/news/agent-capabilities-api

如果觉得文章对你有用，请随意赞赏

快讯

重磅！Claude Opus 4与Sonnet 4震撼发布：专业编程能力大升级，持续数小时处理超长推理任务

https://soraor.com/archives/ai-today_20250527133122

作者

破晓

发布于

2025-05-27

更新于

2025-05-27

许可协议

CC BY 4.0