人工智能公司 Anthropic 宣布Claude3.5系列模型的重磅升级,包括全新的 Claude3.5Sonnet 和 Claude3.5Haiku。升级后的版本号称可以让人工智能全面接管你的个人电脑,它能够执行多种基本任务,比如模拟输入键盘和鼠标点击,从而使用你电脑上安装的任何应用程序。

image

编码能力显著提升,超越OpenAI o1-preview 模型

新的 Claude3.5Sonnet 在各方面都有显著提升,尤其是在编码能力方面。它在 SWE-bench Verified 上的得分从33.4% 提升到49.0%,超越了所有公开可用的模型,包括 OpenAI 的 o1-preview 模型。

此外,它在 TAU-bench 上的表现也有所提升,特别是在零售和航空领域。这一切都在保持与前产品相同的价格和速度下实现。

image

客户的反馈显示,升级后的 Claude3.5Sonnet 在 AI 编码方面有了质的飞跃。例如,GitLab 测试了这个模型用于 DevSecOps 任务,发现其推理能力有了明显提升,且没有增加延迟。

Claude3.5Haiku 是Claude下一代最快的模型,以相同的成本和速度超越了 Claude3Opus,并在多个智能基准测试中表现出色,特别是在编码任务上。Claude3.5Haiku 的低延迟和更精准的指令跟随能力,使其非常适合用户界面产品和个性化体验的生成。

像人类一样操纵电脑

新推出的电脑使用功能是一个全新的尝试。官方表示这并不是为 Claude 开发特定的工具,而是教授它通用的计算机技能,让它能够使用各种标准工具和软件程序。开发者可以利用这一能力来自动化重复的流程、构和测试软件,以及进行开放性研究等。

当然,目前 Claude 在使用计算机时的能力仍然有待提高。一些简单的操作,比如滚动和拖动,目前对于 Claude 来说仍然存在挑战。为了确保安全,官方还开发了新的分类器,能够识别电脑使用是否造成了潜在的危害。

Anthropic 的首席科学官贾里德・卡普兰在接受采访时表示:“我们即将进入一个新时代,人工智能可以利用你作为个人所使用的所有工具来完成任务。” 这项更新标志着 Anthropic 在将商业 AI 模型从传统的聊天框架扩展为全面的 “AI 代理” 方面迈出了重要一步。

在一段演示中,Claude 被要求为朋友计划一次去金门大桥观看日出的旅行。AI 不仅打开了网页,还在谷歌上查找了一个合适的观景地点,并将行程添加到日历应用中。虽然这个表现令人印象深刻,但《连线》指出,它并没有提供一些额外的信息,比如如何到达目的地。

此外,在另一个演示中,Claude 被要求搭建一个简单的网站,结果它使用微软的 Visual Studio Code 成功创建了一个网站,并打开本地服务器进行测试。不过,在这个过程中,它遇到了一些小错误,但在提示下成功修复了代码。

image

Claude 3.5 Sonne通过从客户关系管理系统(CRM)中检索所需信息,自主完成一份供应商申请表,展示了其在不同软件平台上执行多步骤任务的能力。

升级后的 Claude3.5Sonnet 现在可供所有用户使用。从今天开始,开发人员可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用计算机测试版进行构建。而新的 Claude3.5Haiku 将于本月晚些时候发布。

官方博客:https://www.anthropic.com/news/3-5-models-and-computer-use

划重点:

🌟 Claude3.5Sonnet 和 Haiku 模型重磅升级,编码能力显著提升。

💻 新推出的电脑使用功能允许 Claude 像人一样操作计算机,开启更多可能性。

🔒 使用 AI 助手带来了安全隐患,Anthropic 强调逐步观察和改进以确保安全性。