近日,OpenAI 的研究人员在一篇新发布的论文中坦言,尽管目前的 AI 技术已经相当先进,但这些模型依然无法与人类程序员相媲美。OpenAI 首席执行官山姆・阿尔特曼曾表示,预计到今年底,AI 将能够战胜 “低级” 软件工程师,但研究结果却显示,这些 AI 模型仍然面临重大挑战。
图源备注:图片由AI生成,图片授权服务商Midjourney
在研究中,OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试,评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。该测试重点考察了三个大型语言模型(LLM)的编码能力,包括 OpenAI 的 o1推理模型、旗舰产品 GPT-4o 以及 Anthropic 的 Claude3.5Sonnet。
这些模型被要求完成两种类型的任务:一是单个任务,主要集中于修复程序中的错误;二是管理任务,要求模型进行更高层次的决策。在测试过程中,这些模型没有访问互联网的权限,意味着它们无法直接查找网上的答案。
尽管这些模型承接的任务总价值高达数十万美元,但它们只能修复表面性的问题,难以在复杂项目中找到更深层次的错误和根本原因。这种情况让人想起使用 AI 的体验:AI 虽然能快速生成看似正确的信息,但经常会在更深入的检验中暴露出不足。
论文指出,虽然这三款 LLM 在处理任务的速度上远超人类,但它们往往无法全面理解错误的广泛性和上下文,这导致它们给出的解决方案常常不够准确或不够全面。研究人员表示,Claude3.5Sonnet 的表现优于 OpenAI 的两款模型,获得的收益也更高,但其回答的准确率仍未达到可信赖的水平。
研究表明,尽管这些先进的 AI 模型在某些特定任务上能够快速运作,但它们在整体软件工程能力上仍显不足,远未达到可以取代人类程序员的水平。然而,这并未阻止一些企业将人类程序员替换为尚不成熟的 AI 模型。
划重点:
🧑💻 OpenAI 研究表明,先进 AI 模型在编码能力上仍落后于人类程序员。
🚫 三款 AI 模型在修复编码错误方面表现不佳,难以解决复杂问题。
🔍 尽管 AI 速度快,但它们缺乏全面理解能力,导致解决方案的准确性不足。