我勒个豆啊，OpenAI开始比AI打工赚钱能力了？

OpenAI 发布最新编程 Benchmark：SWE-Lancer 🚀 是的你没看错，真的是在比AI自己的挣…

2月 24, 2025

3-5 分钟

OpenAI 发布最新编程 Benchmark：SWE-Lancer 🚀

是的你没看错，真的是在比AI自己的挣钱能力！这次，OpenAI 最新推出的编程 Benchmark 名为 SWE-Lancer，包含来自真实世界灵活用工平台 Upwork 的 1400 多个软件工程任务。这个 Benchmark 在现实世界中的总价值达到了 100 万美元！💰

SWE-Lancer 的内容丰富，涵盖了独立的工程任务。从 50 美元的小错误修复到 32,000 美元的复杂功能实现，应有尽有。此外，任务还包括管理方面的决策，例如在技术实现方案之间进行选择（具体内容可查看图 3️⃣）。

这 1400 多个任务同时涉及前端、后端、UI、UX，多方面的问题都在真实开发过程中可能遇到，但令人遗憾的是，目前的 AI 模型并未完全迎接这些挑战。即使是目前最先进的模型 Claude 3.5 Sonnet，解决 SWE-Lancer 中的问题的能力仅为 26.2%（这模型挣到了四十万美元😏）。

在系统质量与可靠性这个题目上，目前没有任何模型获得了经济收益（具体得分可见图 4️⃣）。这显示出 AI 在这方面仍有很大的提升空间。

值得注意的是，为了促进未来的研究，OpenAI 决定开源统一的 Docker 图像和公共评估拆分的资源，称之为 SWE-Lancer Diamond。通过将模型性能与货币价值进行映射，期望 SWE-Lancer 能够进一步研究人工智能模型的经济影响。

感兴趣的小伙伴们，快去了解这个最新 Benchmark 吧！SWE-Lancer 目前非常值得使用，也为 AI 和软件工程师们带来了新的研究机会。希望未来 AI 模型能够更好地解决现实中的软件开发任务。都看到这里了，不如点个关注？

#ai #AI #大模型 #人工智能 #深度学习 #机器学习 #计算机 #openai #chatgpt #互联网大厂 @科技薯