OpenAI 发布最新编程 Benchmark:SWE-Lancer 🚀
是的你没看错,真的是在比AI自己的挣钱能力!这次,OpenAI 最新推出的编程 Benchmark 名为 SWE-Lancer,包含来自真实世界灵活用工平台 Upwork 的 1400 多个软件工程任务。这个 Benchmark 在现实世界中的总价值达到了 100 万美元!💰
任务内容多样,涵盖广泛 🤖
SWE-Lancer 的内容丰富,涵盖了独立的工程任务。从 50 美元的小错误修复到 32,000 美元的复杂功能实现,应有尽有。此外,任务还包括管理方面的决策,例如在技术实现方案之间进行选择(具体内容可查看图 3️⃣)。
真实开发中的挑战
这 1400 多个任务同时涉及前端、后端、UI、UX,多方面的问题都在真实开发过程中可能遇到,但令人遗憾的是,目前的 AI 模型并未完全迎接这些挑战。即使是目前最先进的模型 Claude 3.5 Sonnet,解决 SWE-Lancer 中的问题的能力仅为 26.2%(这模型挣到了四十万美元😏)。
系统质量与可靠性分析 📊
在系统质量与可靠性这个题目上,目前没有任何模型获得了经济收益(具体得分可见图 4️⃣)。这显示出 AI 在这方面仍有很大的提升空间。
推动研究的好消息 🎉
值得注意的是,为了促进未来的研究,OpenAI 决定开源统一的 Docker 图像和公共评估拆分的资源,称之为 SWE-Lancer Diamond。通过将模型性能与货币价值进行映射,期望 SWE-Lancer 能够进一步研究人工智能模型的经济影响。
总结与展望 🌟
感兴趣的小伙伴们,快去了解这个最新 Benchmark 吧!SWE-Lancer 目前非常值得使用,也为 AI 和软件工程师们带来了新的研究机会。希望未来 AI 模型能够更好地解决现实中的软件开发任务。都看到这里了,不如点个关注?
#ai #AI #大模型 #人工智能 #深度学习 #机器学习 #计算机 #openai #chatgpt #互联网大厂 @科技薯