OpenAI又双叒叕搞了个大新闻:干掉程序员!🤖
在编程的世界里,技术与创新总是如影随形,然而最近,OpenAI的最新发布却让人侧目——他们推出了一个全新的AI编程能力测试基准,名为SWE-Lancer。这次的测试不再拘泥于抽象的分数,而是通过真实的软件项目考验AI的能力,看它们到底能赚到多少钱!💰
项目来源📊
OpenAI从著名的程序员接单平台Upwork收集了超过1400个真实项目,所有项目均来自上市公司Expensify。项目规模涵盖从50美元的小bug到32000美元的大需求,总价值超过100万美元。
测试分两种任务📝
此次测试分为两大类任务:
- 写代码任务(764个,共41.5万美元)
– 要求AI编写代码以解决实际问题
– 利用企业级的端到端测试来验证代码质量 - 管理决策任务(724个,共58.5万美元)
– 模拟技术主管的工作,选择最佳的技术方案
这两种测试方式极具巧妙之处——不需要繁琐的评分标准,完成任务便能直接赚取对应的报酬,十分直观!✨
最新测试结果🔍
截至目前,最强的三个AI模型表现如下:
- Claude 3.5 Sonnet:赚到40.3万美元
- OpenAI o1:赚到38万美元
- GPT-4o:赚到30.4万美元
令人惊讶的是,Anthropic公司的Claude 3.5居然击败了OpenAI的模型,这一结果颇具冲击性!
为什么这个基准测试重要?🌟
过去,AI编程的测试主要是在实验室中进行,而如今,SWE-Lancer则采用真实的项目来验证AI的能力:
- 任务都是实实在在的工作需求
- 验收标准基于实际开发中的标准
- 报酬真实反映市场价值
通过真金白银和真实项目测试AI的编程能力,SWE-Lancer无疑是个颠覆性的标准!OpenAI似乎真的在抨击程序员的饭碗啊!
人类程序员的价值在哪里?❓
如果AI能够赚取40万美元,那么人类程序员的价值究竟何在?在这场人机较量中,程序员如何通过技术和创造力保持竞争力呢?这将是未来编程领域需要深思的问题。
总结💡
OpenAI的SWE-Lancer为AI编程能力提供了全新的测试标准,通过真实项目带来了更多的挑战与机遇。在这样的背景下,程序员们面临的,不仅是技术的不断进步,还有职业价值的再思考。未来的人机合作,我们拭目以待!