OpenAI又双叒叕搞了个大新闻:干掉程序员!🤖

在编程的世界里,技术与创新总是如影随形,然而最近,OpenAI的最新发布却让人侧目——他们推出了一个全新的AI编程能力测试基准,名为SWE-Lancer。这次的测试不再拘泥于抽象的分数,而是通过真实的软件项目考验AI的能力,看它们到底能赚到多少钱!💰

项目来源📊

OpenAI从著名的程序员接单平台Upwork收集了超过1400个真实项目,所有项目均来自上市公司Expensify。项目规模涵盖从50美元的小bug到32000美元的大需求,总价值超过100万美元。

测试分两种任务📝

此次测试分为两大类任务:

  • 写代码任务(764个,共41.5万美元)
    – 要求AI编写代码以解决实际问题
    – 利用企业级的端到端测试来验证代码质量
  • 管理决策任务(724个,共58.5万美元)
    – 模拟技术主管的工作,选择最佳的技术方案

这两种测试方式极具巧妙之处——不需要繁琐的评分标准,完成任务便能直接赚取对应的报酬,十分直观!✨

最新测试结果🔍

截至目前,最强的三个AI模型表现如下:

  • Claude 3.5 Sonnet:赚到40.3万美元
  • OpenAI o1:赚到38万美元
  • GPT-4o:赚到30.4万美元

令人惊讶的是,Anthropic公司的Claude 3.5居然击败了OpenAI的模型,这一结果颇具冲击性!

为什么这个基准测试重要?🌟

过去,AI编程的测试主要是在实验室中进行,而如今,SWE-Lancer则采用真实的项目来验证AI的能力:

  • 任务都是实实在在的工作需求
  • 验收标准基于实际开发中的标准
  • 报酬真实反映市场价值

通过真金白银和真实项目测试AI的编程能力,SWE-Lancer无疑是个颠覆性的标准!OpenAI似乎真的在抨击程序员的饭碗啊!

人类程序员的价值在哪里?❓

如果AI能够赚取40万美元,那么人类程序员的价值究竟何在?在这场人机较量中,程序员如何通过技术和创造力保持竞争力呢?这将是未来编程领域需要深思的问题。

总结💡

OpenAI的SWE-Lancer为AI编程能力提供了全新的测试标准,通过真实项目带来了更多的挑战与机遇。在这样的背景下,程序员们面临的,不仅是技术的不断进步,还有职业价值的再思考。未来的人机合作,我们拭目以待!

趋势