OpenAI开发者大会:Realtime语音模型API发布

今晨,OpenAI在其开发者大会上正式发布了Realtime语音模型的API。这项技术的到来,相当于将GPT-4o(通常称为Her)的端到端语音模型以API的形式开放,用户可以更灵活地接入和使用这一先进技术。

价格问题:是否值得?

虽然技术饱含创新,但高昂的价格却让人咋舌:输入价格为每百万token 100美元,输出则需200美元。按此计算,每小时的费用约为100元人民币,这让不少人开始思考其性价比。例如,给孩子上一小时补习班仅需200元,而使用这一API的成本却是其好几倍,令人感叹不已😅。

强大的替代方案推荐

别担心,为您推荐两款优秀的平替产品,使您能够基于开源模型进行更多的应用开发!

Moshi – 领先的Speech-to-Speech模型

  • 延迟理论上仅为160毫秒,确保实时响应。
  • 能够感知您的语气与情绪等非语言信息。
  • 无需明确对话回合,支持重叠对话与插话。

在语音问答任务上,Moshi表现突出,尤其在Llama Questions测试中,Moshi获得了62.3分,远超第二名SpeechGPT的21.6分。同时,Moshi也未完全抛弃文本,创新性地推出了”Inner Monologue”功能,即在生成语音的同时,生成对应辅助文本,以帮助模型更好理解与生成语音。

Mini-Omni – 小而美的实时交互模型

  • 实现了端到端的实时语音交互,模型容量仅有0.5B。
  • 核心创新在于并行生成策略,同时生成文本和语音token。
  • 包含”batch parallel decoding”,提升语音生成的效率。

尽管在语音推理方面表现稍逊于文本推理,但Mini-Omni项目凭借其“小而美、巧而精”的设计,值得一探究竟。

总结与未来展望

随着AI技术的飞速发展,我们有理由相信,未来将出现更多便捷、高效的解决方案。感兴趣的朋友可以关注我们,我们会不断分享硬核但通俗易懂的解读,让大家紧跟AI的步伐🚀。

#AI便利店 @科技薯 #ASR #OpenAI #语音大模型 #TTS #AI应用 #AI工具 #人工智能 #realtimemodel

趋势