OpenAI realtime贵到离谱！推荐两款开源平替

OpenAI开发者大会：Realtime语音模型API发布今晨，OpenAI在其开发者大会上正式发布了Rea…

10月 10, 2024

4-6 分钟

AI工具, AI应用, AI便利店, ASR, 语音大模型, OpenAI, realtimemodel, TTS, 人工智能

OpenAI开发者大会：Realtime语音模型API发布

今晨，OpenAI在其开发者大会上正式发布了Realtime语音模型的API。这项技术的到来，相当于将GPT-4o（通常称为Her）的端到端语音模型以API的形式开放，用户可以更灵活地接入和使用这一先进技术。

价格问题：是否值得？

虽然技术饱含创新，但高昂的价格却让人咋舌：输入价格为每百万token 100美元，输出则需200美元。按此计算，每小时的费用约为100元人民币，这让不少人开始思考其性价比。例如，给孩子上一小时补习班仅需200元，而使用这一API的成本却是其好几倍，令人感叹不已😅。

强大的替代方案推荐

别担心，为您推荐两款优秀的平替产品，使您能够基于开源模型进行更多的应用开发！

Moshi – 领先的Speech-to-Speech模型

延迟理论上仅为160毫秒，确保实时响应。
能够感知您的语气与情绪等非语言信息。
无需明确对话回合，支持重叠对话与插话。

在语音问答任务上，Moshi表现突出，尤其在Llama Questions测试中，Moshi获得了62.3分，远超第二名SpeechGPT的21.6分。同时，Moshi也未完全抛弃文本，创新性地推出了”Inner Monologue”功能，即在生成语音的同时，生成对应辅助文本，以帮助模型更好理解与生成语音。

Mini-Omni – 小而美的实时交互模型

实现了端到端的实时语音交互，模型容量仅有0.5B。
核心创新在于并行生成策略，同时生成文本和语音token。
包含”batch parallel decoding”，提升语音生成的效率。

尽管在语音推理方面表现稍逊于文本推理，但Mini-Omni项目凭借其“小而美、巧而精”的设计，值得一探究竟。

总结与未来展望

随着AI技术的飞速发展，我们有理由相信，未来将出现更多便捷、高效的解决方案。感兴趣的朋友可以关注我们，我们会不断分享硬核但通俗易懂的解读，让大家紧跟AI的步伐🚀。

#AI便利店 @科技薯 #ASR #OpenAI #语音大模型 #TTS #AI应用 #AI工具 #人工智能 #realtimemodel

新泽西Bayonne 3b1b出租 20mins到曼哈顿

美国手机卡推荐Mint 新用户每月$15首月免费

2025谷歌OA面试练习真题和准备

🇺🇸美国旅行伴手礼推荐清单

海外电视不花钱看奥运直播📺手把手教程

纽约夏季餐馆周回归啦🔥500+餐厅便宜吃

🏅第16金郑钦文创造历史可以排到中国奥运历史金牌榜第几？

美国免费看奥运

在美国购物的省钱妙招：8个必闭眼冲的品类

畅享清新：Waterdrop净水器评测

阿里巴巴全新千问计划启动：挑战ChatGPT的AI助手APP

趋势