News

OpenAI语音AI代理重大升级:实时推理、多工具协同迈向自然对话

OpenAI语音AI代理重大升级:实时推理、多工具协同迈向自然对话

OpenAI近日发布了一系列实时语音模型,旨在解决AI语音代理在真实生活交互中的挑战,特别是提升其推理能力。这些新模型使得AI语音代理能够更自然地进行对话,实现边思考边说话,并有效利用多种工具,从而更接近人类自然对话的速度和流畅性。

此系列包括GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,它们以API形式提供,为AI语音代理带来了推理、流式处理、工具使用和逼真度等关键能力升级,尤其适用于实时语音场景。

其中,Realtime-2模型将GPT-5级别的推理能力引入到实时语音交互中。它能够同时调用并使用多个工具,并具备“边思考边说话”的独特能力,同时对语音的语调控制也更精细,从而大幅提升了交互的真实感。

在Big Bench Audio基准测试中,Realtime-2取得了96.6%的成绩,相比其前代模型81.4%的表现,推理能力提升了15个百分点,这标志着语音AI在实时推理方面取得了显著突破。

除了Realtime-2,OpenAI还推出了一个支持70多种语言的实时翻译模型,以及一个流式转录模型,共同构成了完整的语音代理工具包。

OpenAI透露,Zillow(美国房地产科技公司)、Priceline(在线旅游平台)和德国电信等企业已经开始利用这些模型,构建各自的AI房地产代理、语音管理旅行服务和客户支持系统。

此次升级意义重大,预示着AI语音交互的“回合制”时代或将终结。OpenAI的新模型能够更好地进行推理、利用工具并无缝完成工作流程,有效避免了过去因中断而导致用户体验不佳的问题。虽然目前AI行业普遍关注文本代理,但下一个浪潮将是与AI进行语音交互,而非仅限于打字沟通。

↗ 阅读原文