OpenAI语音AI代理重大升级：实时推理、多工具协同迈向自然对话

OpenAI近日发布了一系列实时语音模型，旨在解决AI语音代理在真实生活交互中的挑战，特别是提升其推理能力。这些新模型使得AI语音代理能够更自然地进行对话，实现边思考边说话，并有效利用多种工具，从而更接近人类自然对话的速度和流畅性。

此系列包括GPT-#Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper，它们以API形式提供，为AI语音代理带来了推理、流式处理、工具使用和逼真度等关键能力升级，尤其适用于实时语音场景。

其中，Realtime-2模型将GPT-5级别的推理能力引入到实时语音交互中。它能够同时调用并使用多个工具，并具备“边思考边说话”的独特能力，同时对语音的语调控制也更精细，从而大幅提升了交互的真实感。

在Big Bench Audio基准测试中，Realtime-2取得了96.6%的成绩，相比其前代模型81.4%的表现，推理能力提升了15个百分点，这标志着语音AI在实时推理方面取得了显著突破。

除了Realtime-2，#OpenAI还推出了一个支持70多种语言的实时翻译模型，以及一个流式转录模型，共同构成了完整的语音代理工具包。

OpenAI透露，Zillow（美国房地产科技公司）、Priceline（在线旅游平台）和德国电信等企业已经开始利用这些模型，构建各自的AI房地产代理、语音管理旅行服务和客户支持系统。

此次升级意义重大，预示着AI语音交互的“回合制”时代或将终结。OpenAI的新模型能够更好地进行推理、利用工具并无缝完成工作流程，有效避免了过去因中断而导致用户体验不佳的问题。虽然目前AI行业普遍关注文本代理，但下一个浪潮将是与AI进行语音交互，而非仅限于打字沟通。

推荐阅读