OpenAI前CTO Mira Murati与前应用研究负责人翁荔(Lilian Weng)联合创立的Thinking Machines Lab(TML),刚刚发布了一项名为“Interaction Models”的研究成果。这项技术最引人注目的亮点,是让AI实现了“边听边说”的实时语音交互能力,用户无需等待AI说完就能自然打断或调整对话节奏。这让人联想到几个月前国内面壁智能展示的“实时语音交互”方案,两者在技术思路上不约而同地指向了同一个方向:让AI像人类一样自然地“边听边想边说”。从技术细节来看,TML的Interaction Models采用了端到端的神经网络架构,将语音识别、语义理解和语音生成整合在一个统一模型中,而非传统的级联式处理。这使得整个交互延迟被压缩到300毫秒以内,接近人类对话中200-250毫秒的典型反应时间。模型还支持动态语速调整和上下文感知的“预判式”回应,比如当用户说话中途停顿思考时,AI不会急于抢答,而是等待完整表达后再回应。这种设计显著提升了对话的流畅度和自然感,与面壁智能去年发布的“实时语音交互”方案在核心指标上形成对标。从行业影响来看,这一突破可能重新定义AI语音交互的体验标准。目前主流的语音助手(如Siri、小爱同学)仍采用“唤醒-等待-响应”的轮询模式,用户需要说完完整指令才能获得反馈。而TML和面壁智能的“边听边说”方案,让AI能够像人类一样在对话中动态调整,这为智能助手、在线教育、客服系统等场景带来了质的飞跃。例如在虚拟老师授课场景中,学生可以随时打断提问,AI能立即调整讲解节奏;在客服场景中,用户无需重复描述问题,AI能通过实时反馈缩短解决时间。不过,这类模型对计算资源的要求也更高,TML尚未公布具体的推理成本和部署方案。展望未来,实时语音交互正从“技术可行”迈向“体验可用”阶段。TML和面壁智能的探索表明,端到端架构和低延迟优化是当前的核心突破点。对于AI从业者而言,关注这一方向的技术演进,尤其是模型在嘈杂环境下的鲁棒性、多语言支持以及边缘设备部署能力,将直接影响产品的落地竞争力。可以预见,当“边听边说”成为标配,AI与人类的对话将不再有“等待”的间隙,这或许是人机交互体验的又一次范式迁移。
Mira Murati新公司发布交互模型,边听边说引关注
AITNT
2026-05-13 10:47
14
11
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容