谷歌DeepMind刚刚甩出了一枚重磅炸弹——Gemini 3.5 Live Translate。这款最新的语音对语音翻译模型,直接把「等你说完再翻」的老规矩掀了个底朝天。首席科学家Jeff Dean亲自发帖官宣,字里行间透着一股「二十年磨一剑」的底气。对于AI从业者和爱好者来说,这不仅是技术迭代,更是实时翻译赛道的一次范式跃迁。传统语音翻译的逻辑是「录完-识别-翻译-合成」,用户必须等对方说完才能听到翻译,延迟动辄数秒,对话体验割裂。Gemini 3.5 Live Translate则基于端到端流式架构,边接收语音边输出翻译,实测延迟仅300毫秒,几乎感觉不到等待。它支持70多种语言,包括中文、英语、西班牙语、阿拉伯语等主流语种,甚至覆盖部分方言变体。据官方数据,在嘈杂环境(如咖啡馆、地铁)下,翻译准确率比前代提升了40%,这得益于模型内置的噪声抑制模块和动态上下文感知能力。更深层的技术亮点在于,Gemini 3.5 Live Translate并非简单的「语音转文字再翻译」,而是直接建模语音特征与目标语言语音间的映射关系,绕开了中间文本环节。这意味着它能够保留原声的语调、情感和语速节奏,翻译结果听起来更自然。Jeff Dean在推文中强调,该模型在Gemini 3.5多模态大模型基础上训练,融合了超过50万小时的对话语音数据,并针对实时场景做了推理优化。对于开发者而言,谷歌计划在今年第四季度开放API接口,定价将参考现有Cloud Translation API标准,预计每百万字符约20美元,低于行业均价30%。这一发布的影响将迅速扩散到直播、跨国会议、客服、教育等领域。想象一下,YouTube直播可以实时显示多语种字幕,Zoom会议里中日英三语无缝切换,甚至同声传译员的工作流都可能被重塑。不过,谷歌也承认当前版本对低资源语言(如斯瓦希里语)的覆盖仍有短板,且长对话中偶现语境漂移。建议开发者优先在短交互场景(如问答、指令)中测试,并搭配降噪麦克风使用。未来,随着Gemini 3.5 Live Translate走向开放,实时翻译的「延迟墙」将被彻底推倒,而谁先集成这一能力,谁就能在全球化产品中抢占先机。
谷歌Gemini 3.5 Live Translate颠覆实时翻译:边听边译70+语言
AITNT
2天前
12
10
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容