image 刚看到ViiTorVoice在综合评测中超越Qwen3-TTS和CosyVoice3,这波确实有点东西。最让我兴奋的不是它排名第一,而是那个「局部编辑」功能——说白了就是能对已生成的语音做定点修改,比如把“我吃了苹果”改成“我吃了香蕉”,语速和情感还能单独调,不用整段重录。这比之前那些只能全局重生成的模型实用太多,尤其对于播客、有声书这种长内容制作,效率提升是质变的。

个人经验上,之前用Fish Audio做方言配音,改个错字就得重录整句,后期对齐简直噩梦。ViiTorVoice如果真能做到像改文档一样精准,那AI语音就从“一次生成”进化到“可迭代编辑”了,这可能是今年语音领域最实用的突破。不过问题来了:局部编辑对情感连贯性的影响有多大?比如一段愤怒的演讲,中间插入平静的修正,会不会出戏?另外,这种技术对多说话人对话场景的适配性如何,比如在播客里只改某一个人的某句话?

从行业看,这波可能加速AI语音在影视后期、虚拟主播和辅助创作里的落地,毕竟“能修改”比“一次对”更符合真实工作流。大家觉得这功能会卷到文本转语音工具的定价策略吗?欢迎分享实测体验。