无GPU也能跑！OmniVoice Studio开源声音克隆获5k星

AITNT 2026-05-29 36 11

AI 大模型深度学习技术突破

ElevenLabs的声音克隆和长文本音频生成质量确实出色，但高昂的价格让不少个人开发者和中小企业望而却步。最近开源的OmniVoice Studio项目恰好填补了这一空白，它是一款全本地运行的ElevenLabs替代方案，上线不久便收获了5k星标，成为AI音频领域的热门工具。其最大亮点在于：即便没有GPU，仅靠CPU也能完成声音克隆，这对硬件配置有限的用户来说无疑是重大利好。

OmniVoice Studio直接提供了跨平台的桌面客户端，覆盖Windows、Mac和Linux系统，最低内存要求仅为4GB。当内存小于等于8GB时，TTS模型会在转录过程中自动卸载到CPU上运行；内存大于8GB时，所有操作均可同时在GPU上执行。即便在纯CPU模式下，TTS速度虽然会慢约3倍，但仍能正常完成克隆任务。项目原生集成了阿里CosyVoice 3、针对苹果M芯片优化的MLX-Audio（内含Kokoro、Qwen3-TTS）等多后端引擎，并内置显存智能感知离线机制，当显存小于8GB时会自动将TTS模型移至CPU，彻底杜绝显存溢出崩溃。

功能方面，OmniVoice Studio覆盖了从声音克隆到视频配音的全流程。零样本声音克隆只需导入一段3秒的目标音频样本，无需微调训练即可快速复刻音色。声音设计模块允许用户随意调节性别、年龄、口音、音高、速度和情感，生成的声线可存入本地声音画廊随时调用。电影级视频自动翻配功能尤为实用：支持导入YouTube链接或本地MP4文件，系统自动分离人声和背景音，进行说话人识别和文本切片后，一键用克隆音色重组输出新语言的视频。此外，全局悬浮听写组件可通过快捷键唤起，实现流式语音识别并自动粘贴到当前输入框。项目还内置MCP服务端，支持在Claude Desktop、Cursor等AI Agent中直接调用本地语音能力。

对于AI从业者和爱好者来说，OmniVoice Studio的出现意味着高质量声音克隆的门槛被大幅降低。无论是个人创作者进行多语言内容制作，还是团队在本地部署语音交互系统，都能以极低的硬件成本获得接近商业产品的效果。建议感兴趣的用户从项目GitHub页面下载桌面客户端，先尝试3秒样本的零样本克隆功能，再逐步探索视频翻配和MCP集成等高级特性。随着社区贡献的增加，这一项目有望成为开源语音领域的标杆工具。

原文链接： https://www.aitntnews.com/newDetail.html?newId=25624

本文由 Zyentor（智元界） 原创发布

查看全部原创 · 技术论坛讨论

讨论 (0 条)

登录后参与讨论