Kokoro-82M
简介
**Kokoro** 是一个拥有8200万参数的开源权重文本转语音(TTS)模型。尽管其架构轻量,但能提供与更大模型相媲美的质量,同时速度显著更快、成本效益更高。凭借Apache许可证授权的权重,Kokoro可部署于从生产环境到各类应用场景。
模型卡片
模型详情
已翻译Kokoro 是一个拥有 8200 万参数的开源权重 TTS 模型。尽管架构轻量,但其在显著提升速度和成本效益的同时,能提供与更大模型相媲美的质量。基于 Apache 许可证的权重,Kokoro 可部署于从生产环境到个人项目的任何场景。
🐈 GitHub: https://github.com/hexgrad/kokoro
🚀 Demo: https://hf.co/spaces/hexgrad/Kokoro-TTS
[!NOTE]
截至 2025 年 4 月,Kokoro 通过 API 提供的市场费率约为每百万字符文本输入低于 1 美元,或每小时音频输出低于 0.06 美元。(平均而言,1000 字符输入约对应 1 分钟输出。)来源:ArtificialAnalysis/Replicate 每百万字符 65 美分 和 DeepInfra 每百万字符 80 美分。这是一个基于 Apache 许可证的模型,Kokoro 已被部署于众多项目和商业 API 中。我们欢迎将模型应用于实际场景。
[!CAUTION]
诸如 kokorottsai_com(快照:https://archive.ph/nRRnk)和 kokorotts_net(快照:https://archive.ph/60opa)等虚假网站,很可能是打着热门模型旗号进行诈骗的网站。任何根域名包含 "kokoro" 的网站(例如 kokorottsai_com、kokorotts_net)均不属于且与本模型页面或其作者无关,任何暗示关联的企图均为危险信号。
发布版本
| 模型 | 发布时间 | 训练数据 | 语言与音色 | SHA256 |
|---|---|---|---|---|
| v1.0 | 2025年1月27日 | 数百小时 | 8种语言 & 54种音色 | 496dba11 |
| v0.19 | 2024年12月25日 | =0.9.2 soundfile | ||
| !apt-get -qq -y install espeak-ng > /dev/null 2>&1 | ||||
| from kokoro import KPipeline | ||||
| from IPython.display import display, Audio | ||||
| import soundfile as sf | ||||
| import torch | ||||
| pipeline = KPipeline(lang_code='a') | ||||
| text = ''' | ||||
| Kokoro is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, Kokoro can be deployed anywhere from production environments to personal projects. | ||||
| ''' | ||||
| generator = pipeline(text, voice='af_heart') | ||||
| for i, (gs, ps, audio) in enumerate(generator): | ||||
| print(i, gs, ps) | ||||
| display(Audio(data=audio, rate=24000, autoplay=i==0)) | ||||
| sf.write(f'{i}.wav', audio, 24000) | ||||
| ``` | ||||
在底层,kokoro 使用了 misaki,这是一个位于 https://github.com/hexgrad/misaki 的 G2P 库。 |
模型事实
架构:
- StyleTTS 2:https://arxiv.org/abs/2306.07691
- ISTFTNet:https://arxiv.org/abs/2203.02395
- 仅解码器:无扩散模型,无编码器发布
架构设计者: Li 等人 @ https://github.com/yl4579/StyleTTS2
训练者: Discord 上的 @rzvzn
语言: 多语言
模型 SHA256 哈希值: 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4
训练详情
数据: Kokoro 仅使用许可/非版权音频数据和 IPA 音素标签进行训练。许可/非版权音频的示例包括:
- 公共领域音频
- 基于 Apache、MIT 等许可证的音频
- 由大型提供商闭源[2] TTS 模型生成的合成音频[1]
[1] https://copyright.gov/ai/ai_policy_guidance.pdf
[2] 不包含来自开源 TTS 模型或“自定义语音克隆”的合成音频
总数据集大小: 数百小时音频
总训练成本: 约 1000 美元,对应 1000 小时的 A100 80GB vRAM 使用
知识共享署名
以下 CC BY 音频是用于训练 Kokoro v1.0 的数据集的一部分。
| 音频数据 | 使用时长 | 许可证 | 加入训练集时间 |
|---|---|---|---|
Koniwa tnc |
<1小时 | CC BY 3.0 | v0.19 / 2024年11月22日 |
| SIWIS | <11小时 | CC BY 4.0 | v0.19 / 2024年11月22日 |
致谢
- 🛠️ @yl4579 设计了 StyleTTS 2 架构。
- 🏆 @Pendrokar 将 Kokoro 作为参赛模型加入 TTS Spaces Arena。
- 📊 感谢所有贡献合成训练数据的人。
- ❤️ 特别
正在翻译中,请稍候...