Kokoro-82M

hexgrad text-to-speech en

hexgrad/Kokoro-82M

9,623,959

下载量

6335

收藏数

61

浏览量

apache-2.0

许可

简介

**Kokoro** 是一个拥有8200万参数的开源权重文本转语音（TTS）模型。尽管其架构轻量，但能提供与更大模型相媲美的质量，同时速度显著更快、成本效益更高。凭借Apache许可证授权的权重，Kokoro可部署于从生产环境到各类应用场景。

模型卡片

许可协议 apache-2.0

语言

en

任务 text-to-speech

模型详情

已翻译

Kokoro 是一个拥有 8200 万参数的开源权重 TTS 模型。尽管架构轻量，但其在显著提升速度和成本效益的同时，能提供与更大模型相媲美的质量。基于 Apache 许可证的权重，Kokoro 可部署于从生产环境到个人项目的任何场景。

🐈 GitHub: https://github.com/hexgrad/kokoro

🚀 Demo: https://hf.co/spaces/hexgrad/Kokoro-TTS

[!NOTE]
截至 2025 年 4 月，Kokoro 通过 API 提供的市场费率约为每百万字符文本输入低于 1 美元，或每小时音频输出低于 0.06 美元。（平均而言，1000 字符输入约对应 1 分钟输出。）来源：ArtificialAnalysis/Replicate 每百万字符 65 美分和 DeepInfra 每百万字符 80 美分。

这是一个基于 Apache 许可证的模型，Kokoro 已被部署于众多项目和商业 API 中。我们欢迎将模型应用于实际场景。

[!CAUTION]
诸如 kokorottsai_com（快照：https://archive.ph/nRRnk）和 kokorotts_net（快照：https://archive.ph/60opa）等虚假网站，很可能是打着热门模型旗号进行诈骗的网站。

任何根域名包含 "kokoro" 的网站（例如 kokorottsai_com、kokorotts_net）均不属于且与本模型页面或其作者无关，任何暗示关联的企图均为危险信号。

发布版本
使用方法
EVAL.md ↗️
SAMPLES.md ↗️
VOICES.md ↗️
模型事实
训练详情
知识共享署名
致谢

发布版本

模型	发布时间	训练数据	语言与音色	SHA256
v1.0	2025年1月27日	数百小时	8种语言 & 54种音色	`496dba11`
v0.19	2024年12月25日	=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
pipeline = KPipeline(lang_code='a')
text = '''
Kokoro is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, Kokoro can be deployed anywhere from production environments to personal projects.
'''
generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
print(i, gs, ps)
display(Audio(data=audio, rate=24000, autoplay=i==0))
sf.write(f'{i}.wav', audio, 24000)
```
在底层，`kokoro` 使用了 `misaki`，这是一个位于 https://github.com/hexgrad/misaki 的 G2P 库。

模型事实

架构：
- StyleTTS 2：https://arxiv.org/abs/2306.07691
- ISTFTNet：https://arxiv.org/abs/2203.02395
- 仅解码器：无扩散模型，无编码器发布

架构设计者： Li 等人 @ https://github.com/yl4579/StyleTTS2

训练者： Discord 上的 @rzvzn

语言： 多语言

模型 SHA256 哈希值： 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4

训练详情

数据： Kokoro 仅使用许可/非版权音频数据和 IPA 音素标签进行训练。许可/非版权音频的示例包括：
- 公共领域音频
- 基于 Apache、MIT 等许可证的音频
- 由大型提供商闭源[2] TTS 模型生成的合成音频[1]
[1] https://copyright.gov/ai/ai_policy_guidance.pdf
[2] 不包含来自开源 TTS 模型或“自定义语音克隆”的合成音频

总数据集大小： 数百小时音频

总训练成本： 约 1000 美元，对应 1000 小时的 A100 80GB vRAM 使用

知识共享署名

以下 CC BY 音频是用于训练 Kokoro v1.0 的数据集的一部分。

音频数据	使用时长	许可证	加入训练集时间
Koniwa `tnc`	<1小时	CC BY 3.0	v0.19 / 2024年11月22日
SIWIS	<11小时	CC BY 4.0	v0.19 / 2024年11月22日

致谢

🛠️ @yl4579 设计了 StyleTTS 2 架构。
🏆 @Pendrokar 将 Kokoro 作为参赛模型加入 TTS Spaces Arena。
📊 感谢所有贡献合成训练数据的人。
❤️ 特别