模型库 / hexgrad/Kokoro-82M

Kokoro-82M

hexgrad text-to-speech en
hexgrad/Kokoro-82M
9,623,959
下载量
6304
收藏数
18
浏览量
apache-2.0
许可

简介

**Kokoro** 是一个拥有8200万参数的开源权重文本转语音(TTS)模型。尽管其架构轻量,但能提供与更大模型相媲美的质量,同时速度显著更快、成本效益更高。凭借Apache许可证授权的权重,Kokoro可部署于从生产环境到各类应用场景。

模型卡片

许可协议 apache-2.0
语言
en
任务 text-to-speech

模型详情

已翻译

Kokoro 是一个拥有 8200 万参数的开源权重 TTS 模型。尽管架构轻量,但其在显著提升速度和成本效益的同时,能提供与更大模型相媲美的质量。基于 Apache 许可证的权重,Kokoro 可部署于从生产环境到个人项目的任何场景。

🐈 GitHub: https://github.com/hexgrad/kokoro

🚀 Demo: https://hf.co/spaces/hexgrad/Kokoro-TTS

[!NOTE]
截至 2025 年 4 月,Kokoro 通过 API 提供的市场费率约为每百万字符文本输入低于 1 美元,或每小时音频输出低于 0.06 美元。(平均而言,1000 字符输入约对应 1 分钟输出。)来源:ArtificialAnalysis/Replicate 每百万字符 65 美分DeepInfra 每百万字符 80 美分

这是一个基于 Apache 许可证的模型,Kokoro 已被部署于众多项目和商业 API 中。我们欢迎将模型应用于实际场景。

[!CAUTION]
诸如 kokorottsai_com(快照:https://archive.ph/nRRnk)和 kokorotts_net(快照:https://archive.ph/60opa)等虚假网站,很可能是打着热门模型旗号进行诈骗的网站。

任何根域名包含 "kokoro" 的网站(例如 kokorottsai_com、kokorotts_net)均不属于且与本模型页面或其作者无关,任何暗示关联的企图均为危险信号。

发布版本

模型 发布时间 训练数据 语言与音色 SHA256
v1.0 2025年1月27日 数百小时 8种语言 & 54种音色 496dba11
v0.19 2024年12月25日 =0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
pipeline = KPipeline(lang_code='a')
text = '''
Kokoro is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, Kokoro can be deployed anywhere from production environments to personal projects.
'''
generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
print(i, gs, ps)
display(Audio(data=audio, rate=24000, autoplay=i==0))
sf.write(f'{i}.wav', audio, 24000)
```
在底层,kokoro 使用了 misaki,这是一个位于 https://github.com/hexgrad/misaki 的 G2P 库。

模型事实

架构:
- StyleTTS 2:https://arxiv.org/abs/2306.07691
- ISTFTNet:https://arxiv.org/abs/2203.02395
- 仅解码器:无扩散模型,无编码器发布

架构设计者: Li 等人 @ https://github.com/yl4579/StyleTTS2

训练者: Discord 上的 @rzvzn

语言: 多语言

模型 SHA256 哈希值: 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4

训练详情

数据: Kokoro 仅使用许可/非版权音频数据和 IPA 音素标签进行训练。许可/非版权音频的示例包括:
- 公共领域音频
- 基于 Apache、MIT 等许可证的音频
- 由大型提供商闭源[2] TTS 模型生成的合成音频[1]
[1] https://copyright.gov/ai/ai_policy_guidance.pdf
[2] 不包含来自开源 TTS 模型或“自定义语音克隆”的合成音频

总数据集大小: 数百小时音频

总训练成本: 约 1000 美元,对应 1000 小时的 A100 80GB vRAM 使用

知识共享署名

以下 CC BY 音频是用于训练 Kokoro v1.0 的数据集的一部分。

音频数据 使用时长 许可证 加入训练集时间
Koniwa tnc <1小时 CC BY 3.0 v0.19 / 2024年11月22日
SIWIS <11小时 CC BY 4.0 v0.19 / 2024年11月22日

致谢

  • 🛠️ @yl4579 设计了 StyleTTS 2 架构。
  • 🏆 @Pendrokar 将 Kokoro 作为参赛模型加入 TTS Spaces Arena。
  • 📊 感谢所有贡献合成训练数据的人。
  • ❤️ 特别

标签

en arxiv:2306.07691 arxiv:2203.02395 base_model:yl4579/StyleTTS2-LJSpeech base_model:finetune:yl4579/StyleTTS2-LJSpeech doi:10.57967/hf/4329 license:apache-2.0 region:us

操作


详细信息

厂商
hexgrad
任务
text-to-speech
许可(HF)
apache-2.0
语言
en