chatterbox

ResembleAI text-to-speech chatterbox ar da de

ResembleAI/chatterbox

2,233,576

下载量

1578

收藏数

38

浏览量

mit

许可

简介

**09/04 🔥 Introducing Chatterbox Multilingual in 23 Languages!**

模型卡片

许可协议 mit

语言

ar da de el en es fi fr he hi it ja ko ms nl no pl pt ru sv sw tr zh

框架 chatterbox

任务 text-to-speech

text-to-speech speech speech-generation voice-cloning multilingual-tts

模型详情

已翻译

Chatterbox TTS

由 ❤️ 制作

09/04 🔥 推出支持 23 种语言的 Chatterbox Multilingual！

我们很高兴推出 Chatterbox 和 Chatterbox Multilingual，这是 Resemble AI 的生产级开源 TTS 模型。Chatterbox Multilingual 开箱即用，支持阿拉伯语、丹麦语、德语、希腊语、英语、西班牙语、芬兰语、法语、希伯来语、印地语、意大利语、日语、韩语、马来语、荷兰语、挪威语、波兰语、葡萄牙语、俄语、瑞典语、斯瓦希里语、土耳其语、中文。Chatterbox 采用 MIT 许可，已与 ElevenLabs 等领先的闭源系统进行基准测试，并在并排评估中持续获得偏好。

无论您是在制作表情包、视频、游戏还是 AI 代理，Chatterbox 都能让您的内容栩栩如生。它也是首个支持情感夸张控制的开源 TTS 模型，这一强大功能让您的声音脱颖而出。立即在我们的 Hugging Face Gradio 应用中尝试。

如果您喜欢该模型但需要扩展或调优以获得更高精度，请查看我们定价具有竞争力的 TTS 服务（链接）。它提供低于 200 毫秒的超低延迟的可靠性能——非常适合代理、应用程序或交互式媒体的生产使用。

关键细节

多语言、零样本 TTS，支持 23 种语言
最先进的零样本英语 TTS
0.5B Llama 骨干网络
独特的夸张/强度控制
基于对齐推理的超稳定性能
在 50 万小时清洗数据上训练
带水印的输出
简易语音转换脚本
超越 ElevenLabs

提示

常规使用（TTS 和语音代理）：
默认设置（exaggeration=0.5，cfg=0.5）适用于大多数提示。
如果参考说话者语速较快，将 cfg 降低至 0.3 左右可改善节奏。
表达性或戏剧性语音：
尝试较低的 cfg 值（例如 ~0.3），并将 exaggeration 提高至 0.7 或更高。
较高的 exaggeration 往往会加快语速；降低 cfg 有助于以较慢、更从容的节奏进行补偿。

注意： 确保参考片段与指定的语言标签匹配。否则，语言迁移输出可能会继承参考片段语言的腔调。
为缓解此问题，请将 CFG 权重设置为 0。

安装

pip install chatterbox-tts

使用

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

model = ChatterboxTTS.from_pretrained(device="cuda")

text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# If you want to synthesize with a different voice, specify the audio prompt
AUDIO_PROMPT_PATH="YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

多语言快速入门

import torchaudio as ta
from chatterbox.mtl_tts import ChatterboxMultilingualTTS

multilingual_model = ChatterboxMultilingualTTS.from_pretrained(device="cuda")

french_text = "Bonjour, comment ça va? Ceci est le modèle de synthèse vocale multilingue Chatterbox, il prend en charge 23 langues."
wav_french = multilingual_model.generate(french_text, language_id="fr")
ta.save("test-french.wav", wav_french, model.sr)

chinese_text = "你好，今天天气真不错，希望你有一个愉快的周末。"
wav_chinese = multilingual_model.generate(chinese_text, language_id="zh")
ta.save("test-chinese.wav", wav_chinese, model.sr)

更多示例请参见 example_tts.py。

致谢

内置 PerTh 水印技术，助力负责任 AI

Chatterbox 生成的每个音频文件都包含 Resemble AI 的 Perth（感知阈值）水印器——这些不可感知的神经水印能够承受 MP3 压缩、音频编辑和常见操作，同时保持接近 100% 的检测准确率。

免责声明

请勿使用此模型从事不良行为。提示数据来源于互联网上可自由获取的数据。