chatterbox
简介
**09/04 🔥 Introducing Chatterbox Multilingual in 23 Languages!**
模型卡片
模型详情
已翻译Chatterbox TTS
由 ❤️ 制作
09/04 🔥 推出支持 23 种语言的 Chatterbox Multilingual!
我们很高兴推出 Chatterbox 和 Chatterbox Multilingual,这是 Resemble AI 的生产级开源 TTS 模型。Chatterbox Multilingual 开箱即用,支持 阿拉伯语、丹麦语、德语、希腊语、英语、西班牙语、芬兰语、法语、希伯来语、印地语、意大利语、日语、韩语、马来语、荷兰语、挪威语、波兰语、葡萄牙语、俄语、瑞典语、斯瓦希里语、土耳其语、中文。Chatterbox 采用 MIT 许可,已与 ElevenLabs 等领先的闭源系统进行基准测试,并在并排评估中持续获得偏好。
无论您是在制作表情包、视频、游戏还是 AI 代理,Chatterbox 都能让您的内容栩栩如生。它也是首个支持情感夸张控制的开源 TTS 模型,这一强大功能让您的声音脱颖而出。立即在我们的 Hugging Face Gradio 应用 中尝试。
如果您喜欢该模型但需要扩展或调优以获得更高精度,请查看我们定价具有竞争力的 TTS 服务(链接)。它提供低于 200 毫秒的超低延迟的可靠性能——非常适合代理、应用程序或交互式媒体的生产使用。
关键细节
- 多语言、零样本 TTS,支持 23 种语言
- 最先进的零样本英语 TTS
- 0.5B Llama 骨干网络
- 独特的夸张/强度控制
- 基于对齐推理的超稳定性能
- 在 50 万小时清洗数据上训练
- 带水印的输出
- 简易语音转换脚本
- 超越 ElevenLabs
提示
- 常规使用(TTS 和语音代理):
- 默认设置(
exaggeration=0.5,cfg=0.5)适用于大多数提示。 -
如果参考说话者语速较快,将
cfg降低至0.3左右可改善节奏。 -
表达性或戏剧性语音:
- 尝试较低的
cfg值(例如~0.3),并将exaggeration提高至0.7或更高。 - 较高的
exaggeration往往会加快语速;降低cfg有助于以较慢、更从容的节奏进行补偿。
注意: 确保参考片段与指定的语言标签匹配。否则,语言迁移输出可能会继承参考片段语言的腔调。
为缓解此问题,请将 CFG 权重设置为 0。
安装
pip install chatterbox-tts
使用
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
model = ChatterboxTTS.from_pretrained(device="cuda")
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)
# If you want to synthesize with a different voice, specify the audio prompt
AUDIO_PROMPT_PATH="YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)
多语言快速入门
import torchaudio as ta
from chatterbox.mtl_tts import ChatterboxMultilingualTTS
multilingual_model = ChatterboxMultilingualTTS.from_pretrained(device="cuda")
french_text = "Bonjour, comment ça va? Ceci est le modèle de synthèse vocale multilingue Chatterbox, il prend en charge 23 langues."
wav_french = multilingual_model.generate(french_text, language_id="fr")
ta.save("test-french.wav", wav_french, model.sr)
chinese_text = "你好,今天天气真不错,希望你有一个愉快的周末。"
wav_chinese = multilingual_model.generate(chinese_text, language_id="zh")
ta.save("test-chinese.wav", wav_chinese, model.sr)
更多示例请参见 example_tts.py。
致谢
内置 PerTh 水印技术,助力负责任 AI
Chatterbox 生成的每个音频文件都包含 Resemble AI 的 Perth(感知阈值)水印器——这些不可感知的神经水印能够承受 MP3 压缩、音频编辑和常见操作,同时保持接近 100% 的检测准确率。
免责声明
请勿使用此模型从事不良行为。提示数据来源于互联网上可自由获取的数据。
正在翻译中,请稍候...
标签
操作
详细信息
- 厂商
- ResembleAI
- 任务
- text-to-speech
- 框架
- chatterbox
- 许可(HF)
- mit
- 语言
- ar, da, de, el, en, es, fi, fr, he, hi, it, ja, ko, ms, nl, no, pl, pt, ru, sv, sw, tr, zh