模型库 / coqui/XTTS-v2

XTTS-v2

coqui text-to-speech coqui
coqui/XTTS-v2
8,264,399
下载量
3724
收藏数
20
浏览量
other
许可

简介

ⓍTTS ⓍTTS 是一款语音生成模型,仅需一段6秒的音频片段,即可将声音克隆到不同语言中。无需依赖长达数小时的庞大数据进行训练。

模型卡片

许可协议 other
框架 coqui
任务 text-to-speech

模型详情

已翻译

ⓍTTS

ⓍTTS 是一个语音生成模型,只需使用一段 6 秒的音频片段,即可将声音克隆到不同语言中。无需大量跨越无数小时的训练数据。

该模型与驱动 Coqui StudioCoqui API 的模型相同或相似。

功能

  • 支持 17 种语言。
  • 仅需 6 秒音频片段即可进行声音克隆。
  • 通过克隆实现情感和风格迁移。
  • 跨语言声音克隆。
  • 多语言语音生成。
  • 24kHz 采样率。

相较于 XTTS-v1 的更新

  • 新增 2 种语言:匈牙利语和韩语。
  • 说话人条件设置的架构改进。
  • 支持使用多个说话人参考以及说话人之间的插值。
  • 稳定性改进。
  • 整体韵律和音频质量提升。

支持的语言

XTTS-v2 支持 17 种语言:英语 (en)、西班牙语 (es)、法语 (fr)、德语 (de)、意大利语 (it)、葡萄牙语 (pt)、波兰语 (pl)、土耳其语 (tr)、俄语 (ru)、荷兰语 (nl)、捷克语 (cs)、阿拉伯语 (ar)、中文 (zh-cn)、日语 (ja)、匈牙利语 (hu)、韩语 (ko)、印地语 (hi)

请持续关注,我们将继续增加对更多语言的支持。如果您有任何语言需求,欢迎联系我们!

代码

代码库 支持推理和微调

演示空间

  • XTTS Space:您可以查看模型在支持的语言上的表现,并尝试使用自己的参考音频或麦克风输入。
  • XTTS Voice Chat with Mistral or Zephyr:您可以体验与 Mistral 7B Instruct 或 Zephyr 7B Beta 的流式语音对话。
🐸💬 CoquiTTS coqui/TTS on Github
💼 文档 ReadTheDocs
👩‍💻 问题 GitHub Discussions
🗯 社区 Discord

许可证

本模型采用 Coqui Public Model License 许可。生成模型的许可证涉及诸多内容,您可以在此处阅读更多关于 CPML 起源的故事

联系方式

欢迎加入我们的 🐸社区。我们在 DiscordTwitter 上活跃。
您也可以发送邮件至 info@coqui.ai。

使用 🐸TTS API:

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

使用 🐸TTS 命令行:

 tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
     --text "Bugün okula gitmek istemiyorum." \
     --speaker_wav /path/to/target/speaker.wav \
     --language_idx tr \
     --use_cuda true

直接使用模型:

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)

标签

license:other region:us

操作


详细信息

厂商
coqui
任务
text-to-speech
框架
coqui
许可(HF)
other