wav2vec2-base
facebook
transformers
en
facebook/wav2vec2-base
2,158,832
下载量
118
收藏数
17
浏览量
apache-2.0
许可
简介
该基础模型在16kHz采样的语音音频上进行了预训练。使用该模型时,请确保您的语音输入也以16kHz进行采样。
模型卡片
许可协议
apache-2.0
语言
en
数据集
librispeech_asr
speech
模型配置
模型类型
wav2vec2
架构
Wav2Vec2ForPreTraining
模型详情
已翻译Wav2Vec2-Base
该基础模型在 16kHz 采样的语音音频上进行了预训练。使用该模型时,请确保您的语音输入也以 16kHz 采样。
注意:该模型没有 tokenizer,因为它仅基于音频进行预训练。要使用此模型进行语音识别,需要创建一个 tokenizer,并对模型在有标签的文本数据上进行微调。请查看这篇博客以获取关于如何微调模型的更详细说明。
作者:Alexei Baevski、Henry Zhou、Abdelrahman Mohamed、Michael Auli
摘要
我们首次证明,仅从语音音频中学习强大的表示,随后在转录语音上进行微调,可以在概念上更简单的同时超越最佳半监督方法。wav2vec 2.0 在潜在空间中对语音输入进行掩码处理,并解决一个基于联合学习的潜在表示量化而定义的对比任务。使用 Librispeech 所有带标签数据的实验在 clean/other 测试集上分别实现了 1.8/3.3 的词错误率(WER)。当将带标签数据量减少到一小时时,wav2vec 2.0 在 100 小时子集上超越了先前的最优结果,同时使用的带标签数据量减少了 100 倍。仅使用十分钟的带标签数据并在 53k 小时的无标签数据上进行预训练,仍然能达到 4.8/8.2 的 WER。这证明了在有限带标签数据条件下进行语音识别的可行性。
原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。
使用方法
请参阅此 notebook 以获取关于如何微调模型的更多信息。
正在翻译中,请稍候...
标签
wav2vec2
pretraining
speech
en
dataset:librispeech_asr
arxiv:2006.11477
license:apache-2.0
endpoints_compatible
region:us