模型库 / facebook/wav2vec2-base

wav2vec2-base

facebook transformers en
facebook/wav2vec2-base
2,158,832
下载量
118
收藏数
17
浏览量
apache-2.0
许可

简介

该基础模型在16kHz采样的语音音频上进行了预训练。使用该模型时,请确保您的语音输入也以16kHz进行采样。

模型卡片

许可协议 apache-2.0
语言
en
数据集
librispeech_asr
speech

模型配置

模型类型 wav2vec2
架构 Wav2Vec2ForPreTraining

模型详情

已翻译

Wav2Vec2-Base

Facebook 的 Wav2Vec2

该基础模型在 16kHz 采样的语音音频上进行了预训练。使用该模型时,请确保您的语音输入也以 16kHz 采样。

注意:该模型没有 tokenizer,因为它仅基于音频进行预训练。要使用此模型进行语音识别,需要创建一个 tokenizer,并对模型在有标签的文本数据上进行微调。请查看这篇博客以获取关于如何微调模型的更详细说明。

论文

作者:Alexei Baevski、Henry Zhou、Abdelrahman Mohamed、Michael Auli

摘要
我们首次证明,仅从语音音频中学习强大的表示,随后在转录语音上进行微调,可以在概念上更简单的同时超越最佳半监督方法。wav2vec 2.0 在潜在空间中对语音输入进行掩码处理,并解决一个基于联合学习的潜在表示量化而定义的对比任务。使用 Librispeech 所有带标签数据的实验在 clean/other 测试集上分别实现了 1.8/3.3 的词错误率(WER)。当将带标签数据量减少到一小时时,wav2vec 2.0 在 100 小时子集上超越了先前的最优结果,同时使用的带标签数据量减少了 100 倍。仅使用十分钟的带标签数据并在 53k 小时的无标签数据上进行预训练,仍然能达到 4.8/8.2 的 WER。这证明了在有限带标签数据条件下进行语音识别的可行性。
原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

使用方法

请参阅此 notebook 以获取关于如何微调模型的更多信息。

标签

wav2vec2 pretraining speech en dataset:librispeech_asr arxiv:2006.11477 license:apache-2.0 endpoints_compatible region:us

操作


详细信息

厂商
facebook
框架
transformers
模型类型
wav2vec2
许可(HF)
apache-2.0
语言
en