wav2vec2-base

facebook transformers en

facebook/wav2vec2-base

2,158,832

下载量

118

收藏数

34

浏览量

apache-2.0

许可

简介

该基础模型在16kHz采样的语音音频上进行了预训练。使用该模型时，请确保您的语音输入也以16kHz进行采样。

模型卡片

许可协议 apache-2.0

语言

en

数据集

librispeech_asr

speech

模型配置

模型类型 wav2vec2

架构 Wav2Vec2ForPreTraining

模型详情

已翻译

Wav2Vec2-Base

Facebook 的 Wav2Vec2

该基础模型在 16kHz 采样的语音音频上进行了预训练。使用该模型时，请确保您的语音输入也以 16kHz 采样。

注意：该模型没有 tokenizer，因为它仅基于音频进行预训练。要使用此模型进行语音识别，需要创建一个 tokenizer，并对模型在有标签的文本数据上进行微调。请查看这篇博客以获取关于如何微调模型的更详细说明。

论文

作者：Alexei Baevski、Henry Zhou、Abdelrahman Mohamed、Michael Auli

摘要
我们首次证明，仅从语音音频中学习强大的表示，随后在转录语音上进行微调，可以在概念上更简单的同时超越最佳半监督方法。wav2vec 2.0 在潜在空间中对语音输入进行掩码处理，并解决一个基于联合学习的潜在表示量化而定义的对比任务。使用 Librispeech 所有带标签数据的实验在 clean/other 测试集上分别实现了 1.8/3.3 的词错误率（WER）。当将带标签数据量减少到一小时时，wav2vec 2.0 在 100 小时子集上超越了先前的最优结果，同时使用的带标签数据量减少了 100 倍。仅使用十分钟的带标签数据并在 53k 小时的无标签数据上进行预训练，仍然能达到 4.8/8.2 的 WER。这证明了在有限带标签数据条件下进行语音识别的可行性。
原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

使用方法

请参阅此 notebook 以获取关于如何微调模型的更多信息。