当所有人的目光都聚焦在通用大模型时,Voice AI这条相对安静的赛道里,正悄然孕育着新的变量。键盘正在失去它的统治地位,过去两年,OpenAI推出Realtime API,Google做出Gemini Live,国内大模型公司也几乎全员布局语音。越来越多的人开始相信,当Agent真正进入工作流后,语音会成为比键盘更自然的上下文入口。而Agent要想听懂人类,第一步就是ASR(自动语音识别)。

在这个领域,Hugging Face的Open ASR Leaderboard是公认的标尺,核心指标词错误率(WER)越低越好。长期以来,榜单被大厂和明星实验室垄断,训练数据、算力、工程积累都是高门槛。但最近,一家名为Hojo的创业团队打破了这种格局。他们公开的Hojo-ASR-V1模型在LibriSpeech Clean上WER仅1.74%,在更接近真实场景的GigaSpeech、VoxPopuli等数据集上也都压缩在8%以内。如果提交榜单,这组数据将位列非常靠前的位置。更关键的是,模型以Apache-2.0许可证开源在GitHub和Hugging Face,二次使用几乎没有限制。

Hojo-ASR-V1的架构不同于传统语音识别模型。它先用Whisper的特征提取器处理音频,转成声学特征,输入到Qwen3-Omni的音频编码器,中间用Conformer结构做适配压缩,最后交给Qwen3-4B语言模型输出文字。这种“编码器+适配器+大语言模型”的组合,正是当前OpenASR榜单顶部的主流方向。英伟达的Canary-Qwen-2.5B、IBM的Granite-Speech-3.3-8B、微软的Phi-4-Multimodal都采用了类似思路,平均WER降至5.6%到5.9%。把语言模型引入ASR的好处在于,识别不再只是“听到什么音、写下什么字”,模型能借助语义判断噪声、口语化表达、中英混说或专业词汇,准确率大幅提升。

实测中,我们将Hojo-ASR-V1部署到本地,替换了常用的Whisper。作为日常语音输入工具,它的识别速度和准确率都足够流畅,延迟低、稳定性好。对于AI从业者而言,这意味着在Agent时代,语音交互的基础层有了一个开源且性能强劲的选择。未来,随着更多团队加入Voice AI赛道,语音将不再是辅助输入方式,而会成为人机交互的核心入口。如果你正在构建语音相关的Agent应用,不妨从Hojo-ASR-V1开始,体验一下这条新故事线的潜力。