Voice AI赛道升温，Hojo开源ASR模型成黑马

当所有人的目光都聚焦在通用大模型时，Voice AI这条相对安静的赛道里，正悄然孕育着新的变量。键盘正在失去它的统治地位，过去两年，OpenAI推出Realtime API，Google做出Gemini Live，国内大模型公司也几乎全员布局语音。越来越多的人开始相信，当Agent真正进入工作流后，语音会成为比键盘更自然的上下文入口。而Agent要想听懂人类，第一步就是ASR（自动语音识别）。

在这个领域，Hugging Face的Open ASR Leaderboard是公认的标尺，核心指标词错误率（WER）越低越好。长期以来，榜单被大厂和明星实验室垄断，训练数据、算力、工程积累都是高门槛。但最近，一家名为Hojo的创业团队打破了这种格局。他们公开的Hojo-ASR-V1模型在LibriSpeech Clean上WER仅1.74%，在更接近真实场景的GigaSpeech、VoxPopuli等数据集上也都压缩在8%以内。如果提交榜单，这组数据将位列非常靠前的位置。更关键的是，模型以Apache-2.0许可证开源在GitHub和Hugging Face，二次使用几乎没有限制。

Hojo-ASR-V1的架构不同于传统语音识别模型。它先用Whisper的特征提取器处理音频，转成声学特征，输入到Qwen3-Omni的音频编码器，中间用Conformer结构做适配压缩，最后交给Qwen3-4B语言模型输出文字。这种“编码器+适配器+大语言模型”的组合，正是当前OpenASR榜单顶部的主流方向。英伟达的Canary-Qwen-2.5B、IBM的Granite-Speech-3.3-8B、微软的Phi-4-Multimodal都采用了类似思路，平均WER降至5.6%到5.9%。把语言模型引入ASR的好处在于，识别不再只是“听到什么音、写下什么字”，模型能借助语义判断噪声、口语化表达、中英混说或专业词汇，准确率大幅提升。

实测中，我们将Hojo-ASR-V1部署到本地，替换了常用的Whisper。作为日常语音输入工具，它的识别速度和准确率都足够流畅，延迟低、稳定性好。对于AI从业者而言，这意味着在Agent时代，语音交互的基础层有了一个开源且性能强劲的选择。未来，随着更多团队加入Voice AI赛道，语音将不再是辅助输入方式，而会成为人机交互的核心入口。如果你正在构建语音相关的Agent应用，不妨从Hojo-ASR-V1开始，体验一下这条新故事线的潜力。

Voice AI赛道升温，Hojo开源ASR模型成黑马

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%