时隔近一年,那个在B站教大家读AI论文的大神李沐,终于带着新作品回归了。在最新一期视频中,他展示了一个名为Higgs Avatar v1的实时数字人模型,并与之进行视频对话。从视频效果来看,数字人的形象相当逼真,李沐本人甚至直言“水平吊打我自己”。这不仅是个人秀,更标志着BosonAI在对话式AI视觉领域迈出了关键一步,将语音智能体的交互体验推向了新的高度。Higgs Avatar v1的核心能力在于“无脚本的即兴表演”。它不需要预设脚本或动画制作流程,而是跟随语音流逐帧实时渲染出唇形同步、头部动作和面部表情。用户听到什么,数字人就同步表现出什么,完全是即兴发挥。更令人惊叹的是,这套系统仅需一张静态照片,就能生成一个会听、会说、会反应的动态面孔,彻底告别了传统3D动捕或预录制循环的繁琐流程。在性能上,Higgs Avatar v1的帧生成延迟仅为16毫秒,远低于业界公认的62.5毫秒实时对话延迟底线,确保了数字人表情与声音的紧密贴合,毫无拖泥带水之感。从行业应用角度看,BosonAI的这套方案在算力性价比上极具竞争力。单张H100 GPU即可同时支持8路实时对话并发,将单次对话的成本压缩到了能够满足大规模生产部署的水平。在实际业务场景中,Higgs Avatar v1与BosonAI自研的Higgs Audio语音模型形成了“双擎驱动”格局:一个负责语音的理解与生成,一个负责赋予AI真实的“面容”。这种全栈自研的路径,有效避免了外部组件拼接带来的延迟卡顿、抢话冲突、声音与表情脱节等问题,为客服对话、虚拟助手、企业教练、互动娱乐等场景提供了更接近真人的数字化形象与临场感。目前,Higgs Avatar v1已进入内测阶段,并将搭载在BosonAI即将推出的语音聊天体验产品Boson Presence中与用户见面。对于AI从业者和爱好者来说,这无疑是一个值得关注的信号:实时数字人技术正在从实验室走向实际应用。如果你对这项技术感兴趣,可以前往官网申请试用,或关注李沐在B站的视频演示。未来,随着算力成本的进一步降低和模型的持续优化,我们有理由期待,实时数字人将成为人机交互的标配,而李沐和他的团队正在这条路上加速前行。