李沐回归B站秀实时数字人，单帧仅16毫秒

时隔近一年，那个在B站教大家读AI论文的大神李沐，终于带着新作品回归了。在最新一期视频中，他展示了一个名为Higgs Avatar v1的实时数字人模型，并与之进行视频对话。从视频效果来看，数字人的形象相当逼真，李沐本人甚至直言“水平吊打我自己”。这不仅是个人秀，更标志着BosonAI在对话式AI视觉领域迈出了关键一步，将语音智能体的交互体验推向了新的高度。Higgs Avatar v1的核心能力在于“无脚本的即兴表演”。它不需要预设脚本或动画制作流程，而是跟随语音流逐帧实时渲染出唇形同步、头部动作和面部表情。用户听到什么，数字人就同步表现出什么，完全是即兴发挥。更令人惊叹的是，这套系统仅需一张静态照片，就能生成一个会听、会说、会反应的动态面孔，彻底告别了传统3D动捕或预录制循环的繁琐流程。在性能上，Higgs Avatar v1的帧生成延迟仅为16毫秒，远低于业界公认的62.5毫秒实时对话延迟底线，确保了数字人表情与声音的紧密贴合，毫无拖泥带水之感。从行业应用角度看，BosonAI的这套方案在算力性价比上极具竞争力。单张H100 GPU即可同时支持8路实时对话并发，将单次对话的成本压缩到了能够满足大规模生产部署的水平。在实际业务场景中，Higgs Avatar v1与BosonAI自研的Higgs Audio语音模型形成了“双擎驱动”格局：一个负责语音的理解与生成，一个负责赋予AI真实的“面容”。这种全栈自研的路径，有效避免了外部组件拼接带来的延迟卡顿、抢话冲突、声音与表情脱节等问题，为客服对话、虚拟助手、企业教练、互动娱乐等场景提供了更接近真人的数字化形象与临场感。目前，Higgs Avatar v1已进入内测阶段，并将搭载在BosonAI即将推出的语音聊天体验产品Boson Presence中与用户见面。对于AI从业者和爱好者来说，这无疑是一个值得关注的信号：实时数字人技术正在从实验室走向实际应用。如果你对这项技术感兴趣，可以前往官网申请试用，或关注李沐在B站的视频演示。未来，随着算力成本的进一步降低和模型的持续优化，我们有理由期待，实时数字人将成为人机交互的标配，而李沐和他的团队正在这条路上加速前行。

李沐回归B站秀实时数字人，单帧仅16毫秒

相关推荐

AI引爆漏洞洪灾，99%来不及修，安全人才告急

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

欧足联联手阿里云，AI重塑体育赛事新纪元

AI引爆漏洞洪灾，99%来不及修，安全人才告急

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你