AI数字人行业长久以来面临三堵高墙:形象生硬、互动僵化、场景单一。大多数产品本质上只是循环播放的AI视频,无法真正与用户交流。虎牙近日推出的VAM 1.0(Vivid Avatar Model)打破了这一局面,基于DiT架构的实时多模态数字人基础模型,仅需一张照片就能生成一个能实时开播、互动、唱歌跳舞的AI主播,支持480×832分辨率、28帧实时流式输出,连续运行24小时以上不下线。这些技术指标意味着数字人不再是预设好的视频片段,而是真正具备直播能力的虚拟形象。在实测中,VAM 1.0的交互体验令人印象深刻。数字人能够自然处理打断场景,当用户中途插话时,它会迅速调整回应,不会陷入死循环。它还能记住用户偏好,比如拒绝被称呼为“宝子”后,全程改用用户指定的昵称“小红”。更值得关注的是其语言能力:当用户问及是否会四川话时,数字人秒回“会呀”,并立即切换成四川话聊天。虎牙将这种能力称为“全状态拟人交互仿真”,覆盖静默、聆听、说话三种状态,在静默时会有微侧头、眨眼等细微动作,说话时表情与内容匹配,情绪感染力十足。除了基础对话,VAM 1.0在娱乐场景中展现出更强的能力。数字人能实时生成不重复的歌舞表演,嘴型与歌词同步,肢体动作自然流畅,手指没有常见畸变或穿模。在游戏场景中,它支持塔罗牌解读和狼人杀等多人策略游戏。狼人杀模式中,10个AI角色同时博弈,每个角色有独立立场和发言风格,能互相质疑、投票站队,泳池派对场景里9个AI角色轮流开麦,互相@点名质疑,有人带节奏,有人谨慎试探,并非共用一套台词。这种多角色协同能力在业界尚属首次。对于AI从业者而言,VAM 1.0的发布标志着数字人技术从“能播不能聊”进入“千人千面”实时互动阶段。其核心价值在于将直播场景的粘性传递给数字人,用户发弹幕、打断、冷场等真实交互场景均能得到自然响应。虎牙已将该模型应用于直播带货、在线教育、游戏陪玩等场景,未来可能开放给第三方开发者。建议关注其多模态交互能力的技术实现细节,特别是DiT架构在实时流式输出中的优化方案,这或将成为行业新基准。对于内容创作者,可考虑利用单张照片快速生成数字人主播,降低直播门槛,但需注意保持互动内容的多样性和自然度,避免陷入预设模板的陷阱。