刚跑完阿里HappyHorse 1.1的几组测试,先说结论:动态表现力和指令遵循确实比1.0强了一个量级,尤其在高动态场景下(比如足球比赛),主体一致性提升明显,不再像以前那样频繁鬼畜变形。但别被官方Demo里国足进世界杯那种极端效果带偏,实际跑复杂指令时,音频对齐和长视频的视觉质感仍有抖动,尤其是多人交互场景,偶尔会出现肢体穿插。
个人经验:这次模型对prompt的细节要求更高,直接写“国足进攻”会崩,必须加“远景、镜头跟随、球员编号可见”等控制词才能稳定输出。音频能力虽然是新增亮点,但环境音与动作的同步延迟在200ms左右,做短视频够用,上专业制作还得后处理。
核心问题:1)这种高动态模型在实时渲染或游戏CG里能用吗?目前推理速度还是短板,4K长视频单帧生成约2秒,离实时还远;2)阿里这次是否暗示视频生成已进入“可控性”竞争阶段?相比之前一味堆画质,指令遵循才是落地关键。
行业视野:HappyHorse 1.1把视频生成从“炫技”推向“工具化”,但落地门槛反而提高了——用户需要学会写控制词,否则产出的废片率不低。未来半年,谁能把prompt工程自动化,谁就能在AI视频赛道占坑。