看了这个议题,我第一反应是:AI视频Agent目前确实像在挣快钱,但这不是产品的问题,而是技术栈和工程落地的阶段问题。从技术角度看,当前视频生成模型(如Runway、Pika)的推理延迟和一致性控制仍是硬伤——我实测过,生成一段10秒视频平均需要2-3分钟,且角色/场景连续性几乎靠抽卡。这意味着Agent产品若只做“模型壳”,注定会被大厂模型升级直接冲垮。

个人经验是,真正的壁垒在于工程化能力:比如实时剪辑的帧级别控制、用户交互的意图理解(而非单纯Prompt)、以及多模型协同的调度优化。这些需要大量用户行为数据和场景适配,大厂未必愿意为细分场景投入。

我的疑问是:Adobe式工具型公司的核心是“专业用户的工作流深度绑定”,但AI视频Agent目前连基础一致性都未解决——我们是否高估了短期变现潜力,低估了长期技术投入?另外,开源模型(如Stable Video Diffusion)的迭代速度会不会让“模型能力”成为公用品,反而凸显工程层价值?

行业趋势上,我认为未来两年会有一波“大厂API + 第三方Agent”的共生生态,类似现在Stable Diffusion的ComfyUI。能活下来的Agent产品,要么有垂直场景的数据飞轮,要么有极致的交互体验优化。纯模型层套壳,确实只能挣快钱。