视频模型GPT-3.5时刻：智象未来如何用UiT架构突破认知边界

视频生成模型正迎来GPT-3.5时刻。继Seedance2.0将AI视频从‘能用’推向‘可控且可规模化’后，快手可灵AI估值约200亿美元寻求分拆融资，资本与用户加速涌入。在这一核心战场中，智象未来凭借UiT架构的突破，以8B参数模型打出超越56B模型的效果，其HiDream-O1-Image开源版本在Artificial Analysis文生图榜单中位列开源模型第一——这被视为开源生态对闭源模型的一次重要反击。智象未来的技术迭代路径清晰可见：从2022年基于DIT架构的视觉生成，到如今采用UiT架构实现文本Token、视觉信息与控制条件的统一建模。CTO姚霆解释，UiT让理解与生成更统一，模型能更精准理解用户意图，生成效果更稳定，复杂修改也更易一次完成。这种架构优势直接体现在评测数据上——在Artificial Analysis的权威榜单中，开源模型首次跻身全球前列，打破了此前闭源模型垄断的局面。创始人梅涛的焦虑并非技术或资金，而是认知边界。这位2017年全球首篇文生视频论文的作者，在创业四年间完成了从图像到视频、从工具到co-creator、从DIT到UiT的多次认知突破。东方富海合伙人王兵指出，智象未来的核心优势在于‘人才密度’——该论文的核心研究者至今无一离职。这种稳定性在AI初创公司中极为罕见，也为技术迭代提供了连续性的基础。世界模型正在成为视频生成公司的下一个战场。2026年初至今，已有超13亿美元流向该赛道，Yann LeCun的AMI Labs和李飞飞的World Labs分别完成10.3亿和10亿美元融资。梅涛表示，智象未来早在2022年就在京东亚洲一号物流仓研究机器人分拣，创业时曾在具身智能与视觉生成间深度权衡。如今，公司正将视觉创作能力向影视、营销、机器人等领域延伸，通过服务不同行业沉淀know-how，最终转化为具备行业属性的智能体技能。对于AI从业者而言，这提醒我们：视频生成模型的竞争已从参数规模转向架构创新与应用落地，而人才密度和认知迭代能力，正成为决定企业长期价值的关键变量。

视频模型GPT-3.5时刻：智象未来如何用UiT架构突破认知边界

相关推荐

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首

苹果智能眼镜或复制手表策略，剑指2000亿眼镜市场

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首