当全球AI公司都在追逐世界模型的叙事泡沫时,智象未来选择了一条更艰难却更本质的道路。这家被贴上「世界模型公司」标签的初创企业,联合创始人兼CTO姚霆博士却直言不讳地表示,他们并不喜欢这个标签——因为他们做的不是简单的多模态拼接,而是从底层架构出发的原生全模态。本月发布的HiDream-O1系列模型,正是这场豪赌的最新注脚:一个8B参数量的开源稠密版本,和一个高达200B参数的稀疏混合专家架构闭源版本,共用同一套颠覆性的UiT架构,将所有模态从原始信号层面「一锅炖」进同一个模型管路。传统多模态模型的逻辑,是为文本、图像、视频各自配备独立的tokenizer和encoder/decoder,最后在高层做对齐融合。姚霆将其比喻为「每棵树的枝杈各自生长」,追求的是局部最优。而HiDream-O1的UiT架构彻底推翻了这套框架:没有模态专属的编解码器,文本是文本,图像是像素块,视频是体素,音频、空间关系等所有信号都直接以原始形式进入统一的Transformer对话空间。这种设计剔除了VAE和独立文本编码器,所有信息映射进共享Token空间,从第一天起就天然融合。代价是参数量大、收敛慢、训练压力极高,团队无法套用主流后训练方法,只能从零摸索。但数据证明了这条非主流道路的价值。在Artificial Analysis文生图竞技场上,HiDream-O1-Image的8B开源版本排名第一,混排后位列第八,是前20名中参数量最小的模型——其他多为预估20B至100B规模的闭源模型。开源两天后,该模型冲上Hugging Face热榜第三。闭源的200B版本才是智象的真正押注:姚霆透露,这个模型目前「还未吃饱」,每天新增数十万条视频数据持续喂入训练管线,远未触及架构性能天花板。公司2025年全年收入超1亿元,2026年Q1保持倍数级增长,4月完成两轮亿级融资,深创投、东方富海等头部机构入局。姚霆认为,当前世界模型公司的疯狂融资和夸张估值,只有一半是真实价值,另一半是叙事泡沫。智象选择用底层架构创新来对冲这种泡沫风险——UiT架构的终极目标,是让模型从原始信号中直接学到「认知」,而非依赖人工设计的模态分离。对于AI从业者而言,这个案例揭示了一个重要趋势:当算力成本不再是无底洞时,架构创新的性价比可能远超堆参数。如果你正在构建多模态应用,不妨关注HiDream-O1的开源版本,它证明了一件事——真正的全模态,不需要为每个模态单独建一个王国。