智象未来豪赌全模态：一锅炖所有信号，8B模型登顶竞技场

AITNT 2026-05-25 21 14

AI 大模型深度学习技术突破

当全球AI公司都在追逐世界模型的叙事泡沫时，智象未来选择了一条更艰难却更本质的道路。这家被贴上「世界模型公司」标签的初创企业，联合创始人兼CTO姚霆博士却直言不讳地表示，他们并不喜欢这个标签——因为他们做的不是简单的多模态拼接，而是从底层架构出发的原生全模态。本月发布的HiDream-O1系列模型，正是这场豪赌的最新注脚：一个8B参数量的开源稠密版本，和一个高达200B参数的稀疏混合专家架构闭源版本，共用同一套颠覆性的UiT架构，将所有模态从原始信号层面「一锅炖」进同一个模型管路。传统多模态模型的逻辑，是为文本、图像、视频各自配备独立的tokenizer和encoder/decoder，最后在高层做对齐融合。姚霆将其比喻为「每棵树的枝杈各自生长」，追求的是局部最优。而HiDream-O1的UiT架构彻底推翻了这套框架：没有模态专属的编解码器，文本是文本，图像是像素块，视频是体素，音频、空间关系等所有信号都直接以原始形式进入统一的Transformer对话空间。这种设计剔除了VAE和独立文本编码器，所有信息映射进共享Token空间，从第一天起就天然融合。代价是参数量大、收敛慢、训练压力极高，团队无法套用主流后训练方法，只能从零摸索。但数据证明了这条非主流道路的价值。在Artificial Analysis文生图竞技场上，HiDream-O1-Image的8B开源版本排名第一，混排后位列第八，是前20名中参数量最小的模型——其他多为预估20B至100B规模的闭源模型。开源两天后，该模型冲上Hugging Face热榜第三。闭源的200B版本才是智象的真正押注：姚霆透露，这个模型目前「还未吃饱」，每天新增数十万条视频数据持续喂入训练管线，远未触及架构性能天花板。公司2025年全年收入超1亿元，2026年Q1保持倍数级增长，4月完成两轮亿级融资，深创投、东方富海等头部机构入局。姚霆认为，当前世界模型公司的疯狂融资和夸张估值，只有一半是真实价值，另一半是叙事泡沫。智象选择用底层架构创新来对冲这种泡沫风险——UiT架构的终极目标，是让模型从原始信号中直接学到「认知」，而非依赖人工设计的模态分离。对于AI从业者而言，这个案例揭示了一个重要趋势：当算力成本不再是无底洞时，架构创新的性价比可能远超堆参数。如果你正在构建多模态应用，不妨关注HiDream-O1的开源版本，它证明了一件事——真正的全模态，不需要为每个模态单独建一个王国。

原文链接： https://www.aitntnews.com/newDetail.html?newId=25463

本文由 Zyentor（智元界） 原创发布

查看全部原创 · 技术论坛讨论

讨论 (0 条)

登录后参与讨论