当一家从未拿过一分钱风险投资、团队不到100人、仅靠订阅模式便做到年营收5亿美元的AI图像生成巨头决定造硬件,它在赌什么?近日,Midjourney创始人David Holz在社交媒体上宣布,首批硬件产品发布邀请已开始发出,还有少量名额。这距离该公司首次公开宣布进军硬件领域已近两年,2024年8月,Midjourney正式官宣“We’re officially getting into hardware”,并开放了旧金山硬件团队的招聘通道。如今,这枚代号“Orb”的硬件即将揭开面纱,引发行业高度关注。
复盘Midjourney硬件部门的组建脉络,创始人David Holz的个人经历是核心基石。Holz曾于2010年联合创办手势追踪公司Leap Motion并担任首席技术官,2019年该公司被收购。2024年初,Midjourney成功挖来前苹果Vision Pro硬件工程经理Ahmad Abbas,由其执掌硬件部门。Abbas曾在马斯克的脑机接口公司Neuralink负责硬件设计,随后在苹果的5年深度参与了Vision Pro头显的工程研发,早年还曾在Leap Motion担任硬件工程师。这种深厚的空间计算和手势追踪基因,直接映射到Midjourney硬件战略的核心方向:3D数据捕捉和沉浸式交互。Holz曾将Midjourney的图像模型描述为“非常缓慢的游戏引擎”,并承诺未来将能以每秒60帧的速度生成体积感十足的3D世界,这种前瞻性判断是驱动硬件战略最核心的内在逻辑。
从商业数据看,Midjourney的软件实力已足够惊人:2023年营收约2亿美元,2024年攀升至3亿美元,2025年达到5亿美元,估值高达100亿美元。早期核心团队仅11人,人均产出远超500万美元。然而,生成静态图像的天花板已在眼前,2024年底发布的Patchwork平台已展现出多人协作世界构建的能力,支持最多100名用户在无限画布上实时共创,并明确提及未来路径包括“完全沉浸式的3D虚拟现实场景”。问题随之而来:用户该用什么设备进入这个3D世界?现有的VR头显生态支离破碎,Midjourney想让自己的3D视频内容被真正消费,自建硬件入口就成了最激进的解法。此外,Midjourney在硬件选择上吃过亏,2023年曾采用Google Cloud TPU训练第四代模型,但后续对这一决策感到后悔,认为如果更早全面拥抱Nvidia GPU生态,或许能加速研究进度。
至于那枚“Orb”的具体形态,结合已披露信息可以梳理出:形态上,项目名称暗示产品可能采用球形或圆形设计,可能是一种沉浸式空间显示装置,而非简单的头戴设备。功能上,它极可能是一款AI原生的空间计算设备,聚焦于创意消费与沉浸体验,让用户“走进”自己用提示词生成的世界,或用自然手势与AI共创3D内容。定位上,Midjourney官方曾明确回应其硬件“不会是一个吊坠式设备”,结合订阅用户以专业设计师、艺术家和创意工作者为主,这款硬件很可能首先面向创意产业和极客发烧友。David Holz还透露公司正在同时推进3-4个硬件项目,产品线不止一种。
然而,AI硬件赛道并非坦途。谷歌、Meta等大厂均在推进各自的AI终端战略,部分AI硬件创业公司过去两年已用血的教训证明:从供应链管理、品控到渠道建设和售后服务,硬件生态的每个环节都是对“轻模式”公司基因的重大考验。但也有不少AI硬件品牌初步证明,成功在于找到AI能力与传统硬件形态的最佳耦合点,百万级销量仍有突破机会。对于Midjourney而言,其核心壁垒是美学品位与社区生态,正如iPhone让触控交互成为标准,它或许想定义AI原生内容的消费范式。在Holz看来,Midjourney的核心使命是“放大人类想象力”,硬件只是实现这一使命的载体。对于AI从业者和爱好者来说,这枚“Orb”的发布不仅是一次产品亮相,更是观察AI从云端走向端侧、从生成走向消费的关键样本。