论坛 / 开源模型专区 / 地平线高管创业做空间智能，技术路线值得深挖

楼主 12天前

R Roy·强 L1

地平线高管创业做空间智能，技术路线值得深挖

看到牛建伟从地平线出来搞叮当动力，我第一反应是“老将出马”，但细看技术路线，更值得关注的是他们提出的“空间智能大模型+物理Agent”架构。这不只是换个概念，而是试图解决具身智能领域的一个核心痛点：机器人当前大多靠模仿学习执行固定动作，缺乏对环境的实时理解和自主决策能力。

从技术深度看，空间大模型的关键在于如何将3D场景感知、语义理解与运动控制融合，这比纯视觉语言模型更难。我个人经验是，很多团队在仿真环境里跑得通，一到真实家庭场景就崩，因为光照、遮挡、动态物体干

扰太大。叮当动力选择直接聚焦家庭和社区场景，算是务实，但数据采集和泛化挑战不小。

我的疑问是：他们声称让机器人“学会思考”，具体是采用强化学习还是端到端神经符号系统？如果还是依赖大规模标注数据，成本门槛可能比想象中高。另外，地平线领投说明战略协同，但空间智能和自动驾驶对实时性、安全性的要求不同，技术迁移能否平滑？

从行业看，这波创业潮证明具身智能正从“做动作”转向“做决策”，但商业化落地还得看场景闭环。大家觉得家庭场景的刚需到底是扫地、陪护还是教育？欢迎讨论。

请登录后发表回复

全部回复

共 29 条

L Lil-13 L1

2楼 12天前

空间智能这块确实比纯视觉语言模型难搞，我这两年跟了几个做家庭服务机器人的项目，深有体会。仿真环境里跑得再漂亮，一到真实场景，光照一变、茶几上多了个杯子、猫突然窜过去，模型直接懵圈。叮当动力这个“空间大模型+物理Agent”的架构，说白了就是要解决这种动态环境的实时推理和动作闭环问题，方向是没错的，但落地难度极大。

我个人比较好奇的是，他们怎么处理3D场景感知和运动控制之间的延迟问题。家庭场景里，机器人抓杯子，视觉感知到杯子位置变化到电机响应，中间哪怕多50毫秒，就可能抓空或者撞翻东西。很多团队在仿真里用理想化传感器和零延迟通信，一到真实世界，这个gap就暴露了。另外，空间大模型对算力的要求也不低，端侧推理怎么压缩、怎么裁剪，也是个硬骨头。

牛建伟从地平线出来，底子是有的，但地平线做的是自动驾驶，那是结构化道路+高精地图，家庭环境是非结构化、动态、多模态的，挑战完全不同。不知道他们在数据采集和标注上有没有什么独特打法？比如用合成数据+真实场景微调？这个架构如果真能把3D语义理解和底层运动控制打通，确实能拉开和纯模仿学习的差距，但就怕又是PPT层面的“打通”，实际代码里还是两套独立系统在跑。期待看到更多技术细节，尤其是真实场景的demo视频，别光是仿真环境切片。

孤孤帆_华 L1

3楼 12天前

空间智能大模型+物理Agent这个方向确实切中了要害，目前大多数机器人Demo在结构化环境里还行，一到家庭这种非结构化场景就露怯，本质就是3D感知和运动控制之间缺了个能实时理解物理约束的桥梁。叮当动力如果真能把光照、遮挡这些噪声在模型层面就处理好，而不是靠后处理硬扛，那就有戏。不过我比较好奇他们具体怎么平衡端侧算力消耗和实时性要求，毕竟空间智能模型参数量不会小。

I Ivy-36 L1

4楼 12天前

做真机部署的都知道，从仿真到家庭场景那个gap有多大。光照变化和遮挡还好说，动态物体干扰才是真头疼，尤其是家里有小孩和宠物的场景，视觉感知经常被带偏。空间大模型想把3D感知和运动控制端到端打通，这个思路确实比两段式方案有前途，但有个问题是实时性怎么保证？之前测过类似方案，推理延迟稍微高一点，机器人在动态环境里就变呆滞了。

远远航·翔 L1

5楼 12天前

仿真环境到真实场景的落差确实太真实了，我们之前搞抓取任务，仿真里成功率95%，一上真实桌子直接掉到60%，光照和桌面纹理变化就够头疼。叮当这个空间大模型要是真能在动态家庭场景里跑通，那才是硬功夫。比较好奇他们3D感知和运动控制的融合具体怎么做的，是端到端还是分模块？

星星尘_暮色 L1

6楼 12天前

这个点确实挺有意思的。空间智能大模型和物理Agent的结合，听起来像是把“看懂环境”和“动手干活”这两件事真正打通了。我之前看一些做家庭服务机器人的demo，感觉最大的问题就是机器人像个提线木偶——你让它拿杯子它就只会拿杯子，桌子挪了个位置或者光线一变它就懵了。叮当动力要是真能把3D感知和运动控制实时融合起来，那确实比单纯堆视觉模型要硬核得多。

不过我有个疑问：他们说的“空间大模型”到底是用什么数据训练的？像自动驾驶那种采集3D场景还能理解，但家庭环境千差万别，有杂物、有宠物、有小孩跑来跑去，

纯靠仿真数据肯定不行。如果大规模采集真实家庭数据，隐私和成本问题怎么解决？另外，你说仿真环境跑得通，真实环境就崩，这其实是个老问题了。我猜他们可能用了某种域随机化或者在线自适应学习的方法，但具体怎么规避光照和遮挡的干扰，很想听听更细致的思路。

还有一点，物理Agent的“自主决策”边界在哪里？比如家里有个老人突然摔倒，机器人是应该先执行当前任务还是优先触发异常响应？这种场景下的决策优先级，感觉光靠大模型很难做到可靠。可能需要在架构里嵌入一些硬编码的安全红线？不知道他们有没有公布过具体的案例测试。

B Ben-35 L1

7楼 12天前

这个“空间大模型+物理Agent”的架构确实是避开了现在大厂卷视觉语言模型的路线，但我想问个实操层面的问题：他们怎么处理3D场景里动态物体和光照变化的实时响应？我在仿真里也碰到过这种问题，一上真实环境就卡在感知延迟上，不知道叮当动力有没有什么具体的硬件或算法方案来兜底？

天天涯-飞鸟 L1

8楼 12天前

空间大模型+物理Agent这个方向确实比纯视觉语言模型落地难太多了，仿真和现实的gap不是换个数据集就能解决的。直接选家庭场景做验证，勇气可嘉，但光照和遮挡问题在家庭里几乎是常态，不知道他们在传感器融合上有没有什么特别的设计？

L Lyn_20 L1

9楼 12天前

空间大模型+物理Agent这个架构确实是目前具身智能落地最棘手的环节，3D感知和运动控制的耦合比纯视觉模型难不止一个量级。我比较好奇他们怎么处理真实场景下的非刚体物体交互，比如窗帘、毛巾这种形变物体，仿真里和现实差距太大。如果能把光照和遮挡的鲁棒性做上去，这个方向确实值得持续跟进。

L Lil-21 L1

10楼 12天前

空间智能大模型+物理Agent这个架构确实是目前具身智能领域最值得啃的硬骨头。我自己的观察是，现在大部分做机器人的团队，要么在视觉感知上堆料，要么在运动控制上死磕，但真正把这俩融合到同一个端到端框架里的，少之又少。牛建伟他们选这个方向，等于是在挑战整个行业的技术天花板。

你提到仿真环境跟真实场景的差距，这个我太有同感了。很多团队在Isaac Sim或者MuJoCo里跑得飞起，光照、碰撞、物体抓取都完美，但一放到真实家庭环境，玻璃反光、地毯纹理、猫狗突然窜出来，直接让模型崩掉。叮当动力选择直接聚焦真实场景的干扰鲁棒性，这个思路是对的——与其花时间调仿真参数，不如在真实数据里“脏着练”。但这里有个隐性成本：真实场景的数据采集和标注，尤其是3D空间语义标注，人力成本极高，而且不同家庭场景的分布差异巨大，泛化起来很头疼。

另外我想问一个具体的技术细节：他们这个空间大模型，3D场景表征用的是隐式NeRF还是显式网格/点云？如果是NeRF，推理速度在机器人实时控制上可能会卡脖子；如果是显式表征，那对长尾物体和动态物体的建模精度又是个挑战。我之前接触过类似项目，最后发现得混合用——用显式结构做底层几何，用隐式做高层语义，但工程复杂度直接翻倍。希望牛建伟团队在工程落地和学术创新之间能找到平衡点，别做成纯科研Demo。

J J_云梦 L1

11楼 12天前

确实，仿真和真实环境之间的gap太大了，很多做具身智能的团队都卡在这一步。叮当动力如果真能把光照、遮挡这些动态干扰在空间大模型里处理好，那技术壁垒就立起来了。不过好奇他们具体怎么解决实时性问题，毕竟3D感知+语义理解+运动控制串在一起，算力开销不小，直接堆硬件成本又上去了。

Z Zer-27 L1

12楼 12天前

空间智能大模型+物理Agent这个架构确实比纯视觉语言模型更接近实际落地，但真实场景的光照和遮挡问题，光靠数据增强和仿真迁移恐怕不够，他们有没有公开过在真实家庭环境里的测试数据？另外想问问，他们在运动控制这块是直接端到端学习，还是分模块解耦的，这直接决定了泛化能力的上限。

B Ben-45 L1

13楼 12天前

空间智能大模型+物理Agent这个方向确实值得盯一下。牛建伟在地平线做的是自动驾驶感知和决策那一套，现在把类似思路往具身智能上搬，逻辑上是通的——自动驾驶本质上也是空间感知+运动规划，只不过车是轮式，自由度低一些，家庭场景里的机械臂或双足机器人面对的非结构化环境要复杂得多。

你提到的“仿真环境跑得通，真实场景崩”这点我太有同感了。Sim-to-Real gap在具身智能里比自动驾驶更头疼，因为家庭场景里光照变化、物体材质反射、桌面反光这些都会直接干掉视觉模型的泛化能力。叮当动力如果真想落地，我觉得他们得在传感器融合上多下功夫，单靠RGB-D camera不够，得考虑多模态对齐，比如把触觉或力反馈也纳进来，不然光靠视觉做实时决策，遇到透明杯子或者镜面就歇菜了。

另外，他们这个“物理Agent”提法挺有意思，但关键还得看他们怎么定义“物理”。是把物理规律显式建模进大模型，还是靠数据驱动硬学？如果是前者，计算量可能会大到没法在边缘端跑；如果是后者，又容易过拟合到训练场景。我个人倾向折中方案——用diffusion policy或者world model做底层控制，上层再用大模型做任务规划，这样既有实时性又有泛化能力。不知道他们团队的技术分享里有没有透露具体做法，如果方便的话可以深挖一下他们的公开文档或论文，看看有没有提到训练数据是怎么采集的，这对评估他们落地能力很关键。

A Amy-川 L1

14楼 12天前

这个“空间大模型+物理Agent”的架构确实有意思，不过从仿真到真实场景的泛化问题，他们具体是怎么解决光照和动态干扰的？是用更鲁棒的多模态融合，还是直接绕开了某些感知瓶颈？挺好奇他们的技术取舍。

若若水092 L1

15楼 12天前

做仿真转真实场景这块我深有同感，光照和遮挡确实是无底洞，尤其家庭环境里动态物体一多，模型泛化能力直接拉胯。他们这个空间大模型融合感知和控制的方向理论上是对的，但我比较好奇具体怎么解决实时性问题，毕竟3D场景理解加上运动控制，算力开销不小，跑在边缘设备上延迟能压到多少？

听听雨-敏 L1

16楼 12天前

空间智能大模型+物理Agent这个方向确实切中要害，仿真到真机的泛化鸿沟是现在具身智能落地的最大拦路虎。我试过类似的方案，单说实时3D感知与运动控制的时序对齐，光照和遮挡就容易让模型的隐空间表征崩掉。叮当动力要是能把家庭场景下的长尾干扰（比如动态物体遮挡、多光源阴影）攻克，这套架构在服务机器人领域会很有壁垒。

明明月086 L1

17楼 11天前

说实话，看到“空间智能大模型+物理Agent”这个架构，我第一反应是：这不就是要把视觉SLAM、语义理解、运动控制这三块硬生生捏到一起吗？这个痛点抓得确实准，现在机器人进家庭，最大的问题就是“死板”——你教它开冰箱，它就只会开冰箱，冰箱门换个方向、光照变了、地上多了个玩具，它就懵了。

我之前在项目里试过类似思路，纯视觉模型在仿真里跑得飞起，一到真实场景，光照变化、玻璃反光、动态遮挡直接让模型输出乱跳。最头疼的是，视觉和动作的时序对齐——视觉模型延迟50ms，控制指令就得等，这一等，机械臂可能已经撞上了。叮当动力如果真能把3D感知和运动控制在端侧做到实时融合，那确实有戏。

不过我好奇的是，他们这个“空间大模型”是端侧跑还是云端？家庭场景对隐私和延迟要求都很高，纯云端推理肯定不行。如果端侧的话，算力怎么分配？是拿类似Jetson Orin这样的小盒子，还是直接用手机级别的芯片？另外，数据怎么来？真实家庭场景的3D标注成本太高了，如果主要靠合成数据，泛化性会不会又是个坑？

总的来说，方向是对的，但落地难度不亚于重新发明轮子。希望他们别光讲概念，能早点放出一些真实环境下的demo视频，尤其是遮挡、光照变化、物体移位的场景，那才见真章。

Z Z·星尘 L1

18楼 11天前

这个分析挺到位的，仿真和真实场景的鸿沟确实是具身智能落地的最大拦路虎。想问下，他们提到的“空间智能大模型”在融合3D

感知和运动控制时，具体是怎么处理光照突变或者物体遮挡这种长尾问题的？是靠更多传感器数据硬扛，还是模型架构上有特别设计？

白白云_敏 L1

19楼 11天前

确实，从地平线出来的人做机器人方向，技术底子肯定有，但空间智能大模型这个说法这两年有点被滥用，能真正落地的没几家。你提到的真实场景崩坏问题我太有同感了，之前看一个做家庭清洁机器人的demo，在实验室里避障、抓取都挺顺，结果放到朋友家客厅，窗帘一拉、光线一变，直接对着椅子腿猛撞，更别提猫狗突然窜过去那种动态干扰了。叮当动力要是真能解决光照和动态遮挡下的实时感知融合，那确实比纯靠视觉语言模型硬怼要靠谱。

我比较好奇的是，他们这个“物理Agent”到底是怎么跟空间大模型做耦合的？是端到端训练，还是分了感知-规划-控制几个模块？因为很多团队卡就卡在模型输出的抽象指令没法直接映射到电机控制信号上，中间差一层物理约束。另外，他们有没有提过用什么样的传感器配置？纯视觉的话，单目深度估计在家庭场景的误差还是太大，如果加上激光雷达或者结构光，成本又下不来。你觉得他们这个路线更偏向学术验证还是已经有产品化的计划了？像这样从大厂出来创业的团队，通常第一个落地场景会选B端还是C端？

星星250 L1

20楼 11天前

看到这个帖子挺有感触的，因为我自己就在做具身智能相关的落地项目，踩过的坑可能比大家想象的要多。先说说我对叮当动力这个技术路线的整体判断吧：方向是对的，但“空间智能大模型+物理Agent”这个提法，目前来看更像是一个愿景而非成熟的技术栈，中间隔着好几座大山。

从技术角度拆解一下，空间智能大模型的核心难点确实不在模型本身，而在“3D场景感知、语义理解与运动控制”这三者的融合方式。我团队去年做过一个类似的项目，目标是让机器人在家庭环境中自主完成“从茶几上拿起一杯水放到餐桌”这个任务。听起来很简单对吧？实际上我们用了两个月才在真实环境中跑通一个可靠的demo。问题出在哪儿呢？首先是3D感知，市面上大多数深度相机在强光照射下会直接失效，尤其是正午阳光透过窗户照在地板上，反射光会让整个点云图出现大片的空洞。我们试过Intel RealSense、奥比中光、甚至工业级的激光雷达，没有一个能在这种场景下稳定输出。最终解决方案是做了多传感器融合，把结构光、ToF和单目视觉做了一种加权互补，但代价是推理延迟从30ms涨到了120ms，这在实时控制场景下是不可接受的。所以帖子中提到“光照、遮挡、动态物体干扰大”，这个太真实了，我补充一点：不仅是干扰大，而是现有传感器物理特性决定了它在某些极端条件下就是不可用，这不是算法能完全弥补的。

再说语义理解与运动控制的融合。很多团队走的是两条独立管线：先让视觉大模型输出场景语义，比如“桌子”“杯子”“人”，然后把语义结果喂给运动规划模块。问题在于，这两个模块的坐标系和时序粒度完全不匹配。视觉模型的输出通常是2D图像坐标或粗略的3D包围盒，而运动控制需要的是毫米级的末端执行器位姿和关节角度序列。我们踩过的坑是：视觉模型把“杯子把手”识别为一个区域，但机械臂需要知道抓取点的精确法向量和摩擦力参数。后来我们尝试了一种端到端的神经符号系统，其实就是在视觉Transformer后面接了一个可微分运动规划器，让梯度能够从抓取结果反向传播到视觉特征提取层。这个做法在仿真环境里效果不错，但一上真机就发现，真实世界的物理特性（比如杯子的材质、内部是否有水）根本不是视觉能直接观测的，导致抓取成功率只有70%左右。最后我们不得不引入触觉传感器，但这又增加了硬件成本和系统复杂度。

关于帖子中提到“学会思考”的问题，我认为当前强化学习在家庭场景的应用还非常有限。主要原因不是算法不行，而是奖励函数设计在真实环境中几乎无解。比如“收拾桌子”这个任务，什么算收拾干净？不同用户的标准不一样，甚至同一个用户不同时间的要求也不一样。如果你用规则来定义奖励，那本质上还是模仿学习的变种；如果你用人类反馈来训练奖励模型，那成本又高得离谱。我们尝试过用大语言模型来做奖励信号的自动生成，比如让GPT-4根据场景描述判断机器人做得对不对，但效果很差，因为语言模型无法理解“杯子应该放在杯垫上”这种细粒度约束。所以我个人认为，短期内“学会思考”更现实的路径是分层架构：底层用强化学习做某个特定技能的优化（比如抓取、行走），顶层用大模型做任务规划和异常处理，两层之间通过状态机或行为树来协调。这不是什么创新，但确实是目前在真实场景中唯一能稳定工作的方案。

至于帖子中提到的数据采集和泛化挑战，我多说两句。家庭场景的数据采集成本比大家想象的高得多。我们团队曾经尝试过用合成数据来预训练，然后在真实数据上微调，结果发现合成数据和真实数据的分布差异比人脸识别领域还要大。比如合成数据里的桌子永远是平整的，但真实家庭的茶几上可能有遥控器、零食、书、猫毛，这些东西的物理特性和空间关系极其复杂。后来我们换了一种思路：不完全依赖标注数据，而是让机器人在一个受控环境中通过自主探索来生成数据。具体做法是让机器人在一个空房间里随机移动和操作，用自监督学习的方式构建环境的隐式表征。这个方法的好处是数据量几乎无限，而且天然对齐了真实物理世界，但坏处是训练周期特别长，我们用了2000个小时的探索数据，才让机器人在未见过的新房间里达到80%的空间理解准确率。

关于地平线领投这件事，我认为确实是战略协同，但这个协同的边界很模糊。地平线的强项是车规级芯片和自动驾驶的感知-规划-控制闭环，但家庭机器人和自动驾驶对“实时性”和“安全性”的要求有本质区别。自动驾驶的实时性要求是毫秒级的，但安全性要求是“绝对可靠”，所以地平线的芯片设计倾向于确定性延迟和硬实时调度。而家庭机器人可以容忍几百毫秒的延迟，但需要更强的场景泛化能力和更低的功耗。另外，自动驾驶的感知模型通常只关注道路场景（车道线、车辆、行人），而家庭场景的物体类别和空间关系要复杂得多。我不确定地平线的BPU架构对空间智能大模型的支持力度有多大，因为目前大多数空间模型用的是Transformer或Mamba这种自注意力机制，对内存带宽和计算模式的要求和传统的CNN完全不同。如果叮当动力要用地平线的芯片，可能需要做大量的模型剪枝和量化，这又会损失精度。

帖子最后问家庭场景的刚需到底是什么，我直接说我的判断：短期看是扫地，中期看是陪护，长期看是教育。为什么？因为扫地这个任务的目标明确、评估标准客观（地面干净与否）、用户容忍度高（偶尔漏扫也不会退货）。我见过好几家做家庭机器人的公司，一开始都想做陪护或教育，结果发现用户对机器人的期望值太高——陪护机器人不能只是讲故事，还要能识别老人跌倒、及时通知家人；教育机器人不能只是放动画，还要能根据孩子的反应调整教学内容。这些任务的技术难度和成本都远超扫地。但扫地也有问题，就是市场太卷了，石头、科沃斯这些已经把价格打到2000元以下，叮当动力如果做扫地机器人，得在成本控制上拿出真本事。我个人更看好他们做“扫地+轻度陪护”的混合形态，比如机器人扫地的同时能识别宠物是否在危险区域，或者能自动给家里的植物浇水。这种多任务场景对空间智能的需求是真实的，而且用户愿意为此付费。

最后分享一个我自己的深刻教训：做具身智能落地，千万别低估硬件和软件的耦合问题。我们有一个项目，算法在仿真里跑得完美，但一上真机就频繁出现机械臂抖动。排查了一个月才发现，是电机编码器的分辨率不够高，导致运动规划器的微分结果出现了数值振荡。后来换了更高精度的编码器，问题就解决了。这种问题在论文里从来不会提到，但实际项目里比比皆是。所以我对叮当动力的建议是：别急着上大模型，先把传感器、执行器和实时控制系统的底层打通，否则再好的算法也白搭。

总的来说，我认可这个方向的价值，也相信空间智能是通往通用机器人的必经之路，但从技术到产品，中间可能还需要3-5年的迭代。希望叮当动力能活到那一天。

A Amy_岩 L1

21楼 11天前

空间大模型+物理Agent这个架构确实戳中痛点了。我这两年跟几个做家庭服务机器人的团队聊过，大家普遍卡在“仿真到真实”的鸿沟上。仿真里光照、物体布局都是可控的，但真实家庭场景里，光是窗帘拉上拉下、茶几上多杯咖啡这种动态变化，就够让模型崩好几次。叮当动力选择直接聚焦真实场景数据，这个方向是对的，但数据采集成本怎么控制？家庭环境里的隐私问题也是个坎。

另外，他们说的“空间智能大模型”和地平线之前搞的端侧感知模型有没有直接技术传承？牛建伟在地平线时主攻车规级感知，车和家庭场景的传感器配置、计算负载差异挺大的，车上有激光雷达、毫米波，家庭场景可能只有RGB-D摄像头，模型轻量化和实时性的平衡怎么做？我比较好奇他们有没有在稀疏注意力或3D高斯溅射上做定制优化。

还有个关键点：物理Agent的决策延迟。具身智能最怕“反应慢半拍”，家庭场景里人动来动去，如果模型先做3D场景重建再语义理解最后规划运动，延迟肯定超标。他们是不是用了端到端的隐式表达来绕开中间显式建图？这块要是能公开一些技术细节，对社区帮助会很大。

1 2 下一页

地平线高管创业做空间智能，技术路线值得深挖

全部回复

开源模型专区

热门帖子

Roy·强的其他帖子

地平线高管创业做空间智能，技术路线值得深挖

全部回复

开源模型专区

热门帖子

Roy·强 的其他帖子

Roy·强的其他帖子