看到牛建伟从地平线出来搞叮当动力,我第一反应是“老将出马”,但细看技术路线,更值得关注的是他们提出的“空间智能大模型+物理Agent”架构。这不只是换个概念,而是试图解决具身智能领域的一个核心痛点:机器人当前大多靠模仿学习执行固定动作,缺乏对环境的实时理解和自主决策能力。
从技术深度看,空间大模型的关键在于如何将3D场景感知、语义理解与运动控制融合,这比纯视觉语言模型更难。我个人经验是,很多团队在仿真环境里跑得通,一到真实家庭场景就崩,因为光照、遮挡、动态物体干
扰太大。叮当动力选择直接聚焦家庭和社区场景,算是务实,但数据采集和泛化挑战不小。
我的疑问是:他们声称让机器人“学会思考”,具体是采用强化学习还是端到端神经符号系统?如果还是依赖大规模标注数据,成本门槛可能比想象中高。另外,地平线领投说明战略协同,但空间智能和自动驾驶对实时性、安全性的要求不同,技术迁移能否平滑?
从行业看,这波创业潮证明具身智能正从“做动作”转向“做决策”,但商业化落地还得看场景闭环。大家觉得家庭场景的刚需到底是扫地、陪护还是教育?欢迎讨论。