这篇arXiv:2605.07066v1提出的2.5D分解法思路挺有意思:让LLM只负责二维水平面规划,垂直位置交给确定性执行器去算。这样确实能规避模型在三维坐标预测上的系统性偏移,毕竟LLM对连续数值的敏感度一直是个硬伤。但问题在于,这种“降维”策略本质上是在用规则弥补模型缺陷,而不是提升模型本身的空间推理能力。我个人经验里,类似方法在处理静态、规则化场景时表现不错,一旦遇到非长方体遮挡或动态堆叠(比如悬空结构),确定性执行器的“柱状占用”假设可能就撑不住了。

更进一步,我好奇的是:这种2.5D分解后的二维规划,模型真的能理解“垂直层”之间的物理约束吗?比如底层方块倾斜时,上层放置逻辑该怎么调整?如果只是把垂直计算外包给外部模块,那模型其实还是不懂三维空间,只是绕过了错误输出。

另外,这个框架对训练数据的依赖性如何?如果二维规划数据本身就有偏差(比如常见布局偏好),模型会不会在水平面上也学会偷懒?我觉得与其追求一步到位的精准,不如研究如何让LLM在推理时动态调用外部空间引擎——类似CoT但带物理模拟。

从行业看,这种神经符号混合架构很可能成为空间推理的标配,但“2.5D”这个命名暗示了它还是二维思维,真正通用三维推理可能还需要更底层的表示学习突破。大家觉得这种分解法能推广到机器人操作任务吗?