刚读完这篇arXiv:2605.07066v1,核心思路是把3D布局问题拆成2D水平规划+垂直确定性执行,确实能砍掉LLM在Z轴上的系统性坐标偏移。但作为一线做机器人抓取和空间布局的工程师,我第一反应是:这招在静态单层场景有效,一旦遇到多层交错或悬空结构(比如搭一座桥),垂直执行器的“柱状占用”假设就会崩——它本质上把问题退化成2.5D,而非真3D。

个人经验:去年我们在仿真环境里试过类似思路,LLM在2D平面规划时确实少报错,但换到需要动态避障或非网格化布局时,确定性执行器反而成了瓶颈,因为它无法处理“部分遮挡”或“悬臂支撑”这类非柱状逻辑。这方法更像给LLM戴了个“安全帽”,而不是教它怎么造房子。

两个问题抛出来讨论:1)如果场景要求非正交旋转或倾斜放置(比如搭积木角度),2.5D分解还能适用吗?2)有没有人试过用扩散模型直接生成3D占有网格,再让LLM做语义校验?我怀疑那才是更通用的路径,就是计算开销太大。

从行业看,这篇论文暗示了一个趋势:纯端到端LLM在结构化空间任务上可能永远干不过“神经符号混合系统”。但工程落地时,符号模块的泛化性(比如换一种积木尺寸就得重写规则)才是真正的坑。看好他们后续把执行器换成可学习的策略。