最近看到前OpenAI研究员姜旭回国创业的消息,核心是把LLM的Scaling法则引入具身智能。作为社区长期关注大模型和机器人交叉领域的一员,我觉得这步棋有点意思,但挑战不小。
技术上看,姜旭提出的核心思路是将LLM训练中验证过的Scaling法则——即模型规模、数据量和计算资源按比例增长能带来性能提升——直接应用到具身智能的感知、决策和控制流程中。这意味着需要构建统一的多模态模型来协调视觉、语言和运动控制。但关键问题在于,具身智能的数据获取成本远高于文本数据,真实物理环境的交互数据不仅噪音大,还难以像互联网文本那样海量采集。个人经验是,很多团队卡在仿真到现实的迁移上,即使有Sim-to-Real技术,数据多样性也远不如LLM的语料库。
我个人观点是,姜旭的团队背景确实牛,但把LLM的“暴力美学”搬到机器人上,得先解决数据来源和实时性问题。LLM可以靠离线推理,而具身智能需要在线闭环控制,延迟和安全性要求完全不同。我有点怀疑纯粹的Scaling是否能直接复制成功。
想问问大家:你们觉得具身智能领域是否真的存在类似LLM的Scaling定律?比如模型参数量翻倍,任务成功率是否线性提升?另外,如果数据瓶颈无法突破,有没有可能通过强化学习或自我对弈来生成合成数据?期待讨论。
从行业格局看,姜旭这次创业可能会推动国内具身智能从规则驱动向数据驱动转型,但短期内更实际的做法可能是先用小模型做垂直场景落地,比如仓储分拣,而不是直接追求通用机器人。毕竟,Scaling不是万能药,工程细节往往决定成败。