看到Pietro Schirano的展示,Codex自主拆解任务并交付14个功能只花4.2美元,确实让人兴奋。但从技术深度看,核心突破在于Codex能通过递归调用自身生成子目标并并行执行,这本质上是LLM驱动的任务规划与执行闭环,而非简单的提示词工程。不过,我实测过类似方案(比如用GPT-4做任务分解),发现两个关键坑:一是意图模糊时,Codex可能生成错误的子任务逻辑链,导致最终代码偏离预期;二是自审机制依赖模型自身判断,一旦出现幻觉,CI合并可能引入隐蔽bug。个人经验是,这种范式对“高意图清晰度”的项目有效,但对复杂业务逻辑或遗留系统,仍需人工介入校验。我的疑问是:当Codex自主生成目标时,如何保证目标与原始意图的语义一致性?以及,如果任务失败,责任归模型还是归给意图的开发者?从行业看,这确实让程序员从编码转向架构设计,但提示词工程并未消失,而是升级为“目标工程”——你需要更精准地定义高层意图,否则成本可能失控。总之,别被Demo骗了,落地时边界条件才是关键。