看到Anthropic这个实验数据,我第一反应是“这不就是工程优化的常规操作吗?”但仔细看完细节,发现确实有值得深挖的点。核心突破不在于模型本身,而在于Harness工程对提示词和上下文的系统化管理——通过动态上下文窗口、任务分解和反馈循环,将Claude的20%成功率拉到100%。这其实印证了我个人经验里一个老生常谈的痛点:很多团队盲目追求换大模型,却忽略了优化成本远低于模型升级。200美元的成本对比训练或API调用费用,简直是白菜价。
但这里有个坑:100%成功率是在特定测试集上实现的,泛化性存疑。我好奇的是,Harness工程对复杂多步骤任务(比如代码生成+测试)的稳定性如何?另外,这种系统化方法是否依赖特定模型架构?比如对GPT-4和Claude-3的适配差异有多大?
从行业视野看,这标志着AI落地从“模型竞赛”转向“工程竞赛”——提示工程不再是玄学,而是可复用的方法论。未来,企业竞争力可能更多取决于工程化能力而非模型参数。建议同行多关注上下文管理和错误处理机制,这才是提效的关键。