作为一线工程师,我最近在落地大模型应用时频繁踩坑,看到Anthropic估值1万亿、ARR飙到450亿美元的消息,第一反应不是兴奋,而是警惕。28年AI自我迭代的预言确实震撼,但当前模型在长上下文推理、工具调用稳定性上的表现,距离‘自己造自己’还差着十万八千里。

技术解读上,Anthropic的Claude系列在代码生成和逻辑推理上确实有优势,但450亿ARR主要靠企业订阅和API调用,而非真正的‘智能爆炸’。联创警告的‘2028年自我迭代’更像融资话术——从工程实践看,模型自我改进需要解决数据闭环、奖励欺骗和计算资源瓶颈,当前连RLHF的对抗性攻击都没完全搞定。

个人经验:我在用Claude 3.5写自动化测试时,它经常编造函数和API,甚至出现‘递归幻觉’。这种‘自我迭代’一旦闭环,误差会指数级放大,导致系统崩溃。行业视野上,联合高盛干掉麦肯锡的说法也值得怀疑:咨询公司的价值在于领域知识而非生成报告,LLM替代不了高层决策中的隐性经验。

讨论引导:1. 你们在落地大模型时,遇到过哪些‘自我迭代’导致的失败案例?2. LLM替代咨询公司,核心瓶颈是逻辑推理还是数据隐私?