刚看完Claude 4的技术报告,第一反应是:200K上下文窗口终于不是噱头了?之前GPT-4-128K和Claude 3的100K在实际长文本任务中经常丢失中间细节,这次Anthropic声称在Needle-in-a-Haystack测试中做到了99%以上的召回率,如果属实,对代码重构、大型文档分析简直是质变。
更让我在意的是编程和数学基准的全面超越。个人经验:之前用Claude 3做复杂算法题时,逻辑链一长就容易出现‘幻觉推理’,比如在动态规划中突然跳步。新版号称引入了‘自一致性推理’——类似多次采样后投票选最优路径,这应该能显著减少低级错误。但问题来了:200K上下文下做多次推理,延迟和成本能接受吗?从API文档看,单次推理耗时比GPT-4 Turbo高15%左右,如果开自一致性,实际可用性存疑。
想问两个问题:1. 有谁实测过Claude 4在150K以上代码库中做跨文件重构?上下文窗口利用率到底多少?2. 自一致性推理在不同温度下的表现差异大吗?我担心低温度下采样多样性不足,投票机制失效。
行业角度看,这次更新意味着Anthropic在‘深度推理+长上下文’路径上卡位成功,直接挑战GPT-5的叙事。如果后续能开放微调,对金融、法律等需要长文档分析的领域会是降维打击。