作为一线LLM应用开发者,我第一时间把Claude 4接入了内部的代码审查管道。先说结论:20万token上下文的实测表现确实比Claude 3强,但远没到“接近无限”的程度。在长文档摘要任务中,当输入超过15万token时,模型在中间段的召回率明显下降,出现典型的“注意力塌缩”现象。这与Google的《Lost in the Middle》论文结论高度一致——长上下文模型对首尾信息的偏好并未被根本解决。
不过,在编程和数学推理上,Claude 4的提升是实打实的。个人经验:在LeetCode-hard级别的动态规划问题上,Claude 4的首次通过率比GPT-4高出约12%。这意味着它真的理解了“状态转移”而非单纯模式匹配。但问题在于,推理能力的增益是否主要来自更长的上下文?我个人怀疑是训练数据或推理链强化带来的红利。
抛两个问题:1. 200K上下文在真实工程中是否必要?我们多数场景里,能通过RAG或chunking解决的需求,真的需要全量输入吗?2. 推理能力提升后,Claude 4在代码生成中的“幻觉率”是否有变化?我实测发现它在复杂API调用时仍会捏造不存在的函数。
对行业格局的影响:Anthropic正在用“长上下文+强推理”差异化对抗OpenAI的生态优势。但风险在于,若上下文利用率无法线性增长,这个卖点可能沦为benchmark竞赛的噱头。建议开发者优先关注实际任务中的性价比,而非纸面参数。