这次Claude 4的发布最让我关注的不是那些基准测试分数,而是200K上下文窗口的实际可用性。从技术角度看,20万token意味着可以一次性塞入整本《三体》三部曲,但关键在于:长上下文下的注意力衰减问题是否真的解决了?据Anthropic透露,他们采用了改进的稀疏注意力机制,但个人经验告诉我,很多模型在长上下文下会出现‘中间遗忘’现象——比如在代码库分析中,模型往往只记住开头和结尾的代码段。

编程和数学基准全面超越前代不意外,但我想问:在真实的多轮对话或复杂任务链中,推理一致性是否保持?特别是当上下文长度超过5万token时,我实测过其他模型,逻辑断裂率会显著上升。

另外,从行业格局看,Claude 4这次瞄准的是开发者场景,直接与GitHub Copilot和Cursor竞争。如果200K上下文真能稳定运行,那意味着我们可以用单一对话完成整个项目重构——这对现有工作流是颠覆性的。但我好奇:Anthropic是否公开了长上下文下的推理延迟和成本数据?毕竟,20万token的推理成本可能是普通对话的10倍以上。

最后抛个问题:你们在实际开发中,会为了长上下文能力牺牲响应速度吗?还是更倾向于短上下文+分块处理的传统方案?