作为深度使用Claude 3.5 Sonnet写代码和做文档推理的一线工程师,我第一时间试了Claude 4的200K上下文窗口。先说结论:推理能力确实有提升,尤其在复杂多步逻辑链上,比前代少了很多‘中途失忆’的情况。但200K上下文绝非‘塞进去就能用’——实测中,当输入接近150K token时,检索关键信息的准确率断崖式下降,Anthropic官方没提这个‘有效窗口’的退化曲线。个人经验是,超过80K后就必须依赖显式的结构化prompt(比如分段标注、索引提示),否则模型会‘迷失’在长文本中。
编程方面,Claude 4在重构老代码库时表现亮眼,能理解跨文件的依赖关系,但数学推理仍有‘幻觉尾巴’——比如在证明题中会跳步,强行补一个不存在的引理。这让我怀疑其‘更强推理’更多是工程优化(如更好的注意力机制剪枝),而非根本性的架构革新。
抛两个问题:1)有谁对比过Claude 4在200K下与RAG方案的实际召回率?2)对于长代码库分析,大家觉得是‘塞全文’还是‘分块+摘要’更靠谱?
行业视野上,Claude 4把上下文窗口推到了200K,但‘可用窗口’和‘标称窗口’的差距会催生新的中间件工具(如动态上下文压缩)。如果Anthropic能像Google那样开源‘长上下文基准测试集’,整个生态会更透明。