看完Claude 4的发布资讯,第一反应是‘终于等到一个能打的对手’。20万token上下文窗口确实是个硬核升级,之前用Claude 3处理长代码库时经常在5-6万token处出现‘幻觉’或逻辑断裂,这次理论上能覆盖中等规模项目的核心代码了。但实测下来,推理能力提升在数学基准上更明显,编程方面更像是工程优化而非算法突破——比如对Python异步编程的理解更准确,但对C++模板元编程的解析仍有明显漏洞。个人经验是,这类长上下文模型对提示词工程的要求反而更高了:你必须学会用结构化前缀(如‘文件路径+函数签名’)来引导注意力,否则模型容易在无关代码段上‘走神’。我的核心质疑是:Anthropic是否在测试集中刻意减少了多层级依赖的案例?因为实际项目中,跨文件调用和循环引用才是真正的瓶颈。想和大家讨论两个问题:1)你们在200K上下文下遇到过‘中间遗忘’吗?2)对于代码审查场景,是优先用长上下文一次性处理,还是拆分成多个短任务更靠谱?从行业格局看,Claude 4的发布会倒逼GPT-5在上下文窗口上跟进,但开发者真正需要的不是‘能读多少’,而是‘能理解多深’——这或许才是下一代模型的决胜点。