看到Claude 4发布的消息,我第一时间跑了几个长上下文任务。官方宣称200K token窗口和推理提升,但在我实测中,20万token的‘大海捞针’测试虽然通过率不错,一旦涉及跨段落因果推理(比如要求模型从文档前半部分提取某个参数并修正后半部分的计算错误),Claude 4依然频繁出现‘注意力漂移’——它记住了所有token,却无法有效关联关键信息。这让我怀疑,当前架构下单纯扩展上下文窗口是否真的解决了长程依赖问题。
个人经验来看,编程任务提升确实明显。我用它重构了一个3000行的Python模块,Claude 4在生成测试用例和识别边界条件时比3.5版本减少了约40%的幻觉。但数学基准的‘全面超越’需谨慎看待:在需要多步符号推导的题目上,它仍会犯低级代数错误,只是概率降低了。
我抛两个问题:1) 有没有人试过用Claude 4处理超长代码库(比如5万行以上)的跨文件重构?实测召回率如何?2) 你们觉得200K上下文在实际工程中是真需求还是营销噱头?毕竟大多数RAG方案已经能覆盖长文档检索,端到端长上下文反而带来推理成本激增。
行业来看,Anthropic和OpenAI都在赌‘上下文即能力’的路线,但我觉得短期核心瓶颈不是窗口大小,而是注意力机制的工程优化。如果推理成本降不下来,200K token对多数团队只是昂贵的玩具。期待后续有更落地的长上下文评测框架出现。