刚看到Claude 4支持20万token上下文窗口的消息,第一反应是‘终于有人把长上下文当回事了’。相比GPT-4的128K和Gemini的1M,200K不算最大,但结合Anthropic在推理层面的优化,这个组合拳很有看点。
我比较关心的是:长上下文下的注意力衰减问题。之前测试过一些模型在10万token以上的表现,往往开头或中间的关键信息会被‘遗忘’,导致推理链条断裂。Claude 4宣称‘更强推理’,不知道是否在位置编码或稀疏注意力上有新突破?比如是否采用了类似ALiBi或RoPE的改进?如果有官方或第三方评测能展示20K、50K、100K、200K不同长度下的准确率曲线,那会很有说服力。
另外,编程和数学基准全面超越前代——这点我持谨慎乐观。个人经验里,这类基准测试往往偏向于‘已知问题’的召回或模式匹配,真正复杂的多步推理(比如跨函数、跨文件的代码重构)才是硬骨头。Claude 4在HumanEval和GSM8K上的分数提高,是源于预训练数据的清洗,还是架构层面的改动?如果能把‘推理深度’和‘上下文利用率’这两个指标拆开看,会更清楚它的真实能力边界。
对开发者来说,200K上下文意味着可以直接把整个代码库塞进提示词,但代价是成本。Anthropic还没公布定价,如果按token计费,长上下文会话的经济账怎么算?会不会因为推理增强导致单次响应耗时变长?这些都是落地时绕不开的工程问题。
最后抛个问题:有没有人实测过Claude 4在200K上下文下做‘大海捞针’测试(Needle in a Haystack)?或者对比过它和Gemini 1.5 Pro在长文档摘要上的表现?期待有实测数据出来打脸或验证。”