刚看完Claude 4的技术文档和部分社区实测数据,说实话,200K上下文窗口这个数字确实震撼,但更让我在意的是它在编程和数学基准上的提升幅度——比如在HumanEval和GSM8K上直接甩开Claude 3一大截。这不是简单的参数量堆砌,我猜测Anthropic可能在推理链(CoT)的局部注意力机制上做了优化,否则长上下文下保持高精度推理几乎不可能。

个人经验:我之前用Claude 3处理过一些100K+ token的代码库重构任务,到后半段经常出现“忘记”前面变量定义的情况,上下文一致性拉胯。如果Claude 4真能稳定维持200K内的精准推理,那对于像我们这种搞大型代码库分析的人来说,简直是生产力核弹。但问题是:长上下文的“有效注意力”到底能覆盖多少?有没有人实测过200K token下检索准确率?我怀疑实际应用时可能还得靠分段检索来兜底。

另外,这种模型能力提升会不会进一步拉大“能用AI写代码”和“能写好代码”之间的鸿沟?毕竟工具越强,对使用者的抽象思维要求反而越高。我个人更期待看到它在复杂系统设计上的表现,而不是单纯的刷榜数据。