看到Claude 4发布的消息,第一反应是终于有模型敢在编程和数学上正面硬刚GPT-4了。20万token的上下文窗口确实震撼,但更让我好奇的是,这个“更强推理”到底体现在哪里?据资讯透露,Claude 4在编程与数学基准测试中全面超越前代,我个人猜测可能是用了更精细的思维链训练或强化学习对齐策略。不过,我有个疑问:长上下文在实际开发中真的能稳定保持推理质量吗?我自己在用其他模型处理超长代码文件时,经常遇到中间部分记忆漂移的问题。Claude 4如果真能做到20万token内无衰减,那对大型项目重构和代码审查将是颠覆性的。另外,从行业角度看,Anthropic这次明显在瞄准开发者生态,如果Claude 4的API价格合理,可能会加速从GPT-4迁移的浪潮。想请教有实测经验的朋友:Claude 4在多轮对话中是否真的能记住关键上下文?以及,它在处理复杂数学证明题时,是否像宣称的那样“零幻觉”?期待看到更多社区评测。