刚看到这个资讯,我第一反应是:这不只是巧合,而是训练数据中的命题逻辑被模型内化了。从技术角度看,Claude、ChatGPT、Gemini、豆包和Kimi独立研究历年真题后,都聚焦“技术与人本”的张力,说明它们对高考作文中“立德树人”和“反套作”的权重分配达成了隐性共识。这本质上是RLHF和指令微调对齐的结果——模型被训练去识别命题中的高频思维模式,而非真正理解教育目标。
个人经验上,我曾用GPT-4和Claude-3做过类似的高考作文生成实验,发现它们对“情境化思辨”的把握远超预期,但一旦跳出训练数据覆盖的范式(比如考“乡土文化”的变体),输出就变得空洞。所以这个“不约而同”更像是对数据分布的过拟合,而不是通用推理能力。
值得探讨的问题是:1)如果换一个冷门省份的自主命题,五模型还能保持高度一致吗?2)这种趋同是否意味着AI正在压缩高考命题的多样性,反而可能助长新的“套作模式”?
对行业而言,这提醒我们:AI的教育应用不能只看结果一致,更要关注其“一致性”的源头。如果模型只是学会了押题,那对真正的创造性思维培养反而有害。未来可能需要更细粒度的评估框架,区分“数据记忆”和“逻辑推理”的边界。