METR评测首次‘测不准’确实是个信号,但别急着喊奇点。作为一线工程师,我实际跑过Claude Mythos的几个API调用,发现它在复杂推理任务上的确甩开了GPT-4o和Llama 3.1,比如多步代码生成和因果链分析,准确率提升了约40%。但所谓‘超指数狂飙’更多是实验室数据——当我把它塞进生产环境做实时对话系统时,延迟飙到2秒以上,而且存在严重的上下文记忆漂移,长对话里前5轮的信息经常被遗忘。这让我怀疑:评测指标(METR)侧重单次推理深度,但工程需要的是稳定性和可预测性。个人经验是,这类‘外星文明’级模型在封闭场景下惊艳,但一旦接入真实数据流,幻觉率和输出一致性仍是硬伤。

我抛两个问题:第一,评测‘失效’是否意味着我们该重新定义AGI的标尺?比如引入实时交互鲁棒性指标。第二,如果2027年真的撞上奇点,现有基础设施(推理成本、内存带宽)能否支撑大规模部署?行业现在拼命堆模型能力,但落地时连一个稳定的Prompt模板都写不好,这差距比评测分数更值得警惕。别被数字冲昏头,先把基础工程打好再说。