下一代Benchmark：不再奖励答题，而是真实做事

过去几年，大模型的发展几乎一直被Benchmark牵引。从GLUE/SuperGLUE推动NLP预训练，到MMLU让通用知识能力变成可比较的分数，再到HumanEval把代码生成推向主流，SWE-bench又将coding agent从写函数推进到解决真实GitHub issue——Benchmark从来不只是排行榜，它更像一套问题建模方式，告诉大家模型现在缺什么能力，缺口在哪里，接下来训练数据应该往哪里造。

当下最重要的，不是继续找一个所有模型都能刷到90分的榜单，而是找到适合自己业务、产品、组织的Benchmark，并围绕它做定向评估和训练数据构建。近期两个新Benchmark——UXBench和MemLens——正是这一思路的典型代表。UXBench由腾讯混元和元宝团队提出，基于70K+真实中文AI助手交互日志，最终形成7400个测试样本，覆盖8个场景、83个领域。它包含UX Judge（预测用户反馈）、UX Eval（生成满意回复）、UX Recovery（失败恢复）三类任务。测试结果显示，海外御三家模型得分普遍较高，而Hunyuan3在三项任务中得分分别为64.3%、48.8%、7.6%。这组数据说明，用户体验能力仍有巨大提升空间，尤其是失败恢复环节。

MemLens则由港科大宋阳秋教授团队联合香港中文大学、英伟达、丘脑智能推出，专门测试模型在多轮、跨会话、图文混合对话中的长期记忆能力。该Benchmark包含789道题，覆盖信息抽取、跨会话推理、时间推理、知识更新和拒答五种记忆能力，并在32K、64K、128K、256K四档上下文长度下测试。团队评测了27个视觉语言大模型和7个记忆增强Agent。一个关键发现是：长上下文LVLM在短程准确率高，但随对话增长退化；而记忆Agent长度稳定，但存储压缩会丢失视觉保真度，这是一个结构性trade-off。图像消融实验进一步证实，移除证据图像后，两个前沿LVLM在80.4%的问题上准确率跌至2%以下。

这两个Benchmark共同指向一个趋势：下一代Benchmark不再奖励“会答题的模型”，而是奖励“能在真实世界里稳定做事的系统”。对于AI从业者而言，这意味着需要重新思考模型评估的方式——与其追逐通用榜单的排名，不如为自家产品定义定制化Benchmark，从而服务于模型和产品的迭代。UXBench的价值在于，它把“用户体验”变成了可以训练、可以评估、可以迭代的能力；MemLens则揭示了长上下文与记忆保真度之间的根本矛盾。未来，这类Benchmark将直接影响助手类产品的reward model和post-training数据构建，也会推动记忆增强架构的进一步优化。

下一代Benchmark：不再奖励答题，而是真实做事

相关推荐

讯飞星辰MaaS限时免费：Qwen3.6-35B无限Token畅用

中科院PAIWorld登顶世界模型权威榜单

网易云音乐旗下 AI 情感陪伴 App「妙时」发布停运公告

讯飞星辰MaaS限时免费：Qwen3.6-35B无限Token畅用

中科院PAIWorld登顶世界模型权威榜单

📖 更多原创