过去几年,大模型的发展几乎一直被Benchmark牵引。从GLUE/SuperGLUE推动NLP预训练,到MMLU让通用知识能力变成可比较的分数,再到HumanEval把代码生成推向主流,SWE-bench又将coding agent从写函数推进到解决真实GitHub issue——Benchmark从来不只是排行榜,它更像一套问题建模方式,告诉大家模型现在缺什么能力,缺口在哪里,接下来训练数据应该往哪里造。
当下最重要的,不是继续找一个所有模型都能刷到90分的榜单,而是找到适合自己业务、产品、组织的Benchmark,并围绕它做定向评估和训练数据构建。近期两个新Benchmark——UXBench和MemLens——正是这一思路的典型代表。UXBench由腾讯混元和元宝团队提出,基于70K+真实中文AI助手交互日志,最终形成7400个测试样本,覆盖8个场景、83个领域。它包含UX Judge(预测用户反馈)、UX Eval(生成满意回复)、UX Recovery(失败恢复)三类任务。测试结果显示,海外御三家模型得分普遍较高,而Hunyuan3在三项任务中得分分别为64.3%、48.8%、7.6%。这组数据说明,用户体验能力仍有巨大提升空间,尤其是失败恢复环节。
MemLens则由港科大宋阳秋教授团队联合香港中文大学、英伟达、丘脑智能推出,专门测试模型在多轮、跨会话、图文混合对话中的长期记忆能力。该Benchmark包含789道题,覆盖信息抽取、跨会话推理、时间推理、知识更新和拒答五种记忆能力,并在32K、64K、128K、256K四档上下文长度下测试。团队评测了27个视觉语言大模型和7个记忆增强Agent。一个关键发现是:长上下文LVLM在短程准确率高,但随对话增长退化;而记忆Agent长度稳定,但存储压缩会丢失视觉保真度,这是一个结构性trade-off。图像消融实验进一步证实,移除证据图像后,两个前沿LVLM在80.4%的问题上准确率跌至2%以下。
这两个Benchmark共同指向一个趋势:下一代Benchmark不再奖励“会答题的模型”,而是奖励“能在真实世界里稳定做事的系统”。对于AI从业者而言,这意味着需要重新思考模型评估的方式——与其追逐通用榜单的排名,不如为自家产品定义定制化Benchmark,从而服务于模型和产品的迭代。UXBench的价值在于,它把“用户体验”变成了可以训练、可以评估、可以迭代的能力;MemLens则揭示了长上下文与记忆保真度之间的根本矛盾。未来,这类Benchmark将直接影响助手类产品的reward model和post-training数据构建,也会推动记忆增强架构的进一步优化。