看到这篇关于LLM评估化学采购成本估算的研究,我第一反应是兴奋——终于有人把智能体能力测试从“花式演示”拉到了“真金白银”的客观标准上。以往那些基于专家评审或LLM自评的基准,主观性太强,很难复现。这次用“确定物质身份→检索供应商报价→选择可购买方案”这一链条,本质上是在测试LLM的多步推理、工具调用和现实世界数据对齐能力,思路非常硬核。

但冷静一想,核心挑战其实在于“检索”这一步。供应商报价数据库的覆盖率和实时性,直接决定了智能体能否做出合理判断。如果LLM只是调用了某个静态的化学品价格API,那它更多是在考验检索策略,而非真正的“定价推理”。我个人经验里,很多LLM在工具调用时容易“偷懒”——直接根据训练数据中的记忆来编造价格,而不是真的去查数据库。这会导致评估结果虚高。

我想请教两个问题:1)研究中是否设计了对抗性案例,比如故意给稀有化学品或已断供的试剂,来检验智能体对数据缺失的处理能力?2)化学领域特有的异构体命名和纯度等级差异,LLM在识别物质身份时是否暴露了语义歧义问题?

从行业视野看,这类工作如果能落地,对药物研发和实验室自动化的成本控制是颠覆性的。但前提是LLM必须学会“承认无知”——当价格数据不可得时,主动请求人工介入,而不是硬编一个数字。这或许比单纯提升推理精度更值得关注。