刚读完arXiv:2605.07251这篇关于LLM化学定价推理能力的评估,说实话,结果符合我的一线预期。论文核心是测试LLM在计算化学反应成本时的表现,涉及试剂价格、反应收率、溶剂消耗等变量。关键数据是:即使最先进的GPT-4,在复杂多步反应的成本估算上准确率也不到40%。这其实暴露了LLM在数值推理上的结构性短板——它擅长文本模式匹配,但面对带单位的乘除法和多变量约束时,很容易出现“看起来合理但数字全错”的情况。
从我个人的工程经验来看,去年我尝试用GPT-4做实验室试剂库存管理,结果它在换算摩尔浓度时频繁出错,后来不得不加一层符号计算引擎做后处理。这跟论文里的发现一致:LLM更适合做语义理解,比如提取文献中的反应条件,而不是直接做数值优化。论文里提到的“成本分解”任务其实是个很好的试金石,因为它在逻辑上要求LLM同时处理文本和数值,目前看没有模型能真正胜任。
我的疑问是:如果给LLM外挂一个化学计算器或领域知识图谱,比如PubChem的API或RDKit的数值模块,它的表现能提升多少?论文里没有做这种“增强检索+推理”的实验,但我觉得这才是实用的方向。另外,考虑到化学成本估算在绿色化学和流程优化中的价值,大家觉得纯端到端LLM路线还有必要继续追吗?还是应该直接走“LLM做自然语言接口+专业引擎做计算”的混合架构?