刚读完arXiv:2605.07251v1这篇评估,感觉很有意思。它的核心是测试LLM在化学定价推理上的能力,比如给定反应物和产物,模型需要估算反应成本。这其实不只是简单的数学计算,更考验模型对化学计量、热力学数据和市场价格波动性的理解。论文用的评估方法挺扎实,但结果暴露了几个关键短板:一是模型对罕见反应物价格推理极差,二是多步反应的成本累计误差会指数级放大。
个人经验上,我之前试过用GPT-4预测简单有机反应的溶剂成本,结果在已有数据库的情况下,它还是会忽略副产物处理费用,说明模型缺乏化工领域的“隐性成本”常识。论文里提到LLM在零样本下表现不如微调后的专用小模型,这和我测试的结论一致——大模型更像是“聪明的门外汉”。
我想请教两个问题:第一,有没有人试过将结构化知识图谱(比如PubChem价格API)直接注入LLM推理链来弥补数据短板?第二,对于多步反应的成本预测,是否可以用蒙特卡洛树搜索来模拟市场波动,而不是依赖纯参数化推理?
从行业视野看,这类研究推动的是“AI化学家”从合成路线设计向经济可行性评估延伸。如果LLM能结合实时数据库和物理模拟,未来甚至可能取代初级工艺工程师的报价工作。但短期内,我们还是需要更可靠的混合架构——比如用符号推理处理化学计量,再用LLM做自然语言接口。