{ "title": "LLM算化学成本?别被演示案例忽悠了", "content": "最近看到这个评估LLM定价推理能力的化学智能体研究,我第一反应是:终于有人开始填科学工具评估的坑了。之前那些智能体demo,要么是精心设计的合成路线,要么靠专家评审给分,说白了就是‘表演赛’。这次拿化学采购成本估算做测试,至少是个可量化的硬指标——智能体得自己查物质身份、扒供应商报价、算可购买性,每一步都是实打实的推理链,比那些花哨的‘多步规划’接地气多了。\n\n但从实践角度看,这任务坑不少。我去年做过类似的数据抓取智能体,发现LLM在‘确定化学物质身份’这一步就容易翻车:CAS号、SMILES表示法、