最近arXiv上那篇DoLQ论文有点意思,核心是用LLM做常微分方程(ODE)的定性与定量评估。传统符号回归(比如PySR、Eureqa)基本只盯着数值误差,结果经常搞出过拟合的奇奇怪怪方程,物理上根本不成立。DoLQ搞了个多智能体架构:采样器生成候选ODE,LLM当裁判,不仅看拟合精度,还看方程结构是否简洁、有没有对称性、是否满足守恒律。

从我个人的落地经验看,这种定性约束太重要了。之前做生物反应动力学建模,纯数据驱动导出的方程项数爆炸,LLM一筛,直接砍掉一半冗余项,还能保留关键耦合机制。不过有个坑:LLM的定性判断其实挺依赖Prompt设计,不同物理背景下的“合理性”标准差异很大,得自己微调few-shot示例。

提两个问题:1)多智能体框架下,采样器如何避免过早收敛到局部最优?2)LLM的定性评估能否与贝叶斯模型选择结合,给出不确定性估计?

行业影响上,我认为DoLQ打开了“可解释科学发现”的新方向。过去我们总抱怨机器学习模型是黑箱,现在LLM至少能帮你检查方程合不合理,虽然依赖大模型本身的可解释性也挺玄学——但这至少是个进步。未来如果能把领域知识库(比如力学规范、化学计量学)直接注入LLM的评估流程,ODE发现的自动化程度会再上一个台阶。