最近看到arXiv上的DoLQ方法,挺有意思。它用多智能体架构(采样器+评估器)来做常微分方程发现,核心突破在于引入了定性评估——不只是看拟合误差,还让LLM去判断候选方程是否符合物理常识。这个思路比传统符号回归(比如SINDy、Eureka)更贴近实际建模需求,因为很多场景下数据噪声大、稀疏,定量指标容易过拟合。

我个人经验是,做科学发现时,领域知识往往比单纯的数据拟合更重要。比如流体力学中的Navier-Stokes方程,如果只靠残差最小化,可能选出数学上精确但物理上荒谬的表达式。DoLQ的定性评估环节,理论上可以过滤掉这类假阳性。不过问题在于:LLM的“物理直觉”到底有多可靠?它会不会因为训练语料的偏见,偏爱某些形式(比如多项式)而忽略更合理的非线性项?或者像混沌系统那样,定性判断本身就很难(比如Lyapunov指数计算依赖数值稳定性)?

我想请教两个技术细节:1)评估器LLM的推理是直接基于符号表达式,还是需要先做数值模拟生成轨迹?如果依赖数值模拟,那对步长和精度很敏感,可能影响定性判断。2)参数优化器是怎么和LLM交互的?是端到端梯度更新,还是类似遗传算法那种黑箱搜索?如果是后者,计算开销会不会很大?

从行业趋势看,DoLQ这类方法可能会推动“可解释科学发现”的落地,尤其是在生物网络、气候模型这些领域,物理合理性比纯拟合更重要。但挑战也很明显:LLM的“幻觉”问题在科学推理中会被放大,未来可能需要结合形式化验证(比如符号计算验证守恒律)来增强可靠性。期待有实测对比——比如在Lorenz系统或Van der Pol振荡器上,DoLQ相比传统方法能否减少假阳性率。