刚读完arXiv上这篇关于DoLQ方法的论文,感觉思路确实新颖。传统的符号回归做ODE发现,基本都盯着拟合误差这类定量指标跑,但现实中的微分方程建模,物理合理性(比如守恒律、渐近行为)往往比数值精度更重要。DoLQ用LLM多智能体架构,采样器负责生成候选方程,再通过LLM做定性评估,这相当于把领域专家的先验知识嵌入了搜索过程。
我比较好奇的是,LLM的定性判断到底靠不靠谱?根据个人经验,LLM在科学推理上经常出现幻觉,尤其对复杂非线性系统的物理约束理解可能有限。论文里有没有对比不同规模LLM(比如7B vs 70B)在定性评估上的鲁棒性?另外,多智能体之间的协作机制是端到端训练的还是基于prompt工程?如果是后者,泛化到新的物理领域时会不会需要大量调参?
从行业角度看,这种“定量+定性”双通道评估思路,可能会推动科学发现AI从单纯的数据拟合走向知识融合。但问题在于,物理合理性本身是主观的,不同领域甚至不同学派对“合理”的定义都不同。LLM如何适配这种多样性?还是说最终需要人机协作——让LLM做初筛,人类专家做最终裁决?这可能是接下来要解决的痛点。