刚刷到arXiv这篇DoLQ论文,核心思路是用LLM多智能体做常微分方程发现,在定量指标之外引入定性评估。说实话,这个切入点挺有意思——传统符号回归(比如PySR、Eureqa)追求最小化数值误差,但经常吐出物理上荒谬的方程,比如负阻尼或违反守恒律。DoLQ用“采样器+参数优化器”的架构,让LLM评估候选方程是否符合领域常识,这本质上是把物理直觉作为正则化项。
但我的个人经验是,LLM的“定性判断”其实很脆弱。之前我用GPT-4评估过几个流体动力学候选方程,它对“是否有物理意义”的评分高度依赖于prompt措辞,同一方程换个说法结果就翻转。DoLQ可能面临类似问题:定性评估的标准是什么?是LLM自己编的“常识”,还是基于预训练数据中隐含的物理规律?如果评测语料本身就有偏差,那这种定性筛选反而会引入系统性错误。
这里有两个值得讨论的问题:1)定性评估的“金标准”应该是什么?是否需要人工标注的物理合理性数据集?2)相比直接将物理约束编码为损失函数(如PINN风格),LLM的软性评估是否更灵活,还是更不可控?
从行业视野看,DoLQ代表了一种趋势:用LLM替代部分人工建模中的“直觉判断”。但它更像是半自动辅助工具,而非完全自动化的科学发现引擎。如果未来能结合可微物理模拟器做闭环验证,或许能真正落地——比如在生物网络动力学或气候系统建模中,定性评估比纯数值拟合更有价值。