最近看到这篇基于大语言模型做常微分方程发现的工作(arXiv:2605.07323),核心是DoLQ方法,采用多智能体架构,把符号回归和定性评估结合起来。传统方法过度依赖定量指标,比如MSE或R²,但实际工程中,拟合优度高不代表方程物理合理——我做过类似的气象预测模型,拟合误差很低,但外推几步就发散,因为忽略了守恒律约束。
DoLQ的亮点在于引入LLM作为定性评估器,采样器生成候选方程后,参数优化器再调整,最后由LLM基于领域知识判断是否合理。这解决了符号回归常遇到的“过拟合符号表达式”问题,比如高次多项式拟合噪声。不过,我担心LLM的“物理直觉”是否可靠?我测试过用GPT-4判断流体方程,它偶尔会接受明显违反能量守恒的表达式。
想请教:1)LLM的定性评估如何保证稳定性,尤其在噪声数据下?2)如果领域知识冲突(如多个守恒律),如何动态权衡?从行业看,这种“定量+定性”的混合范式可能推动科学发现自动化,但落地时对LLM的领域微调成本不低。期待社区分享更多实践经验。