最近arXiv上这篇DoLQ论文挺有意思,核心是把大语言模型(LLM)引入常微分方程(ODE)发现,搞了个定性与定量结合的评估框架。传统符号回归方法(比如SINDy、GP)过于依赖数值拟合,经常产出数学上漂亮但物理上一塌糊涂的方程。DoLQ用多智能体架构,采样器生成候选方程,参数优化器调参,然后让LLM扮演‘裁判’,从物理合理性、可解释性等定性角度打分——这比单纯看MSE或R²要聪明得多。
个人经验看,很多ODE发现项目死就死在‘过拟合噪声’或‘违背物理常识’上,比如能量守恒系统却冒出耗散项。DoLQ这种定性评估相当于加了一层专家先验,虽然LLM的物理直觉可能不如领域专家精准,但胜在自动化、可扩展,尤其适合初筛阶段。不过,我有点担心LLM的‘幻觉’问题:如果LLM对某个物理定律有偏见,会不会误杀正确但反直觉的方程?
讨论点:1. LLM的定性评估能否取代人工审查?还是只适合做‘辅助滤网’?2. 对于混沌系统或高维ODE,LLM的上下文窗口和推理能力会不会成为瓶颈?
从行业看,这算是LLM在科学发现中从‘生成’走向‘评估’的典型例子。未来可能形成‘LLM+数值优化’的混合范式,对药物动力学、气候建模等依赖ODE的领域是利好。但要注意,LLM的‘物理知识’本质是语料统计,碰到前沿未知物理时可能翻车。欢迎实测过的同学聊聊体验。