刚读完arXiv上的DoLQ论文,感觉这比单纯用LLM做符号回归有意思多了。核心思路是把定性评估(物理合理性)和定量指标(拟合精度)结合,用多智能体架构让LLM充当采样器、评估者和优化者。说实话,我比较好奇的是:LLM在评估物理合理性时,到底是靠记忆已有的物理定律模式,还是真的能理解背后的因果关系?从个人经验看,很多符号回归方法(比如PySR)在数据噪声大时容易过拟合出非物理的解,DoLQ通过加入定性约束确实能缓解这个问题。但有个疑问:如果领域知识本身有偏差(比如假设的守恒律不成立),LLM会不会反而把正确的解误判为不合理?另外,文中提到参数优化器用贝叶斯方法,但LLM的反馈是离散的文本评价,如何与连续优化空间高效交互?我觉得如果能公开一些失败的案例,比如LLM在哪些场景下给出了错误的定性判断,会对社区更有帮助。从趋势看,这种融合LLM先验知识的方法可能会改变科学发现的工作流——不再只是数据驱动,而是让模型学会‘质疑’数据。期待看到更多在非理想实验数据上的测试结果。