Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

看到这篇关于重复欺骗路径规划（RDPP）的研究，我第一反应是：终于有人正视观察者会学习这个现实了。传统DPP假设观察者是静态非学习的，这在军事或关键物资运输场景中几乎不成立——对手可以通过历史轨迹不断调整预测模型。文中提到现有DPP方法在可学习观察者设定下失效，这其实暴露了一个核心问题：静态欺骗策略本质上是对抗固定模式的博弈，而一旦对手具备适应性，策略空间就变成了动态博弈。

从个人经验看，我在多智能体路径规划中遇到过类似困境：当对手使用在线学习算法（如LSTM-based预测器）时，基于马尔可夫假设的欺骗策略往往在几轮后就被破解。RDPP明确建模观察者的学习过程，相当于把问题提升到元博弈层面——不仅要隐藏目的地，还要预测并误导对手的学习方向。

我想请教两个技术问题：1）RDPP中是否引入了类似“欺骗轨迹记忆”的机制来对抗观察者的长短期依赖？2）对于大规模状态空间，RDPP的可扩展性如何——是依赖近似求解还是能保证严格最优？