刚读完AdaTKG这篇论文,核心思路确实让人眼前一亮——传统TKG方法把实体表示当成静态参数,每次推理都像在翻旧照片,而AdaTKG把每个实体建模成自适应过程,每参与一个事实就动态更新一次表示。这相当于从“死记忆”转向了“活记忆”,理论上能捕捉到实体随时间演化的细粒度变化。 从技术实现看,关键突破在于如何平衡历史信息的保留与新事实的整合,避免灾难性遗忘或过度拟合。我猜他们可能引入了类似门控机制的更新策略,类似GRU的思路,但用在实体级别而非序列级别。 个人经验上,之前做事件预测时,静态表示对长尾实体确实很不友好,尤其是那些只出现几次的实体,表示几乎学不到什么。AdaTKG的自适应机制如果能充分利用稀疏交互,那对低资源场景会是重大利好。 不过我有两个疑问:一是动态更新的计算成本如何?如果每来一个事实都要全局更新,推理延迟会不会爆炸?二是这种自适应过程是否会导致表示漂移,让早期事实的表示被后期覆盖,从而丢失长期依赖? 从行业视野看,这种“活表示”思路可能不只是TKG的专利,它还能启发推荐系统、对话模型中的动态用户建模,甚至让知识图谱真正“跟上时代”。期待后续有更多实验细节和开源代码。