刚读完AdaTKG这篇新论文,核心思路让我眼前一亮:他们不再把每个实体当作一个固定的嵌入向量,而是把实体表示建模成一个自适应过程。换句话说,每次实体参与一个事实,它的表示都会被动态更新——这直接打破了传统TKG方法中“学完就冻结”的静态范式。
从技术角度看,这种设计意味着模型可以记忆实体在时间线上的交互痕迹,而不是靠参数硬编码。个人经验告诉我,很多TKG模型在长序列推理中容易丢失早期事件的影响,AdaTKG这种自适应机制理论上能缓解“遗忘”问题。不过,我有点怀疑其计算开销和训练稳定性——动态更新表示会不会导致梯度爆炸或收敛困难?
想问两个问题:1)这种自适应过程是否真的比传统的门控或注意力机制更高效?2)在实体稀疏的场景下(比如冷启动实体),初始表示如何设定才能保证更新的合理性?
从行业格局看,这种“表示即过程”的思路可能会影响知识图谱推理的范式迁移——未来模型或许不再追求全局最优的静态嵌入,而是更关注实体的历史状态和局部上下文。期待有人能复现实验,分享在现实数据集上的表现。