关于ICLR’25的观察与思考
欢迎知乎搜sonta看原文。近期,我关注到ICLR’25的一篇投稿,标题引人注目《Were RNNs all we needed?》,更有图灵奖得主挂名,因而在公众号和社交媒体上引发了热议。
minLSTM与minGRU的提出
文章提出的 minLSTM 和 minGRU(如图2所示)本质上旨在将隐状态之间的非线性依赖简化为线性RNN结构,以便利用 associative scan 实现并行化训练。值得注意的是,这一思路早在2018年就已有深入的探讨,特别是在ICLR’18上的《Parallelizing Linear Recurrent Neural Nets Over Sequence Length》中提出的 GILR layer。其形式与文中的 minGRU 实际上是等价的,同时也与我们去年在NeurIPS ’23上发表的 HGRN 基本相同,然而该投稿却未对这些相关工作的关系进行讨论。
审稿人的反馈与作者的回应
在审稿人指出 MinGRU 与 GILR 高度相似后(图3),作者试图为自己的“创新点”辩护,甚至在面对实验不充分的质疑时,以“实验室只有P100可用”为借口搪塞(图4,原来MILA只剩P100了)。
公开评论与反思
当我在openreview上发表公开评论后(图5),作者的回应更是让我失望。他们辩称该设计是为了“简化架构,方便新手理解”和“便于Pytorch实现”,同时用类似论述淡化与 GILR 的关联。这促使我发表了一篇“檄文”(图1),呼吁他们正视 MinGRU 与 GILR 的关系(图6),并应该尊重领域近一年来的发展成果(图7),例如我们从 HGRN 到 GLA 到 GSA 再到 DeltaNet 的一系列工作,皆朝向更强的表达能力与高效的线性RNN方向迈进。
总结与展望
综上所述,可以明显感受到本届ICLR审稿人对相关领域的熟悉程度似乎不足。同时,我也在反思是否自己在宣传工作、教育社区方面的力度不够,导致如此离谱的投稿仍能获得8和6的分数。因此,我计划在年底前写一个系列的线性RNN教程,以让更广泛的受众了解该领域的最新发展。
#iclr #iclr2025 #投稿