AI审稿首次席卷ICLR 2025,12222条建议被接受!ICLR 2025正式开启了审稿周期,并首次引入了大模型参与评审。根据最新公布的结果,AI智能体提供了12,222条建议,被审稿人采纳,显著提高了评审质量。ICLR还发布了一份30页的详细报告,介绍了实验中AI在学术评审中的巨大潜力。
研究显示,有26.6%的审稿人根据AI的建议更新了评审,反馈使审稿意见平均增加了80个字,从而提供了更丰富的反馈。此外,AI反馈还在Rebuttal期间提升了讨论活跃度,作者和审稿人的回应篇幅都有所增加。然而,在最终论文的录用结果方面,反馈组和对照组之间没有显著差异,这与设计目标一致。
ICLR是目前唯一允许AI参与审稿的AI顶会。此前,CVPR 2025曾禁止使用LLM参与审稿。ICLR组委会采纳AI建议的原因在于同行评审面临日益严峻的压力,尤其是随着论文投稿量的迅速增长。低质量的反馈不仅让作者不满,还影响了学术交流效率。据统计,ICLR 2024年约有10.6%的审稿人利用LLM辅助完成评审。
为了提升评审质量,ICLR 2025为每位审稿人分配了最多3篇论文,并引入了“评审反馈智能体”,识别审查中的问题并向审稿人提供改进建议。这些建议包括鼓励审稿人改写含糊的评论,突出文章中可能已经回答的问题部分,以及处理不专业、不恰当的言论。
这项试点研究由ICLR联手OpenReview进行,以Claude Sonnet 3.5为核心模型,构建了一个由五个大语言模型协作的系统。在四周内,AI智能体为18,946份随机选取的ICLR评审提供了反馈,占总评审量的42.3%。平均每份评审通过整个处理流程大约耗时1分钟,成本约为50美分。
实验结果显示,收到反馈的评审比未收到反馈的评审更新可能性高17%,且评审长度显著增加。分析表明,89%的评审者至少采纳了一条反馈,总体共有12,222条反馈项被采纳并融入修订后的评审意见中。此外,采纳反馈的评审更清晰、具体、可操作,显著提升了评审质量。
在反驳过程中,反馈组的作者反驳篇幅比对照组长6%,审稿人回应反驳的回复也更长,修改评分的比例更高。研究者对AI智能体提供的69,836条反馈进行了聚类分析,发现大多数反馈针对审稿意见的模糊评论,旨在使其更具体、可操作、论证充分。