谈及研究AI自动审稿系统的初衷,卡内基·梅隆大学博士后刘鹏飞说,“在不同的时期背景下,都会有一些新的、不同的发展需求;一个人如果能感想熏染到它并且把握住,那么就会成为这个时期所在领域的弄潮儿,或者成为所在领域的领先者。”
科学研究的快速发展,使得同行评议的科学出版物呈现指数级增长。以机器学习和打算神经科学国际会议——神经信息处理系统大会(NeurIPS)为例,2017年其投稿量有3000余篇,至2020年,上升到了1万余篇。繁重的审稿事情给现有的审稿机制带来了巨大的寻衅。
“以是我们思考自动审稿的可能性,即AI能否帮助我们从繁重的审稿事情中解放出来?”刘鹏飞于是和卡内基·梅隆大学硕士生袁玮哲、助理教授格雷厄姆·纽比格互助,动手研究AI自动审稿系统“ReviewAdvisor”。在日前的智源社区青源LIVE活动上,刘鹏飞与袁玮哲在线分享了研究该系统的进程。
解构
之前,也有人考试测验做“自动审稿”任务,但这些事情险些都是把AI天生的评审见地和人写的见地混在一起,让大家看看能不能区分。这些事情很难评价AI天生的评审见地是否合理以及高质量。
可以说,AI自动审稿这项事情的第一个贡献,便是提出了一些评价指标,能够从多角度刻画“评审见地”的质量。
“对付我们来说,首先须要回答的一个问题是,什么才是一个好的评审见地。”袁玮哲认为,否则自动审稿系统就无从谈起,“由于就算设计出了系统,没有好的指标去衡量天生的评审见地的质量,也很难去提升系统”。
为此,3人查阅了很多顶级会议的“论文评审指南”,总结出了一个好的评审见地该当具备的特色,紧张有5个方面:判断性、全面性、合理性、准确性、拟人性。例如,判断性是指评审见地对一篇论文质量好坏的评判,与这篇论文末了是否被吸收之间的关联性。
同时,“我们也希望系统天生的评审见地,与人写的评审见地比较,在书写构造、语义逻辑等方面,都该当是比较类似的。”袁玮哲说。
建模
评价指标的寻衅解除后,随之而来的是数据集的寻衅。“同行评审数据非常少,而且评审数据都是非常私人的,不愿意公开。”袁玮哲认为,之以是此前很难做“自动评审”这样的研究,数据少且不公开是主要缘故原由。
而后涌现的“公开评审”平台,让人们有机会从中得到一些评审见地数据。但由于前几年的投稿量非常少,“公开评审”平台上只有几百或者上千条数据,这样的数据量也很难进行一些自动审稿模型的演习。但近年来恰逢AI研究非常火热,投稿量基本上是年年翻倍,研究职员能够从公开评审平台上网络到足够多的数据,担保模型演习。
于是,3人用网络爬虫工具,获取了2017年~2020年的ICLR(国际学习表征会议)和2016年~2019年的NeurIPS会议的公开评审数据,一共网络到了8000多篇论文以及2.8万多条评审见地,一篇论文一样平常对应3~4条评审见地。
但爬取的这些评审见地数据,都是纯文本形式的,AI系统是无法理解的。“我们须要对评审见地里的信息进行‘表征’定义,然后,我们采纳了一种半人工半自动的方法,对数据集进行标注。”袁玮哲表示,终极得到了质量非常高的数据集。
在其后的模型演习环节,研究职员先在论文中抽取一些非常主要的句子,用这些句子来做评审见地的天生。在这种先抽取后天生的框架下,他们综合利用了2种抽取策略以及两种天生策略,并终极成功形成了AI自动审稿系统“ReviewAdvisor”。
伦理
AI自动审稿系统“ReviewAdvisor”出来后,得到了很多正向的反馈。有人在试用了该系统后,表示该系统天生的评审见地,比过去他收到的一些由专家写的见地更具有培植性。
那么,论文审稿人真的就要被替代了吗?
在对一些客不雅观条件识别方面,“ReviewAdvisor”具有明显的上风。例如论文违反了匿名规则,系统可以很快识别出来,直接给出“拒稿”见地。
但是,“我们的系统也会天生带有偏见的评审见地。”袁玮哲说。
对付英语为母语的作者的论文和非英语为母语的作者的论文,由人写的评审见地和系统天生的评审见地都认为,在论文的“清晰性”方面,英语为母语的作者表现得更好。袁玮哲认为,这或许是有一定道理的,“确实非英语为母语的作者在写文章时,用英语表达不雅观点会有一些困难”。
但是,系统天生的评审见地还得出“英语为母语的作者的论文更具有创新性”。袁玮哲说,这可能是系统目前在“偏见”方面存在的比较显著的问题。
研究论文提交后,谷歌公司科学家在推特上说,“可以考试测验一下这个别系,但千万不要用这个别系的结果取代审稿事情,否则也太对不起被审论文的作者了”。
来源: 《中国科学报》