RNN模型
2016年6月,麦吉尔大学( McGill University)的瑞恩(Ryan)等人研究创造,传统的客不雅观评价指标都具有一定的局限性,无法很完全地表示评分与人类评价的干系度,于是考试测验利用RNN的方法进行自动评分模型的演习,并提出了ADEM用于预测回答的人工评价结果,同时也将ADEM的评分结果与传统指标BLEU和ROUGE进行了比拟,证明了自动评价系统的可行性。
ADEM是一个通过半监督性学习方法演习得到的多层RNN构造的评价模型,利用了多层编码器(Encoder)将演习语估中文本转化为向量,演习阶段的输入为对话文本、天生回答及参考回答。ADEM中的编码器将这些语料分别转化为向量,然后通过对这些向量进行线性变换得到一个分数考虑到人工标注数据费时费力,希望演习过程能够用更少的标注数据而达到更准确的预测效果,以是采取了预演习的方法学习编码器的参数,将原模型中的编码器产生的结果输入到一个独立的RNN,然后经由对这个RNN的演习产生特定条件下对特定上文的回答,并把这些数据当作原RNN的演习数据。这样,同样的上文就可以产生许多句不同的回答,从而得到更多的演习数据。实验利用了Twitter数据集,实验之前,作者先通过亚马逊土耳其机器人(Amazon Mechanical Turk,AMT)的志愿者对数据集中给出的不同问题的不同回答进行评分,并且对人工评价的分数做了剖析,根据人工评价得到的分数特点结合现有的上文与回答,再将通过预演习方法天生的大量数据加入到实验数据集中。通过打算自动评价与人工评价之间的Spearman和Pearson的干系性,表明ADEM的评价结果要好于BLEU和ROUGE。