下面这段明朝万历年间的“今日头条”,你能看懂吗?

这条明朝新闻所讲的,实在是:

小本买卖免税条约未能落实,小商贩被严重剥削,甚至百姓聚众生事并火烧衙门,造成多人伤亡。
王炀 抢救出公章。

还有其余一条:

明朝版今日头条这个北航校友的开源AI脑洞很大年夜

这条新闻说的是:

陕西天鼓鸣。

这些明朝的“一句话”新闻,都是一个名叫HistSumm的AI算法,根据文言文提炼出来的择要。

天生文本择要的NLP见得多了,古汉语择要总结还是第一次。
这项研究来自就读于英国谢菲尔德大学的北航校友,以及北航打算机系的团队,和英国开放大学。

这项研究最神奇的是,用来处理文言文的算法,是用当代汉语数据演习的。

这个AI,会写明朝新闻

这篇论文题目是Summarising Historical Text in Modern Languages,文中提出的核心算法名为HistSumm。

研究团队分别以古德语和古汉语作为目标措辞,来实现算法的择要提取。

个中,古汉语部分的测试结果,选用了明朝历史文献。

《万历邸抄》,是明万历年间的“今日头条”,抄录自当时的官方“邸报”。
内容包括天子诏谕、民生百态、军事外交等等。

团队利用HistSumm,对《万历邸抄》中的100多段文言文进行了择要提炼。

比如这一段:

个中,story是原文,Expert是人类专家给出的择要。

HistSumm在“相同词汇对”(Identical Mapping)的映射方法下,给出的结果是:

宋应昌撤兵自朝鲜回京。

IdMap+CONV(CONV指简繁汉字转换增强语料库演习)给出的结果也是:

宋应昌撤兵自朝鲜回京。

怎么样,摘假如不是能直接上标题了?

再看另一个例子:

HistSumm给出的择要为:

高拱不忠,已去世了,他妻还来乞恩,不准他。

高拱不忠,不准他妻来乞恩。

以上两个结果也分别是IdMap、IdMap+CONV给出的结果。

可以看出,算法对付一段文言文紧张的人物 、事宜、关系都能准确把握,只是有时会遗漏一些细节。

在与最出色的跨措辞学习模型XLM的结果比拟中,HistSumm的表现都有所超越:

△结果分别在ROUGE1、ROUGE2、ROUGEL基准下得到

实验方法与思路

对古汉语进行择要历练的HistSumm,它的演习数据,实在大部分都是当代汉语。

这是由于,可供模型演习的古汉语数据集,实在太少了。

于是,研究团队构建了一个跨措辞迁移学习框架。

第一步,演习模型的当代和古汉语单词嵌入

对付像中文这样的表意措辞,基于笔画(类似于字母措辞的单词信息)演习的词嵌入是实现最佳性能的路子。
因此团队利用笔画信息来提取汉字的特色向量

此外,还有一点很主要。
与简化字(在演习资源中占主导)比较,繁体字常日有更丰富的笔画,例如,“葉”字,包含’艹’(植物)和’木’(木)的语义干系身分,而它的简化版本(’叶’)则没有。

繁体字的这些特性,有利于基于笔画的嵌入办法。
所以为了提高模型的性能,团队还对繁体化的汉字进行了额外的实验。

建立特色向量空间

接下来,团队为模型建立了两个语义空间,空间中的特色向量既来自当代汉语,也有古汉语。

对付特色向量,紧张采纳两种勾引策略:完备无监督(UspMap)的办法和相同词汇对(IdMap)办法。

前者只依赖于输入向量之间的拓扑相似性,而后者则额外利用古今赞许的词作为依据。

利用当代汉语数据集演习

演习阶段,团队利用了当代汉语数据集CSTS,演习了一个只接管当代汉语输入的总结器。

编码器的嵌入权重,在建立特色空间时,用相应的跨措辞词向量的当代语分区进行初始化。

而解码器的嵌入权重则是随机初始化的,可以通过反向传播更新。

末了,便是模型的收敛。

团队直接将编码器的嵌入权重更换为向量空间中的古汉语特色向量,得到一个新的模型。
这个模型可以用古汉语输入,但输涌当代汉语句子,并且全体过程不须要任何外部并行监督。

大略的总结一下,团队让模型能理解古文的关键,是在特色向量空间中,建立相互联系的古汉语-当代汉语词汇对。
然后再用当代汉语数据演习模型,之后更换掉对应的特色向量。

北航校友科研成果

本研究的第一作者Xutan Peng,目前是英国谢菲尔德大学在读博士生,研究方向是自然措辞处。

Xutan Peng本科就读于北京航空航天算夜学打算机系。

而本文的共同作者中,也有来自北航打算机系的Yi Zheng。

论文的另一作者,谢菲尔德大学的Lin Chenghua老师,本科也毕业于北航打算机系。

本文通讯作者Advaith Siddharthan博士,是英国开放大学Knowledge Media Institute的研究院。

论文地址:https://arxiv.org/abs/2101.10759

开源代码:https://github.com/Pzoom522/HistSumm

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态