明朝版今日头条这个北航校友的开源AI脑洞很大年夜

下面这段明朝万历年间的“今日头条”，你能看懂吗？

这条明朝新闻所讲的，实在是：

小本买卖免税条约未能落实，小商贩被严重剥削，甚至百姓聚众生事并火烧衙门，造成多人伤亡。
王炀抢救出公章。

还有其余一条：

明朝版今日头条这个北航校友的开源AI脑洞很大年夜

这条新闻说的是：

陕西天鼓鸣。

这些明朝的“一句话”新闻，都是一个名叫HistSumm的AI算法，根据文言文提炼出来的择要。

天生文本择要的NLP见得多了，古汉语择要总结还是第一次。
这项研究来自就读于英国谢菲尔德大学的北航校友，以及北航打算机系的团队，和英国开放大学。

这项研究最神奇的是，用来处理文言文的算法，是用当代汉语数据演习的。

这个AI，会写明朝新闻

这篇论文题目是Summarising Historical Text in Modern Languages，文中提出的核心算法名为HistSumm。

研究团队分别以古德语和古汉语作为目标措辞，来实现算法的择要提取。

个中，古汉语部分的测试结果，选用了明朝历史文献。

《万历邸抄》，是明万历年间的“今日头条”，抄录自当时的官方“邸报”。
内容包括天子诏谕、民生百态、军事外交等等。

团队利用HistSumm，对《万历邸抄》中的100多段文言文进行了择要提炼。

比如这一段：

个中，story是原文，Expert是人类专家给出的择要。

HistSumm在“相同词汇对”（Identical Mapping）的映射方法下，给出的结果是：

宋应昌撤兵自朝鲜回京。

IdMap+CONV（CONV指简繁汉字转换增强语料库演习）给出的结果也是：

宋应昌撤兵自朝鲜回京。

怎么样，摘假如不是能直接上标题了？

再看另一个例子：

HistSumm给出的择要为：

高拱不忠，已去世了，他妻还来乞恩，不准他。

高拱不忠，不准他妻来乞恩。

以上两个结果也分别是IdMap、IdMap+CONV给出的结果。

可以看出，算法对付一段文言文紧张的人物、事宜、关系都能准确把握，只是有时会遗漏一些细节。

在与最出色的跨措辞学习模型XLM的结果比拟中，HistSumm的表现都有所超越：

△结果分别在ROUGE1、ROUGE2、ROUGEL基准下得到

实验方法与思路

对古汉语进行择要历练的HistSumm，它的演习数据，实在大部分都是当代汉语。

这是由于，可供模型演习的古汉语数据集，实在太少了。

于是，研究团队构建了一个跨措辞迁移学习框架。

第一步，演习模型的当代和古汉语单词嵌入

对付像中文这样的表意措辞，基于笔画（类似于字母措辞的单词信息）演习的词嵌入是实现最佳性能的路子。
因此团队利用笔画信息来提取汉字的特色向量。

此外，还有一点很主要。
与简化字（在演习资源中占主导）比较，繁体字常日有更丰富的笔画，例如，“葉”字，包含’艹’（植物）和’木’（木）的语义干系身分，而它的简化版本（’叶’）则没有。

繁体字的这些特性，有利于基于笔画的嵌入办法。
所以为了提高模型的性能，团队还对繁体化的汉字进行了额外的实验。

建立特色向量空间

接下来，团队为模型建立了两个语义空间，空间中的特色向量既来自当代汉语，也有古汉语。

对付特色向量，紧张采纳两种勾引策略：完备无监督（UspMap）的办法和相同词汇对（IdMap）办法。

前者只依赖于输入向量之间的拓扑相似性，而后者则额外利用古今赞许的词作为依据。

利用当代汉语数据集演习

演习阶段，团队利用了当代汉语数据集CSTS，演习了一个只接管当代汉语输入的总结器。

编码器的嵌入权重，在建立特色空间时，用相应的跨措辞词向量的当代语分区进行初始化。

而解码器的嵌入权重则是随机初始化的，可以通过反向传播更新。

末了，便是模型的收敛。

团队直接将编码器的嵌入权重更换为向量空间中的古汉语特色向量，得到一个新的模型。
这个模型可以用古汉语输入，但输涌当代汉语句子，并且全体过程不须要任何外部并行监督。

大略的总结一下，团队让模型能理解古文的关键，是在特色向量空间中，建立相互联系的古汉语-当代汉语词汇对。
然后再用当代汉语数据演习模型，之后更换掉对应的特色向量。

北航校友科研成果

本研究的第一作者Xutan Peng，目前是英国谢菲尔德大学在读博士生，研究方向是自然措辞处。

Xutan Peng本科就读于北京航空航天算夜学打算机系。

而本文的共同作者中，也有来自北航打算机系的Yi Zheng。

论文的另一作者，谢菲尔德大学的Lin Chenghua老师，本科也毕业于北航打算机系。

本文通讯作者Advaith Siddharthan博士，是英国开放大学Knowledge Media Institute的研究院。

论文地址：https://arxiv.org/abs/2101.10759

开源代码：https://github.com/Pzoom522/HistSumm

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一韶光获知前沿科技动态

每期AI知识网

明朝版今日头条这个北航校友的开源AI脑洞很大年夜

中美AI的破冰时刻

你可能不信AI已能根据照片定位你的位置