只管,国外早有运用于地震新闻自动天生和发布的同类产品,2014年3月17日,美国洛杉矶发生4.4级地震,洛杉矶时报就曾利用Quakebot机器人,花3分钟写了一条地震新闻,但现在,海内的互联网用户直不雅观感想熏染到了机器人在快速宣布地震灾后情形上较为明显的上风。

这条内容经由“中国地震台网”微信"大众年夜众号推送,迅速刷爆微信朋友圈,也再次引发了写稿机器人将在多大程度上影响新闻编辑室的谈论。

而从人工智能学术界和家当界的角度来说,谈论写稿机器人,首先该当从谈论驱动机器人写稿的核心技能自然措辞处理(Natural Language Processing,简称NLP)开始。
对付技能背景和实现方法的理解,能让新闻从业者进一步明晰写稿机器人的发展现状,精确看待当下的运用代价及未来的开拓潜力。

机器人写稿的技能背景

机械人写稿的技能事理及实现方法

机器人写稿,背后的核心技能是自然措辞处理,同时涉及数据挖掘、机器学习、搜索技能、知识图谱等多项人工智能技能。

自然措辞处理是指机器理解并阐明人类写作、说话办法的能力。
目标是让打算机/机器在理解措辞上像人类一样智能,终极能填补人类互换(自然措辞)和打算机理解(机器措辞)之间的差距。

NLP研究发展到现在,基本经历了三个阶段。

打算机刚刚发明之后,人们就开始了自然措辞处理的研究。
那时的NLP研究都是基于规则的,便是研究职员想一些处理规则,然后打算机按照人设置的规则去处理文本。
但是在运用中,很快创造许多现实天下的繁芜问题并不是人想出一些规则就能办理的。

1990年,第13届国际打算措辞学会议在芬兰赫尔辛基举行,当时的主题是“处理大规模真实文本的理论、方法与工具”,学术界的重心已经开始转向大规模真实文本,传统的仅仅基于规则的自然措辞处理显然力不从心了。
此后,NLP技能的主流是基于统计的自然措辞处理,广泛运用于机器翻译、语音识别、拼音输入、图像笔墨识别、拼写纠错、查找错别字和搜索引擎等。

而从2008年至今这不到10年间,在图像识别和语音识别领域的成果勉励下,学术界开始逐渐引入深度学习来做NLP研究,并在机器翻译、问答系统、阅读理解等领域取得一定成功。

随着NLP、深度学习以及大数据等技能的长足发展并开始在工业运用上大放异彩,处于快速转型期的新闻行业,也对这些技能在新闻生产领域的运用展开了积极的想象。
写稿机器人,正是技能发展和行业变革催生的一股潮流。

机器人写稿的三种实现方法

NLP的机制涉及两个流程:自然措辞理解(Natural Language Understanding,简称NLU)和自然措辞天生((Natural Language Generation,简称NLG)。

现有的写稿机器人,或者广义来说,便是一个自然措辞天生系统,紧张有模板式、抽取式和天生式这三种技能方向。

1.模板式

模板式是目前运用最成熟、也是最随意马虎理解的一种实现方法。

当前模板式的机器人写稿方法,紧张是通过利用优化算法,智能选择不同的模板组合进行新闻天生。
详细的实现过程包括:基于输入的知识点与模板库进行候选模板检索;利用优化算法进行智能模板筛选,确定终极真正利用的模板;基于筛选得到的模板进行新闻文本天生。
地震写稿机器人、腾讯的DreamWriter等,都是这一类范例产品。

以DreamWriter为例,这是腾讯技能团队开拓的自动化新闻写稿机器人,它能根据算法在第一韶光内自动天生新闻稿件,对新闻事宜主题进行实时剖析和研判,结合一系列的数据库和机器学习算法等技能,在较短韶光内为用户传送主要的新闻资讯,帮助用户快速解读内容。

DreamWriter生产一篇完全的新闻,紧张由五个步骤组成:培植内容数据库,基于数据库的机器学习,基于详细主题进行写作,以及末了的内容审核和渠道分发。

首先,研发职员须要为 DreamWriter构建一个内容丰富、具有海量新闻数据的数据库,比如每个赛季完全的欧洲主流足球联赛的全套数据,从球员、球队、赛事安排、比赛进程、环境成分、球员之间的对抗数据等等各个细分维度,对数据进行归类、整理,形成一个弘大而又精准的数据仓库,这个弘大的内容数据仓库就成为了机器人自动天生足球新闻宣布的质料仓库。

在完成数据库培植的根本上,干系的大数据技能团队就会基于数据剖析和算法设计,对付数据仓库中每一项数据所对应的写作模板进行学习和理解。
基于模板的机器人写稿学习过程如下图所示:

比如宣布一个足球赛事,DreamWriter这类机器人就会在前期的学习过程中,去理解球员比赛过程中的详细动作,包含了射门、扑救、铲球、传球以及犯规等动作,DreamWriter会将这些动作名词进行随意组合,同时结合足球比赛的规则特点,变成一整套足球赛事内容表述。

由于随意的组合,内容会涌现严重的差错,因此DreamWriter会基于数据仓库中的文本内容进行大量的演习学习,终极使得DreamWriter的写作水平能够靠近乃至达到标准新闻写作的水平。

在实现短文本的内容天生后,DreamWriter会基于新闻的整体宣布主题,比如体育或者财经,来天生一个特定的新闻内容框架,在内容框架下,DreamWriter会天生相应的文本内容,形成一篇宣布。

DreamWriter目前的紧张功能仍局限于体育财经类的资讯,由于这类内容宣布构造相对固定,对DreamWriter来说,写作难度并不大,但面对类似突发性新闻等比较难以预期的新闻,DreamWriter的表现水平就有待提升了。

2.抽取式

在新闻信息领域,利用机器人从海量的已有文本素材中抽取主要信息,进行“二次创作”,也是一种较为常见的自动写稿方法。

当前,一个范例的抽取式自然措辞天生场景是,基于抽取式的文本自动择要天生。
它是能够帮助用户短韶光内从海量数据当中抽取主要信息内容的有效路子,也是在新闻搜索、个性化推举等场景下,从原始文本内容中快速抽取主要信息,天生核心择要内容的主要方法。

自动文摘天生紧张由三个步骤构成,如下图所示:

图中的文本分析过程是对原文本进行剖析处理,识别冗余信息;文本内容的选取和泛化过程是从文档中辨认出主要信息,通过摘录或概括的方法压缩文本,或者通过打算剖析的方法形成文摘表示;文摘的转换和天生过程实现对原文内容的重组或者根据文本内部位置表示信息来天生文摘,确保文摘的连贯性。

基于抽取式的自动文本择要技能运用最广的领域在于新闻。

新闻信息的过载,让人们急迫希望有这么一个工具可以帮助自己用最短的韶光理解最多的最有用的新闻,而很多新闻为了哗众取宠,故意将标题起得特殊吸引眼球,但却名不副实,因此就有了Yahoo公司的Summly产品(一款新闻择要App)。
其余,新闻搜索引擎也是运用之一。

以百度搜索页中关于中国队对阵卡塔尔的天下杯预选赛新闻宣布为例,可以大略解释基于抽取式的自动文本择要技能如何帮助用户节省浏览新闻耗费的韶光。

中卡预选赛之前百度搜索页中的宣布情形。

当用户通过关键词搜索“中国对战卡塔尔 天下杯”干系内容时,在页面的新闻推举列表中,每条新闻的标题下会有一个对应的简短内容择要呈现给用户。
此时用户通过浏览择要的内容,就能大致理解整篇新闻的紧张内容,并且帮助用户能在第一韶光对多篇新闻内容进行筛选。
个中择要的内容必须担保和全文的干系性,同时也要担保新颖性,尽可能减少冗余信息。
在天生这些择要文本的背后,是有一整套机器学习算法和深度学习技能在支撑。

首先,搜索系统根据用户意图从新闻库中搜索出所有有关中国与卡塔尔天下杯预选赛的新闻,并且进行预处理,包括分词和分句的处理,即将文本分成一个词的凑集以及句子的凑集。

接下来基于一系列算法实现对付句子的主要性排序,个中范例的有基于图排序和基于特色的排序算法。
图排序算法会构建一个图网络模型,文档的每句话都看作是图网络中的一个节点,句子之间的相似度作为节点之间的边权值,句子之间的相似度打算公式如下:

利用PageRank事理来迭代传播权重打算各句子的得分,作为天生短择要的主要参数,图模型公式如下所示:

基于特色的算法紧张是会考虑到句子的干系特色,例如句子长度、句子位置、关键词得分、是否包含标题词等等,通过TextTeaser算法得出句子的主要性得分。
比如中卡之战新闻的短择要中,可以看到择要里面的内容都是跟新闻主题保持紧密干系性,没有其他冗余信息掺杂。

在求得句子的干系性根本上,通过引入一个惩罚因子,将句子的新颖性作为参考成分加入到终极的排序当中。
终极得到的结果一样平常是干系性排序后的前N句话,为了担保可读性,须要按照原文中的顺序,将排序之后的句子按原文顺序输出,在一定程度上担保语义上的连贯性。

目前,这一模式在一些新闻编辑室中也已有所运用。
比如微软(亚洲)互联网工程院的人工智能产品小冰入驻钱江“浙江24小时”客户端,变身机器人,个中一项职能便是基于微软必应搜索引擎,利用全网大数据和公开的社交平台数据,生产包含一张图片、一个标题、一段梗概、两个不雅观点的“新闻卡片”。

3.天生式

以上两种技能在新闻资讯领域的运用,已相对常见。
而天生式,在现阶段尚无范例的产品。

天生式自然措辞天生,紧张指通过序列的深度学习和增强学习技能,机器可以根据现有文本天生模型,比如说机器人会把数据库里某些更新的信息用自然措辞的形式写成宣布。
当然,这种宣布不须要特殊深入的调查,也不须要去理解各个事宜背后的关系,理论上这是可以由机器来做的。

当前比较热门的AI天生文本的场景有:例如,用莎士比亚的作品来做演习,模型就能天生类似莎士比亚的句子;利用汪峰的歌词做演习,模型也能天生类似歌词的句子来;或者是自动天生新闻标题等等。
这类产品很多都是引入了一些深度学习模型,像Seq2Seq+Attention模型等,基于大量文本集进行学习,然后自动天生一些比较靠近于人类日常表达办法的文本。

Seq2Seq模型基于输入序列,预测未知输出序列。
模型由两部分构成,一个编码阶段的”Encoder”和一个解码阶段的”Decoder”。
如下图的大略构造所示,Encoder的RNN每次输入一个字符代表的embedding向量,如依次输入A、B、C 及终止标志,将输入序列编码成一个固定长度的向量;之后解码阶段的RNN神经网络会一个一个字符地解码,如预测为X, 之后在演习阶段会逼迫将前一步解码的输出作为下一步解码的输入,如X会作为下一步预测Y时的输入。
Seq2Seq模型如下所示:

以下,我们选择中卡天下杯预选赛的干系新闻凑集为语料,包含新闻的标题和正文的信息,基于Seq2Seq模型来考试测验用机器自动天生新的标题内容。

首先对网络的新闻凑集须要进行预处理,包含去除一些分外字字符、表情符以及全角英文等等,同时对日期、数字等进行更换。
在完成预处理后,准备进行演习的语料: source输入序列定义为新闻的正文内容,带预测的目标序列为该新闻内容的标题。
为了担保演习的正文不宜过长,source序列的分词个数要限定在一定的数量,比如100个词旁边,同时目标序列的长度也有哀求,担保在30个词以内。
接下来基于Seq2Seq+Attention演习天生模型。
模型演习完成之后,可以输入一些分好词的新闻正文,来自动天生标题,与人工编辑的新闻标题进行比拟。

新闻部分核心关键词

新闻标题

机器天生标题

国足,客场,卡塔尔,强赛,主场,资格,小组,积分,乌兹别克,排名,男足,输给,拿到,比赛,形势,第三,对手,得到,参加,要素,附加赛

中国VS卡塔尔 国足想拿小组第三需知足四大要素

中国对手卡塔尔 出线形势

中国队,卡塔尔队,天下杯,客场,初赛,比赛,强赛,击败,苦主,晋级,刷卡,主场,降服,亚洲,无缘,提前,末了,预选赛,俄罗斯

国足vs卡塔尔前瞻:出局对手多次击碎国足出线梦

卡塔尔击败中国 多次不胜

上面的表格将编辑人工天生的新闻标题与机器天生的标题进行比拟,可以看到基于Seq2Seq天生办法得到的标题一定程度上能够反响内容主题,但从标题语句连贯性以及和主题干系性角度来看,还无法达到人工编辑的水平。

结语

通过上述剖析,我们大略描述了目前机器人写稿的事情机制。
只管天生式,在理论上最智能,或许也可视为自然措辞天生技能更高等的目标。
但从现阶段的运用来看,显然模板式和抽取式,在利用效率和可靠性上更优。
自然措辞天生,从学术领域的研究,到陆续有一些创新产品和项目运用于工业界,是一种巨大的进步,但仍有很长的路要走。

对付新闻行业来说,人工智能技能的运用,可以极大提高出稿效率,对突发事宜实现快速反应;媒体从业者也可以借助人工智能技能把内容运送到算法推举平台,实现精准传播;又可以依托于人工智能技能获取不随意马虎得到的数据。
这统统都能极大地推动新闻创何为至媒体传播领域发生打破性变革。

但同时,人工智能也可能会给新闻编辑室带来一系列新的问题。
比如,机器人可能无法感知兴趣之外的新事物和新议题,陷入主题狭隘的田地,或者机器人只关心自己关心的事,无法培养新的兴趣,很难像专业编辑职员一样来平衡传统媒体信息筛选、议程设置和普通受众的个人喜恶之间的关系;同时,一些人会利用人工智能技能来伪装人类天生一些虚假的内容,误导用户。
用户的阅读面与视野很有可能会被人工智能算法主导,变成井底之蛙。

文章来源:传媒评论