《中国人工智能指数报告》由长江商学院人工智能与制度研究中央主任许成钢和武汉大学大数据与云打算实验室主任崔晓晖团队共同研究制作。该报告从学术、家当、开源软件包利用等方面进行中美比拟,以此度量中国的人工智能在最近十几年里的发展及影响。
论文质量的差距巨大
从1995年至今,在Scopus数据库中(本文论文干系数据皆源于此数据库),可以被检索到的标注关键字为 Artificial Intelligence的全部中、美人工智能论文数量。
近些年在描述中国人工智能进步巨大的一个证据是,中国人工智能论文的揭橥量,在快速靠近美国。这一趋势在2016之后尤其明显。但在最具原创性最具影响力的极高引用率和高引用率的论文方面,中国与美国的差距相称显著。最刺眼的是,中国人工智能论文数量大幅增加的同时,零引用的论文也在大幅领先于美国。而论文的千次、百次级别的引用,中国又大幅掉队于美国。
图1 中美人工智能期刊论文年度揭橥量比拟
图2 中美千级期刊论文引用总数量比拟剖析
图3 中美人工智能期刊论文被引用总数
中美学者每年在期刊揭橥的所有人工智能论文的被引用总数。由图可见,美国学者揭橥的期刊论文被引用数始终明显高于中国学者揭橥的论文。但是在2010年之后,中美之间的差距迅速低落,呈收敛趋势。
图4 中美百千级期刊论文引用总数量比拟剖析
中美两国学者揭橥的千级以及百千级期刊论文的总量以及被引用数。由于最具有影响力的论文被大量引用须要韶光,我们只报告在2013年前揭橥的期刊论文中被引用次数达到或超过1000次和500-999次的论文的数量以及被引用总频次。美国在千级期刊论文揭橥数量及总引用量方面均远高于中国。中国学者在2004年,2005年和2007年各涌现了一篇千级期刊论文,而同一期间美国学者揭橥了12篇千级引用量的期刊论文。在百千级期刊论文揭橥方面,美国仍旧上风明显,但是两者之间的差距自2008年开始收窄,并于2010年基本趋于同等。总体上,中国学者在2004年,2005年以及2013年各揭橥了两篇百千级期刊论文;并于1997年,2006年,2008年以及2010年各揭橥了一篇百千级期刊论文。
图5 中美百级期刊论文引用总数量比拟剖析
百级引用量期刊论文和十级运用两期刊论文的揭橥数量以及被引用频次上,中国和美国在2010年前始终保持很大差距,但是在2010年之后两国差距逐步缩小。其余值得把稳的是,在个级引用量以及无引用量的期刊论文方面,两国差距不是很显著,尤其是从揭橥数量上看,自2011年起中国开始小幅领先美国。
图6 中美零级期刊论文揭橥总数量比拟剖析
在零级会议论文(从未被引用的论文)方面,从2007年之后,中国作者的会议论文总数大幅度超过了美国。我们统计的所有会议论文都是在同行评议的专业期刊揭橥的会议论文,即会议论文的学术标准有同行评审制度的担保。我们推断,零级会议论文的主体是运用性的。可能因运用范围狭窄,这些论文没有被引用。比较之下,最高影响力的会议论文都在普遍方法论方面具有首创性。由此,我们概括,在影响最大的根本方法论方面,美国持续领先中国。在中间水平的研究方面,中国与美国的差距在缩小。而在详细运用的方面,中国揭橥的会议论文数量则超过了美国。
家当差距拉大
中国生动的人工智能初创公司数字在2012年之前多于美国,但是在2012年往后被美国超越。如图所示,中国的人工智能创业公司在2012年之前多于美国,但是在2012年往后美国不仅超过中国,且大幅度加速增长。中国人工智能创业公司在2015年往后呈大幅低落趋势;相反,美国方面在2012年之后在人工智能领域生动的创业公司数量呈现快速上升的趋势。尤其是在2016年之后,中美两国在家当领域的差距进一步加大。2016年之后,美国的人工智能初创公司数量快速上升,在2018年超过600家。在家当领域,中国生动的人工智能初创公司于2016年超过400家,达到顶峰,然后开始低落,在2018年降至不到200家。(以上趋势由本报告补充腾讯2017年揭橥的《中美两国人工智能家当发展全面解读》而得出。图7显示风险投资支持的、中美在人工智能领域生动的创业公司总数的统计。数据来源为投资界网站)
人工智能家当须要长期研发投入,短期很难得到收益。中美两国生动的创业公司的数量的比拟,彷佛表明中国在人工智能领域家当的投入后劲不敷。这点在腾讯报告中也有提及。我们在这个方面的报告,只是对腾讯报告的补充。
图7 中美人工智能领域创业公司数量比拟
Figure 52. Number of startup companies in AI: China vs. US
开源人工智能软件包是人工智能研究,尤其是人工智能运用研究方面的主要根本。国际上多数开源AI软件包都由开拓者存放在GitHub软件库中,供从事AI运用方面的研究者利用。本节比拟中美人工智能研究者在GitHub软件库中,关注(stare)不同AI软件包的数字,以此作为利用开源AI软件包利用的指数。
2017年以前美国开拓者关注人工智能软件包数量要高于中国,2017年往后中国开始超过美国。
图8 中美AI研究者的AI软件包关注总数比拟
Number of AI software packages starred by Chinese and US researchers
比拟中美运用AI研究者利用开源AI软件包的总体情形。我们比拟他们对所有开源AI软件包的关注总数。中国运用AI研究者关注开源AI软件包的数字,在2015年之后经历了快速增长,到2017年中往后,超过了美国。这可能意味着中国研究者在利用中美开拓的开源软件包做AI运用研究规模超过了美国。
图9 中美AI研究者关注中美开拓的开源AI软件包的比拟
Developers of AI software packages starred by Chinese and US researchers
上图将中美两国AI研究者关注的开源AI软件包的开拓机构按照国别比拟。如图所示,绝大多数中国AI研究者利用的开源AI软件包,都是美国机构开拓的,个中利用最多的是Google开拓的Tensorflow。整体上,中、美AI研究者关注的美国机构开拓的开源AI软件包的数字,相称于他们关注的中国机构开放的软件包的数字的二十几倍。这表明中国研究者在基本算法方面,对美国开源软件包的依赖。
其余,通过人才行业分布比拟可知,中国在智能交通、自动驾驶,智能、精准营销,硬件、GPU、智能芯片需求比例要多于美国,而中美两国在算法、机器学习的需求量上要远高于其他领域。
许成钢进一步指出,在人工智能的基本算法、芯片、传感器等方面,中国掉队于天下上多数发达国家,除美国外,英国、德国、日本、以色列等国家都领先于中国。美国的AI家当布局非常完善,根本层、技能层和运用层都有涉及,尤其是在算法、芯片和数据等核心领域,具有强大上风,各层级企业数量全面领先中国。中国AI家当在根本元器件、根本工艺等方面差距尤其大。