2012 年,TigerGraph 在硅谷成立,由华人科学家许昱博士创立,深耕大数据图剖析领域。
在默默耕耘 6 年之后,2017 年 11 月 8 日,TigerGraph 的下一代图数据库在美国正式发布,在市场上引起了轩然大波,这家公司也一跃成为了受人关注的明星。

随着人工智能技能的发展,市场对付性能的哀求越来越高,然而光靠硬件的升级已经无法完备知足利用者的需求,配套的软件产品如果跟不上发展,效率也无法达到哀求。
图数据库的涌现,在很大程度上办理了性能的问题。

或许对有些读者来说,这还是一个新的观点,我们专门对 TigerGraph 中国区总经理乌明捷进行了独家专访,除了为我们科普图数据库的根本观点外,他还从市场、技能等层面全面解读了图数据库的运用处景和发展未来。

以下是视频采访的全部内容,为方便读者查看,视频下方也附上了笔墨内容。

TigerGraph 独家解读图数据库的现状与未来

InfoQ:感谢老师参加 AICon2018 的采访,首先请您做下自我介绍,然后大略先容下您所在的公司及创始人的基本情形。

乌明捷:我是 TigerGraph 卖力中国区的总经理乌明捷,TigerGraph 是个年轻的公司。
我们总部是在硅谷,创立于 2012 年,创始人许昱是华裔的科学家。
他曾经在推特等业界有名的大公司事情过。

他参与过前沿技能的研究与收购,在事情过程当中,他看到了接下来十年的非常大的技能趋势,图数据库运用将会有非常普遍的运用的机会。
通过理解市情上现有的开源的工具,他以为有机会去做这样的事情。
其余在一个非常有时的机会,我们也找到了高性能图打算的专家。

我们创始人有个观点,也是我们团队非常认同的一个代价不雅观:图数据库是新兴的技能,速率和支持数据规模是它的核心代价,如果图数据库不足快,新的技能是不会替代旧的技能。
在全体公司的发展过程当中,我们对付性能的追求,对付知足工业界运用的追求,始终没有停滞,其过程也是非常的艰巨。
我们公司是 2017 年才正式发布产品,在此之前,我们整整做了 5 年的开拓。
这个过程确实是一个非常难的过程,由于我们从事的领域是底层技能的部分,非常艰巨,很少人去做。
5 年的韶光,很光彩的是我们能走到本日这个程度,现在的产品也成熟了。

InfoQ:能否请您为我们遍及一下图数据库的观点?先来谈谈什么是图数据库?

乌明捷:首先,图数据库不是存储图像的数据库,那个是 Image 数据库。
图数据库和传统的关系数据库比较,便是图和表的差别。
图数据库是用点和边来表达数据之间的关系,是更自然的存储办法,更专注于工具之间的关联。
传统的关系型数据库,可能是在记录交易的场景更有上风,在运用发展的某一个阶段更随意马虎让人学习和利用。

现在,我们讲社交关系是一种图,我们买东西、交易是一种图,资金是一种图,包括现在的知识也是一种图,图数据库是在知识图谱底层的一个根本举动步伐,它把数据用图、用点和边的办法存储起来。

InfoQ:从您的角度看来,研发职员为什么须要图数据库呢?与传统数据库比较,图数据库有哪些方面的上风、特点?可以举例来解释。

乌明捷:研发职员用图数据库最大略的一个缘故原由便是性能。
大数据时期,数据量非常大,大家网络的数据非常多,我拿到数据不代表我能利用数据,真正利用数据是获取现有数据等分析产生业务代价。
研发职员现在转向图数据库很大的缘故原由是:我有大数据平台,但是我的查询很慢,看上去靠硬件已经不再能产生质的变革,这个时候技能职员想到的是:我是不是有个新的方法办理这个问题?图天生关注工具和工具之间的关系的,当你去做深度搜索的时候,它就会带来一个特殊大的上风。

我以为还有一个缘故原由便是大家现在在业务场景当中去关注关系,创造隐蔽的关系,这个在传统的数据库里很难做到,比如给到你两个人,问这两个人是不是有关联。
传统的数据库是:查询的条件是通过看手机,还是看地址,你得见告我,不然的话没法查。
在图上面的话,它的模型就非常随意马虎理解,我查的是这两个点之间有没有路走的通,只要能够走的通,不管是手机还是地址,都是有关联的。
这是图天生的一些上风。

InfoQ:根据您目前的履历,图数据库的目前发展情形到了若何的程度?在程序员群体中的遍及度如何?

乌明捷:这个问题分两个情形来讲。
现在在硅谷,在外洋,图的运用已经有一个共识:它可能是接下来十年的大数据智能信息查询的一个大趋势;在中国,我们看到越来越多的公司开始关注这个事情,今年下半年,特殊是百度、阿里他们有推出自己的图数据库,从 TigerGraph 的角度来讲,我们非常高兴的是有更多公司开始去做这个事情,大家一起把这个市场唤醒。
现在越来越多的人来咨询我们,大家现在都在探索运用的场景,希望真正能够产生业务代价,有一些先行的客户,已经在这个事情上得到了非常好的回报,我们看到后来他们就在图上面投入非常多。

InfoQ:请您先容一下 TigerGraph 公司的团队当初是怎么样的缘故原由打仗到图数据库,后来选择研究这一技能的动力是什么呢?

乌明捷:我们前面有谈过,由于创始人本身是做大数据的,他很早就看到了大数据在发展到一定阶段的时候,信息获取不再是困难,而是已有的数据里面,提取须要的部分越来越困难,这个时候靠硬件已经不再能办理问题,他看到了这个场景;第二个,我们的创始人一贯是在工业界,他在工业界的履历非常丰富,我们看到市场上有一个非常大的缺口,没有人去负责的研究这个事,以是我们花了很长的韶光去做这件事。

InfoQ:在您看来,图数据库与人工智能技能的结合点在哪里?它的涌现办理了人工智能数据方面的哪些痛点?

乌明捷:人工智能是个很大的话题,我想把我们这个问题就再往小轻微限定一下,由于人工智能包含的观点很多,包括图像识别,智能机器人,这些是其余一个领域的部分。
我们可能比较关注的部分是和机器学习、商品的实时推举以及实时行为的解读,这一部分是能够通过数据获取来进行剖析的。

由于机器学习非常依赖于特色,以是我们认为在机器学习和实时推举的这个角度,我们可以供应两个东西:第一,在图上面的话,我们是无差别的去提取特色的,在打算之前,你不须要见告我,我要往哪个特色方向去走,这便是前面讲到图的特性,由于对我来讲都是一样的点,只是不同的类型关系而已,对图来讲,我们可以对所有的特色进行关联,没有好的特色坏的特色,所有的能关联起来便是特色。

第二,由于我们能够做到实时的打算,在演讲的时候,我分享了一个案例,我们把传统的静态的特色,通过一度联系人、两度的联系人,把它的特色提升一个量级,我们把 20 个特色提升到了 122 个特色,这个是终极我们固定下来有用的特色。
有一个理论叫做六度理论,便是天下上任何两个人通过六个人的关系就能够关联起来,当数据能够从它的一度联系人开始,每多走一步,我们获得到的特色干系的信息是指数级增长,这些增长的信息,带给机器学习的丰富性和准确性会有质的提升,这个在我们的很多案例里得到了表示。

InfoQ: TigerGraph 的图数据库有哪些上风和特点?与同类产品比较有什么差异?

乌明捷:我们前面也聊到了,我们非常强调性能,以是我们给自己了一个定义:我们是一个分布式的实时大图。

阐明三个观点:第一个我们是分布式的,我们要能支持大数据量级,须要能知足现在大数据时期规模的支撑;第二个我们是实时的,我们的数据可以实时更新,然后通过分布式的技能,我们希望终极供应的查询在秒级返回;末了我们由于用了 G-SQL 的开拓措辞,让技能职员快速学习并发挥上风。
同时我们开源了自己的 G-SQL 算法库,希望可以让这个学习过程变得更加随意马虎。

我们看到了市情上很多开源的图数据库还有传统关系型数据库的特色来描述事宜,而我们从最开始的时候,便是按照图论的办法研发,是完备从图的构造去适应的这样一个别系,如果去试着用一下我们的系统,刚开始大家上手有点陌生感,但是用了一段韶光之后,对图理解越深的人会把这个技能用的越好。

InfoQ:前不久,纽约大学、纽约大学上海分校、AWS 共同开源了一个面向图神经网络及图机器学习的全新框架,命名为 Deep Graph Library(DGL),您如何评价这一框架?它的涌现对付图数据库与 AI 的研究带来了哪些影响?

乌明捷:有关 DGL 我们也去做了一点作业。
DGL 是一个面向专用剖析领域,或者某个特定方向的实时查询与高性能模型,和我们现在从事的领域有所差异。
工业界的图数据库,我们追求的方向是一个通用,一个根本性的模式,现在他们推出的这个模型,我们打个比方,像 AI 推出的芯片,它会在某一类的运用当中做尽可能的多的优化,但是不会考虑作为一个根本软件用在所有的方向里。

InfoQ:关于图数据库一贯有一个辩论:图数据库是否比关系型数据库更加前辈?您对付这一辩论的意见是若何的?

乌明捷:只是从技能和学术角度来讲,图数据库是关系型数据库的一个超级;从工业角度、实用角度来说,现有的关系型数据库已经发展的非常成熟了,对用户来说有一个非常大的寻衅是迁移的本钱,我认为现在成熟的运用和运用处景,它已经达到足够的业务场景的须要的情形下,客户是不会轻易的去做这个变换,但是在未来的十年里面,在大数据、机器学习、AI 场景当中,关系型数据库会有瓶颈,这个时候大家会考虑图的新的图的运用处景,我认为新的图的运用处景会更多一点。

InfoQ:有关图数据库未来的发展,您有若何的期望?

乌明捷:开源的图数据库,我以为会走向稳定,会运用在一些成熟的运用处景,比如说数据不必频繁更新,我的查询是可以等待的一个场景下,这个技能会逐渐稳定下来,适用的人群会很多。

现在的业界在高速发展,有很多研发的量投入在实时处理或者超大数据量级上面,我们现在还在推进我们更极限的性能,由于实际利用场景中,特殊在现在的中国市场,大数据规模是非常惊人的。

我们在实际的场景里面看到,现在的系统还是有边界的,我们在探索真正超过这个边界的极限在哪里,在担保实时的情形下,现在业界的一些大的厂商研发的方向都在往这个方向去。
我们看到了金融运用、电商的运用,他们对付韶光,对付相应速率,对付数据规模都有非常严格的哀求,这个部分的前沿性,不只是在海内,全体在业界,在环球范围之内都是现在非常热的东西。