前言
数字化深入各行业,数据量暴增之下,中国数据库生态迎来百花齐放。传统关系型数据库之外,新型的非关系型数据库快速发展,如图数据库正在用于重要的场景如金融风控。
近期,蚂蚁金服在 2022 世界人工智能大会 WAIC 上正式宣布,开源 TuGraph 单机版,是图计算与图数据库技术领域重要事件。CSDN 专访了蚂蚁图数据库技术负责人洪春涛博士、蚂蚁技术研究院图计算实验室研究员朱晓伟博士。
**1、五道口+蚂蚁集团的系统长什么样 **
如上图所示TuGraph的前身正是GeaBase,本次讨论的TuGraph图计算系统正是蚂蚁集团与清华大学强强联合后的升级版本。让无数学子魂牵梦绕的清华大学加上让无数女人无法自拔的蚂蚁集团碰撞在一起,究竟会产生什么样的火花呢?这也难怪TuGraph在还没开源前就引起了各界大佬们的极大关注。从事IT工作的朋友们更是跃跃欲试,希望自己能早日加入TuGraph的生态圈,成为使用TuGraph的元老级人物。
蚂蚁集团对图计算技术的探索始于2015年。2015年蚂蚁开始自主研发分布式图数据库、流式图计算等图计算技术系统,并在内部得到了良好应用。2016年蚂蚁集团发布自研图数据库版本GeaBase,并接入支付宝。GeaBase在2019年双11主链路上单集群规模突破万亿边,点边查询突破800万QPS,平均时延小于10ms。2016年从事图计算研究的清华师生成立了费马科技有限公司,于2017年开发出了具有国际领先性能的图数据库产品,能够支持完整的图数据库事务,支持企业级高效图数据存储、查询。
2020年蚂蚁集团整合自有图计算技术系统GeaBase,以及清华大学和费马科技的产品和技术,升级形成的一套完整的图计算系统GeaGraph(后统一采用TuGraph命名),已于2020年通过了信通院大数据产品能力评测,获得 2021“世界互联网领先科技成果” 奖。这套系统集成了蚂蚁集团以及清华大学原有优势,无论从功能的完整性,吞吐率、响应时间等技术指标,还是应用领域,都达到了世界领先水平。
2022年9月1日,在2022世界人工智能大会图智能论坛上,蚂蚁集团宣布首次开源大规模图计算系统图数据库TuGraph。这是蚂蚁集团图计算技术一个非常重要的里程碑。
**2、性能拉满,能抗能打 **
**优点: **
**2.1主打高性能 **
TuGraph是业内首个在大规模图上提供实时服务的图计算平台,拥有世界规模领先的图数据库集群,是世界上最快的单机图计算平台、最快的分布式图计算平台,是图数据库基准性能测试LDBC-SNB世界纪录保持者,性能领先第二名7倍以上。
**2.2、毫秒级延时 **
蚂蚁集团提供了业界领先的实时和时序大规模图分析能力,具备毫秒级处理延时,致力于四天内完成六个月数据的时间穿越式仿真。于业界首创自研完美哈希存储。满足各类场景下的离线数据导入需求,实现包括了 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源与TuGraph的高效数据同步。
**2.3、金融级高可靠 **
通过RAFT协议支持集群高可靠,RPO=0,超越国际灾难恢复能力6级要求;支持事务能力,达到可串行化隔离级别,保障数据一致性。
**2.4、自研可控 **
100%自主研发,自主可控;兼容国产服务器及操作系统。不用担心被卡脖子。
**缺点: **
图数据库仍在发展早期,很多标准化等待蚂蚁集团和大家一起贡献制定,与其说是缺点更是机会。开源的TuGraph,是单机的,架构、稳定性、性能各方面都不错,但是没有分布式的能力。
**3、个人建议 **
当企业中出现如下问题或场景时,选择图数据TuGraph,它会给一个满意的全套解决方案。
1、 企业大量应用场景不需要分布式,更关心成本,性能和易用性。
2、 企业被传统商业数据库束缚,而难以开展创新, 但仍需要商用数据库的性能。
3、 企业在图谱应用项目中图数据库成本过高,易用性差,性能低下。
4、企业拥有TB 级、PB 级的结构化数据和数倍于此的非结构化数据,分布在全球的用户,并以极低的延迟每秒处理数百万个请求。
一、TuGraph,比关系数据库更懂关系
什么是TuGraph?
一句话概括:TuGraph是高效,易部署,语言通用的图数据库。本次开源的是蚂蚁图数据库的单机版,主打高性能。
**1、更懂关系的图数据TuGraph **
传统的关系数据库,它的名字叫关系数据库,但其实它的数据组织形式不是关系原生的,它的数据主要是以表的形式组织的,就是一张一张的表,然后这些表联系起来,是靠表上面的键值连起来的。其实关系数据库应该叫表数据库,而图数据库呢,反而应该叫关系数据库。
图数据库将关系预先保存到关系列表中的这种能力使 TuGraph 能够提供比关系数据库高几个数量级的性能,特别是对于复杂连接的查询, TuGraph能够实现毫秒级的响应。
这两种数据库,有什么样的差别呢?关系数据库,一方面有很好的理论基础的,发展得非常的成熟,有很多的产品,包括性能、功能都很完善。但是另一方面呢,在处理关系的时候,它并不是非常的高效,特别是在处理复杂关系的时候,这个传统关系数据库并不是那么高效的。现在的关系型数据库,当一个表非常大的时候,做这种操作效率非常低的,而用图数据库处理起来就快捷的多。
下图分别展示了关系型数据库和图数据库存储结构对比,相信你马上就知道了为啥图数据库最适合处理关系了。
**2、图数据发展的三个阶段 **
**2.1第一阶段 **
一般企业刚接触到图数据TuGraph,多数用于传统大数据分析手段不能及时处理的场景。因现实生活场景的关系是错综复杂的,越来越多复杂关系需实时分析。如实时定位洗钱团伙的刷单、套现、跑分、借助合法账户洗钱的行为。如下图不良商家常常通过银行卡、熟人来完成套现“回路”,纯资金流的模式无法看出端倪。需要借助图数据TuGraph发现类似模式,提前预防风险。
因此,图数据TuGraph第一阶段主要是解决关系网络数据的存储,查询和分析问题,能支持上层应用对关系网络数据的OLTP业务需求以及离线大规模图数据的OLAP业务需求。
**2.2第二阶段 **
随着图数据库的成熟应用,发现传统的关系型数据库支持的业务,在图数据库上实现起来更轻松,且后期运维的成本更低,应用效率更高。此时用户更倾向于将业务数据存储、查询、分析计算都建立在图数据TuGraph上。此时TuGraph,提供一站式的图存储、图查询以及图计算服务,这正是图数据TuGraph的第二阶段,从边缘的图查询应用到全业务流程应用。
**2.3第三阶段 **
图数据TuGraph发展到第三阶段,此时图数据TuGraph已经足够成熟,且积累了足够多的行业应用经验。此时图数据库在处理关系上的独特优势,在复杂应用场景表现出的高性能和高可用,让用户在发展新的业务时,会首先选择图数据库,而不管有没有图查询需求。就像过去10年的关系型数据库一样。
**3、再次登顶,冠军表现 **
**3.1再次登顶 **
在图数据库权威测试中拿下世界第一的国产自研图数据库TuGraph再一次创造纪录。
近日,国际权威图数据库测试机构LDBC公布了一项行业通用的社交网络基准(SNB)测试最新结果,蚂蚁集团自研图数据库TuGraph不仅通过了事务性和正确性测试,还在吞吐率测试上打破官方审计纪录,继2020年之后再次获得世界第一。这也意味着,在图数据库领域,国产图数据库性能已经领先行业。这好像LOL老粉看到LPL在世界赛上得冠时喊出的“我们是,冠军!!!”。
LDBC SNB 官方公布的测试结果
据LDBC官方发布的报告,TuGraph在系统事务性、可恢复性、正确性、稳定性等通过性指标方面均达到官方标准。在排名性指标上,TuGraph在不同规模的数据集下均表现优异,特别是在最大数据规模300G的数据集(8亿个结点,53亿条边)上,TuGraph的吞吐率较上一次官方纪录提升了52%,也超过了两年前由TuGraph保持的世界纪录1倍以上,体现了TuGraph高并发低延迟的强大性能优势。值得注意的是,本次测试为了更加贴近真实场景使测试更加严谨,TuGraph采用了Client/Server部署,将客户端和服务器分别部署在两台服务器上,在更严苛的条件下(固有网络延迟与网络波动)完成了本次测试。
**3.2冠军表现 **
TuGraph是蚂蚁集团自研的图数据库,是蚂蚁集团大规模图计算系统的关键构件。TuGraph是业内首个在大规模图上提供实时服务的图计算平台,拥有世界规模领先的图数据库集群,是世界上最快的单机图计算平台、最快的分布式图计算平台,是图数据库基准性能测试LDBC-SNB世界纪录保持者,性能领先第二名7倍以上,为蚂蚁集团提供了业界领先的实时和时序大规模图分析能力,具备毫秒级处理延时,致力于四天内完成六个月数据的时间穿越式仿真。于业界首创自研高效哈希存储。满足各类场景下的离线数据导入需求,实现包括了 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源与TuGraph的高效数据同步。
TuGraph已服务蚂蚁集团数百个场景,被成熟应用于蚂蚁集团的支付和数字金融场景中,在金融安全领域得到了规模化应用,成为业务风控能力的重要基础设施,显著提升了风险行为的实时识别能力和审理分析效率。为风控、反洗钱、反套现和社交网络应用提供了稳定的决策支持能力。其中,支付宝的风险识别能力提升了近100倍,风险审理分析效率提升90%。
**4、总结 **
4.1图数据TuGraph最适合处理关系。
4.2图数据TuGraph发展分为三个阶段,从解决边缘场景到结合关系型数据库应用,最后成为首选数据库。
4.3图数据TuGraph性能世界第一,并已应用在蚂蚁在线支付的链路。
二、是骡子是马,拉出来溜溜
**1、TuGraph图数据管理平台 **
TuGraph图数据面向金融、工业、政务服务等行业,擅长处理复杂场景、深度关联分析,将关联数据查询、洞察和预测分析提升到一个新水平。
TuGraph拥有企业版和社区版,本次开源的TuGraph属于单机版,虽是单机版,但对于绝大数企业来说都是够用的,能够轻松应对TB级别的数据应用需求。下面是企业版和社区版的对比信息。
社区版TuGraph:提供全部基本功能,适用于单实例部署。它提供了完备的图数据库基础功能,例如ACID兼容的事务,编程API,配套的相关工具等 。
企业版TuGraph:在社区版的基础上,提供了高可用能力、更快速的cypher查询优化器、属性级的权限管理能力、图数据库专家支持服务。
**2、TuGraph开源,三问三答 **
一说到开源,相信大家一下子就会兴奋起来,意味着终于可以白嫖了,终于可以将大展拳脚了,放大招了。共同来建设完善TuGraph的生态,甚至有机会参与TuGraph的标准建设。当然也少不了用TuGraph来解决企业遇到的痛点,从而为企业节约成本,同时也丰富了TuGraph的应用场景。
成为TuGraph建设者后也可以一起与蚂蚁集团分享TuGraph开源带来的红利,一起用TuGraph为更多企业和个人解决实实在在的问题,获得双赢等。相信大家对开源都有不一样的答案。
**2.1为什么开源 **
问:蚂蚁集团为什么要开源?在哪里开源?通过什么协议开源?
答:秉承蚂蚁对于技术 “成熟一个开放一个”的理念;高性能图计算是弯道超车的技术之一,图计算发展正当时,在很多领域大有可为,蚂蚁集团希望图计算技术能够走入更多大众的视野。大家可以通过下面的开源链接来更详细了解TuGraph。
托管平台:
GitHub:https://github.com/tugraph-db
Gitee:tugraph: TuGraph Graph Database
协议:Apache2.0
**2.2怎么搭上TuGraph开源这趟车 **
问:在我计划要学习或者使用TuGraph时,我想先了解TuGraph能解决什么技术问题?
答:TuGraph是高效易用的图数据库,解决了图谱应用项目中图数据库成本过高,易用性差,性能低下的问题。
问:什么企业或者场景适合使用TuGraph?
答:其实我们企业通常数据量不会超过TB级别,大量应用场景不需要分布式,更关心成本,性能和易用性,此时选择TuGraph真的是再好不过了。TuGraph可单机部署,使用成本更低。
问:TuGraph使用性能和学习门槛怎么样?
TuGraph性能测试是LDBC SNB世界第一,性能优秀,学习门槛低,提供了Cypher / plugin,通用易学。内置5大类近30种图分析算法,支持各类业务分析场景;提供灵活、多层级API以及主流查询语言,满足各类查询、访问需求;可视化控制台,用图谱形式代替传统表格数据,直观展现节点之间的复杂关联关系;低门槛轻量级部署,支持与常见开源架构间数据的平滑迁移。
**2.3蚂蚁集团对TuGraph计划和思考是什么 **
问:开源之后下一步计划是什么?
答:通过运营去形成影响力,然后去推动TuGraph生态的发展,然后吸引一些合作伙伴来用TuGraph。在未来1年将不断升级产品,计划实现分布式版本、更优的存储能力、图学习能力、云版本。同时在应用层、工具层、算法层欢迎社区贡献。
问:蚂蚁对于图数据库开源的思考是什么
答:图计算是一种高性能计算技术,对于数字化时代大规模、复杂的数据处理来说十分关键。经过7年多研究和探讨,蚂蚁图计算技术已经具备业界领先的技术能力,和非常丰富的应用经验,在“双11”流量洪峰中扛住计算压力稳定落地,也是蚂蚁集团安全科技全图风控的关键技术。蚂蚁对于技术秉承“成熟一个开放一个”的理念,我们希望图计算技术也能够走入更多大众的视野,未来希望能够服务更多的民生相关的问题,比如公共安全、流行病学的传播等等。
3、总结
3.1TuGraph图数据是基于图模型的一站式数据存储、查询和分析系统。拥有社区版和企业版,社区版能满足绝大多数需求,企业版功能更全面,可享受专家级服务指导。解决了图谱应用项目中图数据库成本过高,易用性差,性能低下的问题
3.2秉承蚂蚁对于技术 “成熟一个开放一个”的理念,开源希望能形成影响力,推动TuGraph生态,吸引更多的伙伴参与使用。
三、TuGraph金融主场,走进千行万业
**1、清华大佬,倾心奉献 **
TuGraph开源后,为了更快更好的走进千行万业。蚂蚁集团和清华大学的大佬们,分别在应用层、供应链工具层、底层共享他们的技术和案例出来,让开发者可以依葫芦画瓢,很快融入TuGraph 的生态圈。
在应用层,TuGraph开源后,蚂蚁集团和清华大学大佬们会将现有的成熟案例发布出去,然后根据应用情况,不定时的更新,让开发者们可以参照现有的案例去做,少走弯路。随着大家的深度应用,开发者们也会丰富TuGraph的应用场景和案例,相信不久后就会百花齐放百家争鸣了。
在工具链层,目前各大厂商都有在做自己的工具,但是未能联合形成一个通用的工具。因此希望更多开发者,在TuGraph开源后,联合大家的力量,将TuGraph自己自带的工具与其他工具整合来适配各种不同的数据库,这也正是开源的魅力所在,这样用户就不用担心工具不会用了。
在核心层,由于现在发布的图数据库差别很大,在对外提供的接口性能也是千差万别。因图数据库在发展初期导致图数据库的性能良莠不齐。但是如果企业在深入应用后再去切换一个高性能的图数据库,此时的切换成本是非常高的。好在TuGraph的性能一直保持在第一梯队,因此TuGraph图数据库开源后可以将图数据库性能收敛在一个很好的区间,这样也能更好的去适配其他数据库,让图数据库往更标准化的方向发展。因此TuGraph开发主力(蚂蚁集团团队和清华大学大佬)希望和更多优秀的开发者们一起去迎接这个挑战。
总的来说对于大多数的开发者和合作伙伴来说,只需要聚焦应用层,通过核心层和工具链提供的基础来打造属于自己的TuGraph图数据应用。
本次TuGraph开源版本跟商业版几乎没有差别,开源版本与商业版的对比在前面也有提到,商业版更多新增了强专家服务与高可用这块。然后TuGraph图数据首先在开源上发版,再慢慢在商业版发版。因分布式版本部署较复杂、维护成本高因此也会与蚂蚁集团合作,因此这块的开源意义就没有那么大。
**2、蚂蚁森林、集五福、共享单车图应用百花齐放 **
在支付宝中大家最喜欢的蚂蚁森林功能,正是通过图计算的技术来快速推送用户和好友蚂蚁森林的实时情况,帮助用户及时收取自己的能量,同时来提示哪些好友的能量可以收取。当能量收集到一定量时,支付宝会为用户种下一颗真实的树。然后通过图计算和图查询功能实时展示树的生长情况给用户。
图注1:蚂蚁树林-图计算助力"碳中和"
支付宝通过将关系数据存储至图数据库,通过关系预测算法、关系聚类算法来建立连接,发现哪些用户之间可能是家庭关系,从而更加精准的发放五福,帮助用户更快的集齐五福,拥有更好的游戏体验。并通过图分析来提醒用户组建线上家庭来获取更多活动奖励,同时也能通过这样,更精准的推送家庭所需的日常信息给用户。
图注2:新春五福-精准推荐
某共享单车基于开源图数据库存储图数据库和提供图查询服务,同时离线图计算使用Spark GraphX。随着业务增长,OrientDB已无法满足图数据的存储、时效性等需求。通过TuGraph改造后,一次性解决了图存储、图查询以及图计算的问题,大大降低了业务风险和成本。
图注3:共享单车-图数据库全搞定
**3、金融主场,大步走进千行万业 **
TuGraph图数据早期主要应用于金融行业,在金融风控一直是金融行业老大难的问题。TuGraph通过图技术构建账户(客户)、资金交易等关系网络, 拓展风险特征维度。通过构建资金交易网络,组合标签特征(点)+行为特征(边),挖掘团伙特征(面)。提升反洗钱、反欺诈、金融风控、 资金流向分析等风险防范能力**近百倍。 **
通过电话、邮件、地址、介质等数据信息构建申请关联关系图,基于 社区发现算法(Louvain+广度优先遍历)查找异常申请信息。同时基于事后交易行为数据,挖掘和识别套现模式。
通过使用图计算平台构建社交、资金等网络,结合邻居特征,精准提升芝麻用户评分。
图注4:金融场景-反洗钱识别能力提升94倍
图注5:金融场景-黑灰产识别能力提升8倍
图注6:金融场景-精准提升50%以上芝麻用户信用评估
基于账户、交易、资金、手机号、身份证号等信息构图,采用商业化图数据库替换原有的GraphX计算系统,使用弱连通分量 算法高效计算。 判断哪些账号属于同一个人,避免用户使用多个电商账号来获取不正当利益。
图注7:互联网场景-提升账号融合效率,精准识别用户
将2千亿网页抽象为点,29万亿链接抽象为边,构建网页图模型,利用TuGraph图分析引擎, 实现对全量网页PageRank。提升搜索准确性,提高用户搜索体验。
图注8:互联网场景-实现搜索引擎十万亿网页排序,提升搜索准确性
通过TuGraph对图数据进行统一存储、管理和计算,其强大的查询语言、多层次灵活的API,实现实时追踪电网运行状态,支持频繁且复杂的实时数据查询和更加高效的电网模拟计算。 提高电网设备运营管理水平。
图注8:电力场景-电网设备运营管理
采用图模型来对多样的网络信息进行管理和可视化展示,进而对网络策略、配置、安全等方面进行深入分析,以确保业务的整体可用性,提高数据中心故障处理的效率和质量。
图注9:通用场景-网络设备监控及可视化
如上图所示,目前TuGraph主要应用于金融行业。下一步应用于更多行业,如工业制造、税务、海关、公共安全(隐去刑侦表述)、社会治理,以及更多前沿科学领域交叉研究,如 TuGraph 与复旦大学联合研究图计算在脑科学神经元模拟。
**4、总结 **
图数据库仍在发展早期,蚂蚁 TuGraph 的开源,从底层技术科研到应用开发生态发展,都是对国内图数据库技术界重要的贡献,也期待 TuGraph 与开源撬动国内图数据库技术发展与繁荣。
期待这么久的TuGraph终于开源,有兴趣的小伙伴,可以通过下面的链接来了解TuGraph,相信TuGraph绝对会让你惊艳,那些在工作的痛点,也欢迎留言讨论,说不定TuGraph可以轻松拿捏,搞起,搞起!!!
版权归原作者 他们叫我技术总监 所有, 如有侵权,请联系我们删除。