首席数据官

Hi, 请登录

AI 时代的金融级大规模图分析

小蚂蚁说:

GeaBase 是具备高性能、高可用、高扩展性及可移植性强的实时金融级分布式图数据库,广泛应用于蚂蚁金服风控、社交、推荐等技术场景。“过无人区” 、“Made in China” 、“反哺”是 GeaBase 的几个耀眼标签。每年的支付宝春节红包、每一笔交易的反洗钱识别等等,背后的技术都少不了它的身影。

2018 年云栖 ATEC 金融科技开放峰会上,蚂蚁金服重点发布了新产品“金融数据+智能套件”,该套件包含金融计算引擎、数据智能中台、智能应用等组件,整合了许多世界级数据处理与智能分析能力,包括国内首个金融级图数据库 GeaBase、实时计算引擎,以及领先的视觉识别、数据智能能力,有效解决过去银行数据分析决策困难、迭代周期长等数据智能困局。

今天,我们将重点介绍其中的关键组件——金融级图数据库 GeaBase,它有效解决了海量复杂关系数据的离在线查询和分析。

试想一下大数据时代银行业特点,在金融场景中,数据的组织方式本质上很多是以关系图谱的方式存在的。在数字金融时代,银行获得了场景后,如何发现数据关联进行决策?

一般的在线查询使用关系型数据库,但是,关系型数据库不能很好地反应数据之间的内在关联;同样,传统的基于大数据的深度学习算法,依靠统计学原理对模型进行训练,并没有考虑数据和数据之间的内在关系。所以,蚂蚁开发了基于图推理的引擎,为深度学习等支持上层业务的应用搭建计算存储基础,打造更完整的金融大数据链路。

GeaBase 是蚂蚁金服完全自主研发的新一代金融级实时分布式图数据库,能够实现对超大规模关系网络毫秒级的复杂查询及变更,支撑蚂蚁金服风险控制、资金关系等多个关键应用场景,并都达到百亿个节点,千亿条变量的海量数据规模,为蚂蚁金服的众多业务提供风险控制、反洗钱、反套现、金融案件审理和智能营销推荐等保障和服务。

GeaBase 历经三年自主研发,团队持续扩大,并吸引众多海归工程师。目前 GeaBase 不仅支持了蚂蚁金服越来越多的高并发、低延时的业务场景,而且也被广泛应用于阿里巴巴集团的其他业务场景中。

下面,通过对蚂蚁金服计算存储首席架构师何昌华、蚂蚁金服基础技术部图计算及存储技术团队等的访谈,我们一起来了解一下 GeaBase,以及透过它,我们可以看到的未来金融数据智能蓝图中图分析能力的力量。

GeaBase 在蚂蚁金服的实践

图数据库基本含义是以“图”这种数据结构存储和查询数据。它起源于图理论,数据模型主要是以节点和关系(边)来体现,它的优点是快速解决复杂的关系问题。图数据库在金融行业中有非常广泛的应用,比如反欺诈。

我们都知道,大数据应用让很多企业机构在这个数字经济时代享受到优势。而由于用户、系统和传感器产生的数据量呈指数增长,数据内部依赖和复杂度增加等发展因素,许多需要连续两次甚至更多 join 以上的数据查询场景在互联网行业应用中诞生,传统关系型数据库、大数据算法无法满足日益增长的数据处理要求。

除此之外,在实际发展中,随着关系型数据库使用场景的不断扩大,也暴露出一些它始终无法解决问题,其中最主要的是数据建模中的一些缺陷、以及在大数据量和多服务器之上进行水平伸缩的限制。在应对这些趋势时,关系数据库产生了更多的不适应性,从而导致大量解决这些问题中某些特定方面的不同技术出现,其中,图数据库成为了 NoSQL 中关注度最高、发展趋势最明显的数据库。根据 db-engines 统计,图数据库过去几年在市场的发展呈现出快速增长的趋势。

有人说如果传统关系型数据库可以比做火车,图数据库则相当于大数据时代的高铁。如上述所指,随着大数据应用越来越广泛,人们逐渐开始关注到,如何在巨大的关系网络中快速发现有价值的信息,成为了未来数年大数据领域的一大挑战。

“比如在资金关系网络中,如果我们发现资金的流动形成一个闭环,这就很可能是一个洗钱行为的讯号。”付志嵩介绍道。付志嵩是目前蚂蚁金服图计算及存储技术团队高级专家,他 2015 年加入蚂蚁金服,作为主要架构设计和研发人员参与了实时分布式图数据库 GeaBase 的开发,实现了对超大规模关系网络毫秒级的复杂查询及变更。目前团队的主要职责是研发新一代的分布式图数据库和图计算产品。回国之前,付志嵩服务于美国图数据库公司 BlazeGraph,领导了分布式图计算系统的设计和开发。

他介绍,此前全球主流商用图数据库完全由国外商业公司垄断,导致我国在技术上无法自主可控,而且这些商用图数据库在扩展性,易用性,性能上都无法满足金融大数据的需求。这些挑战体现在:

1、海量数据的现状;

2、高并发、低延时的在线查询;

3、金融业务场景复杂,需要一套灵活可扩展的查询语言,支持不断迭代的场景;

4、需要适配不同数据源和数据导入方式;

大数据时代银行业特点_培训行业 大数据_云计算与大数据行业

5、需要高可用及多种容错机制;

6、考虑用户使用体验,产品化过程必须要有简单的经营流程。

GeaBase 为蚂蚁金服自主研发,针对自身面临的海量数据规模、复杂网络和大规模实时计算的需求,经过两年多的发展,通过采用新的架构设计和算法,满足了蚂蚁金服自身金融场景的特点和需求,在蚂蚁金服众多业务场景中,取得了非常好的效果,实现了高可用、高稳定性和可用性、高性能和实时更新的性能优势。

值得一提的是,我们也知道,蚂蚁金服还自主研发了取代商业数据库的 OceanBase。总的来说,蚂蚁金服使用关系型数据库、图数据库以及图计算,三者各自对应不同场景。从技术实现层面讲,蚂蚁金服的图数据库主要有两大应用场景,一是在线查询,该部分主要包括实时风控、实时营销等,这些场景可统称为实时决策,蚂蚁金服需要在短时间内迅速做出决策,比如某笔转账是否为洗钱或者赌博;二是离线计算,以及知识图谱等。

这些问题都可通过图数据库解决,但并不能完全解决所有问题,比如机器学习图模型、分析型反欺诈模型等,在线查询局限在固定范围内读取数据,可保证低时延响应。但是,当计算需要全图迭代时,在线查询性能非常差,离线计算可以很好解决全图迭代问题。

总结而言,蚂蚁金服解决方案 GeaBase(Graph Exploration and Analytics)集合了在线查询与离线计算两大能力,是一个一站式大规模分布式图处理平台。GeaBase 的设计目标主要是两大应用场景,一是高并发低延时在线查询场景,二是全图迭代的离线计算场景。主要提供四大功能,一是数据 CRUD,增删查改操作;二是查询 FLWOR;三是在线分析,比如风控中使用较多的找闭环;四是离线操作。

GeaBase:助力未来金融数据智能

随着蚂蚁金服图数据库解决方案 GeaBase,以及更多计算存储技术的开放,金融科技领域,将因金融数据智能能力的提升衍生出更大的想象空间。

蚂蚁金服计算存储首席架构师何昌华,加入蚂蚁后,带领团队研发并上线了蚂蚁实时智能决策系统,着力于解决端到端秒级数据实时性,线下模型训练和线上决策数据一致性,以及业务智能化门槛高和开发周期长等问题。目前,他聚焦于新一代数据技术架构以及金融级计算的自主研发,图数据库解决方案 GeaBase,是其中的一环。

在加入蚂蚁金服之前,何昌华先后在 Google 搜索架构部门、Airbnb 等公司工作,专注于大规模的分布式系统及大数据架构与智能应用。

他表示,在过去的十几年里,蚂蚁金服打造了安全流畅的支付交易链路,而金融计算存储,更多的是指底下一层的大数据链路,包括用户怎么使用支付宝、产生了哪些交易等,并从中提取出更多逻辑关联,如前文所述,辅助反欺诈、风险控制、智能推荐等各个场景的决策,帮助交易的安全和体验提升。

我们可以看到,金融科技发展到今天,我们很好地解决了连接的问题,但数字金融的含义远不止于此。无论是体现在风险控制、宏观经济研究,还是金融产品设计与销售等环节,在 AI、物联网等技术的帮助下,数字金融还将迎来更广阔的空间。何昌华指出,AI 未来将是金融行业的核心竞争力之一,今天蚂蚁金服的极大部分业务也都基于 AI 来展开。回顾过去,大规模深度学习大约在五年前开始兴起,这主要也是因为数据的爆炸性增长以及分布式计算能力的提升。未来假设在某个场景,基于同样量级的数据、同等成本上,如果能够进行比别人更多更快的计算,那就会在竞争上产生优势。

此前,蚂蚁金服通过“BASIC”开放战略,在金融领域构建了一个自底向上的全栈式架构,从具有金融级别支撑能力的分布式计算平台等底层技术,到人工智能、区块链等为代表的应用技术,再到以智能风控、生物核身等金融级专有技术,形成了完整的技术堆栈,以建立与金融机构更多层面的紧密连接,助力金融机构打造更开放、多样、灵活的生态连接。面对未来的趋势,众多金融机构因此在数字化转型路径中,将构建数据智能中台作为重中之重。

而构建一个能够贯穿整个金融机构的大数据中台后,随之而来的是发挥数据在业务和技术中承上启下的作用。用何昌华的话来说,“单位成本更低更易用的大规模计算能力,将成为未来金融行业的核心优势,这就是我们定义的新计算,希望全力打造的核心地带。”

何昌华透露,在打造这条基础计算的链路中,GeaBase 现在提供的不仅仅是一个图数据库,而是作为整个图数据计算的大底盘,在它上面我们可以进行更多高效图计算,从而更好地支持业务。“它不在支付系统里面,它布局在许多底层的数据处理系统中,最后在数据上提炼出一层知识,然后再提炼一层,最终形成实时智能决策能力,来支持支付大数据时代银行业特点,以及各类金融属性的业务。”

存储、架构、算法:实时图数据库的诞生

回忆起图数据库研究的起源,研发团队表示,面对互联网时代的海量数据,以及背后的知识图谱,“大家慢慢地回过头来看,发现这个任务用‘图’表示最好,能够非常清晰地表示出点和点、实体和实体之间的关系。”

但回顾起图数据库研究领域的起源,研发团队表示,从一开始,蚂蚁金服的思路和市场上的图数据库就不一样,蚂蚁金服决定做的方向,是分布式的图数据库。

老一代图数据库,可以理解为是单机版的,这也是其很难适应数据爆发时代的需求的原因。举个例子,如果用图表示大量的数据,涉及的是数百亿的点、数千亿的边,这样的话,单机上是肯定放不下的,“在海量的数据挑战下,慢慢地就开始出现分布式的‘图’。”

但这个时候,图数据库的雏形还不算真正建立。设想一下,在多台机子上做图计算,面临的最大挑战就是,传统的算法几乎失了效。这个时候就必须创造新的算法来完成分布式图计算。

所以,在整个互联网科技行业中,有了后来 Google 研发分布式图计算框架 Pregel,开启了在分布式图上做算法研究的先河,比如典型的算法 PageRank。但是,GeaBase 研发团队指出,这些研究方向适用于离线场景,而蚂蚁金服应对的是大规模金融业务要实现实时决策的挑战,需要面对“百亿个节点万亿条边的超大规模,并且实时更新的关系图进行高并发低延时的读写”。

大数据时代银行业特点_培训行业 大数据_云计算与大数据行业

金融的业务场景对于实时性的要求都很高,比如说在转账的时候,我们几乎需要在这一瞬间判断这一笔转账是不是有风险,要求响应速度非常的高,才能把钱在一秒之中转出去。但在这个过程中除了风险控制之外,还有很多其他的操作,真正留给风控来检查的时间大概也就两百毫秒左右,在这两百毫秒内我们要做规则的判断、数据及其特征的提取及最终判断这笔转账的风险,所以每一个毫秒我们都要尽力争取。

为应对独特的业务需求,蚂蚁金服从 2015 年开始研发新一代金融级实时分布式图数据库 GeaBase(Graph Exploration and Analytics Database),并逐渐投入使用。根据测试,GeaBase 在各方面的的性能达到了行业先驱图数据库 Titan 的四十倍到九十倍。

GeaBase 第一次接受实际业务场景压力测试,是在 2016 年的春节期间。“当时我们都加班在办公室守着,火锅年夜饭都开成流水席了。但成就感真的很高啊!”

GeaBase 技术上的两个“极致”

金融级的业务挑战让开发团队在技术路线的选择不敢有半点懈怠,投入了分布式图数据库的领域;而让 GeaBase 走得更远的,是背后追求极致的工程化精神。

机器性能压到了极致

蚂蚁金服计算存储首席架构师何昌华指出,GeaBase 实现了海量数据里高并发、低延时的在线查询,但是

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论