APP推广合作
联系“鸟哥笔记小乔”
蚂蚁森林「偷能量」和「反洗钱」,用的竟是同一种技术!
2021-09-29 10:02:03

编辑:Q 好困


【新智元导读】只知道蚂蚁森林可以偷能量?这次来看点新鲜的:「图计算」听说过么!


18世纪,欧拉提出了著名的哥尼斯堡七桥问题(Seven Bridges of Königsberg):


河中心的小岛与河岸由七座桥相连接,在所有桥都只能走一遍的前提下,如何才能把这个地方所有的桥都走遍?


在随后发表的论文中,欧拉证明了符合条件的走法并不存在,而该论文也成为图论史上第一篇重要文献。


图(Graph)是用于表示对象之间关联关系的一种抽象数据结构,使用顶点(Vertex)和边(Edge)进行描述:顶点表示对象,边表示对象之间的关系。


图计算,便是以图作为数据模型来表达问题并予以解决的这一过程。以高效解决图计算问题为目标的系统软件称为图计算系统。


对于图计算技术的研究,最早可追溯至20世纪四五十年代。


但图计算逐渐进入人们视野,则是2010年谷歌发表的「Pregel:一个大规模图计算系统这篇」这篇论文引起。


https://kowshik.github.io/JPregel/pregel_paper.pdf


「蚂蚁森林」=图计算?


「蚂蚁森林」都很熟悉吧,大家是不是都会一起床就跑去「偷」朋友的能量?


而你想象不到的是,这背后都是图计算在支撑!

在你进行了消费或者是做了其他低碳行为之后,就会得到一些能量并且能被自己和朋友实时看到,而这就需要超大图的高效计算能力。


当朋友把能量偷走时,打开蚂蚁森林的每个人都会实时看到。


既不会别人偷走了10克,用户自己这里还有10克;更不会因为还有别的朋友也来偷走10克,自己本来只有10克,最后被偷走了20克。


如果用户的规模变得十分巨大,「偷能量」这个动作对时效性以及对数据一致性的要求就会非常的高。


在这样一个「游戏」场景下,蚂蚁锻炼出了在超大规模图上对数据量高,吞吐率低,延时方面的计算的能力。

图计算,没那么简单

近几年,随着数据的多样化,数据量的大幅度提升和算力的突破性进展,超大规模图计算在大数据公司发挥着越来越重要的作用,尤其是以深度学习和图计算结合的大规模图表征为代表的系列算法。


相比于传统的基于二维表结构的数据库或大数据模型,图数据结构非常适合于对事物之间深层次的关系进行实时高效地分析。


图计算的发展和应用有井喷之势,各大公司也相应推出图计算平台,例如Google Pregel、Facebook Graph等。


随着新技术和新业务的推动,目前图计算技术已进入临近爆发的前夜。


根据DB-Engines的排名显示,图数据库关注热度在2013-2020年间增长了10倍,关注度增长排名第一。


而「图数据库、图计算引擎、知识图谱」三项热点技术方向也正在全球范围内加速产业化,国内阿里、华为、腾讯、百度等大型云厂商以及部分初创企业均已布局这一技术领域。


来源:中国信通院《大数据白皮书(2020年)》

对于传统的「大数据」来说,一般是以表的形式进行存储,这种关系型数据的特点就是数据往往是「同质化」的。


而图数据是一种更加高维的数据,从而能够涵盖那些「非同质化」的数据。


也就是说,图是对现有数据模型的一个升级,可以让很多技术可以做得更快更好。


举例来说,在推荐系统中,如果根据朋友的兴趣推出某用户的兴趣,或者通过用户购买的商品推荐出来还想要的商品,这个深度是比较浅的,如果要查它的邻居的邻居的邻居(下探3度)。


当然,上述这些计算也都是基于个人隐私保护基础之上的。


在传统的关系型数据中,这个过程中访问的数据量是指数级增加的,性能的下降也是指数级的,而当3度以上的时候,很有可能关系型数据库已经查不出来了。


但是在图数据库里面,不需要做很多个表的交、并等操作即可完成。


深度
关系型数据库(s)
图数据库(Neo4j)
返回个数
2
0.016
0.01
2500
3
30.267
0.168
110,000
41543.505
1.359
600,000
5未完成
2.132
800,000

来源:《Graph Databases》


第一列的「深度」表示社交朋友之间的关系,深度为1,表明二人为直接好友;深度为2,表明二人为好友的好友,以此类推。


由图表可知,当深度达到5时,关系型数据库已无法完成任务,而图数据库的响应时间为2.132秒,在可接受范围内。


不过,优势在某种情况下往往也会变成劣势。图计算处理的最大难点也在于数据处理的不规整,这种不规整使得数据处理起来非常吃力,在处理亿级以上的海量数据时尤其如此。


当要下探6度的时候,相当于要把全图的数据都能够访问一遍,这也是现在很多图学习算法的限制。


蚂蚁集团计算存储首席架构师何昌华表示,目前几乎所有的图深度学习探索的基本上都是2度,能够探索到3度的深度已经是非常的少。


而蚂蚁在一些典型的图算法上已经可以做到10度以上的探索,而现在正在做的系统则希望能够在不强制采样的情况下不限制探索的深度。


当把图做了大规模甚至超大规模的分布式以后,图数据如何存储,计算和通讯如何做到高效,就成了非常棘手的一个问题,这也是所有做图计算相关工作面临的一个共同问题。


一个超大规模的图,往往会被分割成很多子图以后放到多台计算机上进行处理,而这些子图之间是需要通信的,通过通信才能够知道图全部的信息,计算才能不停的迭代和交互下去。


例如,在一个图里面,某个人增加了一笔交易,会影响这个图里面的很多条边,如何做到数据的一致变动,是非常难的问题。


此外,传统的很多图计算基本上要把所有的图全部载入内存以后计算才能够高效,但其实这样的高速是以高昂的成本为代价的。


现在很多的探索会尝试把内存里面的数据放到硬盘上去,成本就会极大的降低,同时问题也就转变成了如何高效地访问硬盘上的数据,是否能够牺牲部分的吞吐而把更多的数据放到外存上,在提升外存的效率的同时支持更大的图。

技术发展?定个标准先

作为一个在我国乃至全球都正在蓬勃发展的热门领域,制定相应技术标准的重要性则不言而喻,既能促进技术的全面发展,也有利于掌握相应的话语权。我国也一直希望建立一些「图」方面的标准,众多科技公司也一直积极的参与其中。


去年9月,国家标准化管理委员会通过全国标准信息公共服务平台公布,《信息技术-图数据库系统技术要求》的国家标准正式立项,这是国内首个图数据库方面的国家标准立项。


《信息技术图数据库系统技术要求》国家标准立项公示图

据公示信息可知,此国家标准由TC28(全国信息技术标准化技术委员会)归口,由蚂蚁集团牵头、多家公司共同参与制定。基于蚂蚁集团对于该标准的贡献,在全国信标委大数据标准工作组会议上,蚂蚁集团还被选为优秀成员单位。


除了立项的图数据库国家标准,基于自身在图智能领域的产业实践经验,蚂蚁集团还参与了一系列标准的制定:


  • 在浙江互联网金融联合会牵头制定和发布了《互联网金融分布式架构技术应用指南》的团体标准;

  • 在全国金融标准化技术委员会牵头立项了《金融IT基础设施 存储应用实施指南》的行业标准;

  • 在CCSA TC601,参与信通院牵头的《图数据库白皮书》和《大数据图数据库技术要求与测试方法》团体标准;

  • 在ISO/IEC JTC1 SC32参与《ISO/IEC 39075 : Graph Query Language》的国际标准。


作为图数据库国家标准的牵头和发起方,何昌华表示:「蚂蚁在图智能领域,具备图存储、图计算、图分析推理、图研发平台的全技术栈GeaGraph。我们希望与各方行业机构通过标准共建,来促进图智能技术的应用,促进数字经济的发展。」

蚂蚁走到哪了?

2015年初,蚂蚁开始组建图数据库的团队,2016年发布了第一个图数据库的版本——GeaBase。


上线以后,新版支付宝是GeaBase迎来的第一笔流量,接下来从支付宝的一个更大规模的改版到新春红包到双11,GeaBase进入到越来越多的业务里面。


到2019年双11,迎来了一个里程碑事件:单集群规模突破万亿边!


点边查询,针对点、边或者是关系的查询,突破了800万的TPS,并且平均延时小于10毫秒。


如今,蚂蚁对于海量超大规模图数据的存储的能力,已经能够做到超过万亿级别的点跟边的规模,在业界已经是非常领先的水平。


在TB这个数据规模的级别上,在5-6度左右都能做到毫秒级的结果的反馈。同时,还能实现百万级每秒这种高的吞吐量。


在LDBC的这种性能测试里面,是第二名的性能7.6倍,在斯坦福的图深度学习推理评测中打榜的时候也拿到了第一。


此外,在延时这些方面的比较上,蚂蚁是远远领先的,包括六跳的查询、迭代的算法,甚至要求很高的尾延时,在生产环境中都做到了小于20毫秒,这是业界的很多其他的图数据库远远达不到的。


而这些出色的能力,都依赖于蚂蚁自研的GeaGraph体系:



今年世界互联网大会期间,大规模图计算系统GeaGraph这个产品体系获得了世界互联网领先科技成果奖。


GeaGraph体系包括如下部分:

1. PhStore:蚂蚁纯自研的存储引擎,基于完美哈希(Perfect Hashing)技术,在图的读取性能上可以达到O(1)复杂度,是业界首创的基于完美哈希的KV图存储。
2. GeaBase:蚂蚁集团完全自主研发的金融级分布式图数据库,GeaBase单集群能支撑万亿边规模的图数据,写入和查询吞吐量超过每秒百万次,99.9%查询和写入延时小于20ms。
3. GeaBase Lite:一个支持事务处理和强隔离性的单机图数据库,可以单机支持百亿边的图数据,而且集成了全图迭代分析能力,可以同时满足用户对图的复杂分析、快速查询和可视化的需求。
4. GeaFlow:自研的流式图计算引擎,提供了图探索、图仿真、动态子图匹配和流式增量图计算等多种近线图计算能力,并支持了千亿级图数据的长周期(半年/一年)仿真回溯验证、秒级6度以上的流式子图匹配和秒级全图时序增量图计算等关键技术能力。
5. GeaComputing:在清华大学研发的Gemini和ShenTu离线图计算系统上进一步优化的分布式图计算平台,支持万亿级图数据,能够为用户提供高效的复杂图分析能力。
6. GeaLearning:自主研发的以图为核心的超大规模分布式深度学习系统,支持多种灵活图模型训练方法,不限制图神经网络层数和节点邻居个数,以模型并行为核心的混合并行执行方式等。
7. GeaMaker:蚂蚁自主研发的一站式图计算研发探索平台,平台融合了上述底层系统的能力,为用户提供了具备探索、仿真、性能评估等功能,集在线查询,近线计算,离线分析和图学习于一体,可以让开发者更方便地使用。

反欺诈

在线上交易中,最让银行和第三方头疼的就是「套现」这种欺诈行为。


例如有一些不良的商家,会通过银行卡、花呗或者熟人等来完成一个套现的回路。


以前,挖掘的关系数或者关系的深度往往都有限,并且很难,计算起来也不够高效。而现在能够把这种行为建模成一个图,在这个图上就会发现它形成了一个欺诈的闭环。


在数据量很小的时候,传统的图计算单机就可以解决这个问题,现在的海量数据的情况下,需要对超大规模图进行切割,还要做高效的存储,更需要很低的时延。


蚂蚁则希望在每一笔交易发生的时候,都能够实时的检测到并阻止这样的行为。


除此之外,现在欺诈的形式上也有了新的变化:以前的欺诈行为很集中,就在一个人或者账户上,通过简单的技术进行个体挖掘就能看到特征找到欺诈。


而现在是对抗的,甚至升级成了团伙,会租借一些正常交易的合法账户,混在海量的交易数据中,可能只有中间的几笔交易才是欺诈,使得欺诈行为变得非常隐蔽,很难找到。


2020年时,欺诈手法变成不仅仅是一个团伙,而且它的团伙还在演变,团伙成员还在不停的变化。


在观察它按照时间往前演进的过程中,能够识别到这些团伙里的一些关键的角色,这样就能够更加快速精准的定位团伙的核心成员,这就是时序图计算。


这也对蚂蚁的底层图计算计算提出了新的挑战,现在能做到的是对欺诈行为的被动识别,未来蚂蚁希望可以能够更进一步,对风险也能进行主动的预测。

反洗钱

反洗钱跟反欺诈的很多技术是非常类似的,反洗钱对于时效性要求非常高,判断的逻辑也越来越复杂。


在洗钱的行为里面,常见手段是通过在海量的交易里面混杂洗钱和一些艺术品的拍卖,来掩盖洗钱行为。


作案的人员可能有很多重身份和大量的账号,并且交易的频率不高,交易的路径也非常复杂,可能是在正常的交易中混杂着这样的一些可疑的交易。


要找到这样的一些欺诈的行为,并且阻止他,就需要深入的图分析、图计算的能力。


从2018年开始,基于资金网络、中介网络这样一些典型的欺诈,蚂蚁已经能够做到百万吞吐级别对应毫秒级的响应。


类似传统的方法做在图上,但是把它的吞吐量变大、响应时间变短,能够更快速的抓到这些行为,而这些工作如果使用传统的方法用人来做,可能需要几个小时或者一天,但蚂蚁把它做到了线上这样高效的能力。


2021年,GeaStack应用于蚂蚁集团反洗钱分析,覆盖支付宝全部资金交易,对疑似团伙类犯罪风险识别能力提高94倍多,风险审理分析效率提升90%。



除了金融领域之外,蚂蚁集团还进行了很多外部合作。


在人工智能时代,NLP、CV、RL等领域已经百家争鸣,而图计算作为最前沿的技术高地之一,谁能够在这个方面打造出核心的能力,谁就能够站到未来世界通用人工智能的最前沿。


而目前国内的很多公司包括蚂蚁集团在内,在图计算方面的一些探索已经走在了世界前列。


一直以来人们对于技术的探索从来都只有一个目标,就是让人类从中受益。


何昌华说,「蚂蚁的初心也一直都是不断探索革命性的技术,并在支持好蚂蚁业务的同时把达到一定水平的成熟技术开放给社会,希望它在更多的场景中发挥出社会价值。」

-END-

新智元
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
新智元
新智元
发表文章35
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类
确认要消耗 0羽毛购买
蚂蚁森林「偷能量」和「反洗钱」,用的竟是同一种技术!吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接