本篇文章跟大家探讨下信用卡申请反欺诈知识图谱,以及怎么样构成信用卡诈骗对应的知识信息,希望对各位有所帮助,不要忘了收藏本站以备日后需要哇。
本文快速导读目录:
- 1、知识图谱在金融行业的应用重要吗?
- 2、拉卡拉天穹反欺诈系统是什么工作原理?
- 3、要做信用卡反欺诈模型,请问如何获得信用卡交易数据
- 4、互金风控进化史:人工、实地到智能大数据走过哪些曲折?
- 5、知识图谱是什么?有哪些应用价值
知识图谱在金融行业的应用重要吗?
知识图谱对于信贷风控环节的价值巨大信用卡申请反欺诈知识图谱,尤其是针对借款端风控的贷前反欺诈环节。小花钱包借款环节就应用了知识图谱技术信用卡申请反欺诈知识图谱,
拉卡拉天穹反欺诈系统是什么工作原理?
拉卡拉“天穹”反欺诈平台是业内首创的基于知识图谱和深度学习的反欺诈应用,能够实现多模型检测和特征实时分析,运用知识图谱和深度学习模型,构建超十亿顶点,几十亿边关系的网络,在毫秒之间精准识别不良客户和黑中介、团伙欺诈群体,支持云端服务及私有化部署,可以有效降低金融机构所面临的欺诈风险。
要做信用卡反欺诈模型,请问如何获得信用卡交易数据
当前信用卡欺诈类型主要分为申请欺诈和交易欺诈两大类别。申请欺诈是指不法分子使用虚假身份、伪造证明文件或未经同意冒用他人身份申领信用卡的欺骗行为;交易欺诈一般分为伪冒克隆卡交易、商户tx 、丢失被盗卡交易、未达卡交易、账户盗用不和非面对面交易欺诈等类型。
信用卡反欺诈调查主要工作一般为:
1. 进行各类型信用卡欺诈风险事件的调查工作;
2. 研究各类型欺诈风险案件的风险点,并提出相应的防范建议;
3. 开展各类型欺诈案件欠款的清收工作。
互金风控进化史:人工、实地到智能大数据走过哪些曲折?
今天大家都已经习惯了线上秒批、数字信用等基于人工智能和大数据信用卡申请反欺诈知识图谱的风控体系。但是追溯到十几年前,数字风控却付出过惨重的代价。十几年一路走来,随着大数据以及人工智能等技术的不断完善,互联网金融才真正让大数据风控走向完美。
日前,在玖富集团开放日上,玖富首席数据科学家、首席风险官谷颖讲解了人工智能的应用要素和发展阶段,揭示了智能风控的进化史。
(玖富集团开放日)
从互联网金融祖师爷的垮掉说起
NextCard是互联网金融行业绕不过的一个案例。这家公司堪称互联网金融的祖师爷。NextCard总部设在旧金山,通过互联网发放信用卡的公司。公司提供一套VISA卡网上信用审批系统,并为使用者申请者提供互动服务。
(维基百科关于NextCard的介绍)
在这家公司的征信体系之中,信用资料较少的申请人,只需在这里存有一定额度的存款,就可申请到信用卡。和今天很多互联网金融项目相似,NextCard主打短平快借贷,在当时备受美国用户的喜爱。从1996年推出到2001年的第三季度,NextCard积累了120万个信用卡账户,未偿余额达20亿美元,其成本却比传统做法低70%。
NextCard几乎拥有今天互联网金融企业的所有特点,甚至今天很多中国互联网金融项目都与之相似。不过,遗憾的是,2002年9月,NextCard遭到联邦证券监察机构的调查并宣告破产。破产的最大原因是因为该公司的客户主要都是一些被其信用卡申请反欺诈知识图谱他信贷机构拒绝的消费者,导致欺诈、坏账的激增。
然而,NextCard把许多属于客户故意拖欠不还的普通信用坏账归为“欺诈”损失(“欺诈”损失被归纳于一次性损失,财务上不需要相应的储备金),它需要大量增加储备金来预备将来的信用损失,导致其丧失流动资金,不得不宣布破产。
回到15年前来看,NextCard错误很明显,主要是这三点:
1、在征信把关层面上就已经出现了漏洞
对于美国银行来说,影响审批额度的主要因素包括客户基本特征(包括男女、年龄、教育程度等等)、客户风险暴露情况(社会收入、债务情况、还债能力综合评估)、现有的社会表现(房贷还款情况、其他银行信用卡使用情况等)。但NextCard高估了人性,明显对用户的信用水准期待过高,忽略了信用欺诈的严重性,导致公司破产。
2、在风控层面上也缺乏合理的预警机制
按道理来说,在公司出现坏账时,应该加强储备金,以此抵御风险,但是NextCard几乎没有设置坏账红线,甚至也没有为坏账准备对冲风险的储备金,仅仅只是把坏账归纳为一次性损失,这样的损失过多的情况下,最终只会导致坏账如滚雪球一般越滚越大。
3、迷信线上审批,缺乏线下人工风控把关
在那个时代,线下人工把关是风控不可缺少的一环,很多小微企业的信贷甚至需要风控人员到现场查看生产现场,结合生产工艺,了解生产组织情况,固定资产更新情况。风控不仅仅是资本和金融层面的事情,更需要真正深入到产业之中,去了解一家企业的运行状况。显然,NextCard缺乏对线下的把控,以至于全盘皆输。
“人肉”风控的必不可少与逻辑悖论
NextCard的垮掉本质上是线上风控、征信技术有限,无法战胜人工的结果。在传统金融机构、小贷公司中,不仅仅有一整套严格的审核标准,需要贷款人提供各式各样繁琐的资料,而且风控人员甚至还会自己的经验判断,在面对一些特定行为特征、生活习惯的客户会首先有一个自己的直观打分判断,这些是长期经验累积的结果。想要拿到一笔贷款,金融机构、贷款公司会付出很高的人力、物力、时间成本。
玖富作为中国最早的互联网金融服务公司之一,如今已经有11年的历史,在行内颇受好评。这家金融服务公司当年为确保资产项目的真实、安全、可控,通过非常严格的完整审核体系的层层筛选,内部建立了独立的线上风控模型,并引入了实地征信风控合作。
不过,实地风控体系依然会存在各式各样的逻辑悖论。
对于金融企业来说,风控模型和风控体系需要非常有经验的金融从业人士来进行把控,比如说,银行的风控模型的出发点主要是测量借款方的还款能力,一般来讲,模型包含了两部分的评判,即客观性的和主观性的。客观性的主要是数据类型,能量化的。如公司的年度审计财务报告,银行流水,缴税金额等,这些数据放在已设定好的模型里就能给出个分数或等级,做为参考。
但光靠客观数据还不够,比如说这公司所在的行业是淘汰落后的行业(如钢铁、水泥等),那么评级可能需要有些降级,再比如说公司的管理人在该行业的经验年限的长短,都会影响到这家公司的风险,所以这部分就得靠人为主观的去做些调整。
因此,人在传统风控体系中起到了很大的作用。比如说,需要人工标记坏样本的方式来记录坏样本订单号,人工通过相关黑信息关联找出来的标记样本。系统设计是尽可能多的和并且尽可能精准的的收集到坏样本。
但是人毕竟是计算能力有限,而且对复杂的征信环境缺乏整体把控能力。在人工审核过程中,很容易出现样品偏差的问题。比如说,信用卡申请反欺诈知识图谱你发现骗子符合某些聚集特征,你指定策略1进行打击后,骗子的这种欺诈手段被控制,以后的损失案例都不具备这样的聚集特征。如果坏样本的收集时间在策略1上线之后,这个时候模型训练的结果极有可能出现满足聚集特征的风险低,不满足聚集特征的交易反而风险高,也就是说聚集特征的权重是负数。
另一个问题在于,金融行业的劳动力成本正在逐年上升。在传统金融尤其是传统信贷服务领域,我国传统信贷能服务的客户群仅占总人口的15%左右。传统信贷服务需要依托线下网点展开,资质审核、合同签订等流程都需面对面进行,服务效率低下,最终的结果是一方面风控人员不足,另一方面是单纯的线下人肉风控也缺乏对风控体系的百分百把控。
智能风控三阶段究竟解决了哪些问题
对此的应对方案是两个:一是引入在金融领域对于征信体系有能力建构一整套完整风控模型的人信用卡申请反欺诈知识图谱;第二个才是把大数据、人工智能引入到征信体系之中,进行智能风控。
今天BAT三巨头上手互联网金融的时候,几乎都在不断引入能够驾驭风控模型的人,以此根据不同行业,不同数据建构起不同的风控模型。玖富也在不断引入风控模型的把关人,比如说首席数据科学家兼首席风控官谷颖。谷颖博士在回国之前曾在华尔街投行工作达十年之久,其团队更连续六年在全美固定收益策略、量化研究领域排名第一。而且在一批成熟金融人才的研发下,玖富也构建起了“火眼”风控系统。
玖富的“火眼”风控系统形成了线上化、机器化、模块化的风控构架体系。充分利用大数据分析技术建立独特的风控体系,具有处理高效、风险可控、成本低、边际效应明显等特点,能够可以提早发现用户早期逾期表现,并能有更多的时间进行调整。
根据她的说法,人工智能应用在金融领域有三个阶段。第一个阶段是机器学习(ML)阶段,即互联网金融为代表的金融机构全面渗透到所有模型建设中信用卡申请反欺诈知识图谱;第二个阶段是自然语言处理(NLP)阶段,即国内大量互联网贷款和征信公司都在大量使用自然语言处理技术;第三个阶段是知识图谱(KG)阶段,即大量使用知识图谱进行反欺诈分析。“火眼”风控系统恰恰覆盖了这三个阶段的所有应用,也是目前比较完善的风控系统。
机器学习(ML)阶段解决的核心问题在于,让风控模型自动学习、自动匹配各项数据,在模型内发现异常,揪出信用黑户。尤其是机器学习算法能够根据数百万消费者案例,如:资产、履约、身份、偏好、社会关系及借贷情况等进行开发和训练,利用算法评估预测用户是否会违约、是否会按时归还贷款等。
自然语言处理(NLP)阶段解决的问题则是可以在个人及企业主页、社交媒体中发现蕴含着与违约风险深度关联的深层含义,通过复杂的词向量模型将文本转化为计算机能够识别和计算的词向量表征,并基于深度学习技术对其进行特征提取,最终运用成熟的分类器网络将文本数据与违约风险实现高度的风险挂钩,而通过传统方式很难充分挖掘其风险价值。
知识图谱反欺诈(KG)分析恰恰是最重要的一个环节,因为知识图谱反欺诈需要把所有技术融合在一起,构建图谱,从中发现欺诈行为。这也是很多互联网金融公司目前在主攻的方向。
因为在过去,反欺诈人员需要根据借款人提供的信息,查找多方面资料,进行不同属性的比对,从而发现不良征信人。这种工作复杂而枯燥,为了识别团伙欺诈,往往需要收集、整理、分析各种维度的数据,工作量更是成倍增加。而知识图谱反欺诈能够把把每个客户的信息、以及网络上公开的信息织成一张巨大的关系网,并通过可视化的图形将这种关系展示出来。结合反欺诈部门的经验,找存在欺诈的客户。
写在最后:
虽然如今大部分平台都在采用“大数据技术”来做风控,但审核结果严重趋同,现状不容乐观。真正大数据风控技术需要多云数据源(平台积累、征信机构、同业共享)来支持风控审核模型决策,这恰恰是中国互联网金融企业最需要发展的方向,也是必然需要走过的曲折道路。
知识图谱是什么?有哪些应用价值
知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起信用卡申请反欺诈知识图谱了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢信用卡申请反欺诈知识图谱?
目录
1. 什么是知识图谱?
2. 知识图谱的表示
3. 知识图谱的存储
4. 应用
5. 挑战
6. 结语
1. 什么是知识图谱?
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。
另外,对于稍微复杂的搜索语句比如 ”Who is the wife of Bill Gates“,Google能准确返回信用卡申请反欺诈知识图谱他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。
上面提到的知识图谱都是属于比较宽泛的范畴,在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。接下来我们看一下特定领域里的 (Domain-Specific) 知识图谱表示方式和应用,这也是工业界比较关心的话题。
2. 知识图谱的表示
假设我们用知识图谱来描述一个事实(Fact) - “张三是李四的父亲”。这里的实体是张三和李四,关系是“父亲”(is_father_of)。当然,张三和李四也可能会跟其他人存在着某种类型的关系(暂时不考虑)。当我们把电话号码也作为节点加入到知识图谱以后(电话号码也是实体),人和电话之间也可以定义一种关系叫 has_phone,就是说某个电话号码是属于某个人。下面的图就展示了这两种不同的关系。
另外,我们可以把时间作为属性(Property)添加到 has_phone 关系里来表示开通电话号码的时间。这种属性不仅可以加到关系里,还可以加到实体当中,当我们把所有这些信息作为关系或者实体的属性添加后,所得到的图谱称之为属性图 (Property Graph)。属性图和传统的RDF格式都可以作为知识图谱的表示和存储方式,但二者还是有区别的,这将在后面章节做简单说明。
3. 知识图谱的存储
知识图谱是基于图的数据结构,它的存储方式主要有两种形式信用卡申请反欺诈知识图谱:RDF存储格式和图数据库(Graph Database)。至于它们有哪些区别,请参考【1】。下面的曲线表示各种数据存储类型在最近几年的发展情况。从这里我们可以明显地看到基于图的存储方式在整个数据库存储领域的飞速发展。这幅曲线图来源于 Graph DBMS increased their popularity by 500% within the last 2 years
下面的列表表示的是目前比较流行的基于图存储的数据库排名。从这个排名中可以看出neo4j在整个图存储领域里占据着NO.1的地位,而且在RDF领域里Jena还是目前为止最为流行的存储框架。这部分数据来源于 DB-Engines Ranking
当然,如果需要设计的知识图谱非常简单,而且查询也不会涉及到1度以上的关联查询,我们也可以选择用关系型数据存储格式来保存知识图谱。但对那些稍微复杂的关系网络(现实生活中的实体和关系普遍都比较复杂),知识图谱的优点还是非常明显的。首先,在关联查询的效率上会比传统的存储方式有显著的提高。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。其次,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。比如我们有一个新的数据源,我们只需要在已有的图谱上插入就可以。于此相反,关系型存储方式灵活性方面比较差,它所有的Schema都是提前定义好的,如果后续要改变,它的代价是非常高的。最后,把实体和关系存储在图数据结构是一种符合整个故事逻辑的最好的方式。
4. 应用
在本文中,我们主要讨论知识图谱在互联网金融行业中的应用。当然,很多应用场景和想法都可以延伸到其他的各行各业。这里提到的应用场景只是冰山一角, 在很多其他的应用上,知识图谱仍然可以发挥它潜在的价值, 我们在后续的文章中会继续讨论。
反欺诈
反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的数据(结构化,非结构)整合在一起,并构建反欺诈引擎,从而有效地识别出欺诈案件(比如身份造假,团体欺诈,代办包装等)。而且不少欺诈案件会涉及到复杂的关系网络,这也给欺诈审核带来了新的挑战。 知识图谱,作为关系的直接表示方式,可以很好地解决这两个问题。 首先,知识图谱提供非常便捷的方式来添加新的数据源,这一点在前面提到过。其次,知识图谱本身就是用来表示关系的,这种直观的表示方法可以帮助我们更有效地分析复杂关系中存在的特定的潜在风险。
反欺诈的核心是人,首先需要把与借款人相关的所有的数据源打通,并构建包含多数据源的知识图谱,从而整合成为一台机器可以理解的结构化的知识。在这里,我们不仅可以整合借款人的基本信息(比如申请时填写的信息),还可以把借款人的消费记录、行为记录、网上的浏览记录等整合到整个知识图谱里,从而进行分析和预测。这里的一个难点是很多的数据都是从网络上获取的非结构化数据,需要利用机器学习、自然语言处理技术把这些数据变成结构化的数据。
不一致性验证
不一致性验证可以用来判断一个借款人的欺诈风险,这个跟交叉验证类似。比如借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。
再比如,借款人说跟张三是朋友关系,跟李四是父子关系。当我们试图把借款人的信息添加到知识图谱里的时候,“一致性验证”引擎会触发。引擎首先会去读取张三和李四的关系,从而去验证这个“三角关系”是否正确。很显然,朋友的朋友不是父子关系,所以存在着明显的不一致性。
不一致性验证涉及到知识的推理。通俗地讲,知识的推理可以理解成“链接预测”,也就是从已有的关系图谱里推导出新的关系或链接。 比如在上面的例子,假设张三和李四是朋友关系,而且张三和借款人也是朋友关系,那我们可以推理出借款人和李四也是朋友关系。
组团欺诈
相比虚假身份的识别,组团欺诈的挖掘难度更大。这种组织在非常复杂的关系网络里隐藏着,不容易被发现。当我们只有把其中隐含的关系网络梳理清楚,才有可能去分析并发现其中潜在的风险。知识图谱,作为天然的关系网络的分析工具,可以帮助我们更容易地去识别这种潜在的风险。举一个简单的例子,有些组团欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的。下面的图大概说明了这种情形。从图中可以看出张三、李四和王五之间没有直接的关系,但通过关系网络我们很容易看出这三者之间都共享着某一部分信息,这就让我们马上联想到欺诈风险。虽然组团欺诈的形式众多,但有一点值得肯定的是知识图谱一定会比其他任何的工具提供更佳便捷的分析手段。
异常分析(Anomaly Detection)
异常分析是数据挖掘研究领域里比较重要的课题。我们可以把它简单理解成从给定的数据中找出“异常”点。在我们的应用中,这些”异常“点可能会关联到欺诈。既然知识图谱可以看做是一个图 (Graph),知识图谱的异常分析也大都是基于图的结构。由于知识图谱里的实体类型、关系类型不同,异常分析也需要把这些额外的信息考虑进去。大多数基于图的异常分析的计算量比较大,可以选择做离线计算。在我们的应用框架中,可以把异常分析分为两大类信用卡申请反欺诈知识图谱: 静态分析和动态分析,后面会逐一讲到。
- 静态分析
所谓的静态分析指的是,给定一个图形结构和某个时间点,从中去发现一些异常点(比如有异常的子图)。下图中我们可以很清楚地看到其中五个点的相互紧密度非常强,可能是一个欺诈组织。所以针对这些异常的结构,我们可以做出进一步的分析。
- 动态分析
所谓的动态分析指的是分析其结构随时间变化的趋势。我们的假设是,在短时间内知识图谱结构的变化不会太大,如果它的变化很大,就说明可能存在异常,需要进一步的关注。分析结构随时间的变化会涉及到时序分析技术和图相似性计算技术。有兴趣的读者可以去参考这方面的资料【2】。
失联客户管理
除了贷前的风险控制,知识图谱也可以在贷后发挥其强大的作用。比如在贷后失联客户管理的问题上,知识图谱可以帮助我们挖掘出更多潜在的新的联系人,从而提高催收的成功率。
现实中,不少借款人在借款成功后出现不还款现象,而且玩“捉迷藏”,联系不上本人。即便试图去联系借款人曾经提供过的其他联系人,但还是没有办法联系到本人。这就进入了所谓的“失联”状态,使得催收人员也无从下手。那接下来的问题是,在失联的情况下,我们有没有办法去挖掘跟借款人有关系的新的联系人? 而且这部分人群并没有以关联联系人的身份出现在我们的知识图谱里。如果我们能够挖掘出更多潜在的新的联系人,就会大大地提高催收成功率。举个例子,在下面的关系图中,借款人跟李四有直接的关系,但我们却联系不上李四。那有没有可能通过2度关系的分析,预测并判断哪些李四的联系人可能会认识借款人。这就涉及到图谱结构的分析。
智能搜索及可视化展示
基于知识图谱,我们也可以提供智能搜索和数据可视化的服务。智能搜索的功能类似于知识图谱在Google, Baidu上的应用。也就是说,对于每一个搜索的关键词,我们可以通过知识图谱来返回更丰富,更全面的信息。比如搜索一个人的身份证号,我们的智能搜索引擎可以返回与这个人相关的所有历史借款记录、联系人信息、行为特征和每一个实体的标签(比如黑名单,同业等)。另外,可视化的好处不言而喻,通过可视化把复杂的信息以非常直观的方式呈现出来, 使得我们对隐藏信息的来龙去脉一目了然。
精准营销
“A knowledge graph allows you to take core information about your customer—their name, where they reside, how to contact them—and relate it to who else they know, how they interact on the web, and more”-- Michele Goetz, a Principal Analyst at Forrester Research
一个聪明的企业可以比它的竞争对手以更为有效的方式去挖掘其潜在的客户。在互联网时代,营销手段多种多样,但不管有多少种方式,都离不开一个核心 - 分析用户和理解用户。知识图谱可以结合多种数据源去分析实体之间的关系,从而对用户的行为有更好的理解。比如一个公司的市场经理用知识图谱来分析用户之间的关系,去发现一个组织的共同喜好,从而可以有针对性的对某一类人群制定营销策略。只有我们能更好的、更深入的(Deep understanding)理解用户的需求,我们才能更好地去做营销。
5. 挑战
知识图谱在工业界还没有形成大规模的应用。即便有部分企业试图往这个方向发展,但很多仍处于调研阶段。主要的原因是很多企业对知识图谱并不了解,或者理解不深。但有一点可以肯定的是,知识图谱在未来几年内必将成为工业界的热门工具,这也是从目前的趋势中很容易预测到的。当然,知识图谱毕竟是一个比较新的工具,所以在实际应用中一定会涉及到或多或少的挑战。
数据的噪声
首先,数据中存在着很多的噪声。即便是已经存在库里的数据,我们也不能保证它有100%的准确性。在这里主要从两个方面说起。第一,目前积累的数据本身有错误,所以这部分错误数据需要纠正。 最简单的纠正办法就是做离线的不一致性验证,这点在前面提过。第二, 数据的冗余。比如借款人张三填写公司名字为”普惠“,借款人李四填写的名字为”普惠金融“,借款人王五则填写成”普惠金融信息服务有限公司“。虽然这三个人都隶属于一家公司,但由于他们填写的名字不同,计算机则会认为他们三个是来自不同的公司。那接下来的问题是,怎么从海量的数据中找出这些存在歧义的名字并将它们合并成一个名字? 这就涉及到自然语言处理中的”消歧分析”技术。
非结构化数据处理能力
在大数据时代,很多数据都是未经处理过的非结构化数据,比如文本、图片、音频、视频等。特别在互联网金融行业里,我们往往会面对大量的文本数据。怎么从这些非结构化数据里提取出有价值的信息是一件非常有挑战性的任务,这对掌握的机器学习,数据挖掘,自然语言处理能力提出了更高的门槛。
知识推理
推理能力是人类智能的重要特征,使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”关系,“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友,那我们可以推测张三和李四也很有可能是朋友关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要,基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。
大数据、小样本、构建有效的生态闭环是关键
虽然现在能获取的数据量非常庞大,我们仍然面临着小样本问题,也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统,我们首先需要一些欺诈样本。但实际上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移,我们必然会收集到更多的样本,但样本的增长空间还是有局限的。这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。
在这种小样本条件下,构建有效的生态闭环尤其的重要。所谓的生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,而且要深入到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。
6. 结语
知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用,知识图谱还可以应用在权限管理,人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。
参考文献
【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.
【2】User Behavior Tutorial
【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库
【4】Nickel, M., Murphy, K., Tresp, V., Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
【5】Socher, R., Chen, D., Manning, C. D., Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).
【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).
【7】Jenatton, R., Roux, N. L., Bordes, A., Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).
信用卡申请反欺诈知识图谱的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于怎么样构成信用卡诈骗、信用卡申请反欺诈知识图谱的信息您可以在本站进行搜索查找阅读喔。
还没有评论,来说两句吧...