文 / 上海银行信息技术部 沈旻旭 于中宝 杨晓彦 周影

在科技赋能金融与人工智能技术迅速发展的背景下,各大金融机构开始寻求前沿的科技手段来提高业务能力,尤其是在信贷领域。目前,商业银行在信贷领域所面临的欺诈风险主要包括申请欺诈和交易欺诈,其中申请欺诈的鉴别和定义极为困难,是个贷风控的痛点。传统的反欺诈体系已无法满足高维的用户特征以及复杂的欺诈模式,而知识图谱为银行解决信贷领域的用户欺诈问题提供了一种全新的视角。

一、行业信贷风控现状

目前,商业银行风控依据的信息普遍以人行征信为主体,存在一定缺陷和问题。首先,人行征信系统中的客户本身质量比较高,而对于那些未进入人行征信系统中的客户,仅以人行征信系统为主的风控手段便无法判断其优劣;其次,人行征信系统也依赖于银行系统上传的历史数据,而这类数据缺乏时效性,对于客户当前信用风险的评估也略显不足;最后,传统的风控方式(如评分卡模型)没有考虑到社群特征和客户之间的关联关系,难以识别团伙欺诈。随着知识图谱技术的不断发展,越来越多的银行开始应用知识图谱进一步完善反欺诈系统,知识图谱开始在不同的反欺诈场景如盗卡盗刷、钓鱼诈骗、非法提现、套现洗单等场景发挥作用。部分银行的知识图谱应用成果见表1。

表1 部分银行的知识图谱应用成果

目前传统商业银行的零售信贷流程如图1所示。

图1 传统商业银行的零售信贷流程

其中,审批阶段的评分卡模型是机器学习在整个信贷流程中运用的最为成熟的方法,评分卡分为A卡(申请评分模型)和B卡(行为评分模型)。A卡用于客户进件审核;B卡用于预测客户的动态风险。审批阶段所用的征信信息可以分为硬信息和软信息。硬信息为直接量化客户还款能力和意愿的信息,如财务状况、信贷概要数据等;软信息为勾勒客户面貌,间接体现还款能力的信息,如居住地、社交信息等。商业银行也常常会通过其他行为特征,亦或是第三方征信数据,来弥补“薄信用”客户信贷信息不足的问题。

商业银行通过引进知识图谱作为弥补“薄信用”客户信贷信息不足的手段之一,并加入到整个信贷流程的调查审批、催收环节中,增加客户信息的维度,进一步提高反欺诈能力。

二、知识图谱算法及应用场景介绍

知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体、关系、实体”三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。其中,实体指的是具有可区别性且独立存在的某种事物,如某一个人、某一件商品等,是知识图谱中的最基本元素。不同的属性值类型对应于不同类型属性的边。如果属性值对应的是概念或实体,则属性描述两个实体之间的关系,称为“对象属性”;如果属性值是具体的数值,则称为“数据属性”。知识图谱的分类方式很多,例如可以通过知识种类、构建方法等划分。从领域上来说,知识图谱通常分为两种——通用知识图谱、特定领域知识图谱。基于反欺诈目标建立的知识图谱属于特定领域知识图谱。

知识图谱是基于大规模图计算的面向个人和企业的关系挖掘系统,通过对用户各个维度的数据进行采集、处理和分析,最终构建多类型的实体关系网络,可以及时预警潜在风险,为金融行业用户提供风险异常检测和反欺诈行为分析。

知识图谱中可应用于商业银行反欺诈的算法主要可分为关系网络算法、无监督算法两类。

1.关系网络算法

关系网络算法可分为三类核心的图算法:路径搜索、中心性算法和社群发现算法。

(1)路径搜索

路径搜索算法是图算法中最基础却也是最重要的算法,同时,不同的路径搜索算法也适用于不同的应用场景。各路径算法比较见表2。

表2 路径算法比较

(2)中心性算法

中心性算法用于识别图中特定节点的角色及其对网

络的影响,计算得出的节点重要性,往往可以作为不同模型的输入特征。中心性算法主要包括度中心性、接近中心性、中介中心性、特征向量中心性等。各中心性算法比较见表3。

表3 中心性算法比较

(3)社群发现算法

社群发现算法有助于发现社群中群体行为或者偏好,寻找嵌套关系,或者作为其他分析的前序步骤。各社群算法比较见表4。

表4 社群算法比较

2.无监督算法

无监督算法是没有标签信息的一个学习过程,可以用来发现训练集样本中的结构性知识。无监督算法主要包括聚类算法和异常值检测算法。

(1)聚类算法

在应用方面,基于图算法生成的标签值(可以纳入属性标签),再通过K-Means进行聚类,找出行为一致群体,为后期的信贷审核提供帮助。具体的客群划分步骤为:针对信贷客户做信贷圈(可以理解为特征工程,或者标签库);采用聚类算法进行客群划分;验证,优化。聚类算法比较见表5。

表5 聚类算法比较

(2)异常值检测

由于欺诈客户在数据集中本身所占比例较小,在某些特征方面与正常客户会有明显的区别,而异常值检测算法非常适合寻找这类点。异常点检测主要用于在样本中寻找离群点,异常值检测算法比较见表6。

表6 异常值检测算法比较

三、知识图谱在信贷反欺诈场景中的应用

知识图谱反欺诈将多源异构的大数据整合成机器可以理解的知识,将“单点”的身份、资料等的核查转换成从“面”的形式进行欺诈风险检测,从而实现欺诈的识别与防御,具备真实性、合理性、实时性、关联性、风险可视化的特点。

在知识图谱反欺诈中,核心是人。首先需要把与借款人相关的所有数据源打通,通过对数据进行清理、抽取,比如抽取构建知识图谱的节点(工作地址、姓名、身份证、单位、IP地址、联系人手机号等),构建包含多数据源的知识图谱,从而整合成为机器可以理解的结构化的知识。通过知识图谱对已有的银行关系网络进行潜在关系挖掘,可以很清晰地发现某个团体是否成群结队来骗贷,也可以发现高危人员的联系是否有交集等。目前欺诈行为具有样本稀疏、团伙共同欺诈、隐蔽性高、欺诈行为动态变化等特点,基于知识图谱的反欺诈能够在一定程度上降低这些特点带来的风控难度。

本文就知识图谱反欺诈的应用提出以下几个潜在的场景:一是通过知识图谱对商业银行的数据进行补充和完善,提高一致性检验能力。二是通过建立一些无监督模型、有监督模型,对欺诈团体实现离线抓取、在线判别、欺诈行为分析。三是通过知识图谱完成对客户信贷各阶段的质量监控。四是通过基于知识图谱可视化对抓出的疑似欺诈名单进行案件调查,确认欺诈名单、欺诈行为特征并反馈到审批系统中。

1.知识图谱一致性检验

大量数据表到知识图谱转化的时候,有部分数据是没有直接关联的,可通过知识推理或知识抽取达到完善客户数据的效果。通过NLP技术从一客户短信文本中抽取拖欠信息,并以三元组的形式存入图数据库。通过知识图谱得到潜在信息,在一定程度上可丰富商业银行客户关系网络的信息维度,有利于后续更多的应用,如从图2中可通过NLP提取<客户a,拖欠,xx信贷>的图谱三元组。

图2 从短信文本中抽取信息存入到图数据的三元组

通过知识推理和知识抽取完善客户的信息后,就可以提高一致性检验反欺诈的能力,一致性检验的主要手段是交叉核验和第三方查询。通过建立知识图谱,商业银行的一致性检验可以从申请信息、人行征信两方比对提高到申请信息、人行征信、知识图谱三方比对,在更加严格的检验中,寻找在申请信息中存在逻辑不一致的地方,抓取潜在欺诈人员。比如,申请人的申请信息有时会同时属于两个互斥的类别,或者一个信息实体的某个属性对应多个值,这种情况就可以通过一致性检验抓取。具体案例为,申请人申请信息中为某个公司的员工,但是在关系网络中发现他与另一家公司的某个员工共用一个手机号码,那这个申请人可能就是潜在的欺诈人员。

2.知识图谱欺诈团伙挖掘

尽管欺诈团伙具备多变性,但同时也有一个不变的特点,部分信息会被团体共享。那么共享的信息使得他们之间有比较多的关联关系,这是一个可以通过知识图谱识别的风险点。因此,商业银行可通过对客户的图谱挖掘分析,迅速发现欺诈团体,减少损失。欺诈团伙挖掘的方式可以分为以下两种:

一是根据贷前已经标记的欺诈社群,在关系网络中或者新进件时寻找有紧密联系的欺诈用户,该用户属于这一欺诈社群的可能性更大,具体的说,可以设置一些欺诈社群的规则,如和欺诈社群中的客户具有强关系(亲属、配偶、属于一个IP地址),就可以认为该客户属于欺诈社群,拒绝改客户的贷款申请。

二是通过无监督的聚类算法和图社群算法,在海量的数据中根据客户各个维度的信息,将客户归并于不同的特定群组,并对不同群组的客户进行分析,部分离群的用户群组或是预示着这些客户处于某些特殊事件情境中,或是预示着欺诈行为。图3展示了一个无监督算法聚类的可视化:以链接同一个WiFi下团体中的男性占比和年龄差者两个特征来对网络中的团体进行分群。作为以家人关系而形成的团体,一般由三人形成,多为两男一女或两女一男,男性占比33%或67%,并且年龄差一般为20-30岁。具有这种性质的团体一般为家庭团体,因而风险性较小。但对于人数较多,男性占比高,而且年龄差较小的团体,则有可能是欺诈团伙,需要进一步调查。

图3 无监督算法客户聚类

3.知识图谱客户质量监控

通过知识图谱可以完成客户质量全链路的监控。首先,在前期客户推送阶段,通过知识图谱发现的高风险客户可以加入推送黑名单。其次,在中期通过风险传导、客户动态图分析等方式,对客户实时监控,及时对具有风险操作倾向的客户发出预警。表7的风险传导中,通过马尔科夫链、蒙特卡罗、网络可靠性等算法,可以计算得到当A发生信贷违约时,该违约行为分别以0.625、0.9375概率传递给B、C。最后,通过知识图谱,可以帮助商业银行挖掘出已被识别为欺诈客户的潜在联系人,从而提高催收的成功率,减少损失。

表7 风险传导

4.结合机器学习建立有监督模型

通过知识图谱的图计算可以得到很多的关联特征,在欺诈样本充分的情况下,这些特征可以传到商业银行的建模平台,完成对反欺诈机器模型的建立。基于知识图谱的新特征见表8。

表8 基于知识图谱的新特征

很多情况下,反欺诈机器学习建模会被认为是一个二分类问题,但把不同欺诈行为当做一种单独的类型,就转换为一个多分类问题。由于欺诈的手段总在变化,商业银行需要不断更新反欺诈策略,而不是使用单独的一个反欺诈模型。因此,笔者建议使用多个弱分类器的融合模型,往往能达到更好的泛化能力。在模型输出结果时,使用一些模型融合算法如Bagging、Boosting、Stacking、Blending对多种集成类模型加权融合,然后再进行最终类别的输出,可以有效提高反欺诈模型应对不同欺诈类型的能力。

5.基于知识图谱数据可视化的案调系统

知识图谱通过可视化方式辅助授信业务对申请人是否为欺诈分子作出决策。通过提供统一的图形接口,结合图谱可视化、图谱推理、图谱查询等功能,为用户提供信息获取的入口。例如,授信业务可通过节点探索、路径发现、关联探寻等可视化分析贷款申请人的全方位信息。可视化界面会展示人物实体之间的关系结果、风险警告以及社会关联。如图4所示,授信审核业务通过知识图谱可视化,进行图的查询、下钻等操作,结合图的动态静态分析可以快速定位异常点,并对异常点的情况进行分析。图谱可视化系统的应用场景案调系统与案调场景见表9。

图4 可视化系统对特定客户群的下钻

表9 案调系统与案调场景

6.潜在问题

尽管知识图谱对于提升商业银行信贷领域反欺诈能力具有很好的效果,但目前知识图谱的发展依然存在不少的瓶颈。如知识的自动获取、多源知识的自动融合、面向知识的表示学习、知识的推理与应用,尤其是在数据为非结构化数据、文本数据时,面临着知识抽取不准确、实体不明等问题。在风控领域,对数据的准确性有着极高的要求,笔者建议在构建知识图谱反欺诈系统时,以结构化数据构建的关系网络为基础信息,谨慎引入非结构化数据来更新关系网络。

四、总结

目前,各商业银行的零售信贷规模不断增长,但第一次建立知识图谱反欺诈系统的银行会面临初始欺诈样本数量太少的问题,即冷启动。欺诈样本本身就属于少数,在几百万个贷款申请中最后被标记为“欺诈”的样本很可能也就几万个而已,同时每一个已经确认的欺诈样本背后都是一笔不良贷款。随着时间的推移,商业银行必然会收集到更多的样本,但样本的增长空间和增长速度还是有限的。

在这种小样本条件下,系统上线初期,可以通过一些无监督算法、网络算法、异常值检测等算法处理好反欺诈系统的冷启动问题,在上线中后期通过与已有的决策引擎对接,达到严格准确的实时审批效果。在上线后期,有了足够的坏样本后,将样本特征反馈给调整决策引擎的专家规则,并建立不同欺诈模式的有监督机器学习模型。同时,在整个过程中,都应有一个强大的知识图谱可视化系统辅助案调,做到有的放矢。

在信贷领域反欺诈的背后,是商业银行与欺诈分子之间的博弈,商业银行可通过建立一个自反馈系统,使得模型不断地自优化,从而提升系统的反欺诈效果。

本文刊于《中国金融电脑》2021年第06期

声明:本文来自FCC30+,版权归作者所有。文章内容仅代表作者独立观点,不代表士冗科技立场,转载目的在于传递更多信息。如有侵权,请联系 service@expshell.com。