风险顶点识别方法和装置与流程

文档序号:18399563发布日期:2019-08-09 23:44阅读:283来源:国知局
风险顶点识别方法和装置与流程

本发明涉及业务安全领域,尤其涉及风险顶点识别的方法和装置。



背景技术:

交易风险普遍存在于各类交易中,小到在菜市场买菜,扫错了商家二维码从而付款到错的账户,大到公司交易中,交易对手因为各种原因违约,而造成了巨额损失。有些风险的发生是因为客观原因,或是非故意为之而导致的,比如因为金融危机的风险传染性而导致对手方经营不善从而违约;而另外一些是主观原因,比如交易对手蓄意引导错误交易从而导致资金损失。然而在判断一笔交易是否存在风险时,不单单需要追溯交易双方的真实信息和目的,也需要全面考虑所有风险关联方。

当前存在以下风险关联方识别的方案:

1.基于连通图的识别模型:连通图可以通过定义不同的介质而分为单因子介质图或多因子介质图,并以黑种子为出发点,无限拓展连通。但这类图结构的构建存在如下缺点:

a.顶点自定义拓展受限:若是连通关系以及介质定义确定后,如果风险形式发生变动或是专家法自定义增删任何逻辑,连通图无法灵活拓展。

b.计算效率受限:连通图对于复杂的资金关系动态变化情况,由于数据量级和复杂程度,以及计算资源受限导致计算效率相对不高。

c.多场景切换受限:连通图一般可建立普适性大图,或是通过切割各个小图组成大图。然后图建立后,若是需要根据不同的应用场景进行个性化侧写,或是多场景交叉类,较难实现或是较难复用。

2.设备关联反查:设备通常指用于风险交易的电子设备,比如电脑、手机、电话卡等。由于设备价值一般高于其他作案工具,因此复用性及使用周期较长。通过已知黑设备,可以关联反查出更多作案账户等。但这类方法有以下缺点:

a.非准确类(疑似类)设备导致后续关联反查准确率陡降:部分黑设备可能是通过二级市场购买,而非新设备。这类设备关联反查产出的用户会混杂优质客户,若是再进行二度或三度关联,由于优质客户社会关系(日常交互)远远大于作案类账户,会导致几度关联结果准确性直线下降。

b.混用类设备准确率低:由于设备价值往往较高,因此会存在多种风险主体混用现象。

因此期望一种能够有效识别风险关联方,以便于在交易风险发生前,提前识别和管控所有的风险关联方。



技术实现要素:

本发明在交易风险发生前,提前识别高风险顶点(例如,高风险账户),从而能够实时监控高风险顶点,有效预防风险发生。

本发明提供了一种用于识别风险顶点的方法,包括:

构建多个介质网,所述多个介质网中的每一者从相同类型的一个或多个黑种子构建,并且由顶点和连接顶点的介质组成;

根据每个顶点所连接的上一层介质的个数和满足风险条件的数目来确定该顶点的第一风险值;

将所述多个介质网叠加;

基于叠层介质网结构中每个顶点的重合次数和所述第一风险值来确定该顶点的最终风险值;以及

根据最终风险值确定高危顶点。

可任选地,所述构建多个介质网包括:

生成一个或多个初始种子;

将介质池中的介质与所述一个或多个初始种子进行匹配以生成一个或多个初始介质;以及

输出所述一个或多个初始种子和所述一个或多个初始介质以用于构建介质网。

可任选地,所述将介质池中的介质与所述一个或多个初始种子进行匹配包括:

确定所述介质是否与所述一个或多个初始种子中的一者或多者相关联;

确定所述介质所关联的初始种子数目与初始种子总数的比率;以及

如果所述比率高于阈值,则所述介质被确定为初始种子。

可任选地,所述根据每个顶点所连接的上一层介质的个数和满足风险条件的数目来确定该顶点的第一风险值包括:

根据每个顶点所连接的上一层介质的个数来确定该顶点的初始风险值;以及

根据每个顶点满足风险条件的数目和初始风险值来确定该顶点的第二重风险值。

可任选地,顶点的初始风险值是所连接的上一层介质的数目的对数函数。

可任选地,所述根据每个顶点满足风险条件的数目来确定该顶点的第二重风险值包括:

确定该顶点满足风险条件的数目;以及

基于该顶点满足风险条件的数目和初始风险值来确定该顶点的第二重风险值。

可任选地,所述基于该顶点满足风险条件的数目和初始风险值来确定该顶点的第二重风险值进一步包括:

确定该顶点的层级数;以及

基于该顶点的层级数、满足风险条件的数目和初始风险值来确定该顶点的第二重风险值。

可任选地,顶点的所述层级数是顶点与黑种子之间的介质数目。

可任选地,该方法进一步包括:

将每个边界顶点的风险值与其上游顶点的风险值进行比较;以及

如果边界顶点的风险值大于任一上游顶点,则调整所述边界顶点的上游顶点的风险值,以使得上游顶点的风险值大于或等于所述边界顶点的风险值。

可任选地,所述获取叠层介质网中每个顶点的最终风险值包括:

基于顶点的重合次数来增大重合顶点的风险值。

本发明的又一方面提供了一种用于识别风险顶点的装置,包括:

用于构建多个介质网的模块,所述多个介质网中的每一者从相同类型的一个或多个黑种子构建,并且由顶点和连接顶点的介质组成;

用于根据每个顶点所连接的上一层介质的个数和满足风险条件的数目来确定该顶点的第一风险值的模块;

用于将所述多个介质网叠加的模块;

用于基于叠层介质网结构中每个顶点的重合次数和所述第一风险值来确定该顶点的最终风险值的模块;以及

用于根据最终风险值确定高危顶点的模块。

可任选地,所述构建多个介质网包括:

用于生成一个或多个初始种子的模块;

用于将介质池中的介质与所述一个或多个初始种子进行匹配以生成一个或多个初始介质的模块;以及

用于输出所述一个或多个初始种子和所述一个或多个初始介质以用于构建介质网的模块。

可任选地,所述将介质池中的介质与所述一个或多个初始种子进行匹配包括:

用于确定所述介质是否与所述一个或多个初始种子中的一者或多者相关联的模块;

用于确定所述介质所关联的初始种子数目与初始种子总数的比率的模块;以及

用于如果所述比率高于阈值,则所述介质被确定为初始种子的模块。

可任选地,所述用于根据每个顶点所连接的上一层介质的个数和满足风险条件的数目来确定该顶点的第一风险值的模块包括:

用于根据每个顶点所连接的上一层介质的个数来确定该顶点的初始风险值的模块;以及

用于根据每个顶点满足风险条件的数目和初始风险值来确定该顶点的第二重风险值的模块。

可任选地,顶点的初始风险值是所连接的上一层介质的数目的对数函数。

可任选地,所述用于根据每个顶点满足风险条件的数目来确定该顶点的第二重风险值的模块包括:

用于确定该顶点满足风险条件的数目的模块;以及

用于基于该顶点满足风险条件的数目和初始风险值来确定该顶点的第二重风险值的模块。

可任选地,所述用于基于该顶点满足风险条件的数目和初始风险值来确定该顶点的第二重风险值的模块进一步包括:

用于确定该顶点的层级数的模块;以及

用于基于该顶点的层级数、满足风险条件的数目和初始风险值来确定该顶点的第二重风险值的模块。

可任选地,顶点的所述层级数是顶点与黑种子之间的介质数目。

可任选地,该装置进一步包括:

用于将每个边界顶点的风险值与其上游顶点的风险值进行比较的模块;以及

用于如果边界顶点的风险值大于任一上游顶点,则调整所述边界顶点的上游顶点的风险值,以使得上游顶点的风险值大于或等于所述边界顶点的风险值的模块。

可任选地,所述用于获取叠层介质网中每个顶点的最终风险值的模块包括:

用于基于顶点的重合次数来增大重合顶点的风险值的模块。

本发明的又一方面提供了一种计算机设备,包括:

处理器;以及

被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:

构建多个介质网,所述多个介质网中的每一者从相同类型的一个或多个黑种子构建,并且由顶点和连接顶点的介质组成;

根据每个顶点所连接的上一层介质的个数和满足风险条件的数目来确定该顶点的第一风险值;

将所述多个介质网叠加;

基于叠层介质网结构中每个顶点的重合次数和所述第一风险值来确定该顶点的最终风险值;以及

根据最终风险值确定高危顶点。

本发明的介质网构建和高危节点识别可应用于各种判断风险交易的场景,比如违禁类风险,欺诈类风险,营销类风险等,能取得显著的效果。

附图说明

图1是根据本发明的风险顶点识别方法的示图。

图2是根据本发明的各方面的介质网的示意图。

图3是根据本发明的各方面的顶点关联多个介质的示意图。

图4是根据本发明的各方面的准备用于数据准备的方法的流程图。

图5是根据本发明的各方面的对顶点进行初始赋值的方法的流程图。

图6是根据本发明的各方面的无线介质个体的示图。

图7是根据本发明的各方面的对顶点进行风险值优化的方法的流程图。

图8是根据本发明的各方面的计算叠层介质网的顶点的风险值的方法的流程图。

图9是根据本发明的风险顶点识别方法的流程图。

图10是根据一个实施例的两个介质网叠加的示图。

具体实施方式

为让本发明的上述目的、特征和优点能更明显易懂,以下结合附图对本发明的具体实施方式作详细说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,因此本发明不受下面公开的具体实施例的限制。

具体而言,本申请的发明人通过对大量数据样本的分析,发现对于大多数交易事件的双方,交易前的风险行为可以通过构建各种介质的网状结构,迭代识别各个顶点的重合度,从而确定风险程度。例如,通讯类介质(例如,手机、电话等)可以识别双方是否是认识关系,设备类介质(例如,电脑、智能手机等)可以识别是否有不同账户在同一设备上操作,位置类(例如,lbs(基于位置的服务))介质可以判断交易双方是否在相近的地理位置等等。这些介质可以混合组成一个交错的网状结构,也可以组成多个独立的网状结构。如果网状结构中某一个顶点与多个介质关联,那么高危程度增加,与之相关的交易自然风险加大。

随着通信工具和社交媒体的普及,形成了广泛的社交网。每个实体(例如,个人、企业等)都有各种账户(例如,银行账户、手机号、支付宝账户、微信账户,等等),实体可使用介质(例如,电话、短信、微信、微博,等等)与其它实体联系。可以构建介质网来表征实体之间的这些交互和关联。

介质网由顶点以及连接各顶点的介质组成。

顶点是实体在交互(例如,交易)中使用的身份标识,诸如,账号(例如,银行账号、手机号、支付宝账号、微信账号等)。

介质表示实体之间的交互手段,例如,银行转账、电话、短信、微信、微博等。

例如,如果两个实体通过手机通信过,那么可以使用手机通讯类介质来连接两个实体的手机号顶点。

在另一示例中,如果两个实体有过银行转账记录,那么可以使用银行转账类介质来连接两个实体的银行账号顶点。

在又一示例中,如果两个实体在相同设备上使用过,那么可以使用设备类介质来连接两个实体的设备顶点。

在进一步示例中,如果两个实体在相同地点出现过,那么可以使用lbs(基于位置的服务)介质来连接两个实体的位置顶点。

介质网中的每个顶点可具有风险值,风险值可表征该顶点为危险实体(例如,欺诈实体、冒用实体等)的概率。介质网中的每个顶点一般可包括一种或多种类型的风险值(例如,欺诈风险值、冒用风险值等等)。顶点关于某种类型的风险值可表示顶点关于该风险的发生概率。

通常从黑种子出发构建介质网,黑种子(也称为种子)的类型与介质网中的顶点类型(例如,银行账户、手机号、支付宝账户、微信账户等)相同,表征已被确定存在某类风险的实体。例如,信用差、有欺诈、盗用和冒用历史的实体。

本发明在介质网中的顶点风险值确定中考虑到与黑种子的多介质(或即多路径)关联、附加风险特征、与黑种子的关联强度、多个介质网叠加时顶点的重合度,从而能够更加准确地确定风险值,从而更精确地标识出高风险顶点。

图1是根据本发明的风险顶点识别方法的示图。

如图1所示,本发明的风险顶点识别方案可分为以下四个部分:

第一部分是数据准备,为后续的各模块提供初始种子以及与初始种子相匹配的介质(也被称为初始介质)。

具体而言,从黑种子池中提取可用于构建介质网的初始种子(种子提纯);将初始种子与有效介质池中的介质进行匹配,将与初始种子有关联关系的介质确定为初始介质。

第二部分是独立介质网构建和顶点初始赋值,使用第一部分产生的初始种子和初始介质,构建多个独立介质网并且确定各个顶点的初始风险值。

例如,可以针对手机号建立介质网a,针对银行账号建立介质网b,针对支付宝账号建立介质网c,针对位置信息建立介质网d。

第三部分是顶点自定义(或即,顶点风险值优化),在初始风险值的基础上使用其它拓展信息优化风险值,从而确定顶点的第二重风险值。

例如,可以基于顶点满足其它风险的状况以及可任选地顶点的层级数来对初始风险值进行优化,得到第二重风险值。

第四部分是多重网叠层,将多个独立介质网叠加起来,针对重合顶点建立多介质结构,形成多边结构。针对多介质结构中的顶点,确定第三重风险值,进而得到最终风险值。根据最终风险值来确定潜在高危顶点。进一步,可以根据最终风险值分布及专家经验将高危顶点补充到黑种子池中,从而形成完善的良性识别体系。

图2是根据本发明的各方面的介质网的示意图。

如图2所示,介质网以黑种子(初始种子)a0出发点,黑种子a0分别连接至相关联介质aj11、aj12、aj13。

黑种子a0通过介质aj11与顶点b11相关联,通过介质aj12与顶点b13、b14、b15相关联,并且通过介质aj13与顶点b12相关联。由此在介质网中,介质aj11连接至相关联顶点b11,介质aj12连接至相关联顶点b13、b14、b15,并且介质aj13连接至相关联顶点b12。介质aj11、aj12、aj13,顶点b11、b12、b13、b14、b15属于介质网的第一层级m1。

顶点b11进而通过介质aj21与顶点b21相关联;顶点b12进而通过介质aj22与顶点b22、b23相关联。由此在介质网中,顶点b11通过介质aj21连接至相关联顶点b21;顶点b12通过介质aj22连接至顶点b22、b23。介质aj21、介质aj22、顶点b21、b22、b23属于介质网的第二层级m2。

为了解说起见,图2中介质/顶点的标号的第一个数字代表介质/顶点所处层级,第二个数字代表介质/顶点在所处层级的编号。例如,顶点b13代表处于层级1的第3个顶点。

在本文中,上游是指靠近黑种子(初始种子)的方向,下游是指远离黑种子的方向。

由此可见,在介质网中,各顶点通过介质相连,从黑种子向外扩展。在介质网中,顶点的层级数m是该顶点与黑种子之间的路径上的介质(也可称为上游介质)个数,介质的层级数m是该介质与黑种子之间的路径上的介质个数加1。

在一个介质网中有多个黑种子的情况下,特定顶点到每个黑种子的路径上的介质数不同。在这种情况下,该顶点的层级数m为其中最大的上游介质个数。

图3是根据本发明的各方面的一个顶点关联多个介质的示意图。

如图3所示,顶点b11连接至两个上游介质aj11、aj13,这表示顶点b11所代表的实体分别通过aj11、aj13与黑种子a0关联。由此顶点b11的风险值可增大(例如,加倍、对数加倍(例如,in2))。

以下详细描述根据本发明的风险顶点识别的方法。如上所述,风险顶点识别方案可分为数据准备、独立介质网构建、顶点自定义和多重网叠层四个部分,以下对这四个部分分别进行详细描述。

数据准备

数据准备包括准备用于介质网构建的初始种子和初始介质。

图4示出了准备用于介质网构建的种子和介质的方法的流程图。

在步骤401,生成初始种子。初始种子可以是图2和图3中所示的黑种子a0。

具体而言,可从黑种子池选择初始种子。黑种子池是某一风险或多风险集合形成的种子池,包括被确定有过不良行为的实体。例如,在本业务系统中有过不良记录的实体账户、与法院失信被执行人名单或公安局涉案名单对应的用户账户等。

例如,对于欺诈类风险,黑种子池可以是被用户举报并且定性的案件、公安部门推送的案件、或者新闻报道中所涉及的案件等等。黑种子池还可以纳入部分盗用类和冒用类案件。经过时间积累,形成庞大的单一或多风险综合黑种子池。

可对黑种子池进行种子提纯来生成用于介质网构建的初始种子。

具体而言,黑种子池中并非所有种子均为活跃种子或有效种子,可以剔除非有效或是存在干扰的种子,从而提高介质网状结构的准确性。

种子提纯可考虑以下因素:账户活跃时间、账户行为突变性、账户环境变异性等等。

账户活跃时间是指某些种子所关联的账户历史交易偏白(即,账户历史上为好账户,例如,历史无投诉且为正常账户),但是当前一段时间不活跃,这类关联就属于无效关联。若是使用该种子来建立介质网,则由于历史交易偏白关系,会导致扩散边无限。因此这类种子可被剔除掉。

账户行为突变性是指某些种子关联账户历史上为好账户,突然变为坏账户,也可被保留作为初始种子。

账户环境变异性是指某些种子所关联的账户先前在好设备上操作,突然变为在坏设备上操作。这表明账户很有可能被盗用,也可被保留作为初始种子。

在步骤402,将介质池中的介质与初始种子进行匹配以生成初始介质。

初始介质是指与初始种子直接关联(连接)的介质,例如,图2和图3中所示的与黑种子a0直接连接的介质aj11、aj12和aj13。

介质包含的范围较为广阔,在风险交易中,借以传播风险的物质均可成为介质。介质池一般基于特定风险的专家经验收集和总结。例如,实践中常用的有效介质包括银行卡(例如,借记卡)、支付宝账户、手机号、社交账户(例如,qq,微信等)、证件等。

可以将有效介质池中的介质与步骤401中生成的初始种子进行匹配以选择用于介质网构建的介质。具体而言,可以根据有效介质池中的介质与初始种子是否有效关联来确定它们是否匹配,并且选择与初始种子相匹配的介质作为初始介质。

例如,n个初始种子和m个介质具有n*m种关联关系,但不是每个关联关系均为有效。例如,如果初始种子是没有注册手机号的收益卡账号,而介质为手机通讯类介质,由于该收益卡不与手机号直接匹配,则认为该收益卡与手机通讯类介质不匹配。

可以通过介质与初始种子的匹配率来确定该介质是否能作为初始介质。该匹配率是指与介质相匹配的初始种子数与初始种子总数(步骤401中生成的初始种子的总数)之比。一般可选取与初始种子的匹配率较高(例如,高于阈值)的介质为用于介质网构建的有效介质。

例如,如果介质所匹配的初始种子数高于初始种子总数的40%,则认为此类介质有效,可保存以用于介质网构建。

进一步,可建立初始种子与相关联的一个或多个初始介质的映射关系以用于介质网构建,如下所述。

在步骤403,输出初始种子和初始介质以用于介质网构建。

具体而言,输出步骤401中生成的初始种子以及步骤402中与每个种子匹配的介质及其映射。

例如,如图2中所示的黑种子a0和相关联介质aj11、aj12、aj13。

独立介质网构建和顶点初始赋值

在确定初始种子和初始介质之后,可以构建一个或多个独立介质网,并且对各个介质网中的顶点进行初始赋值。

图5示出了对顶点进行初始赋值的方法的流程图。

如图5所示,在步骤501,构建一个或多个独立介质网。

具体而言,可以将初始种子分类,针对每种类型的初始种子,构建一个独立介质网。例如,可以针对银行账户类型的一个或多个黑种子,构建一个独立介质网;针对手机号类型的一个或多个黑种子,构建一个独立介质网。每个独立介质网的构建可包括以黑种子为出发点,首先连接初始介质(以上步骤403输出的初始介质中与该黑种子相关联的介质),通过数度关联拓展,形成多层顶点和介质。具体而言,可以确定每个上游顶点(包括种子)通过介质关联的一个或多个其它顶点,将该介质和该一个或多个其它顶点添加到该上游顶点的下游,依此类推。

例如,黑种子集合:a={a0,a1,a2,...,an}

黑种子可关联的有效介质集合如下(j、k、l……分别代表不同介质种类):

ajnj,aknk,alnl,...,其中nj,nk,nl...∈z

其中z表示正整数。

如图6所示,介质ak11由于无关联有效内容(例如,银行卡账户等)而不具有下游顶点,因此ak11被认为是有效介质集合中的无效介质个体。有效介质个体是上述有效介质集合的子集:

ajnj∈ajnj,ajnj∩ajnj=ajnj

介质网的最终扩散顶点个数与有效介质个体数s、关联层级m相关,由于对于同一顶点,会存在交叉关联(见图3),因此顶点个数q的下限如下式,上限可无穷。实践研究中,一般无风险类顶点通过多重扩散后接近无穷,然而风险交易类扩散结果往往是逐层递减,顶点个数收敛于固定常数:

{minq|1≤minq≤mn},q,mn∈z

其中z表示正整数。

在步骤502,确定顶点的初始风险值。

在介质网中,各个介质个体不重复。但是同一个顶点的上一层介质可能不止一个。

如图3所示,顶点b11连接的上一层介质的个数为两个,分别为aj11和aj13,这种情况可被认为顶点的风险叠加,相当于对于同一风险事实存在两个完全不同的举证,那么可相应地增大确定性(例如,加倍、对数加倍)。

例如,如果黑种子a0为一个具有手机号的支付宝账号,该支付宝账号所对应的手机号与顶点b11(另一具有手机号的支付宝账号)有关联(例如,具有通话历史),同时该支付宝账号与顶点b11的支付宝账号有转账历史。换言之,顶点b11通过两条路径与黑种子有关联,由此顶点b11的风险值较大。因此可相应地增大顶点b11的风险值。

以上列出了一个顶点关联两个介质的情形,但其它情形也在本发明的构想中。例如,一个顶点关联两个以上介质,顶点所关联的介质距离黑种的层级数更高,等等。

如果某一顶点v的上层介质个数(即,顶点v连接的上一层介质的个数)是x个,则顶点v的初始风险值r1(v)可如下计算:

r1(v)=ln(x)+1,x∈z(1)

其中,z表示正整数集合。

如式(1)所示,如果x=1,则r(v)为1;如果x=2,则r(v)为1.69;依此类推。

式(1)中使用对数函数ln,使得风险值随着顶点连接的上一层介质数的增加而增大,但最终会收敛。风险值代表风险的高危程度,当风险值普遍大于其他顶点时,已经可以确定为风险顶点。实践中,一般最大存在5个上层介质,即风险值2.6,可确定为高风险顶点。

注意,虽然以上关于顶点的初始风险值给出了公式(1),但确定初始风险值的其它方式也在本发明的构想中,例如,r1(v)=log(x)+1,r1(v)=lg(x)+1,等等,只要考虑到顶点的初始风险值随着连接的上一层的介质数增大即可。

如上所述,对于多个有效介质集合(每个集合包括相同类型的介质),分别构建多个介质网状结构,进一步计算各个顶点的初始风险值。

顶点自定义

在对顶点初始赋值之后,可以引入更多类型的其它数据,进一步对顶点进行风险值优化。在顶点的初始风险值的基础上迭代计算。

图7是对顶点进行风险值优化的方法的流程图。

在步骤701,确定顶点满足拓展条件的数目。

在顶点风险值的优化中,可以考虑其它拓展条件。例如,可以考虑顶点是否满足以下风险条件:

1、顶点是否涉及其它综合风险。

每个介质网中的各顶点可包括多种类型风险的风险值。在计算其中一种风险的风险值时,可考虑其它风险,即,除当前涉及的风险之外的相关其他风险。这些风险可能是当前风险的衍生风险,也可能与当前风险存在共存关系。例如,在实践中,对于欺诈类风险,通常还涉及冒用风险、垃圾注册风险、司法冻结风险、社交风险等。因此,在计算顶点的欺诈类风险值时,可以考虑该顶点是否满足冒用风险、垃圾注册风险、司法冻结风险、社交风险中的至少一者。

例如,可以确定该顶点是否针对垃圾注册风险、司法冻结风险、社交风险中的至少一者为高危风险顶点。如果针对其中一者为高危风险顶点,则确定该顶点涉及其它综合风险。

2、顶点是否具有异常行为。

具体而言,可对顶点进行异常行为特征分析。包括高危的资金关系行为、购物生活类行为、风险偏好行为等等。这类行为分析往往对于挖掘隐藏风险帮助较大。

例如,某一银行账户平时行为正常(例如,往往用于生活缴费),突然涉及大金额转账,则可认为该银行账户具有异常行为。

3、顶点是否为不确定类型,即,信息量很少的顶点。

如果顶点的信息量非常少,没有准确信息可供判断,这种情况常常会发生风险突变。例如,如果某一账户既没有任何历史行为,也没有任何历史风险,则无法对此类账户深入剖析。但该顶点很有可能在某一段时间突然风险爆发。

以上列举了三个可用于风险值优化的信息,但本领域技术人员也可构想其它拓展信息以用于风险值优化。

在优化顶点风险值时,可将顶点是否满足拓展条件和/或满足拓展条件的数目纳入考虑。

可任选地,在步骤702,确定顶点的层级数。

如图2所示,每个顶点所在层级数为m。一般而言,m值越大,代表所处的关联层级越远离初始种子a0(黑种子),风险值递减。例如,如果黑种子表示已经定案的犯罪分子,第一层顶点b1代表犯罪分子的妻子,第二层顶点b2代表妻子的弟弟,第三层顶点b3代表妻子弟弟的朋友。那么随着关联层级的增大,顶点与黑种子的关联强度降低,风险值递减。

如果边界顶点(即,介质网的最外围顶点,例如,b13、b14、b15、b21、b22、b23)具有较大的风险值,则可以认为此边界顶点与黑种子之间的各上游顶点风险值均更大,因为它们与黑种子的关联强度更大。例如,对于欺诈风险场景,如果投入的初始种子为中低风险,那么通过不同层级的介质关联,风险递减,边界顶点一般为低风险,或即普遍为‘好人’;如果初始种子风险非常高,则即使经过几重介质扩散,边界顶点依然高危。

因此,在对初始风险值进行优化时,可将顶点的层级数m作为考虑因素。这在以下详细说明。

在步骤703,确定顶点的第二重风险值。

在一个示例中,第二重风险值可以根据顶点满足的拓展条件的数目和所处层级来确定。

例如,可以根据式(2)来计算顶点v的第二重风险值:

r2(v)=r1(v)ln(y·m+e)(2)

其中,y是顶点v满足的风险条件的数目,m是顶点所处层级。

以风险条件为三个为例,如果y=0,即不满足任何风险条件,那么第二重风险值等于初始风险值。如果满足全部三个风险条件,并且顶点所处层级为5,则第二重风险值r2(v)是初始风险值r1(v)的2.87倍。对于深度介质拓展(一般大于3次均认为深度拓展)的顶点,若是被三类风险条件均命中,那么顶点必定为高风险。

例如,与初始种子直接关联的顶点(层级为1)由于离种子很近,其天然风险就较高。而如果顶点的层级为4,因为离种子较远,理论上风险较低,但若满足多个风险条件,则可增大其风险值以用于后续对上游顶点的风险值的调整,如下所述。

替换地,第二重风险值可以仅根据顶点满足的拓展条件的数目来确定,而无需考虑顶点所处的层级。

例如,可以根据式(3)来计算顶点v的第二重风险值:

r2(v)=r1(v)ln(y+e)(3)

虽然以上式(2)和式(3)使用函数ln()来确定第二重风险值,但也可使用其它方式来确定第二重风险值,只要根据顶点满足的扩展条件以及可任选地顶点所处层级调整风险值即可。

多重网叠层

以上描述了针对每个独立的介质网确定顶点的风险值,但是不同介质网中的顶点存在重合的可能性。例如,一个实体的银行账号顶点处于第一介质网(银行转账介质网)中,而其手机号顶点处于第二介质网中(手机通讯介质网),在将第一介质网和第二介质网叠加时,该实体在两个介质网中的顶点将会重合。

在实践中,中高风险顶点的数量与无风险或低风险顶点的数量的区别在于前者是有限的,而后者是无限的。当不同介质网中的顶点重合后,此类顶点的风险值可增大。例如,如果通过手机通讯介质和银行转账介质拓展出相同的顶点,那么该顶点是高风险的可能性增大。

图8示出了计算叠层介质网的顶点的风险值的方法的流程图。

在步骤801,通过合并不同介质网中重合的顶点来叠加多个介质网。

不同介质网中的顶点存在重合的情况,可将不同介质网中的代表相同实体的顶点合并成一个顶点,由此叠加多个介质网。例如,一个实体的银行账号顶点处于第一介质网(银行转账介质网)中,而其手机号顶点处于第二介质网中(手机通讯介质网),在将第一介质网和第二介质网叠加时,可将第一介质网和第二介质网中的对应顶点合并。

图10是根据一个实施例的两个介质网叠加的示图。

如图10所示,介质网1包括黑种子a0,从黑种子拓展出通过介质aj13与黑种子a0相关联的顶点b13。

介质网2包括黑种子a0’,通过介质ak11、顶点c11、介质ak21拓展出顶点c21。

顶点b13和顶点c21代表相同的实体,例如,代表同一实体的银行账号、微信号、手机号等。在将介质网1和介质网2叠加为层叠介质结构时,顶点b13和顶点c21可合并为一个顶点。

可任选地,在步骤802,调整层叠介质网结构中顶点的风险值。

边界顶点是没有下游顶点的顶点,边界顶点通常应当为路径中风险值最小的顶点。

一般而言,介质网中的边界顶点一般比各上游顶点的风险值低。但在多个介质网叠加之后,有可能出现边界顶点比上游顶点的风险值高的情况。尤其地,如果在计算顶点的第二重风险值时纳入顶点的层级,即,使用式(2)来计算第二重风险值,则下游顶点的第二重风险值相对于上游顶点被放大。因此需要在介质网叠加之后对各顶点的风险值进行调整。

例如,可以针对介质网中的各顶点的第二重风险值进行排序。如果边界顶点的风险值高于最低值(例如,1),则将该边界顶点的上游各顶点与该风险值进行比较,如果上游顶点的风险值小于边界顶点的风险值,则将上游顶点的风险值至少增大为边界顶点的风险值,由此修正路径上的各顶点的风险值。

例如,如果黑种子表示已经定案的犯罪分子,第一层b1代表犯罪分子的妻子,第二层b2代表妻子的弟弟,第三层b3代表妻子弟弟的朋友。如果弟弟的朋友b3的第二重风险值比上游的b1或b2中的至少一者大,那么可相应地将b1或b2至少增大为b3的值,由此使得介质网中边界顶点的风险值不大于上游顶点的风险值。

这里的调整层叠介质网结构中顶点的风险值可以与根据式(2)计算顶点的第二重风险值(即,在计算中纳入顶点的层级数)相结合执行。在实际应用中,层级低的顶点,例如初始种子关联到的第一层级顶点v1,因为其离种子很近,天然风险程度较高。如果拓展到四层顶点v4,因为离种子已经很远,理论上风险降低,但在如果v4被多风险命中,则在计算第二重风险值时,v4的风险值得到更大地提升(r2(v)=r1(v)ln(4y+e))。在步骤802调整层叠介质网结构中顶点的风险值时,可以使整条路径中的顶点都相应地提高风险值。

在步骤803,根据顶点的重合次数确定第三重风险值。

假设有s个独立介质网可进行叠加,对于某一顶点v,若是分别处于两个独立介质网,那么重合次数是2,若是处于一个介质网,重合次数是1。重合次数不受顶点所在介质网层级限制。设重合次数为z,可如下计算顶点v的第三重风险值:

r3(v)=r2(v)·z(4)

其中1≤z≤s-1,r2(v)是顶点v在每个独立介质网中的第二重风险值的加权求和。

具体而言,如果r21(v),r22(v),…r2s(v)分别是顶点v在s个独立介质网中的第二重风险值,则式(4)中的r2(v)可如下计算:

r2(v)=ω1·r21(v)+ω2·r22(v)+…+ωs·r2s(v)(5)

其中权重ω1、ω2、……、ωs为每个风险值的权重。权重ω1、ω2、……、ωs的取值可以根据实际需要来选择。

在一个示例中,可以对主风险的风险值赋予较高的权重。例如,如果当前计算的是盗用风险的风险值,那么多个介质网中涉及盗用风险的风险值的权重可较大。

在另一示例中,可以简单地对每个介质网的风险值赋予相同的权重值,即,r2(v)为r21(v),r22(v),…r2s(v)的平均值。

第三重风险值可作为顶点的最终风险值以用于确定高危顶点。

可任选地,在步骤804,调整层叠介质网结构中顶点的第三重风险值。

在确定各顶点的第三重风险值之后,可再次对路径上的各顶点的第三重风险值进行调整以获取最终风险值,即如果上游顶点的风险值大于边界顶点的风险值,则将上游顶点的风险值至少增大为边界顶点的风险值,由此修正路径上的各顶点的风险值,与步骤802类似。

在步骤805,确定潜在高危顶点。

可将各个顶点的风险值从高到低排序,提取排序前x%的顶点为潜在高危顶点以用于事前风险管控。

高危顶点可以直接纳入黑种子池以供后续使用。关于x的取值,可以分析分值分布,结合专家经验和人工抽样验证而确定。对于不同风险值的顶点所代表的实体,可以采取分层式管控。

图9是根据本发明的风险顶点识别方法的流程图。

在步骤901,构建多个介质网。

该多个介质网中的每一者从具有相同类型的一个或多个黑种子构建,并且由顶点和连接顶点的介质组成。如以上关于图5的步骤501所描述的。

在步骤902,根据每个顶点所连接的上一层介质的个数来确定该顶点的初始风险值。如以上关于图5的步骤502所描述的。

在步骤903,至少根据每个顶点满足风险条件的数目和初始风险值来确定该顶点的第二重风险值。如以上关于图7所描述的。

在步骤904,将所述多个介质网叠加并获取叠层介质网结构中每个顶点的最终风险值。如以上关于图8所描述的。

在步骤905,根据最终风险值确定高危顶点。如以上关于图8的步骤804所描述的。

本文结合附图阐述的说明描述了示例配置而不代表可被实现或者落在权利要求的范围内的所有示例。本文所使用的术语“示例性”意指“用作示例、实例或解说”,而并不意指“优于”或“胜过其他示例”。本详细描述包括具体细节以提供对所描述的技术的理解。然而,可以在没有这些具体细节的情况下实践这些技术。在一些实例中,众所周知的结构和设备以框图形式示出以避免模糊所描述的示例的概念。

在附图中,类似组件或特征可具有相同的附图标记。此外,相同类型的各个组件可通过在附图标记后跟随短划线以及在类似组件之间进行区分的第二标记来加以区分。如果在说明书中仅使用第一附图标记,则该描述可应用于具有相同的第一附图标记的类似组件中的任何一个组件而不论第二附图标记如何。

结合本文中的公开描述的各种解说性框以及模块可以用设计成执行本文中描述的功能的通用处理器、dsp、asic、fpga或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可被实现为计算设备的组合(例如,dsp与微处理器的组合、多个微处理器、与dsp核心协同的一个或多个微处理器,或者任何其他此类配置)。

本文中所描述的功能可以在硬件、由处理器执行的软件、固件、或其任何组合中实现。如果在由处理器执行的软件中实现,则各功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。其他示例和实现落在本公开及所附权利要求的范围内。例如,由于软件的本质,以上描述的功能可使用由处理器执行的软件、硬件、固件、硬连线或其任何组合来实现。实现功能的特征也可物理地位于各种位置,包括被分布以使得功能的各部分在不同的物理位置处实现。另外,如本文(包括权利要求中)所使用的,在项目列举(例如,以附有诸如“中的至少一个”或“中的一个或多个”之类的措辞的项目列举)中使用的“或”指示包含性列举,以使得例如a、b或c中的至少一个的列举意指a或b或c或ab或ac或bc或abc(即,a和b和c)。同样,如本文所使用的,短语“基于”不应被解读为引述封闭条件集。例如,被描述为“基于条件a”的示例性步骤可基于条件a和条件b两者而不脱离本公开的范围。换言之,如本文所使用的,短语“基于”应当以与短语“至少部分地基于”相同的方式来解读。

计算机可读介质包括非瞬态计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。非瞬态存储介质可以是能被通用或专用计算机访问的任何可用介质。作为示例而非限定,非瞬态计算机可读介质可包括ram、rom、电可擦除可编程只读存储器(eeprom)、压缩盘(cd)rom或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来携带或存储指令或数据结构形式的期望程序代码手段且能被通用或专用计算机、或者通用或专用处理器访问的任何其他非瞬态介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(dsl)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来的,则该同轴电缆、光纤电缆、双绞线、数字订户线(dsl)、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文所使用的盘(disk)和碟(disc)包括cd、激光碟、光碟、数字通用碟(dvd)、软盘和蓝光碟,其中盘常常磁性地再现数据而碟用激光来光学地再现数据。以上介质的组合也被包括在计算机可读介质的范围内。

提供本文的描述是为了使得本领域技术人员能够制作或使用本公开。对本公开的各种修改对于本领域技术人员将是显而易见的,并且本文中定义的普适原理可被应用于其他变形而不会脱离本公开的范围。由此,本公开并非被限定于本文所描述的示例和设计,而是应被授予与本文所公开的原理和新颖特征相一致的最广范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1