一种业务参与对象的风险识别方法及装置与流程

文档序号:11775448阅读:248来源:国知局
一种业务参与对象的风险识别方法及装置与流程

本申请涉及大数据技术领域,尤其涉及一种业务参与对象的风险识别方法及装置。



背景技术:

随着信息化技术的发展,通常以“对象”的概念来区分各个进入人们描述范畴的事物。

业务,是需要完成的事务。业务往往由多个对象共同参与完成,不同对象(对象实体)在表现形态、特征属性等方面各不相同。

由于业务可能存在风险,而对存在风险的业务进行处理可能会产生不好的结果,因此需要对业务进行风险识别。其中,风险识别,是指在风险事故发生之前,认识可能面临的各种风险;对业务进行风险识别,是指运用风险识别方法,识别业务是否存在风险。

目前,有一类业务,主要是由两类对象共同参与完成。为便于描述,所述两类对象中,一类可称为主导对象,而另一类则称为主导对象的关联对象(后称关联对象)。比如,基于互联网售卖商品的业务,就由作为主导对象的卖家和作为关联对象的买家这两类对象共同参与完成。当然,也可以将买家称为主导对象,将卖家称为关联对象。

针对这类业务而言,主导对象可能通过伪造或串通关联对象的方式来完成业务,进而获得诸如电商平台奖励的互联网信息资源(如计算资源、存储资源、营销资源或者流动资金等)等资源。比如,当电商平台发起消费者线下消费满20减5元的营销活动时,卖家有可能串通自己的亲友对自己出售的商品进行消费,从而骗取营销资源。

鉴于这类业务可能存在风险,因此,有必要对该类业务进行风险识别。对该类业务进行风险识别的关键,是识别参与该类业务的主导对象或关联对象是否存在风险。



技术实现要素:

有鉴于此,本申请实施例提供了一种业务参与对象的风险识别方法,用于识别参与业务的主导对象是否存在风险。

本申请实施例还提供一种业务参与对象的风险识别装置,用于识别参与业务的主导对象是否存在风险。

一种业务参与对象的风险识别方法,所述方法包括:

获取主导对象的不同关联对象的指定特征的值;所述关联对象,为分别与所述主导对象共同参与指定类型的业务的对象;所述指定类型的业务,是由主导对象和关联对象共同参与完成的业务;

根据获取到的所述指定特征的值,确定分别反映各类型的所述指定特征的值的第一分布情况的信息,作为所述主导对象的聚集性特征的值;所述类型,为所述指定特征的类型;

根据所述主导对象的聚集性特征的值,判断所述主导对象是否存在风险。

一种业务参与对象的风险识别装置,包括:

获取单元,用于获取主导对象的不同关联对象的指定特征的值;所述关联对象,为分别与所述主导对象共同参与指定类型的业务的对象;所述指定类型的业务,是由主导对象和关联对象共同参与完成的业务;

确定单元,用于根据获取单元获取到的所述指定特征的值,确定分别反映各类型的所述指定特征的值的第一分布情况的信息,作为所述主导对象的聚集性特征的值;所述类型,为所述指定特征的类型;

判断单元,用于根据所述主导对象的聚集性特征的值,判断所述主导对象是否存在风险。

一种业务参与对象的风险识别方法,所述方法包括:

获取线下商户的不同关联买家的指定特征的值;所述关联买家,为分别与所述线下商户共同参与商品对象的买卖业务的买家;

根据获取到的所述指定特征的值,确定分别反映各类型的所述指定特征的值的第一分布情况的信息,作为所述线下商户的聚集性特征的值;

根据所述线下商户的聚集性特征的值,判断所述线下商户是否存在风险。

一种业务参与对象的风险识别装置,包括:

买家的指定特征的值获取单元,用于获取线下商户的不同关联买家的指定特征的值;所述关联买家,为分别与所述线下商户共同参与商品对象的买卖业务的买家;

信息确定单元,用于根据获取到的所述指定特征的值,确定分别反映各类型的所述指定特征的值的第一分布情况的信息,作为所述线下商户的聚集性特征的值;

风险判断单元,用于根据所述线下商户的聚集性特征的值,判断所述线下商户是否存在风险。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:

采用本申请实施例提供的方法,由于可以根据主导对象的不同关联对象的指定特征的值,确定分别反映各类型的指定特征的值的分布情况的信息,作为主导对象的聚集性特征的值,该聚集性特征的值可以作为判断主导对象是否存在风险的依据,通过该依据就可以完成对主导对象的风险识别,从而达到识别参与业务的主导对象是否存在风险的目的。并且,由于反映各类型的指定特征的值的分布情况的信息,一般说来是主导对象比较难以仿造的信息,因此,根据该信息对主导对象进行风险识别,一般能够得到较为可信的准确结果。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提 下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种业务参与对象的风险识别方法的流程示意图;

图2为本申请实施例提供的一种业务参与对象的风险识别装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

以下结合附图,详细说明本申请各实施例提供的技术方案。

实施例1

本申请实施例提供一种业务参与对象的风险识别方法,用以识别业务参与对象是否存在风险。

本申请实施例提供的业务参与对象的风险识别方法的执行主体可以是手机、平板电脑以及个人电脑(personalcomputer,pc)等终端设备中的至少一种。此外,该方法的执行主体,也可以是安装在终端设备上的应用程序(application,app),或者还可以是服务器。所述的执行主体并不构成对本申请的限定。

该方法的具体实现流程示意图如图1所示,主要包括如下主要步骤:

步骤11,获取主导对象的不同关联对象的指定特征的值;

其中,主导对象和关联对象,为参与指定类型的业务的对象,在主导对象和主导对象的关联对象共同参与下可以完成指定类型的业务。比如:买卖双方完成的针对商品的交易业务,就是由作为主导对象的卖家和作为关联对象的买 家共同参与完成的。当然,也可以将买家称为主导对象,将卖家称为关联对象。

获取的关联对象的指定特征,可以但不限于包括以下三种特征中的至少一种:

1、关联对象自身的基本特征

比如以关联对象为买家为例,买家的基本特征可以包括下述至少一种:买家的年龄、名称、性别、地址、买家的账户注册时间等等。

2、关联对象与其他对象之间的关联关系的指定特征

同样以关联对象为买家为例,假设买家之间的关联关系包括:

a、与资金有关的关联关系——如买家之间发生过转账等,则买家之间存在与资金有关的关联关系。

该类型的关联关系的指定特征,比如可以包括下述至少一种:

关联关系的建立时间、关联对象最近一次发生该类关联关系的时间等。

b、与设备有关的关联关系——如不同买家均使用过同一终端来分别与同一主导对象(卖家)完成所述指定类型的业务(针对商品的交易业务),则所述不同买家之间存在与设备有关的关联关系;

该类型的关联关系的指定特征,比如可以包括下述至少一种:

关联对象发生该关联关系的时间间隔、关联对象发生该类型关联关系的次数等。

c、与媒介有关的关联关系——如不同买家均将同一个邮箱注册为账号,或不同买家在注册账号时均使用了相同的身份认证信息,则所述不同买家之间存在与媒介有关的关联关系;

该类型的关联关系的指定特征,比如可以包括关联对象之间涉及的注册信息等。

d、与位置有关的关联关系——如不同买家处于相同的地理位置,或不同买家在网购时使用过相同的收货地址,则所述不同买家之间存在与位置有关的关联关系;

该类型的关联关系的指定特征,比如可以包括关联对象之间涉及的地理位置信息等。

e、与社交关系有关的关联关系——如不同买家具有相似的社交关系,具体而言,如不同买家属于相同的即时通信群组,或者,不同买家在同一社交平台中有相同的好友——那么,则所述不同买家之间存在与社交关系有关的关联关系。

该类型的关联关系的指定特征,比如可以包括关联对象之间涉及的社交关系信息等。

需要说明的是,关联对象与其他对象之间的关联关系的指定特征,还可以是关联对象与其他对象之间存在的不同类型的关联关系的类型总数。

3、关联对象与其他关联对象之间的关系网络的指定特征

所述关系网络是根据不同关联对象之间的关联关系(可以是前文所说的任意类型的关联关系)建立的,每个关联对象在关系网络中均可以看成是一个节点,关系网络中的边,则表示由边连接起来的节点(关联对象)之间存在关联关系。

所述关系网络的指定特征,可以但不限于包括下述至少一种:

关系网络是否存在孤立节点——其中,孤立节点是指与其他任何节点都没有关联关系的节点;

关系网络中三角形的数量——其中,三角形是指由两两之间都有关联关系的三个节点所组成的节点集合;

关系网络的稠密度——其中,稠密度,是根据各指定节点的邻居节点之间的关系数量和节点邻居数量的比值确定的,如稠密度可以是各比值之和,或可以是各比值的平均值。其中,各指定节点,可以是关系网络中的部分或全部节点;指定节点的邻居节点,是指关系网络中和该指定节点有关联关系的其他节点。

本申请实施例中,可以预先将主导对象的不同关联对象的指定特征的值保 存在数据库中,以便后续进行获取。

步骤12,根据通过执行步骤11获取到的指定特征的值,确定分别反映各类型的指定特征的值的分布情况(后称第一分布情况)的信息,作为主导对象的聚集性特征的值;

其中,所述类型是指定特征的类型。

在一些情况下,一些指标的值可以反映指定特征的第一分布情况,因此可以确定这样的指标的值,作为主导对象的聚集性特征的值。比如,下述至少一种指标的值,可以反映所述第一分布情况:

第一类指标:某类型的指定特征的值中出现的满足第一预定条件的指定特征的值在获取到的该类型的所有指定特征的值中的占比。

需要说明的是,当第一预定条件为在某类型的指定特征上没有取值时,该第一类指标也可以称作占空比指标。比如:对于“注册邮箱后缀”这个指定特征,若10个关联对象中仅有两个关联对象不具备注册邮箱后缀这个指定特征,且第一预定条件为在注册邮箱后缀这个指定特征上没有取值时,那么,此时的占空比指标的值为2/10。

第二类指标:某类型的指定特征的值中出现的满足第二预定条件的指定特征的值在指定的特征值集合中的占比;其中,指定的特征值集合,由获取到的该类型的指定特征的值中的属于指定特征值范围内的值构成。

需要说明的是,当第二预定条件为在某类型的所有指定特征的值中的最大值,且指定的特征值集合为在某类型的指定特征上取值非空的指定特征的特征值集合时,该第二类指标即为众数占比指标。

信息熵指标:是指指定特征的值的信息熵。该指标可以用来描述获取到的该类型的指定特征的值的混乱程度。

针对以上占空比指标、众数占比指标以及信息熵指标的值,可以利用通过执行步骤11获取到的指定特征的值来计算。以下具体以获取到的关联对象的指定特征的值为作为买家账户名的邮箱地址的后缀为例,介绍如何根据获取到 的指定特征的值计算占空比指标、众数占比指标以及信息熵指标的值:

假设一个作为主导对象的卖家在某一天有50个作为关联对象的买家,在这50个买家中,有10个买家的账户名是后缀为“abc.com”的邮箱地址、35个买家的账户名是后缀为“123.com”的邮箱地址、5个买家的账户名不是邮箱地址。

那么,占空比指标的值=账户名不是邮箱地址的买家的数量“5”/关联对象总数量“50”=5/50=0.1;众数占比指标的值=邮箱地址后缀为“123.com”的买家的数量/采用邮箱地址后缀作为账户名的买家的数量=35/(10+35)=0.78;信息熵的值,则为0.527。

需要说明的是,本申请实施例中除了可以通过上述三种指标的值中的至少一种指标的值反映指定特征的值的第一分布情况外,还可以有其他指标的值来反映指定特征的值的第一分布情况,比如,其他指标可以包括:众数占比与信息熵之间的差异,等等,在此不一一进行赘述。

分别反映各类型的指定特征的值的第一分布情况的信息(指标的值),可以作为主导对象的聚集性特征的值。

步骤13,根据通过执行步骤12确定出的主导对象的聚集性特征的值,判断主导对象是否存在风险。

需要说明的是,通过执行上述步骤12,可以是将分别反映各类型的指定特征的值的第一分布情况的各信息,分别作为主导对象的不同聚集性特征的值;也可以是将分别反映各类型的指定特征的值的第一分布情况的各信息,合成(比如采用求信息的加权和的方式)为主导对象的一个聚集性特征的值。针对前一种方式而言,当得到的作为主导对象的不同聚集性特征的值有至少两个时,考虑到其中的一些聚集性特征的值,可能对判断主导对象是否存在风险的结果影响较小。在这样的情况下,可以对这样的聚集性特征的值进行过滤。

一种可选的过滤方式如下:

在确定出的聚集性特征的值对应的聚集性特征中,选取在风险识别中的权 重大于预设权重的聚集性特征。选取出的聚集性特征的值,可以作为判断主导对象是否存在风险的判断依据。如何从确定出的聚集性特征的值对应的聚集性特征中,选取在风险识别中的权重大于预设权重的聚集性特征,可以参见后文描述的如何从聚集性转换特征的值对应的聚集性转换特征中,选取在风险识别中的权重大于预设权重的聚集性转换特征的实现方式,此处不再赘述。

无论是否对确定出的聚集性特征的值进行过滤,都可以采用下述方式,来实现根据主导对象的聚集性特征的值,判断主导对象是否存在风险。但需要说明的是,若直接根据确定出的聚集性特征的值来判断主导对象是否存在风险,而不进行聚集性特征的值的过滤,那么,作为判断依据的,一般是确定的所有聚集性特征的值;而若对聚集性特征的值进行了上述过滤,则作为判断依据的,一般是过滤后剩余的聚集性特征的值。

方式1:

根据预设风险指标值以及作为判断依据的聚集性特征的值,来判断主导对象是否存在风险。

比如,可以预先确定参与所述指定业务的、被识别出存在风险的其他主导对象的聚集性特征的值。具体的,预设风险指标值的确定流程所包含的步骤,比如可以与步骤11和步骤12类似,即:获取被识别出存在风险的其他主导对象的不同关联对象的指定特征的值;根据获取到的指定特征的值,确定分别反映各类型的指定特征的值的分布情况的信息(该信息比如是前文所述的某个指标的值);将所述信息的均值(如前文所述的某个指标的值的均值),作为所述预设风险指标值。

在确定出该预设风险指标值后,通过比较所述判断依据与该预设风险指标值是否匹配,则可以确定主导对象是否存在风险。

比如,若假设该预设风险指标值是不存在风险的不同主导对象的聚集性特征的值的均值,那么,当所述判断依据与该预设风险指标值之间的差异处于预定的差异范围内时,可以确定主导对象不存在风险;否则,则可以确定主导对 象存在风险。

方式2:

由上文可知,该预设风险指标值,可以是不存在风险的不同主导对象的聚集性特征的值的均值,从而该预设风险指标值反映的可以是不存在风险的不同主导对象的各类型的指定特征的值的常规分布情况。

这样的情况下,考虑到待识别是否存在风险的主导对象虽然不存在风险,但它的聚集性特征的值可能不符合所述常规分布情况——比如以待识别是否存在风险的主导对象为一线城市的线下o2o场景中的线下卖家、关联对象为该场景中的买家为例,该场景下的预设风险指标值,可以是综合一线、二线及三线城市的其他主导对象的关联对象的指定特征的值的分布情况而确定出的,它反映的是一线、二线及三线城市的关联对象的指定特征的值的常规分布情况。那么,根据该预设风险指标值,来判断一线城市的待识别是否存在风险的主导对象是否存在风险,可能会导致识别结果准确性不高。

为避免上述问题,本申请实施例中,可以根据参与所述指定业务的、不同主导对象的聚集性特征的值,对待识别是否存在风险的主导对象的聚集性特征的值进行转换,得到待识别是否存在风险的主导对象的转换后的聚集性特征的值(后称聚集性转换特征的值)。后续可以以聚集性转换特征的值代替转换前的该待识别是否存在风险的主导对象的聚集性特征的值,作为判断待识别是否存在风险的主导对象是否存在风险的依据。

其中,若不对待识别是否存在风险的主导对象的聚集性特征的值进行前文所述的过滤,则被转换的聚集性特征的值,可以是通过执行步骤12确定出的所有聚集性特征的值;若要进行所述过滤,则被转换的聚集性特征的值,可以是进行所述过滤后剩余的聚集性特征的值。

此外,还需要说明以下两点:

1、对聚集性特征的值进行转换的方式

若将待识别是否存在风险的主导对象称为第一主导对象,将参与所述指定 业务的其他主导对象称为第二主导对象,则对聚集性特征的值进行转换的方式,比如可以包括:

根据第一主导对象的聚集性特征的值反映的不同关联对象的指定特征的分布情况(第一分布情况),以及第二主导对象的聚集性特征的值反映的不同关联对象的指定特征的值的分布情况(称第二分布情况),确定反映第一分布情况和第二分布情况存在的差异的值。该差异的值,即可以作为第一主导对象的转换后的聚集性特征的值(后称聚集性转换特征的值)。其中,第二主导对象的聚集性特征的值,是根据第二主导对象的关联对象的指定特征的值确定出的,具体确定方式,包括与步骤11和步骤12类似的步骤,不再赘述。

针对上述反映两种主导对象分布情况存在的差异的值举例而言:

比如假设第一主导对象的作为买家账户名的邮箱地址的占空比为x,第二主导对象的该占空比为y,那么反映第一主导对象和第二主导对象之间的占空比的差异的值为x′,的计算方式如下:

x′=|x-y|/y

需要说明的是,这里所说的第二主导对象,一般是跟第一主导对象之间存在指定关联关系的对象。所述指定关联关系可以是下述中的至少一种:

第一主导对象自身与第二主导对象自身分别具有的基本属性满足指定关联条件——比如,第一主导对象与第二主导对象分别为两个超市,若两个超市所处地理位置相近(比如500米范围内),则这两个超市满足指定关联条件。

第一主导对象与第二主导对象分别对应的关联对象中存在相同的关联对象——同样以第一主导对象与第二主导对象分别为两个超市,若两个超市分别对应一些相同的买家,则这两个超市满足指定关联条件。

第一主导对象与第二主导对象分别对应的关联对象中存在的相同的关联对象的占比大于预定阈值;所述占比,为存在的相同的关联对象的数量在第一主导对象与第二主导对象分别对应的关联对象的总数量中的占比。

2、预设风险指标值的设置方式

为了使得聚集性转换特征的值与预设风险指标值具有较高的可比性,本申请实施例中,预设风险指标值的设置过程,可以包括:

针对作为样本的主导对象(可以是随机选取的、参与所述指定类型的业务的主导对象,后称样本主导对象)执行与步骤11和步骤12类似的步骤,以及将通过执行与步骤12类似的步骤后确定出的样本主导对象的聚集性特征的值,转换为样本主导对象的聚集性转换特征的值,并以样本主导对象的聚集性转换特征的值作为预设风险指标值。具体地,该设置过程比如包括:

获取样本主导对象的不同关联对象的指定特征的值;

根据获取到的指定特征的值,确定分别反映各类型的指定特征的值的分布情况的信息(该信息比如是前文所述的某个指标的值),作为样本主导对象的聚集性特征的值;

将样本主导对象的聚集性特征的值,转换为相应的聚集性转换特征的值,并将所述相应的聚集性转换特征的值,作为所述预设风险指标值。

将样本主导对象的聚集性特征的值转换为相应的聚集性转换特征的值的方式,与将第一主导对象的聚集性特征的值转换为相应的聚集性转换特征的值的方式类似,此处不再赘述。

以下继续对待识别是否存在风险的主导对象的聚集性转换特征的值转化为聚集性转换特征的值后进行的其他步骤进行介绍。

当得到的聚集性转换特征的值有至少两个时,考虑到其中的一些聚集性转换特征的值,可能对判断主导对象是否存在风险的结果影响较小。在这样的情况下,可以对这样的聚集性转换特征的值进行过滤。

一种可选的过滤方式如下:

在确定出的聚集性转换特征的值对应的聚集性转换特征中,选取在风险识别中的权重大于预设权重的聚集性转换特征。选取出的聚集性转换特征的值,可以作为判断主导对象是否存在风险的判断依据。

以下具体以识别某个卖家(主导对象)是否存在作弊风险为例,说明如何 从该卖家的聚集性转换特征中,选取在作弊风险识别中的权重大于预设权重的聚集性转换特征。其中,这里所说的作弊风险,是指卖家自己注册大量的买家账号,从而伪装成买家购买该卖家自己出售的商品,以骗取营销资源。具体地,该选取过程主要可以包括以下几步:

第一步,构造样本;

选取一定数量的、已经识别出的作弊卖家(即被识别出有骗取营销资源行为的卖家)作为黑样本;随机选取一定数量的、已经识别出的非作弊卖家作为白样本。

本申请实施例中,由于黑样本可以不断加入每天确认的作弊卖家,从而使得样本是动态更新的。

第二步,特征筛选;

特征筛选方法有很多,如正态性检验(kolmogorov-smirnovtest,简称k-s)方法,基于信息熵的特征筛选方法等。在本申请实施例中,选用k-s方法。

需要说明的是,采用k-s方法只是一种示例性的说明,并不应理解为对本申请实施例的限定。k-s方法基于累积分布函数实现,用以检验一个经验分布是否符合某种理论分布或比较两个经验分布是否有显著性差异。比如,比较黑白样本在某个特征上的分布差异,如果差异较大,说明该特征对于黑白样本是有区分能力的。得到每个特征的ks分值后,根据设置的显著性水平和得到的ks分值筛选满足条件的特征。

在本例中,所述满足条件的特征,即为在风险识别中的权重大于预设权重的聚集性转换特征。

针对上述一些名词需要进行解释的是:显著水平,是估计总体参数落在某一区间内可能犯错误的概率。在本申请实施例中,显著水平可以用来作为评判聚集性特征是否为可信的标准。

具体的,给定待识别是否存在作弊风险的该卖家(后称该卖家一个指定的聚集性转换特征(后称特征t),黑白样本的数量分别为n1和n2,判断该特 征t是否为在风险识别中的权重大于预设权重的聚集性转换特征的主要过程如下:

1、分别在黑白样本上计算该卖家的特征t的累计概率密度函数值f1和f2;

该计算过程,可以看成是计算该卖家的特征t的某个取值相对于黑白样本的特征t的所有值中的分布概率,该计算公式为f(x)=p(xp的),其中x为特征t的所有值,x为特征t的所述某个取值。

按照上述公式,可以计算出该卖家的特征t的各个取值i分别在黑样本上的累计概率密度函数值f1(i),以及该卖家的特征t在白样本上的累计概率密度函数值f2(i)。

2、针对特征t的各个取值i,计算相应的累计概率密度函数值之差d(i);

计算公式如下:

d(i)=|f1(i)-f2(i)|

3、该卖家的特征t的ks值ks为特征t的累计概率密度函数值之差d(i)中的最大值,即ks=max([d(i)foriint]);

4、假设设定置信度为alpha=0.01,则按照下述公式计算该卖家的特征t的显著水平:

sig=ks-1.63*((n1+n2)/(n1*n2))0.5

上式中的常量“1.63”,是根据alpha=0.01查找置信度对应表得到的。如果计算得到sig>0,则说明该卖家的特征t是显著的,从而选择该卖家的特征t作为在作弊风险识别中的权重大于预设权重的聚集性转换特征。

以下继续沿用识别某个卖家(主导对象)是否存在作弊风险的例子,对在选取完毕聚集性转换特征后,如何识别卖家存在作弊风险进行说明:

具体的识别的方法有很多,一种简单的识别方法比如可以包括:

对卖家的采用上述方式选取出的各聚集性转换特征的值和选取出的各聚集性转换特征分别对应的ks值进行加权累加,并以得到的加权累加的结果, 作为卖家疑似作弊的分值;判断该分值与预设的分值范围之间的大小关系,并根据判断结果,确定卖家是否存在作弊风险。比如,该分值落入预设的分值范围,则确定卖家存在作弊风险。其中,对选取出的各聚集性转换特征的值和所述对应的ks值进行加权累加,是指:计算选取出的各聚集性转换特征的值与相应的ks值的乘积之和。

该识别方法比较简单,易于实现。

另外一种识别方法,称为无监督的异常模式识别算法——如孤立森林算法。继续沿用识别某个卖家(主导对象)是否存在作弊风险的例子,对在选取完毕聚集性转换特征后,可以将选取出的该卖家的聚集性转换特征的值输入训练好的孤立森林,来判断该卖家是否存在作弊风险。其中,所述孤立森林,是利用从参与指定类型的业务的不同主导对象的特征中随机选取的特征的值训练的。

以下先对孤立森林的训练过程进行简单介绍。需要说明的是,由于孤立森林是由多个孤立树组成的,孤立树是一种简单的二叉树,每个节点都可以有两个子节点或者无节点。每个孤立树的生成逻辑都是一致的,因此以下主要介绍单个孤立树的生成逻辑。

首先给定一批数据集a(如,从参与指定类型的业务的不同主导对象的特征,以及特征值)作为样本。需要说明的是,当后续是将聚集性转换特征的值输入孤立森林进行时,该数据集a中的特征以及特征值,可以是参与指定类型的业务的不同主导对象的聚集性转换特征以及聚集性转换特征的特征值;当后续是将聚集性特征的值输入孤立森林进行时,该数据集a中的特征以及特征值,可以是参与指定类型的业务的不同主导对象的聚集性特征以及聚集性特征的特征值。

孤立树e的生成过程如下:

1、从a中随机选择一个特征值对应的特征fea,作为孤立树的切分属性t.splitfea;

2、从a中随机选择特征fea的一个值val,作为孤立树e的切分属性值 t.spiltfeaval;

3、根据特征fea以及val将所有样本切分为两部分;

具体而言,可以将包含特征fea以及val的记录保存在某个节点中;然后以该节点作为基准节点,将包含有小于val的fea的值的每条记录放在基准节点的左边子节点中,作为左边子节点(t.left)中保存的记录;将包含有大于val的fea的值的每条记录放在基准节点的右边子节点中,作为右边子节点(t.right)中保存的记录。

其中,一条记录,是指由数据集a中的单个主导对象的特征以及特征值构成的集合。

4、按照递归的方法构成更多的左右子节点,直到满足指定条件。

其中,按照递归的方法构成更多的左右子节点,是指针对除基准节点外的其他各节点分别执行:

从该节点所保存的记录中,随机选取一条记录中的特征fea的特征值;将随机选取的该特征值所属记录保留在该节点中,并按照前文所述的样本切分方式,将该节点所保存的其他记录保存在该节点的左边子节点或右边子节点中。

依上述方式进行递归,直至每个子节点中仅保存一条记录,或者,直至由基准节点及各子节点共同构成的该孤立树的高度达到限定高度。

在各孤立树分别训练完毕后,就可以基于所述各孤立树构成的孤立森林,来识别待识别是否存在作弊风险的卖家是否存在作弊风险。具体而言,以“以该卖家的聚集性转换特征的值作为识别依据”为例,可以将该卖家的各聚集性转换特征的值分别输入训练好的各孤立树,从而确定该卖家是否存在作弊风险。下文以该卖家的某聚集性转换特征的值为例,说明将该值输入各孤立树后会执行怎样的步骤。具体的,该些步骤包括:

步骤一:确定卖家的该聚集性转换特征的值与该孤立树中的哪个叶子节点中保存的记录中的特征值相同,即确定该聚集性转换特征的值会落在该孤立树中的哪个叶子节点上。其中,叶子节点,是指不存在左节点和右节点的节点。

步骤二:确定出该叶子节点后,计算从树的根部到该叶子节点的路径长度。在一种实施方式中,若设定树的根部的初始路径长度e为0,则确定从树的根部到该叶子节点的路径的算法的代码如下。其中,针对算法的输入需要说明的是,x表示该聚集性转换特征的值,t表示一棵孤立树,e表示当前孤立树节点的路径长度,e初始为0。

针对上述代码所实现的逻辑而言,简单来说就是:

在确定出该聚集性转换特征的值x与该孤立树中的某个叶子节点(后称该叶子节点)中保存的记录中的特征值相同后,比较x与该孤立树t的切分属性值val的大小;若x<val,则递归遍历t的“左孩子”,从而确定“左孩子”的数量——即确定该叶子节点与保存有该孤立树t的切分属性值的节点之间存在的左边子节点的数量,并以该数量作为路径长度e的值;若x≥val,则递归遍历t的“右孩子”,从而确定“右孩子”的数量——即确定该叶子节点与保存有该孤立树t的切分属性值的节点之间存在的右边子节点的数量,并以该数量作为路径长度e的值。

步骤三:针对每棵孤立树执行上述步骤一和步骤二,从而得出卖家的该聚集性转换特征的值所匹配的各孤立树的叶子节点的路径长度后,按照下述公式,计算卖家的该聚集性转换特征的值的风险分值score(x):

score(x)=2(-e(h(x))/c(m))

其中,e(h(x)表示该聚集性转换特征的值所匹配的各孤立树的叶子节点的路径长度的均值,m表示用于训练所述各孤立树的样本的总数,比如可以是上文中提到的数据集a对应的主导对象的总数。其中,c(m)=2*(ln(m-1)+0.5772156649)–2*(m-1)/m。

步骤四:通过比较该卖家的该聚集性转换特征的值的风险分值score(x)与预先设置的风险阈值,确定该卖家是否存在作弊风险。

通过理论和实践证明,当score(x)大于预先设置的风险阈值0.5时,可以说明该聚集性转换特征的值存在风险,也即说明该聚集性转换特征所属的主导对象(卖家)存在作弊风险。反之,则说明该聚集性转换特征的值不存在风险,也即说明该聚集性转换特征所属的主导对象(卖家)不存在作弊风险。

需要说明的是,当卖家的聚集性转换特征有多个,从而相应的有卖家的多个聚集性转换特征的值时,可以将各聚集性转换特征的值分别输入各孤立树,从而得到相应的风险分值。最终可以求取得到的各风险分值的平均值,并通过比较该平均值与预先设置的风险阈值,确定该卖家是否存在作弊风险;或者,也可以从得到的各风险分值中选取最大的风险分值与预先设置的风险阈值进行比较,并根据比较结果确定该卖家是否存在作弊风险。

采用本申请实施例提供的方法,由于可以根据主导对象的不同关联对象的指定特征的值,确定分别反映各类型的指定特征的值的分布情况的信息,作为主导对象的聚集性特征的值,该聚集性特征的值可以作为判断主导对象是否存在风险的依据,通过该依据就可以完成对主导对象的风险识别,从而达到识别参与业务的主导对象是否存在风险的目的。并且,由于反映各类型的指定特征的值的分布情况的信息,一般说来是主导对象比较难以仿造的信息,因此,根 据该信息对主导对象进行风险识别,一般能够得到较为可信的准确结果。

实施例2

为了识别参与业务的主导对象是否存在风险,本申请实施例提供一种业务参与对象的风险识别装置。该装置的具体结构示意图如图2所示,包括获取单元21、确定单元22以及判断单元23。

其中,获取单元21,用于:获取主导对象的不同关联对象的指定特征的值;所述关联对象,为分别与主导对象共同参与指定类型的业务的对象;所述指定类型的业务,是由主导对象和关联对象共同参与完成的业务。

确定单元22,用于:根据获取单元21获取到的指定特征的值,确定分别反映各类型的指定特征的值的第一分布情况的信息,作为主导对象的聚集性特征的值;所述类型,为所述指定特征的类型。

判断单元23,用于:根据确定单元22确定的主导对象的聚集性特征的值,判断主导对象是否存在风险。

在一种方式中,关联对象的指定特征,至少包括下述一种:

关联对象自身的基本特征;

关联对象与其他关联对象之间的关联关系的指定特征;

关联对象与其他关联对象之间的关系网络的指定特征;

其中,所述其他关联对象,为分别与所述主导对象共同参与指定类型的业务的对象。

在一种实施方式中,确定单元22,可以用于:针对获取单元21获取到的主导对象的不同关联对象的各个类型的指定特征的值,分别执行下述操作中的至少一种:

计算获取到的该类型的满足第一预定条件的指定特征的值在获取到的该类型的所有指定特征的值中的占比,作为该类型的指定特征的第一分部情况的信息;

计算获取到的该类型的满足第二预定条件的指定特征的值在指定的特征值集合中的占比,作为该类型的指定特征的第一分部情况的信息;其中,所述特征值集合,由获取到的该类型的指定特征的值中的属于指定特征值范围内的值构成;

计算获取到的该类型的指定特征的值的信息熵,作为该类型的指定特征的第一分部情况的信息。

在一种实施方式中,判断单元23,具体可以用于:

根据确定单元22确定出的主导对象的聚集性特征的值,以及反映其他主导对象的关联对象的各类型的指定特征的值的第二分布情况的信息,确定反映第一分布情况和第二分布情况的差异的值,作为主导对象的聚集性转换特征的值;其中,所述其他主导对象,是参与指定类型的业务且与主导对象存在指定关联关系的其他主导对象;其他主导对象的关联对象,是与其他主导对象参与指定类型的业务的对象;反映其他主导对象的指定的特征的值的第二分布情况的信息,是根据其他主导对象的关联对象的指定特征的值确定出的;

根据主导对象的聚集性转换特征的值,判断主导对象是否存在风险。

在一种实施方式中,主导对象与其他主导对象存在的指定关联关系,可以包括下述至少一种:

主导对象自身与其他主导对象自身分别具有的基本属性满足指定关联条件;

主导对象与其他主导对象分别对应的关联对象中存在相同的关联对象;

主导对象与其他主导对象分别对应的关联对象中存在的相同的关联对象的占比大于预定阈值;所述占比,为主导对象与其他主导对象分别对应的关联对象中存在的相同的关联对象的数量在主导对象与其他主导对象分别对应的关联对象的总数量中的占比。

在一种实施方式中,判断单元23,具体可以用于:从主导对象的聚集性转换特征中,选取在风险识别中的权重大于预设权重的聚集性转换特征;根据选 取出的聚集性转换特征的值,判断主导对象是否存在风险。

在一种实施方式中,判断单元23,可以用于:从主导对象的聚集性特征中,选取在风险识别中的权重大于预设权重的聚集性特征;根据选取出的聚集性特征的值,判断主导对象是否存在风险。

在一种实施方式中,判断单元23,具体可以用于:通过将主导对象的聚集性特征的值输入训练好的孤立森林,判断主导对象是否存在风险。

其中,孤立森林,是利用从参与指定类型的业务的不同主导对象的特征中随机选取的特征,以及随机选取的特征的值训练的。

在一种实施方式中,业务参与对象的风险识别装置,可以用以针对主导对象为线下商户、关联对象为商品对象的买家、指定类型的业务为商品对象的买家业务的场景中时使用。针对该场景,本申请实施例还特别的提供了一种业务参与对象的风险识别装置,该装置可以包括以下几个单元:

买家的指定特征的值获取单元,用于获取线下商户的不同关联买家的指定特征的值;所述关联买家,为分别与所述线下商户共同参与商品对象的买卖业务的买家;

信息确定单元,用于根据获取到的所述指定特征的值,确定分别反映各类型的所述指定特征的值的第一分布情况的信息,作为所述线下商户的聚集性特征的值;

风险判断单元,用于根据所述线下商户的聚集性特征的值,判断所述线下商户是否存在风险。

采用本申请实施例提供的业务参与对象的风险识别装置,由于可以根据主导对象的不同关联对象的指定特征的值,确定分别反映各类型的指定特征的值的分布情况的信息,作为主导对象的聚集性特征的值,该聚集性特征的值可以作为判断主导对象是否存在风险的依据,通过该依据就可以完成对主导对象的风险识别,从而达到识别参与业务的主导对象是否存在风险的目的。并且,由于反映各类型的指定特征的值的分布情况的信息,一般说来是主导对象比较难 以仿造的信息,因此,根据该信息对主导对象进行风险识别,一般能够得到较为可信的准确结果。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。 内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1