一种终端标识的识别方法及装置与流程

文档序号:12720865阅读:619来源:国知局
一种终端标识的识别方法及装置与流程

本申请涉及互联网信息处理技术领域,尤其涉及一种终端标识的识别方法及装置。



背景技术:

随着互联网技术和终端技术的发展,用户借助智能终端设备发起支付行为并在智能终端设备上执行支付操作变得越来越普遍。为了保证支付行为在执行过程中的安全性,需要在支付行为的执行过程中判断执行支付行为的智能终端设备是否可信。目前一般采用人工审核和简单规则的判断方式对智能终端设备的终端标识进行判断,确定智能终端设备是否可信,当判断结果是该智能终端设备的终端标识不可信时,确定该智能终端设备不可信,触发对发起支付请求的用户进行身份验证。

上述方法适于一个终端标识对应一个终端设备的情况。但是由于在实际应用中出现了大量山寨手机和能够篡改终端标识的插件,这样就出现了一个终端标识对应多个终端设备的情况。通常当一个终端标识对应多个终端设备时,该终端标识被称之为热点终端标识。

基于出现的一个终端标识对应多个终端设备的情况,针对一个终端标识a,对应终端设备A和B,在确定该终端标识a不可信时,不仅意味着终端设备A不可信,同时还意味着确认终端设备B也不可信,这样对于终端设备B发起的支付行为同样需要发起身份验证,但实际上终端设备B是可信的。也就是说,如果采用通过对终端标识进行判断的方式确定终端设备是否可信,可信终端设备发起的支付行为将因为系统的判断错误增加支付行为操作的复杂度,进而降低用户的用户体验。



技术实现要素:

本申请的目的是为解决上述问题,提供一种终端标识的识别方法及装置,可根据终端标识对应的终端设备的操作行为识别所述终端标识是否是热点终端标识,在确定所述终端标识为热点终端标识后进而识别所述终端标识是否是可信热点标识。

本申请实施例提供一种终端标识的识别方法,包括:

获取待处理的终端标识对应的终端设备产生的操作行为信息,所述操作行为信息包括用于区分所述终端标识是否为热点终端标识的第一操作行为信息和用于区分所述终端标识是否为可信热点终端标识的第二操作行为信息;

根据所述第一操作行为信息识别所述终端标识是否是热点终端标识;

在确定所述终端标识是热点终端标识时,进一步根据所述第二操作行为信息识别所述终端标识是否是可信热点终端标识。

本申请实施例还提供一种终端标识的识别装置,包括:

获取模块,获取待处理的终端标识对应的终端设备产生的操作行为信息,所述操作行为信息包括用于区分所述终端标识是否为热点终端标识的第一操作行为信息和用于区分所述终端标识是否为可信热点终端标识的第二操作行为信息;

热点终端标识识别模块,根据所述第一操作行为信息识别所述终端标识是否是热点终端标识;

可信热点终端标识识别模块,在确定所述终端标识是热点终端标识时,进一步根据所述第二操作行为信息识别所述终端标识是否是可信热点终端标识。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:

本申请中获取待处理的终端标识对应的终端设备的操作行为信息,所述操作行为信息包括第一操作行为信息和第二操作行为信息;根据所述第一操作行为信息识别所述终端标识是否是热点终端标识;在确定所述终端标识是热点终端标识时,进一步根据所述第二操作行为信息识别所述终端标识是否是可信热点终端标识。由于通过对终端标识对应的多个终端设备产生的操作行为信息的分析,能够有效确定终端标识是否为可信热点终端标识,一旦确定该终端标识为可信热点标识,那么在对终端设备是否可信进行识别时,若终端设备对应的终端标识为可信热点标识,则可以确定该终端设备为可信设备,这样能够有效过滤可信设备,避免对可信设备发起的支付行为再次进行身份验证,降低对用户的打扰率、提高用户的体验。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例提供的一种终端标识的识别方法的流程示意图;

图2为本申请实施例提供的一种终端标识的识别方法的流程示意图;

图3为本申请实施例提供的一种终端标识的识别方法的流程示意图;

图4为本申请实施例提供的一种终端标识的识别方法的流程示意图;

图5为本申请实施例提供的一种终端标识的识别方法的流程示意图;

图6为本申请实施例提供的一种终端标识的识别方法的流程示意图;

图7为本申请实施例提供的一种终端标识的识别装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

以下结合附图,详细说明本申请各实施例提供的技术方案。

如图1所示,为本发明实施例提供一种终端标识的识别方法的流程示意图。所述方法可以如下所示。

步骤S100:获取待处理的终端标识对应的终端设备产生的操作行为信息。

所述操作行为信息包括用于区分所述终端标识是否为热点终端标识的第一操作行为信息和用于区分所述终端标识是否为可信热点终端标识的第二操作行为信息。

步骤S200:根据所述第一操作行为信息识别所述终端标识是否是热点终端标识。

步骤S300:在确定所述终端标识是热点终端标识时,进一步根据所述第二操作行为信息识别所述终端标识是否是可信热点终端标识。

其中S100中,所述第一操作行为信息包括终端标识的关联账户特征信息、关联唯一性特征信息、关联环境特征信息中的至少一种或者多种,所述第二操作行为信息包括终端标识的关联账户特征信息、关联操作特征信息中的一种或两种;

一般,第一操作行为信息中包含的操作行为信息和第二操作行为信息中包含的操作行为信息不同。

本申请实施例中所记载的关联账户特征信息可以理解为与待处理终端标识对应的终端设备关联的部分或者全部账户的特征信息,包括该终端标识对应登陆账户数日均值、该终端标识对应登陆账户数单日登陆账户数最大值、该终端标识对应登陆账户数流动性、该终端标识历史上仅登陆失败账户占比、该终端标识低价值账户占比、该终端标识对应账户数波动系数及该终端标识聚类系数中的一个或多个,但不限于此。

经过分析发现,普通终端标识对应的是单个独立的终端设备,一般一个终端设备关联一个账户,也有的终端设备不仅仅关联一个账户,但是一般少于4个,所以普通终端标识关联的账户一般少于4个。

热点终端标识对应的是多个终端设备,由于一个终端设备关联一个账户,也有的终端设备不仅仅关联一个账户,至多关联4个账户,这就意味着热点终端标识关联的账户将远多于普通终端标识对应的账户。

关联账户特征信息中存在一部分特征信息,这些特征信息能够用于区分所述终端标识是否为热点终端标识,那么可以把该部分关联账户特征信息作为第一操作行为信息;还存在一部分特征信息能够用于区分所述终端标识是否为可信热点终端标识,那么可以把这部分关联账户特征信息作为第二操作行为信息。

具体地,本申请实施例中所记载的关联账户特征信息可以包括但不限于以下几种:

1)近N天登陆账户数日均值(USER_AVG)、单日登陆账户数最大值(USER_MAX)。其中N为设定值,可以为20或30或其他设定值,根据具体情况设置,这里不做限定。

由于热点终端标识对应多个终端设备,热点终端标识关联的账户数不管是日均值还是最大值,都将比普通终端标识关联的账户数多,因此该特征可以用于区别热点终端标识与普通终端标识,即可作为第一操作行为信息。

2)近N天账户数流动性(USER_FLOW)=(USER_MAX)/(USER_CNT),其中(USER_CNT)是该终端标识下近N天登陆的账户总数,N为设定值,可以为20或30或其他设定值,根据具体情况设置,这里不做限定。

由于热点终端标识的账户流动性要比普通终端标识的账户流动性高,因此该特征信息可以用于区别热点终端标识和普通终端标识。即可作为第一操作行为信息。

3)历史上仅登陆失败账户占比(USER_FAIL_RATIO)。可信热点终端标识对应的终端设备上出现仅登陆失败账户的占比通常比可疑热点终端标识对应的终端设备上出现仅登陆失败账户的占比低。该特征信息可以用于区别可信热点终端标识与可疑热点终端标识,即可作为第二操作行为信息。

4)近N天低价值账户占比(USER_LOW_RATIO),其中由账户活跃资金数和活跃资金笔数判断账户是否是低价值账户。N为设定值,可以为20或30或其他设定值,根据具体情况设置,这里不做限定。

账户活跃资金数和活跃资金笔数低的账户为低价值账户,可信热点终端标识对应的终端设备上低价值账户占比比较低,而涉及批量注册的可疑终端标识对应的终端设备上的低价值账户占比更高,该特征信息可用于区别可信终端表示与可疑终端标识,即可作为第二操作行为信息。

5)近N天账户数波动系数(USER_BYXS)=(日登账户数方差)/(USER_AVG)。N为设定值,可以为20或30或其他设定值,根据具体情况设置,这里不做限定。

可信热点终端标识对应的终端设备上日登账户数比较稳定,而作案团伙在多个不同终端设备轮流作案使得作案终端标识的日登账户数波动较大,该特征能用于区别可信终端标识与可疑终端标识,即可作为第二操作行为信息,

6)近N天聚类系数(USER_CLUS)=(2*近N天账户关系对)/(USER_CNT*(USER_CNT-1))。N为设定值,可以为20或30或其他设定值,根据具体情况设置,这里不做限定。

社会学研究表明,有团伙组织的关系网络的聚类系数介于0.01-0.3之间,比陌生人间的随机网络高,比亲密关系形成的规则网络低。因此该特征能用于区别可信终端标识与可疑终端标识,即可作为第二操作行为信息。

本申请实施例中所记载的关联唯一性特征信息可以理解为待处理终端标识对应的所有终端设备的所有账户的唯一性特征的冲突数,包括但不限于WIFI环境的冲突数、登录城市的冲突数。

热点终端标识背后对应的是多个终端设备,在短时间内会存在异地操作,而普通终端标识背后对应的是单个独立的终端设备,短时间内发生异地操作的概率低。所述关联唯一性特征信息可用于区分所述终端标识是否是热点终端标识,即可作为第一操作行为信息。

关联唯一性特征信息的依据是终端标识在短时间内的异地(不同WiFi环境、不同城市)操作的频繁程度。比如某个终端标识在10分钟内被发现既在成都登陆了A账号又在北京登陆了B账号,那么该终端标识是热点终端标识的可能性较高。又比如某个终端标识在10分钟内被发现登陆了8个不同的WiFi环境,那么该终端标识是热点的可能性较高。我们把终端标识在极短的观察时间窗口内在两个不同环境下先后或同时操作不同账号的行为定义为一次‘冲突’。冲突数越多,终端标识是热点的可能性越大。

具体地,本申请实施例中所记载的关联唯一性特征信息可以包括但不限于以下几种:

1)M分钟内WiFi冲突至少1次的次数(CONFLICT_1);

2)M分钟内WiFi冲突至少10次的次数(CONFLICT_10);

3)M分钟内WiFi冲突至少20次的次数(CONFLICT_20);

4)M分钟内WiFi冲突至少50次的次数(CONFLICT_50);

5)1秒钟内WiFi冲突次数(CONFLICT_1S);

6)M分钟内城市冲突数(CONFLICT_CITY)。

其中所述M为设定值。可以为10或20或其他设定值,根据具体情况设置,这里不做限定。

本申请实施例中所记载的关联环境特征信息可以理解为待处理终端标识对应的所有终端设备的所有账户关联的环境的特征信息,包括但不限于待处理终端标识对应的所有终端设备的所有账户的登录WiFi环境数、待处理终端标识对应的所有终端设备的所有账户的登录城市数。

联网的终端设备会不可避免地产生IP、WiFi、LBS等信息,其中WiFi数据的可信度较IP和LBS更高,一般普通终端标识在30天内关联的WiFi物理地址在2个左右(主要是办公WiFi和家庭WiFi),而热点终端标识关联的WiFi物理地址数要远大于2个。此外,一般普通终端标识在近期关联的账号登陆在同一个城市,这是由于大部分人近期的活动范围局限在同一个城市内及其周边;而热点终端标识关联的账户分布于不同的城市的概率很高,因此热点终端标识的登陆城市数远大于1。因此所述关联环境特征信息可用于区分所述终端标识是否为热点终端标识,即作为第一操作行为信息。

具体地,本申请实施例中所记载的关联环境特征信息可以包括但不限于以下几种:

1)近N天单日最大登陆WiFi数(EVN_WiFi)。N为设定值,可以为20或30或其他设定值,根据具体情况设置,这里不做限定。

2)近N天单日最大登陆城市数(EVN_CITY)。其中登陆城市数可由LBS和IP映射获取。N为设定值,可以为20或30或其他设定值,根据具体情况设置,这里不做限定。

本申请实施例中所记载的关联操作特征信息可以理解为待处理终端标识对应的所有终端设备的所有账户的操作特征信息,包括但不限于账户的活跃场景数、账户中高风险事件频率、账户中虚拟商品交易占比。

所述关联操作特征信息能用于区别可信终端标识与可疑终端标识,即可作为第二操作行为信息。

具体地,本申请实施例中所记载的关联操作特征信息可以包括但不限于以下几种:

1)近N天日均活跃场景数(OP_SCENE)。可信热点终端标识上日均活跃场景数稳定,而作案团伙会在多个不同场景间切换进行资金转移使得该终端标识的日均活跃场景数较多。

2)近N天高风险事件频率(OP_RISK)。高风险事件是指包括手机换绑、更改密码、更改密保等修改账户资料信息的操作。可信热点终端标识上高风险事件频率较低,而作案团伙使用的终端标识上的高风险事件频率较高。

3)近N天虚拟商品交易占比(OP_VP)。作案团伙在盗取账户后会通过购买大量的虚拟商品进行资金转移,从而使得该终端标识的虚拟商品交易占比较大。

其中N为设定值,可以为20或30或其他设定值,根据具体情况设置,这里不做限定。

基于上述分析,对获取到的操作行为信息进行分类,分别得到第一操作行为信息集合和第二操作行为信息集合:

其中,第一操作行为信息集合中可以包含:所述关联账户特征信息中的近N天登陆账户数日均值(USER_AVG)、单日登陆账户数最大值(USER_MAX)、近N天账户数流动性(USER_FLOW);所述关联唯一性特征信息中的M分钟内WIFIIP冲突至少1次的次数(CONFLICT_1)、M分钟内WIFIIP冲突至少10次的次数(CONFLICT_10)、M分钟内WIFIIP冲突至少20次的次数(CONFLICT_20)、M分钟内WIFIIP冲突至少50次的次数(CONFLICT_50)、1秒钟内WIFIIP冲突次数(CONFLICT_1S)、M分钟内城市冲突数(CONFLICT_CITY);所述关联环境特征信息中的近N天单日最大登陆WIFI数(EVN_WIFI)、近N天单日最大登陆城市数(EVN_CITY)中的至少一种或者多种。

其中,第二操作行为信息集合中可以包含:所述关联账户特征信息中的历史上仅登陆失败账户占比(USER_FAIL_RATIO)、近N天低价值账户占比(USER_LOW_RATIO)、近N天账户数波动系数(USER_BYXS)、近N天聚类系数(USER_CLUS);所述关联操作特征信息近N天日均活跃场景数(OP_SCENE)、近N天高风险事件频率(OP_RISK)、近N天虚拟商品交易占比(OP_VP)中的至少一种或者多种。

如图2所示,为本发明实施例提供一种终端标识的识别方法的流程示意图。下面针对上述实施例步骤S200中,根据所述第一操作行为信息识别所述终端标识是否是热点终端标识的实现方式进行具体描述:

步骤S210,根据所述第一操作行为信息,确定所述终端标识的热点值。

具体地,将提取出的第一操作行为信息量化后计算得出所述终端标识的热点值。

步骤S220,根据该热点值识别所述终端标识是否是热点终端标识。

具体地,若所述热点值介于设定阈值范围之间则确定该终端标识为热点终端标识;若所述热点值介于设定阈值范围之外则确定该终端标识为普通终端标识。

如图3所示,为本发明实施例提供一种终端标识的识别方法的流程示意图。下面针对上述实施例中的步骤S210中,根据所述第一操作行为信息,识别所述终端标识的热点值的实现方式进行具体描述:

步骤S211,确定所述第一操作行为信息中包含的操作行为信息的第一特征值。

具体地,可以通过归一化函数分别对第一操作行为信息中包含的操作行为信息归一化处理得到所述第一操作行为信息中包含的操作行为信息的第一特征值。如可采用sigmoid归一化函数,即g(x)=1/(1+exp(-x)),也可采用其他归一化函数,此处不做限定。

步骤S212,确定所述第一操作行为信息中包含的操作行为信息之间的相关系数。

该相关系数可以通过分析第一操作行为信息之间的Spearman相关性得到,还以使用欧式距离、明科夫斯基距离、曼哈顿距离、余弦相似度、皮尔森相似度等进行分析得到,此处不做限定。

步骤S213,根据所述第一特征值和所述相关系数确定所述终端标识的热点值。

如图4所示,为本发明实施例提供一种终端标识的识别方法的流程示意图。下面针对上述实施例中步骤S212中,确定所述第一操作行为信息中包含的操作行为信息之间的相关系数的实现方式做具体描述:

步骤S2121,在所述第一操作行为信息中选取基准操作行为信息。

具体地,一般选取对热点值影响最大的操作行为信息作为基准操作行为信息,如可选取10分钟内WiFi冲突至少1次的次数CONFLICT_1为基准操作行为信息,当然也可以选取其他操作行为信息作为基准操作行为信息,此处不做限定。

步骤S2122,确定所述基准操作行为信息相对于所述第一操作行为信息中包含的操作行为信息的相关系数;所述相关系数的取值范围为[-1,1]。

当所述相关系数为-1时,表明基准操作行为信息与该操作行为信息是完全单调负相关,当所述相关系数为+1时,表明基准操作行为信息与该操作行为信息是完全单调正相关。所述基准操作行为信息相对于基准操作行为信息的相关系数为1。

上述实施例中步骤S213中,根据所述第一特征值和所述相关系数确定所述终端标识的热点值,所述终端标识的热点值的计算公式为:

其中,P为所述终端标识的热点值;xi为所述第一操作行为信息中第i条操作行为信息;g(xi)为第i条操作行为信息的第一特征值;ai为x1相对于xi的相关系数。如:x1为所述第一操作行为信息中的第1条操作行为信息,a1为x1相对于x1的相关系数,且a1=1。

优选地,g(xi)代表对xi的sigmoid归一化函数,即g(xi)=1/(1+exp(-xi))。相关系数ai是通过分析操作行为信息x1与其他特征之间的Spearman相关性得到的,ai=Spearman(x1,xi)。ai是介于-1到+1之间的实数,ai为-1时,x1与特征xi是完全单调负相关,ai为+1时,x1与xi是完全单调正相关。

需要说明的是,在进行热点值计算时,可以选择上述记载的第一操作行为信息中的部分操作行为信息进行计算,也可以选择上述记载的第一操作行为信息中的全部操作行为信息进行计算,这里不做具体限定。

例如,首先获取待处理的终端标识对应的终端设备产生的可以用于区分所述终端标识是否是热点终端标识的如下第一操作行为信息,假设这里的i的最大取值为8,那么分别得到x1~x8(需要说明的是该处的x1~x8可以是第一操作行为信息中包含的所有操作行为信息,也可以是第一操作行为信息中包含的部分操作行为信息,此处不做限定):

x1:10分钟内WiFi冲突至少1次的次数(CONFLICT_1)。

x2:10分钟内城市冲突数(CONFLICT_CITY)。

x3:1秒钟内WiFi冲突次数(CONFLICT_1S)。

x4:10分钟内WiFi冲突至少10次的次数(CONFLICT_10)。

x5:10分钟内WiFi冲突至少20次的次数(CONFLICT_20)。

x6:10分钟内WiFi冲突至少50次的次数(CONFLICT_50)。

x7:近30天登陆账户数单日登陆账户数最大值(USER_MAX)。

x8:近30天单日最大登陆WIFI数(EVN_WIFI)。

其次,通过归一化方式分别对上述第一操作行为信息进行归一化处理,得到所述第一操作行为信息的第一特征值:

对于操作行为信息x1,归一化处理后得到的第一特征值为g(CONFLICT_1)。

对于操作行为信息x2,归一化处理后得到的第一特征值为g(CONFLICT_CITY)。

对于操作行为信息x3,归一化处理后得到的第一特征值为g(CONFLICT_1S)。

对于操作行为信息x4,归一化处理后得到的第一特征值为g(CONFLICT_10)。

对于操作行为信息x5,归一化处理后得到的第一特征值为g(CONFLICT_20)。

对于操作行为信息x6,归一化处理后得到的第一特征值为g(CONFLICT_50)。

对于操作行为信息x7,归一化处理后得到的第一特征值为g(USER_MAX)。

对于操作行为信息x8,归一化处理后得到的第一特征值为g(EVN_WIFI)。

其中,g(xi)代表对xi的sigmoid归一化函数,即g(xi)=1/(1+exp(-xi))。

再次,选取10分钟内WiFi冲突至少1次的次数CONFLICT_1为基准操作行为信息。

经过大量数据的分析表明10分钟内WiFi冲突至少1次的次数CONFLICT_1对热点值的影响较大。

进而通过分析CONFLICT_1与CONFLICT_CITY,CONFLICT_1S,CONFLICT_10,CONFLICT_20,CONFLICT_50,USER_MAX,EVN_WIFI之间的相关性得到相关系数:

a1=Spearman(CONFLICT_1,CONFLICT_1),其中a1=1。

a2=Spearman(CONFLICT_1,CONFLICT_CITY)。

a3=Spearman(CONFLICT_1,CONFLICT_1S)。

a4=Spearman(CONFLICT_1,CONFLICT_10)。

a5=Spearman(CONFLICT_1,CONFLICT_20)。

a6=Spearman(CONFLICT_1,CONFLICT_50)。

a7=Spearman(CONFLICT_1,USER_MAX)。

a8=Spearman(CONFLICT_1,EVN_WiFi)。

需要说明的是,本申请实施例中可以按照随机选择原则选取基准操作信息,也可以根据实际需要选取基准操作信息,这里不做具体限定。

最后,计算待处理终端标识的热点值:

由于近N天单日最大登陆WIFI数(EVN_WiFi)更精准反映了关联环境特征,所以上述实施例中,关联环境特征信息中只选取了近N天单日最大登陆WIFI数(EVN_WiFi)作为第一操作行为信息,当然在其他实施例中也可在关联环境特征信息中只选取近N天单日最大登陆城市数(EVN_CITY)作为第一操作行为信息。

当然为了能更精准反映关联环境特征,当30天单日最大登陆WIFI数EVN_WIFI大于0时,使用EVN_WiFi作为第一操作行为信息,当30天单日最大登陆WIFI数EVN_WIFI等于0时,使用EVN_CITY作为第一操作行为信息。

在本申请实施例中待处理终端标识的热点值:

当且仅当终端标识的EVN_WiFi>0时δ=1,否则δ=0。

如果P或P’介于设定阈值范围之内则说明该终端标识为热点终端标识;如果P或P’介于设定阈值范围之外则说明该终端标识为非热点终端标识,即普通终端标识,如果所述终端标识为热点终端标识,进一步用本申请所述方法判断是否是可信热点标识。

如图5所示,为本发明实施例提供一种终端标识的识别方法的流程示意图。下面针对上述实施例中的步骤S300中,根据所述第二操作行为信息识别所述终端标识是否是可信热点终端标识的实现方式做具体描述:

步骤S310,根据所述第二操作行为信息,确定所述终端标识的可信值。

具体地,将提取出的第二操作行为信息量化后计算得出所述终端标识的可信值。

步骤S320,根据该可信值识别所述终端标识是否是可信热点终端标识。

具体地,若所述可信值介于设定阈值范围之间则判断该终端标识为可信热点终端标识,若所述可信值介于设定阈值范围之外则判断该终端标识为非可信热点终端,即可疑终端标识。

如图6所示,为本发明实施例提供一种终端标识的识别方法的流程示意图。下面针对上述实施例中的步骤S310中,根据第二操作行为信息识别所述终端标识的可信值的实现方式进行具体描述:

步骤S311,确定第二操作行为信息中包含的操作行为信息的回归系数。

具体地,可采用模型训练的方法训练出第二操作行为信息对应的回归系数,所述回归系数为所述信息对热点值可信度的影响因子;也可以采用基于WOE的逻辑回归模型,还可以使用决策树,贝叶斯,随机森林,神经网络等模型,此处不做限定。

以基于WOE的逻辑回归模型为例,使用基于WOE的逻辑回归模型计算回归系数时,为了计算WOE值,需要对特征进行离散化,离散化是指将一个连续的特征变量以一定的规则映射为几个离散值。这里采用的是等位分箱法,将数据的任一维度特征分成5个区间(5个离散值),要求落在每个区间的记录数相等。比如数据集共1000个样本,则每个区间含有200个样本。对于不同的场景和数据,区间数可以适当调整。

WOE的计算是在训练样本上进行的,训练样本来自于真实的终端标识,安全策略专员会审核并记录不可信的高风险终端标识,作为负样本,同时,未被稽核记录的可信终端标识作为正样本。由于正样本的数量要远多于负样本,为保证训练的效果,对正样本进行随机不放回抽样,控制正负样本比例在10:1以内。

对于每个特征的每个离散区间,分别统计该区间上的正负样本数量,得到该区间对应的WOE值=ln(正样本数量/负样本数量)。使用特征的WOE值,增加了特征内部区间的可比性,赋予了特征和分类标签之间的非线性关系,提高了模型的预测能力。

经过上面两步的处理,样本已经转换为模型所需的输入格式,然后应用逻辑回归算法,训练出各个特征yi对应的回归系数wi

步骤S312,根据所述第二操作行为信息和所述回归系数确定所述终端标识的可信值。

步骤S312中根据所述第二操作行为信息和所述回归系数确定所述终端标识的可信值,包括:

所述终端标识的可信值的计算公式:

其中:Q为所述终端标识的可信值;yi为所述第二操作行为信息中第i条操作行为信息;wi为yi对应的回归系数。

例如:首先获取待处理的终端标识对应的终端设备产生可以用于区分所述终端标识是否是可信热点终端标识的如下第二操作行为信息,假设这里的i的最大取值为8,那么分别得到y1~y7(需要说明的是该处的y1~y7可以是第二操作行为信息中包含的所有操作行为信息,也可以是第二操作行为信息中包含的部分操作行为信息,此处不做限定):

y1:历史上仅登陆失败账户占比(USER_FAIL_RATIO)。

y2:近30天低价值账户占比(USER_LOW_RATIO)。

y3:近30天账户数波动系数(USER_BYXS)。

y4:近30天聚类系数(USER_CLUS)。

y5:近30天日均活跃场景数(OP_SCENE)。

y6:近30天高风险事件频率(OP_RISK)。

y7:近30天虚拟商品交易占比(OP_VP)。

其次,基于WOE的逻辑回归模型计算第二操作行为信息的回归系数:

y1的回归系数w1;y2的回归系数w2;y3的回归系数w3;y4的回归系数w4;y5的回归系数w5;y6的回归系数w6;y7的回归系数w7

再次,计算待处理终端标识的可信值:

其中,Q为所述终端标识的可信值;yi为所述第二操作行为信息中第i条操作行为信息;wi为yi对应的回归系数。

如果Q介于设定阈值范围之间则说明该终端标识为可信热点终端标识;如果Q在设定阈值范围之外则说明该终端标识为非可信热点终端标识,即可疑热点终端标识。

通过本申请实施例提供的技术方案,获取待处理的终端标识对应的终端设备的操作行为信息,所述操作行为信息包括第一操作行为信息和第二操作行为信息;根据所述第一操作行为信息识别所述终端标识是否是热点终端标识;在确定所述终端标识是热点终端标识时,进一步根据所述第二操作行为信息识别所述终端标识是否是可信热点终端标识。由于通过对终端标识对应的多个终端设备产生的操作行为信息的分析,能够有效确定终端标识是否为可信热点终端标识,一旦确定该终端标识为可信热点标识,那么在对终端设备是否可信进行识别时,若终端设备对应的终端标识为可信热点标识,则可以确定该终端设备为可信设备,这样能够有效过滤可信设备,避免对可信设备发起的支付行为再次进行身份验证,降低对用户的打扰率、提高用户的体验。

如图7所示本发明实施例还提供一种终端标识的识别装置的结构示意图,所述装置包括:

获取模块10,获取待处理的终端标识对应的终端设备产生的操作行为信息,所述操作行为信息包括用于区分所述终端标识是否为热点终端标识的第一操作行为信息和用于区分所述终端标识是否为可信热点终端标识的第二操作行为信息;

热点终端标识识别模块20,根据所述第一操作行为信息识别所述终端标识是否是热点终端标识;

可信热点终端标识识别模块30,在确定所述终端标识是热点终端标识时,进一步根据所述第二操作行为信息识别所述终端标识是否是可信热点终端标识。

所述热点终端标识识别模块20,根据所述第一操作行为信息识别所述终端标识是否是热点终端标识,包括:

根据所述第一操作行为信息,确定所述终端标识的热点值;

根据该热点值识别所述终端标识是否是热点终端标识。

所述热点终端标识识别模块20,根据所述第一操作行为信息,识别所述终端标识的热点值,包括:

确定所述第一操作行为信息中包含的操作行为信息的第一特征值,以及确定所述第一操作行为信息中包含的操作行为信息之间的相关系数;

根据所述第一特征值和所述相关系数确定所述终端标识的热点值。

所述热点终端标识识别模块20,确定所述第一操作行为信息中包含的操作行为信息之间的相关系数,包括:

在所述第一操作行为信息中选取基准操作行为信息;

确定所述第一操作行为信息中包含的操作行为信息相对于基准操作行为信息的相关系数;

其中,所述相关系数的取值范围为[-1,1]。

所述热点终端标识识别模块20,根据所述第一特征值和所述相关系数确定所述终端标识的热点值,包括:

通过以下方式根据所述第一特征值和所述相关系数确定所述终端标识的热点值:

其中:P为所述终端标识的热点值;xi为所述第一操作行为信息中第i条操作行为信息;g(xi)为第i条操作行为信息的第一特征值;ai为x1相对于xi的相关系数。如:x1为所述第一操作行为信息中的第1条操作行为信息,a1为x1相对于x1的相关系数,且a1=1。

所述可信热点终端标识识别模块30,根据所述第二操作行为信息识别所述终端标识是否是可信热点终端标识,包括:

根据所述第二操作行为信息,确定所述终端标识的可信值;

根据该可信值识别所述终端标识是否是可信热点终端标识。

所述可信热点终端标识识别模块30,根据第二操作行为信息识别所述终端标识的可信值,包括:

确定第二操作行为信息中包含的操作行为信息的回归系数,所述回归系数为所述操作行为信息对热点值可信度的影响因子。

根据所述第二操作行为信息和所述回归系数确定所述终端标识的可信值。

所述可信热点终端标识识别模块30,根据所述第二操作行为信息和所述回归系数确定所述终端标识的可信值,包括:

通过以下方式根据所述第二操作行为信息和所述回归系数确定所述终端标识的可信值:

其中:Q为所述终端标识的可信值;yi为所述第二操作行为信息中第i条操作行为信息,wi为yi对应的回归系数。

需要说明的是,本申请实施例中所记载的识别装置可以通过软件方式实现,也可以通过硬件方式实现,这里不做具体限定,由于识别装置通过对终端标识对应的多个终端设备产生的操作行为信息的分析,能够有效确定终端标识是否为可信热点终端标识,一旦确定该终端标识为可信热点标识,那么在对终端设备是否可信进行识别时,若终端设备对应的终端标识为可信热点标识,则可以确定该终端设备为可信设备,这样能够有效过滤可信设备,避免对可信设备发起的支付行为再次进行身份验证,降低对用户的打扰率、提高用户的体验。

为进一步确定采用本申请所述终端标识的识别方法及装置识别出的可信热点终端标识的可靠程度,对如下指标进行监测:

1)未来24小时内涉案率。该指标衡量的是模型识别出的可信热点终端标识在未来的24小时内是否保持可信状态,即结果的鲁棒性。

2)过去一周覆盖事件总量。该指标衡量的是可信热点终端标识的覆盖率,并与现有的可信热点终端标识名单库进行比较。

3)过去一周涉案事件量。该指标衡量的是模型自动识别出的可信热点终端标识的准确率,只有近一周涉案事件量为0的热点终端标识才可以被认为是真正的可信热点终端标识。

监测结果:本申请中的识别方法及装置识别出的可信热点终端标识在未来24小时内的涉案率长期低于万分之一;过去一周覆盖事件量与现有可信名单库重合的约有800万,此外还有700万个新的事件,覆盖率提升近一倍;过去一周涉案事件量为0,准确率100%。

需要说明的是,实施例中所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1