基于机器学习的用户风险分类方法、装置、介质及设备与流程

文档序号:16883237发布日期:2019-02-15 22:23阅读:199来源:国知局
基于机器学习的用户风险分类方法、装置、介质及设备与流程

本公开涉及人工智能领域,具体而言,涉及一种基于机器学习的用户风险分类方法、装置、介质及设备。



背景技术:

用户风险是指用户在某些环境下,某些时间内,由于外界因素或者用户本身行为造成的内部因素带来的可能会致使用户产生损失的可能性;用户风险的分类就是根据用户的操作环境下的外界因素和内部因素对用户风险按照产生风险的可能性进行评估。

现有的用户评分体系基本上为基于用户属性的评分卡模型或者基于黑白名单分级,这样基于未结合用户网络行为的静态属性信息的评估方式不利于评价拥有大体量用户的平台中用户的风险,会造成评估的片面性和不准确性,因此需要基于用户的行为数据加以补充,根据未结合用户网络行为的静态特征数据与结合用户网络行为的动态特征数据来评价用户的风险等级。更重要的是,现有方法中对用户风险采用机器学习模型进行用户风险分类时一般采用单一的机器学习模型,评估结果具有局限性,分类结果不够准确,因此需要考虑多个机器学习模型的结合评估方式,结合多个机器学习模型的优点互相补充,从而得到更加准确地分析结果,不会造成用户风险评估时的误伤问题,采用随机森林模型结合逻辑回归模型对用户进行风险评估既可以保证高的运算效率,高的模型结果精度,以及低的输入数据加工成本,又可以低成本的高效率的将用户风险特征加工成风险分数,综合随机森林模型和逻辑回归模型的结果可以更加准确的进行用户风险分类。

所以,通过随机森林模型结合逻辑回归模型根据用户静态特征数据和动态特征数据对用户风险进行分类的体系具有极高的意义。

因此,需要提供一种新的基于机器学习的用户风险分类方法及装置。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

本公开的目的在于提供一种基于机器学习的用户风险分类方法、装置、介质及设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的由于用户特征数据不够全面,分类模型单一造成的分类结果不准确的问题。

根据本公开的一个方面,提供一种用户风险分类方法,包括:

获取用户静态特征数据,所述用户静态特征数据表示在未结合用户网络行为的情况下表现出来的特征;

获取用户动态特征数据,所述用户动态特征数据表示用户的网络行为表现出来的特征;

剔除用户静态特征数据和用户动态特征数据中的目标剔除特征数据;

将剔除了目标剔除特征数据后的用户静态特征数据和用户动态特征数据的特征数据输入预先训练的随机森林模型,所述随机森林模型输出用户风险等级;

将剔除了目标剔除特征数据后的用户静态特征数据和用户动态特征数据的特征数据、以及随机森林模型输出的用户风险等级,输入预先训练的逻辑回归模型,由逻辑回归模型输出用户风险评分;

根据随机森林模型输出的用户风险等级和逻辑回归模型输出的用户风险评分,对用户进行风险上的分类。

在本公开的一种示例性实施例中,根据随机森林模型输出的用户风险等级和逻辑回归模型输出的用户风险评分,对用户进行风险上的分类,具体包括:

如果所述随机森林模型输出的用户风险等级满足第一预定用户风险等级条件,且所述逻辑回归模型输出的用户风险评分大于第一预定用户风险评分阈值,则将用户分类为异常网络行为用户;

如果所述随机森林模型输出的用户风险等级满足第二预定用户风险等级条件,且所述逻辑回归模型输出的用户风险评分小于第二预定用户风险评分阈值,则将用户分类为正常网络行为用户;

否则,将用户分类为待定网络行为用户。

在本公开的一种示例性实施例中,根据随机森林模型输出的用户风险等级和逻辑回归模型输出的用户风险评分,对用户进行风险上的分类,具体包括:

将所述随机森林模型输出的用户风险等级换算成等级分数;

确定所述等级分数与所述用户风险评分的加权和,作为风险总分数;

基于所述风险总分数,对用户进行风险上的分类。

在本公开的一种示例性实施例中,所述用户静态特征数据包括以下中的至少一个:

所述用户是否属于黑名单中的用户;

所述用户的注册信息特征;

所述用户的网络消费特征。

在本公开的一种示例性实施例中,所述用户动态特征数据包括以下中的至少一个:

所述用户单位时间更换网络地址的次数;

所述用户单位时间更换上网设备的次数;

所述用户单位时间产生同一操作路径的次数。

在本公开的一种示例性实施例中,所述用户单位时间更换网络地址的次数通过如下方式确定:

基于所述用户注册时的手机号或身份证号,确定所述用户注册时的手机号或身份证号对应的用户的单位时间上网次数,其中,从用户登录到互联网到退出互联网,称为一次上网;

确定所述用户单位时间内每次上网用的网络地址;

基于所述用户单位时间内相邻两次上网所用的网络地址的一致性,确定所述用户单位时间内更换网络地址的次数,其中,如果所述用户一次上网用的网络地址与前一次不一致,则更换了一次网络地址。

在本公开的一种示例性实施例中,所述用户单位时间更换上网设备的次数通过如下方式确定:

基于所述用户注册时的手机号或身份证号,确定所述用户注册时的手机号或身份证号对应的用户的单位时间上网次数,其中,从用户登录到互联网到退出互联网,称为一次上网;

确定所述用户单位时间内每次上网用的上网设备;

基于所述用户单位时间内相邻两次上网所用的上网设备的一致性,确定所述用户单位时间内更换上网设备的次数,其中,如果所述用户一次上网用的上网设备与前一次不一致,则更换了一次上网设备。

根据本公开的一个方面,提供一种用户风险分类装置,包括:

第一获取模块,用于获取用户静态特征数据,所述用户静态特征数据表示在未结合用户网络行为的情况下表现出来的特征;

第二获取模块,用于获取用户动态特征数据,所述用户动态特征数据表示用户的网络行为表现出来的特征;

剔除模块,用于剔除用户静态特征数据和用户动态特征数据中的目标剔除特征数据;

第一评估模块,用于将剔除了目标剔除特征数据后的用户静态特征数据和用户动态特征数据的特征数据输入预先训练的随机森林模型,所述随机森林模型输出用户风险等级;

第二评估模块,用于将剔除了目标剔除特征数据后的用户静态特征数据和用户动态特征数据的特征数据、以及随机森林模型输出的用户风险等级,输入预先训练的逻辑回归模型,由逻辑回归模型输出用户风险评分;

综合评估模块,用于根据随机森林模型输出的用户风险等级和逻辑回归模型输出的用户风险评分,对用户进行风险上的分类。

根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。

根据本公开的一个方面,提供一种电子设备,包括:

处理器;以及

存储器,用于存储所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

本公开一种用户风险分类方法、装置、计算机可读存储介质以及电子设备。首先,获取用户静态特征数据和用户动态特征数据,所述用户静态特征数据表示在未结合用户网络行为的情况下表现出来的特征,所述用户动态特征数据表示用户的网络行为表现出来的特征;这样可以获取所有可能造成用户风险可能性的用户特征数据,从而可以进行全面的评估,使得风险评估更加准确、可靠。然后,将用户静态特征数据和用户动态特征数据中的除目标剔除特征数据之外的特征数据输入预先训练的随机森林模型,所述随机森林模型输出用户风险等级;这样可以高运算效率的、高模型结果精度的、低输入数据加工成本的得到评估的风险等级,同时避免了贡献度低的剔除特征带来的模型计算负荷。然后,将用户静态特征数据和用户动态特征数据中的除目标剔除特征数据之外的特征数据、以及随机森林模型输出的用户风险等级,输入预先训练的逻辑回归模型,由逻辑回归模型输出用户风险评分;这样进一步在考虑了随机森林评估结果的基础上再次根据除目标剔除特征数据之外的用户静态特征数据和用户动态特征数据进行二次风险评估可以高效率的得到更加有效的、准确的分析结果分数,而且结果通过分数清晰的表示。最后,根据随机森林模型输出的用户风险等级和逻辑回归模型输出的用户风险评分,对用户进行风险上的分类;这样可以结合随机森林模型的分析的结果与逻辑回归模型的分析的结果有效的提高了相对于单一分类模型的分析结果的准确性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示意性示出一种基于机器学习的用户风险分类方法的流程图。

图2示意性示出一种基于机器学习的用户风险分类方法的应用场景示例图。

图3示意性示出一种根据随机森林模型输出的用户风险等级和逻辑回归模型输出的用户风险评分对用户进行风险上的分类的方法流程图。

图4示意性示出一种基于机器学习的用户风险分类装置的方框图。

图5示意性示出一种用于实现上述基于机器学习的用户风险分类的方法的电子设备示例框图。

图6示意性示出一种用于实现上述基于机器学习的用户风险分类的方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例实施方式中首先提供了一种用户风险分类方法,该用户风险分类方法可以运行于服务器,也可以运行于服务器集群或云服务器等,当然,本领域技术人员也可以根据需求在其他平台运行本发明的方法,本示例性实施例中对此不做特殊限定。参考图1所示,该基于机器学习的用户风险分类方法可以包括以下步骤:

步骤s110.获取用户静态特征数据,所述用户静态特征数据表示在未结合用户网络行为的情况下表现出来的特征。

步骤s120.获取用户动态特征数据,所述用户动态特征数据表示用户的网络行为表现出来的特征。

步骤s130.剔除用户静态特征数据和用户动态特征数据中的目标剔除特征数据。

步骤s140.将剔除了目标剔除特征数据后的用户静态特征数据和用户动态特征数据的特征数据输入预先训练的随机森林模型,所述随机森林模型输出用户风险等级。

步骤s150.将剔除了目标剔除特征数据后的用户静态特征数据和用户动态特征数据的特征数据、以及随机森林模型输出的用户风险等级,输入预先训练的逻辑回归模型,由逻辑回归模型输出用户风险评分。

步骤s160.根据随机森林模型输出的用户风险等级和逻辑回归模型输出的用户风险评分,对用户进行风险上的分类,

其中,所述随机森林模型按照如下方式训练:对于包含事先标记为各种用户风险等级的用户样本的集合中的每一个用户样本,获取用户静态特征数据和动态特征数据,将用户静态特征数据和用户动态特征数据输入随机森林模型,随机森林模型中包含多个树,对于每个树输入用户静态特征数据和用户动态特征中的预定多个特征,遍历随机森林模型中的树的数目和对于每个树输入的特征的数目的组合,确定每种组合下随机森林模型输出的判断的用户风险等级与事先标记的用户风险等级一致的用户样本数,最高的用户样本数对应的树的数目和对于每个树输入的特征的数目为目标树数和目标每个树输入特征数,将用户静态特征数据和用户动态特征数据中的每个特征数据分别从用户静态特征数据和用户动态特征数据的集合中剔除,输入该具有目标树数和目标每个树输入特征数的随机森林模型,确定随机森林模型输出的判断的用户风险等级与事先标记的用户风险等级一致的用户样本数为第一样本数,在未剔除该特征数据之前随机森林模型输出的判断的用户风险等级与事先标记的用户风险等级一致的用户样本数为第二样本数,如果第一样本数与第二样本数的差的绝对值小于预定绝对值阈值,则认为该剔除的特征数据为目标剔除特征数据;

所述逻辑回归模型按照如下方式训练:上述用户样本的集合中的每一个用户样本具有预先打出的用户风险评分,对该每一个用户样本,获取用户静态特征数据和用户动态特征数据中的除目标剔除特征数据之外的特征数据,将用户静态特征数据和用户动态特征数据中的除目标剔除特征数据之外的特征数据、和该用户的用户风险等级输出逻辑回归模型,由逻辑回归模型输出用户风险评分,如果输出的用户风险评分与预先打出的用户风险评分不一致,则调整该逻辑回归模型,使其输出的用户风险评分与预先打出的用户风险评分一致。

上述用户风险分类方法中,首先,获取用户静态特征数据和用户动态特征数据,所述用户静态特征数据表示在未结合用户网络行为的情况下表现出来的特征,所述用户动态特征数据表示用户的网络行为表现出来的特征;这样可以获取所有可能造成用户风险可能性的用户特征数据,从而可以进行全面的评估,使得风险评估更加准确、可靠。然后,将用户静态特征数据和用户动态特征数据中的除目标剔除特征数据之外的特征数据输入预先训练的随机森林模型,所述随机森林模型输出用户风险等级;这样可以高运算效率的、高模型结果精度的、低输入数据加工成本的得到评估的风险等级,同时避免了贡献度低的剔除特征带来的模型计算负荷;其中,剔除特征是通过随机森林模型通过验证各个特征的贡献度低于一定阈值确定的。然后,将用户静态特征数据和用户动态特征数据中的除目标剔除特征数据之外的特征数据、以及随机森林模型输出的用户风险等级,输入预先训练的逻辑回归模型,由逻辑回归模型输出用户风险评分;这样进一步在考虑了随机森林评估结果的基础上再次根据除目标剔除特征数据之外的用户静态特征数据和用户动态特征数据进行二次风险评估可以高效率的得到更加有效的、准确的分析结果分数,而且结果通过分数清晰的表示。最后,根据随机森林模型输出的用户风险等级和逻辑回归模型输出的用户风险评分,对用户进行风险上的分类;这样可以结合随机森林模型的分析的结果与逻辑回归模型的分析的结果有效的提高了相对于单一分类模型的分析结果的准确性。

下面,将结合附图对本示例实施方式中上述用户风险分类方法中的各步骤进行详细的解释以及说明。

在步骤s110中,获取用户静态特征数据,所述用户静态特征数据表示在未结合用户网络行为的情况下表现出来的特征。

在本示例实施方式中,参考图1所示,首先,服务器201获取用户终端202的用户特征数据;其中,获取方式可以是通过大数据爬取,也可以其它常用的合法手段,本示例对此不做特殊限制;该用户终端可以是移动终端设备(例如可以是手机),也可以是其他具有风险用户特征制造的终端设备(例如可以是手表等等),本示例对此不做特殊限制;进一步的,该用户终端可以包括一个,也可以包括多个,本示例对此不做特殊限制。然后,服务器201根据未结合用户网络行为的情况下表现出来的特征确定出用户的静态特征;其中未结合网络行为是指不需要通过用户连接互联网进行操作,未结合用户网络行为的情况下表现出来的特征确定出的用户的静态特征是用户最基本的、最具有代表性的、固有的属性表现出来的特征;静态特征的获取可以保证用户风险的评估的准确性。

在本示例的一种实施方式中,所述用户静态特征数据包括以下中的至少一个:所述用户是否属于黑名单中的用户;所述用户的注册信息特征;所述用户的网络消费特征。

用户是否属于黑名单中的用户是通过用户的账号和设备等固有属性确定的用户是否有黑名单历史记录;例如,发生投诉的盗卡盗号案件的帐号和设备,经过验证的风控模型识别的异常帐号及设备信息,命中第三方提供的黑信息库的账号和设备。

用户的注册信息特征是指根据用户注册时,所填写的注册信息衍生出的用户特征,例如,姓名、年龄、手机号码、身份证号码、银行卡号。

用户的网络消费特征是指用户在发生消费行为时衍生出的用户特征,例如,用户购买、浏览产品,产生的购买记录、浏览记录。

用户的黑名单历史、注册信息特征、消费特征与用户风险的可能性直接相关,会直接反应出用户的风险可能性的大小,通过这些方面的评估可以有效保证评估的准确性。

进一步的,用户的静态特征数据还可以是直接反应出用户的风险可能性的大小的、未结合用户网络行为的情况下表现出来的特征的数据。

在步骤s120中,获取用户动态特征数据,所述用户动态特征数据表示用户的网络行为表现出来的特征。

在本示例实施方式中,参考图1所示,首先,服务器201获取用户终端202的用户特征数据;其中,获取方式可以是通过大数据爬取,也可以其它常用合法手段,本示例对此不做特殊限制;该用户终端可以是移动终端设备(例如可以是手机),也可以是其他具有风险用户特征制造的终端设备(例如可以是手表等等),本示例对此不做特殊限制;进一步的,该用户终端可以包括一个,也可以包括多个,本示例对此不做特殊限制。然后,服务器201根据结合用户网络行为的情况下表现出来的特征确定出用户的动态特征;其中结合网络行为是指需要通过用户连接互联网进行操作,结合用户网络行为的情况下表现出来的特征确定出的用户的动态特征可以反映出用户在互联网中发生行为时产生风险的可能性,通过动态特征的获取可以更加全面的对用户进行风险评估,进一步提高用户风险评估的准确性。

在本示例的一种实施方式中,所述用户动态特征数据包括以下中的至少一个:所述用户单位时间更换网络地址的次数;所述用户单位时间更换上网设备的次数;所述用户单位时间产生同一操作路径的次数。

用户单位时间更换网络地址的次数是指用户的设备、账号等登录的网络环境的单位时间更换的次数,所述单位时间可以是小于预定时间阈值的时间,例如预定时间阈值小于1天,则单位时间可以是1天、1小时或者1分钟,在此不做特殊限定;可以通过例如网络ip地址的更换、mac的更换进行确定得出。频繁更换网络环境则风险分较高。

用户单位时间更换上网设备的次数是指用户的app账号等登录的设备的单位时间更换的次数,所述单位时间可以是小于预定时间阈值的时间,例如预定时间阈值小于1天,则单位时间可以是1天、1小时或者1分钟,在此不做特殊限定;可以通过登录设备的ip地址的更换确定得出。频繁更换网络环境则风险较高。

用户单位时间产生同一操作路径的次数是指用户的app操作行为路径在单位时间重复的次数,所述单位时间可以是小于预定时间阈值的时间,例如预定时间阈值小于1天,则单位时间可以是1天、1小时或者1分钟,在此不做特殊限定;可以通过例如,路径1:首页-模块二-个人中心-签到,路径2:首页-个人中心-签到-领奖,路径3:首页-个人中心-签到-领奖;则路径2和路径3重复,然后,通过这两条路径单位时间重复的次数确定。操作路径单位时间更换频率高则代表用户风险可能性较高。

用户的单位时间更换网络地址的次数,单位时间更换上网设备的次数,单位时间产生同一操作路径的次数,反应出用户操作或者被操作带来的风险的可能性的大小,可以使得用户的风险评估在静态特征数据评估的基础上更加的全面,评估结果更加准确。

在本示例的一种实施方式中,所述用户单位时间更换网络地址的次数通过如下方式确定:

基于所述用户注册时的手机号或身份证号,确定用户注册时的手机号或身份证号对应的用户的单位时间上网次数,其中,从用户登录到互联网到退出互联网,称为一次上网;

确定所述用户单位时间内每次上网用的网络地址;

基于所述用户单位时间内相邻两次上网所用的网络地址的一致性,确定该用户单位时间内更换网络地址的次数,其中,如果所述用户一次上网用的网络地址与前一次不一致,则更换了一次网络地址。

首先,通过用户注册时的手机号或身份证号进行用户单位时间上网次书的确定,其中用户从登录互联网到退出互联网作为一次上网;这样通过每人独有的手机号或者身份证号可以准确的确定出用户。然后,确定该用户单位时间内每次上网用的网络地址;通过网络地址可以准确的确定用户是否更换网络环境。最后,确定用户单位时间更换网络地址的次数,通过用户单位时间内相邻两次上网所用的网络地址不一致就可以确定用户更换了网络。例如,以1小时为单位时间,且获取到用户1小时内更换网络的次数为3次,这三次的网络地址依次为:100.15.224.0/22,100.15.208.0/17和100.15.254.0/11,分别将相邻的100.15.224.0/22与100.15.208.0/17进行比较得出不一致,100.15.208.0/17和100.15.254.0/11进行比较得出不一致,则说明用户1小时内更换网络的次数为2次。这样可以准确的判断度量出用户更换网络的频繁程度,从而提高动态特征数据的正确性,进而提高用户风险评估的准确率。

在本示例的一种实施方式中,所述用户单位时间更换上网设备的次数通过如下方式确定:

基于所述用户注册时的手机号或身份证号,确定用户注册时的手机号或身份证号对应的用户的单位时间上网次数,其中,从用户登录到互联网到退出互联网,称为一次上网;

确定所述用户单位时间内每次上网用的上网设备;

基于所述用户单位时间内相邻两次上网所用的上网设备的一致性,确定所述用户单位时间内更换上网设备的次数,其中,如果所述用户一次上网用的上网设备与前一次不一致,则更换了一次上网设备。

首先,通过用户注册时的手机号或身份证号进行用户单位时间上网次书的确定,其中用户从登录互联网到退出互联网作为一次上网;这样通过每人独有的手机号或者身份证号可以准确的确定出用户。然后,确定该用户单位时间内每次上网用的上网设备;通过设备的ip可以准确的确定用户是否更换上网设备。最后,确定用户单位时间更换上网设备的次数,通过用户单位时间内相邻两次上网所用的设备ip地址不一致就可以确定用户更换了上网设备。例如,以1小时为单位时间,且获取到用户1小时内登入网络的次数为3次,且这三次的登录设备ip地址依次为:192.168.123.12,192.168.123.12和192.168.122.23,分别将相邻的192.168.123.12与192.168.123.12进行比较得出一致,192.168.123.12和192.168.122.23进行比较得出不一致,则说明用户1小时内更换网络的次数为次。这样可以准确的依据上网情况判断度量出用户更换上网设备的频繁程度,提高动态特征数据的正确性,进而提高用户风险评估的准确率。

在步骤s130中,剔除用户静态特征数据和用户动态特征数据中的目标剔除特征数据。

在本示例实施方式中,首先,获取全量的用户静态特征数据和用户动态特征数据,这些全量的数据中包含很多对于用户风险分类计算贡献很小的特征数据,这些贡献很小的数据就是目标剔除特征数据;然后我们在将用户的特征数据输入机器学习模型之前,将这些目标剔除技术特征从全量的数据中剔除。这样可以有效降低模型计算的压力,同时有效提高分类的准确率。

在步骤s140中,将剔除了目标剔除特征数据后的用户静态特征数据和用户动态特征数据的特征数据输入预先训练的随机森林模型,所述随机森林模型输出用户风险等级。

在本示例实施方式中,首先将获取的用户的所有静态特征数据和动态特征数据中除去目标剔除特征数据之外的其它数据输入随机森林模型,由随机森林模型输出分类的结果。其中,分类的结果是指用户风险可能性大小的分类,例如,可以是高风险用户,低风险用户以及正常用户,进一步的,也可以是其它根据风险可能性大小的分类结果表示。

同时,所述目标剔除特征是指将用户静态特征数据和用户动态特征数据中的每个特征数据分别从用户静态特征数据和用户动态特征数据的集合中剔除,输入该具有目标树数和目标每个树输入特征数的随机森林模型,确定随机森林模型输出的判断的用户风险等级与事先标记的用户风险等级一致的用户样本数为第一样本数,在未剔除该特征数据之前随机森林模型输出的判断的用户风险等级与事先标记的用户风险等级一致的用户样本数为第二样本数,如果第一样本数与第二样本数的差的绝对值小于预定绝对值阈值,则认为该剔除的特征数据为目标剔除特征数据。例如,获取到5个用户的静态特征数据有1.1:是否属于黑名单中的用户的数据,1.2:用户注册信息特征,1.3:用户网络消费特征;获取到动态特征数据有2.1:用户单位时间更换网络地址的次数,2.2:用户单位时间更换上网设备的次数,2.3:用户单位时间产生同一操作路径的次数。然后,依次分别将5个用户的数据集合中的一个数据从中剔除后将剩余的数据输入机器学习模型,例如剔除1.1后将1.2,1.3,1.4,1.5,1.6输入随机森林模型中,然后输出用户风险等级与事先标记的用户风险等级比较,得到两次等级相同的用户数为4;通过将5个用户全部的特征分别输入随机森林模型,输出用户风险等级与事先标记的用户风险等级比较,得到两次等级相同的用户数为5;最后,5减去4的结果的绝对值为1,如果预定绝对值阈值为2,则1.1就是目标剔除特征数据。然后,其它数据依次每个进行剔除后,将除剔除数据之外的其它数据进行评估对比。

本示例实施方式中还提供一种随机森林模型的训练方法,包括:

对于包含事先标记为各种用户风险等级的用户样本的集合中的每一个用户样本,获取用户静态特征数据和动态特征数据,将用户静态特征数据和用户动态特征数据输入随机森林模型,随机森林模型中包含多个树,对于每个树输入用户静态特征数据和用户动态特征中的预定多个特征,遍历随机森林模型中的树的数目和对于每个树输入的特征的数目的组合,确定每种组合下随机森林模型输出的判断的用户风险等级与事先标记的用户风险等级一致的用户样本数,最高的用户样本数对应的树的数目和对于每个树输入的特征的数目为目标树数和目标每个树输入特征数。例如,一共有6个样本特征,首先,将树的数目定为1,对于每个树输入的特征的数目从1开始到6结束,由随机森林模型依次进行评估用户的风险等级;然后,将树的数目定为2,对于每个树输入的特征的数目从1开始到6结束,由随机森林模型依次进行评估用户的风险等级;依次进行遍历直到遍历到树的总数结束。树的数目和对于每个树输入的特征的数目为一个组合,而当数的数目为20,对于每个树输入的特征的数目为5时,判断的用户风险等级与事先标记的用户风险等级一致的用户样本数最高时,则将20,5定为目标树数和目标每个树输入特征数。通过遍历特征组合的方式评估对比用户风险等级确定最佳组合,可以保证随机森林模型的训练效果,进而提高模型分类的准确度。

在步骤s150中,将剔除了目标剔除特征数据后的用户静态特征数据和用户动态特征数据的特征数据、以及随机森林模型输出的用户风险等级,输入预先训练的逻辑回归模型,由逻辑回归模型输出用户风险评分。

在本示例实施方式中,首先,获取用户静态特征数据和用户动态特征数据中的除目标剔除特征数据之外的特征数据,其中目标剔除特征数据是通过上述随机森林模型的评估对比得到的贡献度低的用户特征数据;然后,获取随机森林模型对上述除目标剔除特征数据之外的特征数据分类的等级的数据;最后将这三种数据一起输入逻辑回归模型,进行用户风险评分。这样在基于用户特征数据的基础上考虑随机森林模型的评估结果进行二次评估,可以保证评估结果的准确性的同时得到评分分数结果。

本示例实施方式中还提供一种逻辑回归模型的训练方法,包括:用户样本的集合中的每一个用户样本具有预先打出的用户风险评分,对该每一个用户样本,获取用户静态特征数据和用户动态特征数据中的除目标剔除特征数据之外的特征数据,将用户静态特征数据和用户动态特征数据中的除目标剔除特征数据之外的特征数据、和该用户的用户风险等级输出逻辑回归模型,由逻辑回归模型输出用户风险评分,如果输出的用户风险评分与预先打出的用户风险评分不一致,则调整该逻辑回归模型,使其输出的用户风险评分与预先打出的用户风险评分一致。

在步骤s160中,根据随机森林模型输出的用户风险等级和逻辑回归模型输出的用户风险评分,对用户进行风险上的分类。

本示例的实施方式中,获取随机森林模型根据用户特征数据输出的用户风险等级和逻辑回归模型根据用户特征数据输出的用户风险评分,然后根据预定规则,综合两者的评估结果对用户进行风险上的分类。这样就可以保证当两个模型都评估得到同样的结果才作为用户风险评估最后结果,结合两个模型的优势,提高用户风险分类的准确性。

在本示例的一种实施方式中,参考图3所示,包括步骤s310,步骤s320以及步骤s330,其中:

在步骤s310,如果所述随机森林模型输出的用户风险等级满足第一预定用户风险等级条件,且所述逻辑回归模型输出的用户风险评分大于第一预定用户风险评分阈值,则将用户分类为异常网络行为用户。

在步骤s320,如果所述随机森林模型输出的用户风险等级满足第二预定用户风险等级条件,且所述逻辑回归模型输出的用户风险评分小于第二预定用户风险评分阈值,则将用户分类为正常网络行为用户。

在步骤s330,否则,将用户分类为待定网络行为用户。

下面,对步骤s310、步骤s320以及步骤s330进行解释以及说明。首先,获取所述随机森林模型输出用户风险等级和逻辑回归模型输出的用户风险评分,例如风险等级可以是高危风险用户,低危风险用户,正常用户,当然也可以是其它等级结果;风险评分可以是0到100分,当然也可以是其它评分结果。然后,预定第一预定用户风险等级为高危,第一预定用户风险评分阈值为85,根据所述逻辑回归模型的风险评分为85分及以上并且所述随机森林模型标记为高危风险用户,来确定高危风险用户。然后,预定第二预定用户风险等级为正常,第一预定用户风险评分阈值为40分及以下,根据所述逻辑回归模型的风险评分为40分及以下并且所述随机森林模型标记为正常用户,来确定正常用户。最后,将其他用户分类为待定网络行为用户,进行更长周期的观察评估或者应用其它模型对这些用户特征数据进行评估风险等级。

在本示例的一种实施方式中,还可以包括:

将所述随机森林模型输出的用户风险等级换算成等级分数;确定所述等级分数与所述用户风险评分的加权和,作为风险总分数;基于所述风险总分数,对用户进行风险上的分类。首先,将随机森林模型输出的用户风险等级换算成等级分数,例如将上述风险等级中高危风险用户,低危风险用户,正常用户分别按等级高低分别转换为90分,60分,10分。然后,确定等级分数与用户风险评分的加权和,作为风险总分数;例如,预定随机森林模型中风险等级中高危风险用户加权系数为0.8,低危风险用户0.6,正常用户0.1;预定逻辑回归模型中风险分数中100-85分的加权系数为0.8,85-40分的加权系数为0.6,40-0分的加权系数为0.1。然后,当某个用户在随机森林模型中评估为高危风险用户,在逻辑回归模型中风险评分为75分,此时,该用户的加权和为90*0.8+75*0.6=117。然后根据加权和风险总分数,对用户进行风险上的分类,例如可以预定风险总分数为100分以上为高危风险用户,100-40分为低危风险用户,40分以下为正常用户,则上述用户最后评分117大于100评估结果为高危风险用户。这样的分类方式可以应用两种分类模型中所有的结果数据,以及加权系数综合评估,评估更加合理准确。

本公开还提供了一种用户风险分类装置。参考图4所示,该用户风险分类装置可以包括第一获取模块410、第二获取模块420、剔除模块430、第一评估模块440、第二评估模块450以及综合评估模块460。其中:

第一获取模块可以用于获取用户静态特征数据,所述用户静态特征数据表示在未结合用户网络行为的情况下表现出来的特征。

第二获取模块可以用于获取用户动态特征数据,所述用户动态特征数据表示用户的网络行为表现出来的特征。

剔除模块可以用于剔除用户静态特征数据和用户动态特征数据中的目标剔除特征数据。

第一评估模块可以用于将剔除了目标剔除特征数据后的用户静态特征数据和用户动态特征数据的特征数据输入预先训练的随机森林模型,所述随机森林模型输出用户风险等级。

第二评估模块可以用于将剔除了目标剔除特征数据后的用户静态特征数据和用户动态特征数据的特征数据、以及随机森林模型输出的用户风险等级,输入预先训练的逻辑回归模型,由逻辑回归模型输出用户风险评分。

综合评估模块可以用于根据随机森林模型输出的用户风险等级和逻辑回归模型输出的用户风险评分,对用户进行风险上的分类,

其中,所述随机森林模型按照如下方式训练:对于包含事先标记为各种用户风险等级的用户样本的集合中的每一个用户样本,获取用户静态特征数据和动态特征数据,将用户静态特征数据和用户动态特征数据输入随机森林模型,随机森林模型中包含多个树,对于每个树输入用户静态特征数据和用户动态特征中的预定多个特征,遍历随机森林模型中的树的数目和对于每个树输入的特征的数目的组合,确定每种组合下随机森林模型输出的判断的用户风险等级与事先标记的用户风险等级一致的用户样本数,最高的用户样本数对应的树的数目和对于每个树输入的特征的数目为目标树数和目标每个树输入特征数,将用户静态特征数据和用户动态特征数据中的每个特征数据分别从用户静态特征数据和用户动态特征数据的集合中剔除,输入该具有目标树数和目标每个树输入特征数的随机森林模型,确定随机森林模型输出的判断的用户风险等级与事先标记的用户风险等级一致的用户样本数为第一样本数,在未剔除该特征数据之前随机森林模型输出的判断的用户风险等级与事先标记的用户风险等级一致的用户样本数为第二样本数,如果第一样本数与第二样本数的差的绝对值小于预定绝对值阈值,则认为该剔除的特征数据为目标剔除特征数据;

所述逻辑回归模型按照如下方式训练:上述用户样本的集合中的每一个用户样本具有预先打出的用户风险评分,对该每一个用户样本,获取用户静态特征数据和用户动态特征数据中的除目标剔除特征数据之外的特征数据,将用户静态特征数据和用户动态特征数据中的除目标剔除特征数据之外的特征数据、和该用户的用户风险等级输出逻辑回归模型,由逻辑回归模型输出用户风险评分,如果输出的用户风险评分与预先打出的用户风险评分不一致,则调整该逻辑回归模型,使其输出的用户风险评分与预先打出的用户风险评分一致。

上述用户风险分类装置中各模块的具体细节已经在对应的坐席分配方法中进行了详细的描述,因此此处不再赘述。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

下面参照图5来描述根据本发明的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530。

其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1中所示的步骤s110:获取用户静态特征数据,所述用户静态特征数据表示在未结合用户网络行为的情况下表现出来的特征;s120:获取用户动态特征数据,所述用户动态特征数据表示用户的网络行为表现出来的特征;步骤s130:将用户静态特征数据和用户动态特征数据中的除目标剔除特征数据之外的特征数据输入预先训练的随机森林模型,所述随机森林模型输出用户风险等级;步骤s140:将用户静态特征数据和用户动态特征数据中的除目标剔除特征数据之外的特征数据、以及随机森林模型输出的用户风险等级,输入预先训练的逻辑回归模型,由逻辑回归模型输出用户风险评分。步骤s150:根据随机森林模型输出的用户风险等级和逻辑回归模型输出的用户风险评分,对用户进行风险上的分类。

存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(rom)5203。

存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备500也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器560通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品600,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1