预测用户是否存在恶意行为的方法和计算设备与流程

文档序号:11234487阅读:228来源:国知局
预测用户是否存在恶意行为的方法和计算设备与流程

本发明涉及信息安全技术领域,尤其涉及一种预测用户是否存在恶意行为的方法和计算设备。



背景技术:

随着网络通信技术的迅速发展、互联网应用的持续深化、所承载信息的日益丰富,互联网已成为人类社会重要的基础设施,与此同时,网络安全问题也日益严重。其中,诸如网络欺诈之类的网络恶意行为正逐渐成为危害公众财产安全的一种重要犯罪手段。

目前,针对网络恶意行为进行治理的主要方式是基于配置好的异常模式和用户的基础信息来检测,基础信息例如是用户的征信评分、用户的消费情况、用户的历史借贷情况等等。一方面由于用户个人的基础信息比较容易伪造,并且每个用户的信息很大程度是孤立的,和其他信息缺乏关联信息,导致对网络异常的检测准确度不高,误检和漏检情况较多。另一方面异常模式内容较单一,也会导致漏检情况,且多由人工配置,提高了成本。

因此,迫切需要一种更先进更准确的预测用户是否存在恶意行为的方案。



技术实现要素:

为此,本发明提供一种基于用户关系图来预测用户是否存在恶意行为的方案,以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面,提供了一种基于用户关系图来预测用户是否存在恶意行为的方法,适于在计算设备中执行,用户关系图包括节点和连接关联节点的边,该方法包括步骤:获取用户的用户数据;根据所获取的用户数据来更新用户关系图;在更新后的用户关系图中,根据与用户相关的节点以及通过边与该节点相连的其它节点的属性值,提取该用户的至少一类关联特征;根据所提取的关联特征,利用预先建立的分类模型来确定该用户是否存在恶意行为。

根据本发明的另一方面,提供了一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行根据本发明的基于用户关系图来预测用户是否存在恶意行为的方法中的任一方法的指令。

根据本发明的还有一个方面,提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据本发明的基于用户关系图来预测用户是否存在恶意行为的方法中的任一方法。

根据本发明的基于用户关系图来预测用户是否存在恶意行为的方案,首先采用用户关系图更直观地展现了用户数据,同时还体现了用户数据之间的关联性,继而通过在用户关系图中提取出多维的关联特征,并根据该关联特征利用分类模型来有效地确定该用户是否存在恶意行为,准确度高,且节省成本。

附图说明

为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个示例性实施方式的计算设备100的结构框图;

图2示出了根据本发明的一个示例性实施方式的计算设备100的网络环境的示意图;

图3示出了根据本发明的一个示例性实施方式的用户关系图的示意图;以及

图4示出了根据本发明的一个示例性实施方式的基于用户关系图来预测用户是否存在恶意行为的方法400的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个示例性实施例的计算设备100的结构框图。该计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和网络服务器等,也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。此外,计算设备100还可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(pda)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。

在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器((μp)、微控制器(μc)、数字信息处理器(dsp)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(alu)、浮点数单元(fpu)、数字信号处理核心(dsp核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器218可以是处理器104的一个内部部分。

取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如ram)、非易失性存储器(诸如rom、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中,程序122可以被配置为在操作系统上由一个或者多个处理器104利用程序数据124执行指令。

计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个a/v端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个i/o端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(rf)、微波、红外(ir)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

图2示出了根据本发明的一个示例性实施方式的计算设备100的网络环境的示意图。如图2所示,计算设备100可以从网络中获取用户数据,例如用户在金融网站的注册数据,在银行的银行卡数据、征信数据,在网络贷款平台的贷款数据等等。同时,计算设备100还与数据存储设备相耦接,数据存储设备可以实现为诸如neo4j和titan之类的图数据库(graphdatabase)管理系统,并可以使用图(graph)的概念来描述数据模型,把数据保存为图中的节点以及节点之间的关系。这里,数据存储设备存储用户关系图,用户关系图以图的形式存储着多个用户的用户数据。

图3示出了根据本发明的一个示例性实施方式的用户关系图的示意图。如图3所示,用户关系图包括多个节点和连接关联节点的边,其中节点具有多种类型,例如可以包括人员节点、电话节点、贷款节点、贷款平台节点、和银行卡节点、公司节点等等。

每个类型的节点均有相应的属性值,例如人员节点具有以下属性值:该人员的姓名、身份证号码、银行征信评分和是否存在恶意行为的标记,电话节点具有以下属性值:该电话号码的数值,贷款节点具有以下属性值:该笔贷款的贷款时间、贷款金额和逾期次数,贷款平台具有以下属性值:该贷款平台的名称,银行卡节点具有以下属性值:该银行卡号码,公司节点具有以下属性值:该公司名称。可以理解地,节点的类型也可以通过在节点的属性值中添加指示其类型的标记来区分,例如人员节点的类型标记为1、电话节点的类型标记为2,以此类推。

节点之间的边可以指示两个节点之间的关系,例如两个人员节点之间的边指示两个人员之间存在关联,人员节点与电话节点之间的边指示该电话属于该人员,人员节点与公司节点之间的边指示该人员任职于该公司,人员节点与贷款节点之间的边指示该笔贷款属于该人员,公司节点与电话节点之间的边指示该电话属于该公司,两个电话节点之间的边指示两个电话之间存在呼叫记录,贷款节点与贷款平台节点之间的边指示该笔贷款交易于该贷款平台。

计算设备100的一个或多个程序122包括用于执行根据本发明的基于用户关系图来预测用户是否存在恶意行为的方法中任一方法的指令。

图4示出了根据本发明一个示例性实施方式的基于用户关系图来预测用户是否存在恶意行为的方法400的流程图。如图4所示,基于用户关系图来预测用户是否存在恶意行为的方法400始于步骤s410。

在步骤s410中,获取用户的用户数据,用户数据可以包括用户及其关联人的基础信息(姓名、身份证号码、银行征信评分等等)、用户及其关联人的电话号码、用户的通话记录、用户的贷款信息(贷款的贷款时间、贷款金额、逾期次数)和贷款所在的贷款平台、以及银行卡信息等等。

而后在步骤s420中,根据所获取的用户数据来更新数据存储设备中的用户关系图。

具体地,根据本发明的一个实施方式,对于用户数据中的用户及其每个关联人,均可以将其作为一个人员节点添加至用户关系图,并将基础信息中所包含的该人员的姓名、身份证号码、银行征信评分作为该人员节点的属性值。然后建立用户对应的人员节点与每个该用户的关联人对应的人员节点之间的边。

根据本发明的一个实施方式,对于用户数据中的每个电话号码,均可以将其作为一个电话节点添加至用户关系图,并将电话号码数值作为该电话节点的属性值。然后,可以建立该电话节点与该电话号码所属的人员对应的人员节点之间的边。还可以根据用户的通话记录,建立用户的电话号码对应的电话节点与每个该电话号码呼叫过的电话号码对应的电话节点之间的边。

根据本发明的一个实施方式,对于用户数据中的每个贷款平台,均可以将其作为一个贷款平台节点添加至用户关系图,并将该贷款平台名称作为该贷款平台节点的属性值。对于用户数据中的每笔贷款,均可以将其作为一个贷款节点添加至用户关系图,并将贷款信息中所包含的该笔贷款的贷款时间、贷款金额、逾期次数作为该贷款节点的属性值。然后,可以建立该贷款节点与该笔贷款所属的人员对应的人员节点之间的边,建立该贷款节点与该笔贷款所在的贷款平台对应的贷款平台节点之间的边。

根据本发明的一个实施方式,对于用户数据中的每个银行卡,均可以将其作为一个银行卡节点添加至用户关系图,并将该银行卡号码作为该银行卡节点的属性值。然后可以建立该银行卡节点与该银行卡所属的人员对应的人员节点之间的边。

当然,在进行上述更新之前,可以先查找在用户关系图中是否已存在需要更新的节点和边,若已存在,则对该节点和边不进行更新。

更新完用户关系图之后,在步骤s430中,在更新后的用户关系图中,根据与用户相关的节点以及通过边与该节点相连的其它节点的属性值,提取该用户的至少一类关联特征。

根据本发明的一个实施方式,关联特征可以包括以下中的至少一类:

1)与该人员节点连接的人员节点中标记为存在恶意行为的人员节点个数;

2)与该人员节点连接的人员节点中标记为存在恶意行为的人员节点占比;

3)与该人员节点连接的贷款节点的逾期次数的总数;

4)与该人员节点连接的贷款节点的逾期次数的平均数;

5)与人员节点连接的贷款节点的逾期次数的中位数;

6)与该人员节点连接的电话节点的个数;

7)与该人员节点连接的电话节点,其连接的所有人员节点的个数;

8)与该人员节点连接的电话节点,其连接的所有人员节点中标记为存在恶意行为的人员节点个数;

9)与该人员节点连接的电话节点,其连接的电话节点连接的人员节点中标记为存在恶意行为的人员节点的个数;

10)与该人员节点连接的电话节点,其连接的电话节点连接的人员节点的银行征信评分的均值;

11)与该人员节点连接的电话节点,其连接的电话节点连接的人员节点的银行征信评分的中位数;

12)与该人员节点连接的银行卡节点的个数;

13)与该人员节点连接的银行卡节点连接的人员节点个数;

14)与该人员节点连接的银行卡节点连接的人员节点中标记为存在恶意行为的人员节点个数;

15)与该人员节点连接的贷款节点中贷款时间位于预定时间范围内的贷款节点个数;

16)与该人员节点连接的贷款节点中贷款时间位于预定时间范围内的贷款节点连接的贷款平台个数;

17)与该人员节点连接的人员节点,其连接的人员节点中标记为存在恶意行为的人员节点个数;

18)与该人员节点连接的人员节点,其连接的人员节点中标记为存在恶意行为的人员节点占比;

19)与该人员节点连接的人员节点,其连接的人员节点连接的贷款节点的逾期次数的总数;

20)与该人员节点连接的人员节点,其连接的人员节点连接的贷款节点的逾期次数的平均数;

21)与该人员节点连接的人员节点,其连接的人员节点连接的贷款节点的逾期次数的中位数;

22)与该人员节点连接的人员节点,其连接的人员节点的银行征信评分的均值;

23)与该人员节点连接的人员节点,其连接的人员节点的银行征信评分的中位数。

其中,预定时间范围可以为近一个月、近三个月、近半年、以及近一年。

而后在步骤s440中,根据所提取的关联特征,利用预先建立的分类模型来确定该用户是否存在恶意行为。

其中,分类模型可以是逻辑回归模型,该逻辑回归模型可以由用户的至少一类关联特征以及该用户是否存在恶意行为的预测结果为训练样本而训练得到,并可以体现为以下公式:

其中,hθ(x)为预测函数,并表示用户存在恶意行为的概率,θ为回归参数,x为由所提取的关联特征所构成的特征向量,cost(hθ(x),y)为逻辑回归模型基于对数似然估计的损失函数,j(θ)为逻辑回归模型的简化损失函数,m为训练样本条数。其中,可以针对每一条训练样本进行迭代,并采用梯度下降法对简化损失函数j(θ)求解,得到使得简化损失函数j(θ)最小化的回归参数θ。

可以将关联特征所构成的特征向量输入经训练得到的逻辑回归模型,输出得到相应的p(y=1|x)。若p(y=1|x)>0.5,则预测用户存在恶意行为,若p(y=1|x)≤0.5,则预测用户不存在恶意行为。当然,上述公式所示的分类模型仅是示例性的,本领域技术人员也可以采用其他公式来定义分类模型,本发明对此不做限制。

分类模型还可以是随机森林模型。随机森林模型包括多个分类树,并可以由用户的至少一类关联特征以及该用户是否存在恶意行为的预测结果为训练样本而训练得到,其训练过程如下:

首先,从包括预定数目个训练样本的样本集中采取有放回的抽样,以构造多个子样本集,每个子样本集的数目等于分类树的数目,其包含的样本数目与原始的样本集相同。并且,不同子样本集中的样本可以重复,同一个子样本集中的样本也可以重复。

而后,利用多个子样本集分别来训练多个分类树,每个子样本集对应一个分类树。最初,分类树上只有一个节点,即根节点。训练分类树的过程即为节点分裂的过程,即从根节点开始依次对子样本集进行划分。但分类树的每一个分裂过程并未用到所有的关联特征,而是从所有的关联特征中随机选取一定的关联特征,之后再在随机选取的特征中选取最优的特征。这样能够使得随机森林中的分类树都能够彼此不同,提升系统的多样性,从而提升分类性能。

其中,分类树可以根据如下算法来进行最优特征的选取,从而完成分裂:id3算法(采用信息增益最大的特征)、c4.5算法(采用信息增益比选择特征)、以及cart算法(利用基尼指数最小化准则进行特征选择)。

以cart算法为例,对于每一个节点:将分裂前后gini指数增量最大的属性作为最佳分裂属性,将分裂后的gini指数最小的分裂条件作为最佳分裂条件,根据最佳分裂属性和最佳分裂条件对该节点进行分裂,产生两个子节点;当满足设置的终止条件时,停止节点的分裂。

根据本发明的一个实施方式,分裂前的gini指数按照以下公式计算:

其中,d为节点所包括的样本集,k为样本集中所包括的预测结果的类别的数量,本发明中,预测结果包括存在和不存在恶意行为,则k=2。pi为预测结果的类别为i的样本数量占d中所包括的所有样本的比例。

分裂后的gini指数按照以下公式计算:

其中,a表示分裂属性,j表示分裂条件,d1、d2分别为按照分裂属性a和分裂条件j对节点进行分裂所得的两个子节点所包括的样本集,|d1|、|d2|为样本集d1、d2中所包括的样本的数量。

分裂后的gini指数增量按照以下公式计算:

δgini(a)=gini(d)-ginia(d)

其中,a为分裂属性,ginia(d)为giniaj(d)中的最小值。

终止条件则可以是以下条件中的任意一种:节点中所包括的样本的预测结果类别均相同;树的深度达到了预设的深度阈值;节点中所包括的样本的数量小于预设的第一阈值;节点中所包括的样本数量的平方与分裂后的两个子节点中的样本数量的平方和之差小于预设的第二阈值。具体采用哪一种终止条件以及上述第一阈值和第二阈值的取值均可以由本领域技术人员根据实际情况自行设置,本发明对此不做限制。

最后,将训练得到的多个分类树组成随机森林模型,可以将关联特征所构成的特征向量输入随机森林模型,用户是否存在恶意行为的预测结果根据分类树的投票多少而定。例如,假设随机森林模型包括3个分类树,其中2个分类树的分类结果是存在恶意行为,1个分类树的分类结果是不存在恶意行为,那么随机森林模型的分类结果则是存在恶意行为。

这样,就通过提取出的与用户关联的、多维的关联特征,采用高效的分类模型,实现了对恶意行为的准确检测,并对团伙异常、信息伪造等相对复杂的恶意行为,也有很好的检测效果。

根据本发明的另一个实施方式,构成输入分类模型的特征向量的特征不仅可以包括从用户关系图中提取的关联特征,还可以包括从用户数据中提取的基础特征。那么,方法400还可以包括步骤:在用户数据中,提取该用户的基础特征,其中,基础特征至少包括以下一类:

24)性别;

25)学历级别;

26)年龄;

27)职业;

28)地域;

29)银行征信评分;

30)信用卡近半年的逾期次数;

31)信用卡近一年的逾期次数;

32)贷款近半年逾期次数。

而后根据所提取的基础特征和关联特征,利用预先建立的分类模型来确定该用户是否存在恶意行为。例如,输入分类模型的特征向量可以包括上述特征1)~32)。

应当理解,这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、cd-rom、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被该机器执行时,该机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的该程序代码中的指令,执行本发明的各种方法。

以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明还可以包括:a9、如a1-8中任一个所述的方法,其中,所述关联特征至少包括以下一类:与所述人员节点连接的银行卡节点连接的人员节点个数;以及与所述人员节点连接的银行卡节点连接的人员节点中标记为存在恶意行为的人员节点个数。a10、如a1-9中任一个所述的方法,其中,所述关联特征至少包括以下一类:与所述人员节点连接的贷款节点中贷款时间位于预定时间范围内的贷款节点个数;以及与所述人员节点连接的贷款节点中贷款时间位于预定时间范围内的贷款节点连接的贷款平台个数。a11、如a1-10中任一个所述的方法,其中,所述关联特征至少包括以下一类:与所述人员节点连接的人员节点,其连接的人员节点中标记为存在恶意行为的人员节点个数;其连接的人员节点中标记为存在恶意行为的人员节点占比;其连接的人员节点连接的贷款节点的逾期次数的总数;其连接的人员节点连接的贷款节点的逾期次数的平均数;其连接的人员节点连接的贷款节点的逾期次数的中位数;其连接的人员节点的银行征信评分的均值;以及其连接的人员节点的银行征信评分的中位数。a12、如a1-11中任一个所述的方法,其中,分类模型包括逻辑回归模型。a13、如a12所述的方法,其中,所述逻辑回归模型的公式如下:

其中,hθ(x)为预测函数,并表示用户存在恶意行为的概率,θ为回归参数,x为用户的关联特征所构成的特征向量,cost(hθ(x),y)为逻辑回归模型基于对数似然估计的损失函数,j(θ)为逻辑回归模型的简化损失函数,m为训练样本条数。a14、如a1-11中任一个所述的方法,其中,所述分类模型包括随机森林模型。a15、如a14所述的方法,其中,所述随机森林模型包括多个分类树,所述分类树按照以下步骤训练:对于每一个节点:将分裂前后gini指数增量最大的属性作为最佳分裂属性,将分裂后的gini指数最小的分裂条件作为最佳分裂条件,根据最佳分裂属性和最佳分裂条件对该节点进行分裂,产生两个子节点;当满足设置的终止条件时,停止节点的分裂。a16、如a15所述的方法,其中,分裂前的gini指数按照以下公式计算:

分裂后的gini指数按照以下公式计算:

gini指数增量按照以下公式计算:

δgini(a)=gini(d)-ginia(d)

其中,a为分裂属性,d为节点所包括的样本集,k为样本集中所包括的预测结果类别的数量,pi为预测结果类别为i的样本数量占d中所包括的所有样本的比例;ginia(d)为giniaj(d)中的最小值,j表示分裂条件,d1、d2分别为按照分裂属性a和分裂条件j对节点进行分裂所得的两个子节点所包括的样本集,|d1|、|d2|为样本集d1、d2中所包括的样本的数量。a17、如a15或16所述的方法,其中,所述终止条件可以是以下条件中的任意一种:节点中所包括的样本的预测结果类别均相同;树的深度达到了预设的深度阈值;节点中所包括的样本的数量小于预设的第一阈值;节点中所包括的样本数量的平方与分裂后的两个子节点中的样本数量的平方和之差小于预设的第二阈值。a18、如a1-17中任一个所述的方法,其中,所述方法还包括:在用户数据中,提取该用户的基础特征;根据所提取的基础特征和关联特征,利用预先建立的分类模型来确定该用户是否存在恶意行为。a19、如a18所述的方法,其中,基础特征至少包括以下一类:性别、学历级别、年龄、职业、地域、银行征信评分、信用卡近半年和近一年的逾期次数、贷款近半年逾期次数。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1