信息处理方法、装置、设备及存储介质与流程

文档序号:30787878发布日期:2022-07-16 08:48阅读:110来源:国知局
信息处理方法、装置、设备及存储介质与流程

1.本技术涉及计算机技术领域,尤其涉及一种信息处理方法、装置、设备及存储介质。


背景技术:

2.相关机构保存有大量的人员关系数据,其中每个人员对应一个节点,该节点可以包含人员身份信息、通讯号码、社交账号等属性信息,节点之间存在比如亲属关系、通话关系或从属关系等关联关系。通过节点以及节点之间的关联关系能够构成一张巨大的网状结构的图数据。若图数据中某个节点涉及相关事件,则和这个节点有紧密关系的其他节点也有可能涉及该事件,从而确定可疑人员,对可疑人员进行重点排查。
3.目前,若确定某人涉及相关事件,要排查和他相关的人员是否涉及该事件时,通常是通过人工在图数据对应的查询系统上,通过节点之间的关联关系查询出相关节点,再通过查询出的相关节点再关联查询其他节点,进行逐一排查。若发现某个节点周围的节点都涉及相关事件,说明该节点对应的人员的涉及相关事件的概率就非常高,则重点排查此人员。但是,上述通过人工进行排查的方式,效率较低。


技术实现要素:

4.本技术提供一种信息处理方法、装置、设备及存储介质,以解决通过人工进行排查的方式,效率较低的问题。
5.第一方面,本技术提供一种信息处理方法,包括:
6.获取待处理的数据集,数据集中包括多个待处理对象;
7.根据数据集,生成关系图,关系图包含节点和节点间的关联关系,其中,节点与数据集中对象一一对应;
8.获取关系图中每个节点的特征以及每个节点的特征对应的特征值,其中,每个节点的特征与预先训练好的决策树模型中的目标特征相对应,决策树模型包含多个树节点,树节点与目标特征一一对应;
9.将每个节点的特征对应的特征值输入预先训练好的决策树模型进行决策处理,得到每个节点对应的黑名单比例;
10.根据每个节点对应的黑名单比例,确定每个节点对应对象的风险等级。
11.可选的,将每个节点的特征对应的特征值输入预先训练好的决策树模型进行决策处理,得到每个节点对应的黑名单比例,包括:将每个节点的特征对应的特征值输入预先训练好的决策树模型,将每个节点的特征对应的特征值与预先训练好的决策树模型中的目标特征对应的分界值进行比较,确定每个节点对应的决策路径;根据决策路径中叶子节点对应的黑名单的对象,得到每个节点对应的黑名单比例。
12.可选的,获取关系图中每个节点的特征以及每个节点的特征对应的特征值,包括:对关系图中每个节点进行分团处理,得到关系图中每个节点对应的分团结果;基于分团结
果和目标特征,获取关系图中每个节点的特征以及每个节点的特征对应的特征值。
13.可选的,根据每个节点对应的黑名单比例,确定每个节点对应对象的风险等级,包括:若黑名单比例大于或等于第一阈值,则确定风险等级为高风险等级;若黑名单比例小于第一阈值且大于或等于第二阈值,则确定风险等级为中风险等级,第二阈值小于第一阈值;若黑名单比例小于第二阈值,则确定风险等级为低风险等级。
14.第二方面,本技术提供一种决策树模型的训练方法,包括:
15.获取训练数据集,训练数据集包含正样本和负样本,正样本为不包含黑名单的样本,负样本为黑名单样本;
16.根据训练数据集中的正样本和负样本,生成样本关系图;
17.对样本关系图中的节点进行分团处理,得到样本关系图中的节点对应的样本分团结果;
18.根据样本分团结果和预设样本特征,得到样本关系图中每个节点的样本特征以及样本特征对应的特征值,每个节点的样本特征与预设样本特征一一对应;
19.根据每个节点的样本特征对应的特征值,确定预设样本特征对应的信息值;
20.根据预设样本特征对应的信息值,从预设样本特征中确定目标特征;
21.根据训练数据集和目标特征,对初始决策树模型进行迭代训练,得到决策树模型,其中,决策树模型包含目标特征及目标特征对应的分界值。
22.可选的,获取训练数据集之后,该决策树模型的训练方法还包括:对训练数据集中的正样本进行预处理,得到预处理后的正样本,其中,预处理为对正样本的来源渠道进行可信度过滤处理以及对正样本进行数据清洗处理。
23.第三方面,本技术提供一种信息处理装置,包括:
24.第一获取模块,用于获取待处理的数据集,数据集中包括多个待处理对象;
25.生成模块,用于根据数据集,生成关系图,关系图包含节点和节点间的关联关系,其中,节点与数据集中对象一一对应;
26.第二获取模块,用于获取关系图中每个节点的特征以及每个节点的特征对应的特征值,其中,每个节点的特征与预先训练好的决策树模型中的目标特征相对应,决策树模型包含多个树节点,树节点与目标特征一一对应;
27.处理模块,用于将每个节点的特征对应的特征值输入预先训练好的决策树模型进行决策处理,得到每个节点对应的黑名单比例;
28.确定模块,用于根据每个节点对应的黑名单比例,确定每个节点对应对象的风险等级。
29.可选的,处理模块具体用于:将每个节点的特征对应的特征值输入预先训练好的决策树模型,将每个节点的特征对应的特征值与预先训练好的决策树模型中的目标特征对应的分界值进行比较,确定每个节点对应的决策路径;根据决策路径中叶子节点对应的黑名单的对象,得到每个节点对应的黑名单比例。
30.可选的,第二获取模块具体用于:对关系图中每个节点进行分团处理,得到关系图中每个节点对应的分团结果;基于分团结果和目标特征,获取关系图中每个节点的特征以及每个节点的特征对应的特征值。
31.可选的,确定模块具体用于:若黑名单比例大于或等于第一阈值,则确定风险等级
为高风险等级;若黑名单比例小于第一阈值且大于或等于第二阈值,则确定风险等级为中风险等级,第二阈值小于第一阈值;若黑名单比例小于第二阈值,则确定风险等级为低风险等级。
32.第四方面,本技术提供一种决策树模型的训练装置,包括:
33.第一获取模块,用于获取训练数据集,训练数据集包含正样本和负样本,正样本为不包含黑名单的样本,负样本为黑名单样本;
34.生成模块,用于根据训练数据集中的正样本和负样本,生成样本关系图;
35.第二获取模块,用于对样本关系图中的节点进行分团处理,得到样本关系图中的节点对应的样本分团结果;
36.第三获取模块,用于根据样本分团结果和预设样本特征,得到样本关系图中每个节点的样本特征以及样本特征对应的特征值,每个节点的样本特征与预设样本特征一一对应;
37.第一确定模块,用于根据每个节点的样本特征对应的特征值,确定预设样本特征对应的信息值;
38.第二确定模块,用于根据预设样本特征对应的信息值,从预设样本特征中确定目标特征;
39.训练模块,用于根据训练数据集和目标特征,对初始决策树模型进行迭代训练,得到决策树模型,其中,决策树模型包含目标特征及目标特征对应的分界值。
40.可选的,第一获取模块在获取训练数据集之后,还用于:对训练数据集中的正样本进行预处理,得到预处理后的正样本,其中,预处理为对正样本的来源渠道进行可信度过滤处理以及对正样本进行数据清洗处理。
41.第五方面,本技术提供一种电子设备,包括:处理器,以及与处理器通信连接的存储器;
42.存储器存储计算机执行指令;
43.处理器执行存储器存储的计算机执行指令,以实现如本技术第一方面所述的信息处理方法。
44.第六方面,本技术提供一种电子设备,包括:处理器,以及与处理器通信连接的存储器;
45.存储器存储计算机执行指令;
46.处理器执行存储器存储的计算机执行指令,以实现如本技术第二方面所述的决策树模型的训练方法。
47.第七方面,本技术提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被处理器执行时,实现如本技术第一方面所述的信息处理方法。
48.第八方面,本技术提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被处理器执行时,实现如本技术第二方面所述的决策树模型的训练方法。
49.第九方面,本技术提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如本技术第一方面所述的信息处理方法。
50.第十方面,本技术提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如本技术第二方面所述的决策树模型的训练方法。
51.本技术提供的信息处理方法、装置、设备及存储介质,通过获取待处理的数据集,根据数据集,生成关系图;获取关系图中每个节点的特征以及每个节点的特征对应的特征值,其中,每个节点的特征与预先训练好的决策树模型中的目标特征相对应,决策树模型包含多个树节点,树节点与目标特征一一对应;将每个节点的特征对应的特征值输入预先训练好的决策树模型进行决策处理,得到每个节点对应的黑名单比例;根据每个节点对应的黑名单比例,确定每个节点对应对象的风险等级。由于本技术基于预先训练好的决策树模型自动确定数据集中对象的风险等级,而不需要通过人工方式进行排查,因此,能够大大提高排查效率;预先训练好的决策树模型能够根据数据集生成的关系图中每个节点对应的特征值,输出每个节点对应的黑名单比例,以用于确定节点对应数据集中对象的风险等级,而不是直接使用目前的决策树模型输出的是或否的计算结果,因此,能够保证排查结果的准确性。
附图说明
52.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
53.图1为本技术一实施例提供的应用场景示意图;
54.图2为本技术一实施例提供的信息处理方法的流程图;
55.图3为本技术一实施例提供的预先训练好的决策树模型的示意图;
56.图4为本技术另一实施例提供的信息处理方法的流程图;
57.图5为本技术一实施例提供的决策树模型的训练方法的流程;
58.图6为本技术一实施例提供的信息处理装置的结构示意图;
59.图7为本技术一实施例提供的决策树模型的训练装置的结构示意图;
60.图8为本技术一实施例提供的电子设备的结构示意图。
具体实施方式
61.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
62.本技术的技术方案中,所涉及的金融数据或用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
63.首先,对本技术涉及的部分技术术语进行解释说明:
64.图计算,图(graph)是用于表示对象之间关联关系的一种抽象数据结构,使用顶点(vertex)和边(edge)进行描述;顶点表示对象,边表示对象之间的关系;可抽象成用图描述的数据即为图数据;图计算,便是以图作为数据模型来表达问题并予以解决的过程;
65.louvain分团算法,即一个基于模块度的社区发现算法,该算法在效率和效果上都表现较好,并且能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度;
66.网页排名(pagerank),即谷歌(google)网页排名算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度,用于图计算中,表示节点在图中的重要性;
67.n度关联,即与选定节点有一度关系的所有节点关系称为一度关联,与选定节点有二度关系的所有节点关系称为二度关联,依此类推;
68.决策树(decision tree),即一个树结构,其每个非叶子节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别;使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果;
69.信息值(information value,iv),在机器学习的二分类问题中,信息值主要用来对输入变量进行编码和预测能力评估;信息值的大小即表示输入变量预测能力的强弱,信息值的取值范围是[0,正无穷),如果当前分组中只包含响应客户或者未响应客户时,则信息值为正无穷;具体量化指标含义包括:若信息值《0.02,则表示输入变量不适合做预测;若0.02≤信息值《0.1,则表示输入变量具有弱预测能力;若0.1≤信息值《0.3,则表示输入变量具有中等预测能力;若0.3≤信息值《0.5,则表示输入变量具有强预测能力;若信息值》0.5,则表示输入变量具有超强预测能力。
[0070]
目前,若确定某人涉及相关事件,比如确定某人是不合规人员或不合法人员,通常通过人工方式排查和他相关的人员是否为不合规人员或不合法人员。当和他关联的人很多的时候,逐一排查需要花大量的时间,如果再查询二度关联节点,耗费的时间更多,因此,效率较低。另外,当关联的节点很多的时候,通过人工进行排查时,不知道哪些节点的风险更大,没有对节点风险的量化分数,只能盲目的排查,不能够快速精准定位到可疑人员。
[0071]
基于上述问题,本技术提供一种信息处理方法、装置、设备及存储介质,根据待处理的数据集生成关系图,根据关系图,通过预先训练好的决策树模型确定关系图每个节点对应数据集中对象的风险等级,能够大大提高排查效率。
[0072]
以下,首先对本技术提供的方案的应用场景进行示例说明。
[0073]
图1为本技术一实施例提供的应用场景示意图。如图1所示,本应用场景中,服务器102从客户端101获取待处理的数据集,服务器102根据待处理的数据集确定数据集中对象的风险等级,并将数据集中对象的风险等级发送给客户端101进行显示。其中,服务器102根据待处理的数据集确定数据集中对象的风险等级的具体实现过程可以参见下述各实施例的方案。
[0074]
需要说明的是,图1仅是本技术实施例提供的一种应用场景的示意图,本技术实施例不对图1中包括的设备进行限定,也不对图1中设备之间的位置关系进行限定。例如,在图1所示的应用场景中,还可以包括数据存储设备,该数据存储设备相对客户端101或者服务器102可以是外部存储器,也可以是集成在客户端101或者服务器102中的内部存储器。
[0075]
接下来,通过具体实施例介绍信息处理方法。
[0076]
图2为本技术一实施例提供的信息处理方法的流程图。本技术实施例的方法可以应用于电子设备中,该电子设备可以为服务器或服务器集群等。如图2所示,本技术实施例的方法包括:
[0077]
s201、获取待处理的数据集。
[0078]
其中,数据集中包括多个待处理对象。
[0079]
本技术实施例中,待处理的数据集比如为其它设备向执行本方法实施例的电子设备发送的。待处理的数据集中包括多个待处理对象,其中,待处理对象比如为黑名单对象,黑名单对象具体比如为不合规人员或不合法人员;待处理对象比如为可疑对象,可疑对象具体比如为可能是不合规人员或不合法人员;待处理对象比如为合规合法对象。
[0080]
s202、根据数据集,生成关系图。
[0081]
其中,关系图包含节点和节点间的关联关系,其中,节点与数据集中对象一一对应。
[0082]
该步骤中,在获得了待处理的数据集后,可以根据数据集,生成关系图。示例性地,将数据集中的每个对象作为关系图中的一个节点;将数据集中对象间的关联关系作为关系图中节点间关联关系,关系图中节点间关联关系比如为亲属关系、通话关系或从属关系等,本技术对此不作具体限定;根据数据集中的黑名单对象,将黑名单对象对应的节点标记为黑名单节点;通过节点和节点间关联关系,生成关系图。
[0083]
s203、获取关系图中每个节点的特征以及每个节点的特征对应的特征值,其中,每个节点的特征与预先训练好的决策树模型中的目标特征相对应,决策树模型包含多个树节点,树节点与目标特征一一对应。
[0084]
该步骤中,决策树模型是预先训练好的,对于具体如何训练获得决策树模型,可参考后续实施例,此处不再赘述。决策树模型中的树节点可以包括根节点、内部节点和叶子节点。在生成了关系图后,可以获取关系图中每个节点的特征以及每个节点的特征对应的特征值,其中,每个节点的特征与预先训练好的决策树模型中的目标特征一一对应。示例性地,图3为本技术一实施例提供的预先训练好的决策树模型的示意图,如图3所示,预先训练好的决策树模型包含树节点a、b、c,其中,a为根节点,b和c均为叶子节点,与树节点对应的目标特征即为a、b、c,相应地,关系图中每个节点的特征即为a、b、c。在确定了关系图中每个节点的特征为a、b、c后,可以获取关系图中每个节点分别对应a、b、c三个特征的特征值。对于具体如何获取关系图中每个节点的特征对应的特征值,可参考后续实施例,此处不再赘述。
[0085]
s204、将每个节点的特征对应的特征值输入预先训练好的决策树模型进行决策处理,得到每个节点对应的黑名单比例。
[0086]
该步骤中,在获得了关系图中每个节点的特征对应的特征值后,可以将每个节点的特征对应的特征值输入预先训练好的决策树模型进行决策处理,得到每个节点对应的黑名单比例。比如,根据每个节点的特征对应的特征值以及预先训练好的决策树模型中目标特征对应的分界值进行决策处理,得到每个节点对应的黑名单比例。对于具体如何得到每个节点对应的黑名单比例,可参考后续实施例,此处不再赘述。
[0087]
s205、根据每个节点对应的黑名单比例,确定每个节点对应对象的风险等级。
[0088]
该步骤中,在获得了每个节点对应的黑名单比例后,可以根据黑名单比例,确定节点对应数据集中对象的风险等级。比如可以根据黑名单比例所属的阈值范围,确定节点对应数据集中对象的风险等级,其中,不同的阈值范围对应不同的风险等级。对于具体如何根据黑名单比例,确定节点对应对象的风险等级,可参考后续实施例,此处不再赘述。在确定
了确定节点对应对象的风险等级后,即获得了数据集中对象的风险等级,可以将数据集中对象的风险等级发送给客户端进行显示,以根据数据集中对象的风险等级确定可疑人员,并对可疑人员进行重点排查。
[0089]
本技术实施例提供的信息处理方法,通过获取待处理的数据集,根据数据集,生成关系图;获取关系图中每个节点的特征以及每个节点的特征对应的特征值,其中,每个节点的特征与预先训练好的决策树模型中的目标特征相对应,决策树模型包含多个树节点,树节点与目标特征一一对应;将每个节点的特征对应的特征值输入预先训练好的决策树模型进行决策处理,得到每个节点对应的黑名单比例;根据每个节点对应的黑名单比例,确定每个节点对应对象的风险等级。由于本技术实施例基于预先训练好的决策树模型自动确定数据集中对象的风险等级,而不需要通过人工方式进行排查,因此,能够大大提高排查效率;预先训练好的决策树模型能够根据数据集生成的关系图中每个节点对应的特征值,输出每个节点对应的黑名单比例,以用于确定节点对应数据集中对象的风险等级,而不是直接使用目前的决策树模型输出的是或否的计算结果,因此,能够保证排查结果的准确性。
[0090]
图4为本技术另一实施例提供的信息处理方法的流程图。在上述实施例的基础上,本技术实施例对如何进行信息处理进行进一步说明。如图4所示,本技术实施例的方法可以包括:
[0091]
s401、获取待处理的数据集。
[0092]
该步骤的具体描述可以参见图2所示实施例中s201的相关描述,此处不再赘述。
[0093]
s402、对数据集进行预处理,获得预处理后的数据集。
[0094]
其中,预处理包括对数据集的来源渠道进行可信度过滤处理以及对数据集进行数据清洗处理。
[0095]
示例性地,数据集的来源渠道比如为来源于运营商。可以根据数据集的来源渠道对数据集进行可信度过滤处理。数据清洗处理比如为对数据集中信息为空的对象进行过滤,以去掉无效数据。通过对数据集进行预处理,可以获得预处理后的高质量的数据集,该数据集可以理解为可信数据集。
[0096]
s403、根据预处理后的数据集,生成关系图。
[0097]
该步骤中,在获得预处理后的数据集后,可以根据预处理后的数据集,生成关系图。具体生成关系图的方式可参见图2所示实施例中s202的相关描述,此处不再赘述。
[0098]
本技术实施例中,图2中s203步骤可以进一步包括如下的s404和s405两个步骤:
[0099]
s404、对关系图中每个节点进行分团处理,得到关系图中每个节点对应的分团结果。
[0100]
该步骤中,在生成了关系图后,可以对关系图中每个节点进行分团处理,获得对应的分团结果。
[0101]
可选的,对关系图中每个节点进行分团处理,获得对应的分团结果,可以包括:通过louvain分团算法对关系图中每个节点进行分团处理,获得对应的分团结果。
[0102]
示例性地,将关系图作为louvain分团算法的输入,通过louvain分团算法对关系图中每个节点进行分团处理,可以获得对应的分团结果。比如关系图中包含100个节点,通过louvain分团算法,可以获得5个团,每个团中包含相应的节点。可以理解,通过分团,能够将联系紧密的节点分到一个团中。
[0103]
s405、基于分团结果和目标特征,获取关系图中每个节点的特征以及每个节点的特征对应的特征值。
[0104]
该步骤中,在获得了分团结果后,可以基于分团结果和预先训练好的决策树模型中的目标特征,获取关系图中每个节点的特征以及每个节点的特征对应的特征值。需要说明的是,预先训练好的决策树模型中的目标特征可能包含团内特征或团外特征,其中,团内特征比如包括节点所属团内人数、节点所属团重点名单人数、节点所属团重点名单占比、节点所属团内一度关联人数或节点所属团内一度关联重点名单人数中的至少一种;团外特征比如包括节点所有一度关联人数、节点所有一度关联重点名单人数、节点pagerank值或节点所在团内pagerank值排名中的至少一种。其中的重点名单比如为黑名单。对于具体如何获得预先训练好的决策树模型中的目标特征,可参考后续实施例,此处不再赘述。
[0105]
示例性地,参考图3,预先训练好的决策树模型中的目标特征包含3个,分别为a、b、c,其中,假设a表示节点所属团黑名单人数,b表示节点所属团内一度关联人数,c表示节点pagerank值;假设预处理后的数据集中包括100个对象,其中,包含8个黑名单对象,相应地,关系图中包括100个节点,其中有8个节点是黑名单节点。对关系图中每个节点进行分团处理,获得对应的分团结果比如为分成了5个团,以第一个团为例,假设第一个团中包括10个节点,其中有8个节点是黑名单节点,则第一个团中每个节点对应目标特征a的特征值为8,即第一个团黑名单人数为8;根据第一个团中每个节点的一度关联人数,可以确定每个节点对应目标特征b的特征值;通过pagerank算法,可以获得每个节点对应目标特征c的特征值。
[0106]
本技术实施例中,图2中s204步骤可以进一步包括如下的s406和s407两个步骤:
[0107]
s406、将每个节点的特征对应的特征值输入预先训练好的决策树模型,将每个节点的特征对应的特征值与预先训练好的决策树模型中的目标特征对应的分界值进行比较,确定每个节点对应的决策路径。
[0108]
s407、根据决策路径中叶子节点对应的黑名单的对象,得到每个节点对应的黑名单比例。
[0109]
示例性地,参考图3,预先训练好的决策树模型中每个目标特征对应有分界值,即a对应的分界值为100,b对应的分界值为50,c对应的分界值为200,每个分界值是在决策树模型训练的时候确定的。若输入至预先训练好的决策树模型中对应a的特征值大于a对应的分界值100,则对应分支的结果为:不是黑名单;若输入至预先训练好的决策树模型中对应a的特征值小于或等于a对应的分界值100,则从根节点a走到叶子节点b;若输入至预先训练好的决策树模型中对应b的特征值大于或等于b对应的分界值50,则对应分支的结果为:是黑名单,并输出黑名单比例;若输入至预先训练好的决策树模型中对应b的特征值小于b对应的分界值50,则从叶子节点b走到叶子节点c;若输入至预先训练好的决策树模型中对应c的特征值大于c对应的分界值200,则对应分支的结果为:不是黑名单;若输入至预先训练好的决策树模型中对应c的特征值小于或等于c对应的分界值200,则对应分支的结果为:是黑名单,并输出黑名单比例。该步骤中,将每个节点对应a、b、c三个目标特征的特征值分别输入预先训练好的决策树模型进行决策处理,可以得到每个节点对应的黑名单比例。具体地,比如一个节点对应a的特征值为98,对应b的特征值为55,对应c的特征值为80,将该节点对应a、b、c三个目标特征的特征值分别与a、b、c对应的分界值进行比较,由于该节点对应a的特征值98小于a对应的分界值100,则从根节点a走到叶子节点b,该节点对应b的特征值55大于
b对应的分界值50,因此,对应分支的结果为:是黑名单,即可以确定该节点对应从预先训练好的决策树模型的根节点a到叶子节点b的黑名单分支这一决策路径。假设数据集中包含8个黑名单对象,数据集中包含8个黑名单对象在内的10个对象对应的节点的决策路径为:从预先训练好的决策树模型的根节点a到叶子节点b的黑名单分支,则可以确定叶子节点b的黑名单分支对应的黑名单比例为80%,即数据集中这10个对象对应的黑名单比例均为80%。若一个节点对应a的特征值为105,则该节点不是黑名单节点。
[0110]
可以理解,预先训练好的决策树模型中,从根节点到每个叶子节点均对应不同的风险规则,例如,从根节点a到叶子节点b的黑名单分支,对应的黑名单比例为80%,该黑名单比例最高,则可以将从根节点a到叶子节点b的黑名单分支的决策路径作为高风险规则,即a《=100且b》=50;从根节点a到叶子节点c的黑名单分支,对应的黑名单比例为40%,则可以将从根节点a到叶子节点c的黑名单分支的决策路径作为低风险规则。因此,预先训练好的决策树模型的决策结果包括是否是黑名单以及黑名单所占比例,根据叶子节点对应的黑名单比例的大小,可以分别确定高风险规则、中风险规则和低风险规则。
[0111]
本技术实施例中,图2中s205步骤可以进一步包括如下的s408至s410三个步骤:
[0112]
s408、若黑名单比例大于或等于第一阈值,则确定风险等级为高风险等级。
[0113]
s409、若黑名单比例小于第一阈值且大于或等于第二阈值,则确定风险等级为中风险等级。
[0114]
其中,第二阈值小于第一阈值。
[0115]
s410、若黑名单比例小于第二阈值,则确定风险等级为低风险等级。
[0116]
示例性地,参考图3,第一阈值比如为70%,第二阈值比如为50%,若节点对应的黑名单比例为80%,则可以确定节点对应对象的风险等级为高风险等级;若节点对应的黑名单比例为40%,则可以确定节点对应对象的风险等级为低风险等级;若节点对应的黑名单比例为60%(图3中未示出),则可以确定节点对应对象的风险等级为中风险等级。在确定了确定节点对应对象的风险等级后,即获得了数据集中对象的风险等级,可以将数据集中对象的风险等级发送给客户端进行显示,以根据数据集中对象的风险等级确定可疑人员,并对可疑人员进行重点排查。具体地,比如对高风险等级的对象进行重点排查。
[0117]
本技术实施例提供的信息处理方法,通过获取待处理的数据集,对数据集进行预处理,获得预处理后的数据集;根据预处理后的数据集,生成关系图;对关系图中每个节点进行分团处理,得到关系图中每个节点对应的分团结果,基于分团结果和目标特征,获取关系图中每个节点的特征以及每个节点的特征对应的特征值;将每个节点的特征对应的特征值输入预先训练好的决策树模型,将每个节点的特征对应的特征值与预先训练好的决策树模型中的目标特征对应的分界值进行比较,确定每个节点对应的决策路径;根据决策路径中叶子节点对应的黑名单的对象,得到每个节点对应的黑名单比例;若黑名单比例大于或等于第一阈值,则确定节点对应对象的风险等级为高风险等级;若黑名单比例小于第一阈值且大于或等于第二阈值,则确定节点对应对象的风险等级为中风险等级;若黑名单比例小于第二阈值,则确定节点对应对象的风险等级为低风险等级。由于本技术实施例将关系图中每个节点进行分团处理,能够将联系紧密的节点分到一个团中,根据分团结果确定每个节点对应预先训练好的决策树模型中目标特征的特征值,将每个节点的特征值与预先训练好的决策树模型中的目标特征对应的分界值进行比较,确定每个节点对应的决策路径,
进而确定每个节点对应的黑名单比例,从而确定节点对应数据集中对象的风险等级,因此,能够大大提高排查效率;基于预先训练好的决策树模型中目标特征对应的分界值,能够确定每个节点对应的决策路径,输出每个节点对应的黑名单比例,以用于确定节点对应数据集中对象的风险等级,而不是直接使用目前的决策树模型输出的是或否的计算结果,因此,能够保证排查结果的准确性。
[0118]
在上述实施例的基础上,图5为本技术一实施例提供的决策树模型的训练方法的流程图,如图5所示,本技术实施例的方法可以包括:
[0119]
s501、获取训练数据集,训练数据集包含正样本和负样本,正样本为不包含黑名单的样本,负样本为黑名单样本。
[0120]
该步骤中,训练数据集包含的正样本为不包含黑名单的样本,即正样本为待确定风险等级的样本。
[0121]
s502、根据训练数据集中的正样本和负样本,生成样本关系图。
[0122]
该步骤中,在获得了训练数据集后,可以根据训练数据集中的正样本和负样本,生成样本关系图。示例性地,将训练数据集中的每个正样本或负样本作为关系图中的一个节点;将训练数据集中各样本间的关联关系作为样本关系图中节点间关联关系,样本关系图中节点间关联关系比如为亲属关系、通话关系或从属关系等,本技术对此不作具体限定;根据训练数据集中的负样本,将负样本对应的节点标记为黑名单节点;通过节点和节点间关联关系,生成样本关系图。
[0123]
可选的,获取训练数据集之后,该决策树模型的训练方法还可以包括:对训练数据集中的正样本进行预处理,获得预处理后的正样本,其中,预处理为对正样本的来源渠道进行可信度过滤处理以及对正样本进行数据清洗处理。
[0124]
示例性地,参考上述s402步骤,正样本的来源渠道比如为来源于运营商,则可以根据正样本的来源渠道进行可信度过滤处理。可以根据正样本的信息是否为空进行数据清洗处理,从而过滤出可信数据,即获得了预处理后的正样本,进而可以根据预处理后的正样本和负样本,生成样本关系图。
[0125]
s503、对样本关系图中的节点进行分团处理,得到样本关系图中的节点对应的样本分团结果。
[0126]
示例性地,参考上述s404步骤,比如可以通过louvain分团算法对样本关系图中的节点进行分团处理,获得样本关系图中的节点对应的样本分团结果。
[0127]
s504、根据样本分团结果和预设样本特征,得到样本关系图中每个节点的样本特征以及样本特征对应的特征值,每个节点的样本特征与预设样本特征一一对应。
[0128]
该步骤中,预设样本特征包括上述的团内特征和团外特征中的至少一种。示例性地,参考上述s405步骤示例中的第一个团,对于团内的每个节点,可以获得每个节点的样本特征以及样本特征对应的特征值为:(1)团内特征:节点所属团内人数为10;节点所属团黑名单人数为8;节点所属团黑名单占比为80%;根据第一个团中每个节点的一度关联人数,可以获得节点所属团内一度关联人数;根据第一个团中每个节点的一度关联人数中的黑名单人数,可以获得节点所属团内一度关联黑名单人数;(2)团外特征:根据第一个团中每个节点与其他团中节点的一度关联人数,可以获得第一个团中每个节点所有一度关联人数;根据第一个团中每个节点与其他团中节点的一度关联人数中的黑名单人数,可以获得第一
个团中每个节点所有一度关联黑名单人数;通过pagerank算法,可以获得节点pagerank值;根据节点pagerank值,可以获得节点所在团内pagerank值排名。
[0129]
s505、根据每个节点的样本特征对应的特征值,确定预设样本特征对应的信息值。
[0130]
示例性地,在获得了样本关系图中每个节点的样本特征以及样本特征对应的特征值后,可以根据每个节点的样本特征对应的特征值,确定预设样本特征对应的信息值。具体地,确定每个预设样本特征对应的信息值时,将样本关系图中每个节点的样本特征对应的特征值作为预设iv值算法的输入特征,将节点是否为黑名单节点作为预设iv值算法的标签,通过预设iv值算法计算获得每个预设样本特征对应的iv值,以对预设样本特征进行重要性评估。其中,具体的预设iv值算法可参考目前相关技术,此处不再赘述。
[0131]
s506、根据预设样本特征对应的信息值,从预设样本特征中确定目标特征。
[0132]
该步骤中,在获得了每个预设样本特征对应的信息值后,可以根据信息值,筛选出iv值高预测能力强的预设样本特征作为决策树模型中的目标特征。示例性地,比如筛选出iv值大于1的预设样本特征作为决策树模型中的目标特征,本技术对具体筛选方式不做限定。
[0133]
s507、根据训练数据集和目标特征,对初始决策树模型进行训练,得到决策树模型,其中,决策树模型包含目标特征及目标特征对应的分界值。
[0134]
示例性地,在确定了决策树模型中的目标特征后,可以基于训练数据集及筛选出的目标特征建立初始决策树模型,对初始决策树模型进行训练。在训练过程中,调整初始决策树模型的参数,在确定初始决策树模型包含的叶子节点中,至少有一个叶子节点对应的黑名单比例大于或等于比例阈值时,停止训练,获得决策树模型。其中,比例阈值比如为90%;决策树模型的参数包括分割算法参数、分割方式(比如随机方式或最优方式)、决策树模型的最大深度以及分隔最大特征数中的至少一种。决策树模型包含目标特征及目标特征对应的分界值。在此基础上,可以根据决策树模型输出的决策结果中叶子节点对应的黑名单比例大小,分别建立三条风险规则,即高风险规则、中风险规则和低风险规则。
[0135]
需要说明的是,传统机器学习建模过程中,用决策树建模后,产生的决策树模型直接用于计算结果,即对应的结果为是或否两种情况。而本技术不是直接使用计算结果作为预测结果,而是使用决策树模型计算各个目标特征对应的分界值,输出的决策结果中包含黑名单比例,原因为:考虑训练数据集中黑名单样本的准确性,比如可能将部分黑名单样本作为了正样本,在决策树模型训练过程中,由于将部分黑名单样本当成是正样本,因此,训练好的决策树模型可能会存在一定的误差,被作为正样本的黑名单样本,只能以概率的形式来表达风险的可能性,具体地,以黑名单比例来表示风险的可能性概率,在决策树模型的叶子节点中,黑名单比例很高的节点,是黑名单的可能性就很大。
[0136]
本技术实施例提供的决策树模型的训练方法,通过样本关系图中节点进行分团处理得到的样本分团结果和预设样本特征,得到样本关系图中每个节点的样本特征以及样本特征对应的特征值;根据每个节点的样本特征对应的特征值,确定预设样本特征对应的信息值;根据预设样本特征对应的信息值,从预设样本特征中确定目标特征;根据训练数据集和目标特征,对初始决策树模型进行迭代训练,得到决策树模型。决策树模型输出的结果中包含样本关系图中节点对应的黑名单比例,以用于确定节点对应正样本中对象的风险等级,即以概率的形式表达风险可能性,而不是直接用决策树模型计算出的结果,因此,获得
的决策树模型能够准确地用于可疑人员的自动排查。
[0137]
下述为本技术装置实施例,可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术方法实施例。
[0138]
图6为本技术一实施例提供的信息处理装置的结构示意图,如图6所示,本技术实施例的信息处理装置600包括:第一获取模块601、生成模块602、第二获取模块603、处理模块604和确定模块605。其中:
[0139]
第一获取模块601,用于获取待处理的数据集,数据集中包括多个待处理对象。
[0140]
生成模块602,用于根据数据集,生成关系图,关系图包含节点和节点间的关联关系,其中,节点与数据集中对象一一对应。
[0141]
第二获取模块603,用于获取关系图中每个节点的特征以及每个节点的特征对应的特征值,其中,每个节点的特征与预先训练好的决策树模型中的目标特征相对应,决策树模型包含多个树节点,树节点与目标特征一一对应。
[0142]
处理模块604,用于将每个节点的特征对应的特征值输入预先训练好的决策树模型进行决策处理,得到每个节点对应的黑名单比例。
[0143]
确定模块605,用于根据每个节点对应的黑名单比例,确定每个节点对应对象的风险等级。
[0144]
在一些实施例中,处理模块604可以具体用于:将每个节点的特征对应的特征值输入预先训练好的决策树模型,将每个节点的特征对应的特征值与预先训练好的决策树模型中的目标特征对应的分界值进行比较,确定每个节点对应的决策路径;根据决策路径中叶子节点对应的黑名单的对象,得到每个节点对应的黑名单比例。
[0145]
可选的,第二获取模块603可以具体用于:对关系图中每个节点进行分团处理,得到关系图中每个节点对应的分团结果;基于分团结果和目标特征,获取关系图中每个节点的特征以及每个节点的特征对应的特征值。
[0146]
可选的,确定模块605可以具体用于:若黑名单比例大于或等于第一阈值,则确定风险等级为高风险等级;若黑名单比例小于第一阈值且大于或等于第二阈值,则确定风险等级为中风险等级,第二阈值小于第一阈值;若黑名单比例小于第二阈值,则确定风险等级为低风险等级。
[0147]
本技术实施例的装置,可以用于执行上述任一方法实施例中信息处理方法的方案,其实现原理和技术效果类似,此处不再赘述。
[0148]
图7为本技术一实施例提供的决策树模型的训练装置的结构示意图,如图7所示,本技术实施例的决策树模型的训练装置700包括:第一获取模块701、生成模块702、第二获取模块703、第三获取模块704、第一确定模块705、第二确定模块706和训练模块707。其中:
[0149]
第一获取模块701,用于获取训练数据集,训练数据集包含正样本和负样本,正样本为不包含黑名单的样本,负样本为黑名单样本。
[0150]
生成模块702,用于根据训练数据集中的正样本和负样本,生成样本关系图。
[0151]
第二获取模块703,用于对样本关系图中的节点进行分团处理,得到样本关系图中的节点对应的样本分团结果。
[0152]
第三获取模块704,用于根据样本分团结果和预设样本特征,得到样本关系图中每个节点的样本特征以及样本特征对应的特征值,每个节点的样本特征与预设样本特征一一
对应。
[0153]
第一确定模块705,用于根据每个节点的样本特征对应的特征值,确定预设样本特征对应的信息值。
[0154]
第二确定模块706,用于根据预设样本特征对应的信息值,从预设样本特征中确定目标特征。
[0155]
训练模块707,用于根据训练数据集和目标特征,对初始决策树模型进行迭代训练,得到决策树模型,其中,决策树模型包含目标特征及目标特征对应的分界值。
[0156]
可选的,第一获取模块701在获取训练数据集之后,还可以用于:对训练数据集中的正样本进行预处理,得到预处理后的正样本,其中,预处理为对正样本的来源渠道进行可信度过滤处理以及对正样本进行数据清洗处理。
[0157]
本技术实施例的装置,可以用于执行上述任一方法实施例中决策树模型的训练方法的方案,其实现原理和技术效果类似,此处不再赘述。
[0158]
图8为本技术一实施例提供的电子设备的结构示意图。示例性地,电子设备可以被提供为一服务器或计算机。参照图8,电子设备800包括处理组件801,其进一步包括一个或多个处理器,以及由存储器802所代表的存储器资源,用于存储可由处理组件801的执行的指令,例如应用程序。存储器802中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件801被配置为执行指令,以执行上述任一方法实施例。
[0159]
电子设备800还可以包括一个电源组件803被配置为执行电子设备800的电源管理,一个有线或无线网络接口804被配置为将电子设备800连接到网络,和一个输入输出(i/o)接口805。电子设备800可以操作基于存储在存储器802的操作系统,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm或类似。
[0160]
本技术还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上的信息处理方法的方案以及决策树模型的训练方法的方案。
[0161]
本技术还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上的信息处理方法的方案以及决策树模型的训练方法的方案。
[0162]
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0163]
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(application specific integrated circuits,asic)中。当然,处理器和可读存储介质也可以作为分立组件存在于信息处理装置或决策树模型的训练装置中。
[0164]
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或
者光盘等各种可以存储程序代码的介质。
[0165]
最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1