一种用户类型识别方法、装置、计算机设备和存储介质与流程

文档序号:31689453发布日期:2022-09-30 22:23阅读:37来源:国知局
一种用户类型识别方法、装置、计算机设备和存储介质与流程

1.本技术涉及计算机技术领域,具体涉及一种用户类型识别方法、装置、计算机设备和存储介质。


背景技术:

2.准确地识别用户的类型有利于应用提供更优质的服务。例如,在金融领域中,识别目标用户的用户类型是应用提供服务过程中风险控制的重要环节;又如,在社交领域中,识别目标用户的用户类型有助于应用针对性地向目标用户提供高质量的服务内容,等等。
3.在对相关技术的研究和实践过程中,本技术的发明人发现,目前用户类型识别的方式,可以通过探索用户类型识别规则实现,例如,可以通过网格法或机器学习的方式进行探索,但是目前的方式需要消耗较大的资源,例如,计算资源、时间资源、样本资源等等,这使得用户类型识别的方法还有待改进。


技术实现要素:

4.本技术实施例提供一种用户类型识别方法、装置、计算机设备和存储介质,可以有效地生成用户类型识别规则并进行应用,提高用户类型识别的准确率与效率。
5.本技术实施例提供一种用户类型识别方法,包括:
6.生成样本用户集的样本空间,其中,所述样本用户集包括至少一个样本用户,所述样本空间包括每个所述样本用户在至少一个特征维度下的用户特征;
7.从所述样本用户集中确定目标用户集,其中,所述目标用户集包括至少一个目标样本用户;
8.基于所述目标用户集在各个所述特征维度下的分布,对所述样本空间进行空间去除处理,得到目标样本空间,其中,所述样本用户集在所述目标样本空间中的分布信息满足预设分布条件;
9.基于所述各个特征维度在所述目标样本空间中的特征取值范围,确定用户类型识别规则;
10.基于所述用户类型识别规则,识别目标用户的用户类型。
11.相应的,本技术实施例还提供一种用户类型识别装置,包括:
12.生成单元,用于生成样本用户集的样本空间,其中,所述样本用户集包括至少一个样本用户,所述样本空间包括每个所述样本用户在至少一个特征维度下的用户特征;
13.目标确定单元,用于从所述样本用户集中确定目标用户集,其中,所述目标用户集包括至少一个目标样本用户;
14.去除单元,用于基于所述目标用户集在各个所述特征维度下的分布,对所述样本空间进行空间去除处理,得到目标样本空间,其中,所述样本用户集在所述目标样本空间中的分布信息满足预设分布条件;
15.规则确定单元,用于基于所述各个特征维度在所述目标样本空间中的特征取值范
围,确定用户类型识别规则;
16.识别单元,用于基于所述用户类型识别规则,识别目标用户的用户类型。
17.在一实施例中,所述去除单元,包括:
18.空间去除子单元,用于基于所述目标用户集在各个所述特征维度下的分布,对所述样本空间进行空间去除处理,得到去除后样本空间;
19.信息获取子单元,用于获取所述样本用户集在所述去除后样本空间中的分布信息;
20.空间确定子单元,用于若所述分布信息满足所述预设分布条件,将所述去除后样本空间作为目标样本空间。
21.在一实施例中,所述去除单元,还包括:
22.目标更新子单元,用于若所述分布信息不满足所述预设分布条件,将所述样本空间更新为所述去除后样本空间,返回执行所述基于所述目标用户集在各个所述特征维度下的分布,对所述样本空间进行空间去除处理的步骤。
23.在一实施例中,所述去除子单元,用于:
24.基于所述样本用户集在各个所述特征维度下的分布,确定每个所述特征维度对应的待去除子空间,其中,所述待去除子空间包括各个所述特征维度;基于所述目标用户集在各个所述待去除子空间中的分布,从所述各个所述待去除子空间中确定目标去除子空间;针对所述目标去除子空间,对所述样本空间进行空间去除处理,得到去除后样本空间。
25.在一实施例中,所述去除子单元,具体用于:
26.基于所述样本用户集在各个所述特征维度下的分布,对所述样本用户集中的样本用户进行排序,得到各个所述特征维度对应的排序结果;根据所述排序结果,从所述样本用户集中选取各个所述特征维度的待去除用户;基于所述待去除用户,确定各个所述特征维度对应的待去除子空间。
27.在一实施例中,所述去除子单元,具体用于:
28.基于所述目标用户集在各个所述待去除子空间中的分布,计算各个所述待去除子空间对所述样本空间的空间去除贡献度,其中,所述空间去除贡献度表征所述样本空间在去除所述待去除子空间后,所述目标用户集在去除后样本空间中的分布特征;根据所述空间去除贡献度,从所述待去除子空间中确定目标去除子空间。
29.在一实施例中,所述去除子单元,具体用于:
30.获取所述目标去除子空间在至少一个所述特征维度上的属性信息;根据所述属性信息,对所述样本空间进行空间去除处理,得到去除后样本空间。
31.在一实施例中,所述规则确定单元,包括:
32.规则确定子单元,用于基于所述各个特征维度在所述目标样本空间中的特征取值范围,确定所述各个特征维度对应的特征识别规则;
33.规则组合子单元,用于对所述特征识别规则进行组合,得到组合后的用户类型识别规则。
34.在一实施例中,所述识别单元,包括:
35.特征获取子单元,用于获取所述目标用户在至少一个所述特征维度下的用户特征;
36.特征识别子单元,用于基于所述用户类型识别规则,对所述用户特征进行特征识别,得到识别结果;
37.类型确定子单元,用于基于所述识别结果,确定所述目标用户的用户类型。
38.在一实施例中,所述目标确定单元,包括:
39.标签获取子单元,用于获取所述样本用户集中各个样本用户的真实标签;
40.用户确定子单元,用于根据所述真实标签,从所述样本用户集中确定目标样本用户;
41.目标确定子单元,用于基于所述目标样本用户,确定目标用户集。
42.相应的,本技术实施例还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如本技术实施例所示的用户类型识别方法的步骤。
43.相应的,本技术实施例还提供一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如本技术实施例所示的用户类型识别方法的步骤。
44.本技术实施例可以生成样本用户集的样本空间,其中,所述样本用户集包括至少一个样本用户,所述样本空间包括每个所述样本用户在至少一个特征维度下的用户特征;从所述样本用户集中确定目标用户集,其中,所述目标用户集包括至少一个目标样本用户;基于所述目标用户集在各个所述特征维度下的分布,对所述样本空间进行空间去除处理,得到目标样本空间,其中,所述样本用户集在所述目标样本空间中的分布信息满足预设分布条件;基于所述各个特征维度在所述目标样本空间中的特征取值范围,确定用户类型识别规则;基于所述用户类型识别规则,识别目标用户的用户类型。
45.本技术通过对高维的空间样本进行空间去除处理,使得在处理后得到的目标样本空间中,目标样本用户的浓度远远大于整体样本空间,并且,通过关注该高浓度空间,进一步地从该高浓度空间中搜索组合得到用户类型识别规则,以使得可以通过应用该用户类型识别模型来进行用户类型识别。本技术并非通过暴力穷举所有组合可能性来确定用户类型预测规则,而是有的放矢地“瞄准”样本空间中的高浓度的局部空间,并基于该局部空间来生成用户类型识别规则,因此,大大节约了计算资源与时间资源。并且,本技术也无需通过吸取大量的样本数据来训练机器学习的全局模型,而是通过在给定样本数据中确定目标样本用户浓度很高的局部空间,来生成用户类型预测规则,从而通过应用该目标类型预测规则来高效并准确地预测目标用户的用户类型,因此,本技术还通过节约样本资源,进一步地对用户类型识别方式进行改进。
附图说明
46.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
47.图1是本技术实施例提供的用户类型识别方法的场景示意图;
48.图2是本技术实施例提供的用户类型识别方法的流程图;
49.图3是本技术实施例提供的用户类型识别方法的样本空间示意图;
50.图4是本技术实施例提供的用户类型识别方法的另一流程示意图;
51.图5是本技术实施例提供的用户类型识别方法的另一样本空间示意图;
52.图6是本技术实施例提供的用户类型识别方法的另一样本空间示意图;
53.图7是本技术实施例提供的用户类型识别方法的另一流程示意图;
54.图8是本技术实施例提供的用户类型识别方法的另一流程示意图;
55.图9是本技术实施例提供的用户类型识别装置的结构示意图;
56.图10是本技术实施例提供的用户类型识别装置的另一结构示意图;
57.图11是本技术实施例提供的用户类型识别装置的另一结构示意图;
58.图12是本技术实施例提供的用户类型识别装置的另一结构示意图;
59.图13是本技术实施例提供的用户类型识别装置的另一结构示意图;
60.图14是本技术实施例提供的用户类型识别装置的另一结构示意图;
61.图15是本技术实施例提供的计算机设备的结构示意图;
62.图16是本技术实施例提供的区块链系统的结构示意图;
63.图17是本技术实施例提供的区块链系统的另一结构示意图。
具体实施方式
64.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
65.本技术实施例提供一种用户类型识别方法及装置。具体地,本技术实施例提供适用于计算机设备的用户类型识别装置。其中,该计算机设备可以为终端或服务器等设备,该终端可以为手机、平板电脑、笔记本电脑、车载电脑等设备。该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群。
66.本技术实施例将以用户类型识别装置为服务器为例,来介绍用户类型识别方法。
67.具体地,服务器可以生成样本用户集的样本空间,其中,样本用户集包括至少一个样本用户,样本空间包括每个样本用户在至少一个特征维度下的用户特征;从样本用户集中确定目标用户集,其中,目标用户集包括至少一个目标样本用户;基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理,得到目标样本空间,其中,样本用户集在目标样本空间中的分布信息满足预设分布条件;基于各个特征维度在所述目标样本空间中的特征取值范围,确定用户类型识别规则;基于用户类型识别规则,识别目标用户的用户类型。
68.在一实施例中,参考图1,本技术实施例提供的用户类型识别系统可以包括服务器10和终端20等;服务器10与终端20之间可以通过网络连接,比如,通过有线或无线网络连接等。
69.其中,终端20上可以运行有相关的应用,例如金融应用,社交应用等;终端20可以向服务器10发送样本用户集,其中,该样本用户集中包括至少一个样本用户,每个样本用户包括其在至少一个特征维度下的用户特征。
70.其中,服务器10可以获取样本用户集,并生成样本用户集的样本空间。此外,服务
器10可以基于样本用户的真实标签,从样本用户集中确定目标用户集,其中,目标用户集包括至少一个目标样本用户。进一步地,服务器10可以基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理,得到目标样本空间,其中,样本用户集在目标样本空间中的分布信息满足预设分布条件;基于各个特征维度在目标样本空间中的特征取值范围,确定用户类型识别规则。服务器10还可以从终端20获取待识别用户类型的目标用户,并基于户类型识别规则,识别目标用户的用户类型。
71.以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
72.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
73.其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
74.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
75.本技术实施例提供的一种用户类型识别方法,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本技术实施例以用户类型识别方法由服务器执行为例来进行说明,具体的,由集成在服务器中的用户类型识别装置来执行,如图2所述,该用户类型识别方法的具体流程可以如下:
76.101、生成样本用户集的样本空间,其中,样本用户集包括至少一个样本用户,样本空间包括每个样本用户在至少一个特征维度下的用户特征。
77.其中,样本是观测或调查的一部分个体,总体是研究对象的全部。因此,样本用户为观测或调查的一部分用户,样本用户集为由样本用户构成的集合。
78.例如,对于金融应用,常常需要评估用户资质以确定向提供用户何种风险等级的服务,譬如,对于优质用户可以提供较高风险的金融服务,如贷款等,而对于劣质用户应提供低风险的金融服务或不予以提供具有风险的金融服务。因此,金融应用可以从所有用户中选取部分用户作为样本用户,得到样本用户集,以便可以根据本技术所述的用户类型识别方法来生成用户类型识别规则,并将该用户类型识别规则应用于识别目标用户的用户类型,如,识别目标用户所属的用户类型是优质用户类型或者劣质用户类型等。
79.又如,对于社交应用,常常需要基于用户的行为特征与使用偏好,来推送用户可能感兴趣的内容,例如广告内容等,以对用户提供个性化定制。因此,社交应用可以从所有用户中选取部分用户作为样本用户,得到样本用户集,以便可以根据本技术所述的用户类型识别方法来生成用户类型识别规则,并将该用户类型识别规则应用于识别目标用户的用户
类型,如,识别目标用户所属的用户类型是广告的目标受众类型(即为广告的目标推广用户)或者广告的非受众类型(即不为广告的目标推广用户,或者为广告的非目标推广用户)等。
80.其中,用户特征为用户的特性描述信息,例如,用户特征可以包括描述用户的基本属性、用户偏好、生活习惯、用户行为等特性的信息。作为示例,对于金融应用,其关注的用户特征可以包括用户的基本属性信息,如年龄,性别,城市等;包括用户的金融行为信息,例如,借贷行为信息,消费行为信息等;等等。
81.其中,特征维度为用户特征所属的特征类型,例如,可以认为不同类型的用户特征属于不同的特征维度。作为示例,对于金融应用,样本用户包括以下十种用户特征:性别,年龄,城市,教育水平,购买偏好,风险偏好,一年内借贷次数,一年内借贷总额,多头借贷行为,高危设备行为,因此,该金融应用所构建的样本空间可以对应地包括这十个特征维度。
82.值得注意的是,本技术不对特征维度的具体设置方式作限制,可以认为不同类型的用户特征分属不同的特征维度,也可以对不同类型的用户特征进行处理以生成更多或更少的特征维度,具体可以基于业务进行设置。
83.其中,样本空间由至少一个特征维度构成,样本用户为样本空间中的元素,值得注意的是,样本用户在各个特征维度下的用户特征用于确定样本用户在样本空间中的位置,而每个样本用户可以具有具体的取值。作为示例,参考图3,一样本空间由两个特征维度:身高与体重构成,并且,该样本空间中包括10个样本用户,每个样本用户在各个特征维度下的用户特征用于确定该样本用户在样本空间中的位置,而每个样本用户可以具有具体的取值,在图3中,每个样本用户的取值可以为男性或者女性。
84.在一实施例中,服务器可以获取样本用户集,其中,样本用户集包括至少一个样本用户,每个样本用户包括在其至少一个特征维度下的用户特征,服务器可以基于每个样本用户的用户特征生成样本用户集的样本空间,具体地,该生成的样本空间可以由至少一个特征维度构成,其中包括样本用户集中的样本用户,并且,每个样本用户可以根据其在各个特征维度下的用户特征确定该样本用户在样本空间中的定位,此外,每个样本用户还可以具有具体的取值。
85.102、从样本用户集中确定目标用户集,其中,目标用户集包括至少一个目标样本用户。
86.在本技术中,目标样本用户为生成用户类型识别规则所需关注的样本用户,例如,在金融应用中,可以将样本用户分为两类,一类是严格拒绝并不予提供风险性服务的劣质用户(以下简称“严拒用户”),例如,包括具有严重的多头借贷,或者具有高危的设备行为的用户;另一类则是非严拒用户的其余用户。因此,在生成严拒用户识别规则时,目标样本用户则为样本用户中的严拒用户。
87.又如,在针对社交应用进行内容推广,例如,广告推广时,可以将样本用户分为两类,一类是广告的目标推广用户,另一类则是广告的非目标推广用户。因此,在生成广告的目标推广用户的识别规则时,目标样本用户则为样本用户中的目标推广用户。
88.相应地,目标用户集为由目标样本用户构成的集合,因此,目标用户集中包括至少一个目标样本用户。
89.从样本用户集中确定目标用户集的方式可以有多种,例如,可以基于样本用户集
中各个样本用户的真实标签,从样本用户集中确定目标样本用户,进而得到目标用户集,具体地,步骤“从样本用户集中确定目标用户集,其中,目标用户集包括至少一个目标样本用户”,可以包括:
90.获取样本用户集中各个样本用户的真实标签;
91.根据真实标签,从样本用户集中确定目标样本用户;
92.基于目标样本用户,确定目标用户集。
93.其中,样本用户除了具有用户特征以外,还具有对应的真实标签,其中真实标签为样本用户的真实标记信息。例如,在金融应用中,样本用户的真实标签可以包括:严拒用户与非严拒用户;又如,在社交应用中,样本用户的真实标签可以包括:广告的目标推广用户,与广告的非目标推广用户;等等。
94.生成样本用户的真实标签的方式可以有多种,例如,可以通过人工标注的方式来确定样本用户的真实标签;又如,可以通过对样本用户的用户特征进行处理,并基于处理结果确定样本用户的真实标签;等等。
95.对应地,获取样本用户的真实标签的方式可以有多种,例如,可以通过获取样本用户的人工标注结果来获取样本用户的真实标签;又如,可以通过获取样本用户的特征处理结果来获取样本用户的真实标签;等等。
96.在一实施例中,服务器可以获取样本用户集中各个样本用户的真实标签,并基于业务需求,根据样本用户的真实标签,从样本用户集中确定目标样本用户。例如,在金融应用中,可以选取真实标签为严拒用户的样本用户作为目标样本用户;又如,在社交应用中,可以选取真实标签为目标推广用户的样本用户作为目标样本用户;等等。
97.由于目标用户集为由目标样本用户构成的集合,因此,从样本用户集中确定目标样本用户后,即可进一步地生成目标用户集。
98.103、基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理,得到目标样本空间,其中,样本用户集在目标样本空间中的分布信息满足预设分布条件。
99.其中,目标用户集在各个特征维度下的分布,可以通过多种方式确定,作为示例,以确定目标用户集在一特征维度下的分布为例进行介绍,其中,可以通过分析目标用户集在该特征维度下的数量分布来确定,譬如,可以通过分析目标用户集在该特征维度的不同取值范围内的数量分布来确定,等等。
100.其中,空间去除处理为减小样本空间的处理手段。空间去除处理的实现方式可以有多种,例如,可以通过逐步筛减掉样本空间中的样本用户,来实现逐步减小样本空间;又如,可以通过减小样本空间所包含的特征维度,来减小样本空间;又如,可以通过减小样本空间的特征维度的取值范围,来减小样本空间;等等。
101.其中,样本用户集在目标样本空间中的分布信息为描述样本用户集在目标样本空间中的分布情况的相关信息,值得注意的是,这里的样本用户集指的是由初始的全体样本用户构成的集合。样本用户集在目标样本空间中的分布信息可以包括多种形式,例如,可以以样本用户集在目标样本空间中的样本容量作为分布信息;又如,可以分析样本用户集在目标样本空间的各特征维度上的聚集情况来确定分布信息;又如,可以分析样本用户在目标样本空间中的分布密度来确定分布信息;等等。
102.由于在本技术中,是通过对样本空间进行空间去除处理,得到目标样本用户浓度
较大的目标样本空间,进而生成用于判断目标样本用户所属用户类型的用户类型识别规则的,因此,可以通过分析目标用户集在各个特征维度上的分布,来确定应该如何对样本空间进行空间去除处理,以得到生成用户类型识别规则所需的目标样本空间。
103.在一实施例中,为了保证最后得到的目标样本空间在统计上具有可用意义,在对样本空间进行空间去除处理得到去除后样本空间后,可以通过对样本用户集在去除后样本空间中的分布信息进行判断,以确定该去除后样本空间是否为所需的目标样本空间,具体地,步骤“基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理,得到目标样本空间”,可以包括:
104.基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理,得到去除后样本空间;
105.获取样本用户集在去除后样本空间中的分布信息;
106.若分布信息满足预设分布条件,将去除后样本空间作为目标样本空间。
107.值得注意的是,在实际应用中,通过对样本空间进行空间去除处理,得到目标样本空间的过程可以不是一蹴而就的,也就是说,可以通过对样本空间执行多次空间去除处理来得到目标样本空间。例如,可以通过设计迭代机制,迭代地对样本空间执行空间去除处理,以得到目标样本空间,具体地,步骤“基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理,得到目标样本空间”,还可以包括:
108.若分布信息不满足预设分布条件,将样本空间更新为去除后样本空间,返回执行基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理的步骤。
109.具体地,参考图4,服务器可以基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理,得到去除后样本空间。进一步地,服务器可以获取样本用户集在去除后样本空间中的分布信息,若该分布信息满足预设分布条件,则将去除后样本空间作为目标样本空间,从而得到目标样本空间;否则,则将样本空间更新为去除后样本空间,并返回执行“基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理”的步骤。
110.以下将对步骤“基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理,得到去除后样本空间”进行解释。
111.基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理的方式可以有多种,例如,在每次迭代中,可以从样本空间的多个候选的待去除子空间中选择目标去除子空间,并将该目标去除子空间从样本空间中去除,得到去除后样本空间。具体地,步骤“基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理,得到去除后样本空间”,可以包括:
112.基于样本用户集在各个特征维度下的分布,确定每个特征维度对应的待去除子空间,其中,所述待去除子空间包括各个所述特征维度;
113.基于所述目标用户集在各个所述待去除子空间中的分布,从所述各个待去除子空间中确定目标去除子空间;
114.针对目标去除子空间,对样本空间进行空间去除处理,得到去除后样本空间。
115.确定样本空间的多个候选的待去除子空间的方式可以有多种,例如,可以对样本空间的各个特征维度进行分析,基于样本用户集在各个特征维度下的分布,譬如,数量分
布,来确定每个特征维度对应的待去除子空间,从而得到样本空间的多个候选的待去除子空间。具体地,步骤“基于样本用户集在各个特征维度下的分布,确定每个特征维度对应的待去除子空间,其中,所述待去除子空间包括各个所述特征维度”,可以包括:
116.基于样本用户集在各个特征维度下的分布,对样本用户集中的样本用户进行排序,得到各个特征维度对应的排序结果;
117.根据排序结果,从样本用户集中选取各个特征维度的待去除用户;
118.基于待去除用户,确定各个特征维度对应的待去除子空间。
119.在一实施例中,样本用户集在各个特征维度下的分布,可以通过分析样本用户集中的样本用户在各个特征维度上的用户特征取值来确定,具体地,由于样本用户在每个特征维度上可以具有具体的用户特征值,例如,图3中的样本空间包括两个特征维度:身高与体重,以样本用户1001为例,该样本用户在身高特征维度上的用户特征值为180,在体重特征维度上的用户特征值为160,类似地,每个样本用户在不同特征维度上都可以具有具体的用户特征值。因此,可以根据样本用户集中每个样本用户在各个特征维度上的用户特征值,对样本用户集中的样本用户进行排序,得到各个特征维度对应的排序结果。
120.例如,以样本空间中的特征维度j为例,可以根据样本用户集中的样本用户在特征维度j上的特征取值,来对样本用户集中的各个样本用户进行排序,从而得到特征维度j对应的排序结果。类似地,可以基于样本用户集中的样本用户在各个特征维度上的特征取值,来对样本用户集中的各个样本用户进行排序,从而得到各个特征维度对应的排序结果。
121.进一步地,可以根据各个特征维度对应的排序结果,来从样本用户集中选取各个特征维度的待去除用户。例如,以下以样本空间中的特征维度j为例进行解释。
122.在第m次迭代中,样本空间为bm,可以根据样本用户集x中的样本用户在特征维度j上的特征取值,对样本用户集x中的样本用户进行排序,得到特征维度j对应的排序结果xj。并且,可以根据该排序结果xj,选取样本用户集x在样本空间bm中的待去除用户。
123.例如,可以根据排序结果xj,确定样本用户集x在样本空间bm中的α分位数x
jm(a)
,以及样本用户集x在样本空间bm中的(1-α)分位数x
jm(1-a)
。其中,α为超参数,表示每次去除的样本比例。在实际应用中可以选用一个比较小的数值,比如0.05~0.1,这样的好处在于,每次局部调整不会对最终结果产生很大影响。其中,分位数亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。
124.进一步地,可以根据排序结果xj,从样本用户集x中选取特征维度j的待去除用户,具体地,可以选取xj中低于α分位数x
jm(a)
的样本用户,或者选取xj中高于(1-α)分位数x
jm(1-a)
的样本用户为特征维度j的待去除用户。因此,即可基于选取的待去除用户,确定特征维度j对应的待去除子空间为b
mj-与b
mj+
,其中,b
mj-={x|xj≤x
jm(a)
},b
mj+
={x|xj≥x
jm(1-a)
}。
125.类似地,可以通过针对其他特征维度进行类似的处理,以确定各个特征维度对应的待去除子空间,得到待去除子空间集合c(bm)={b
m1-,b
m1+
,b
m2-,b
m2+


,b
mp-,b
mp+
},其中,p为样本空间bm所包含的特征维度数。
126.进一步地,从样本空间的多个候选的待去除子空间中确定目标去除子空间的方式可以有多种,例如,可以基于目标用户集在各个待去除子空间的分布,譬如,数量分布,对各个待去除子空间进行评估,以从中选出目标待去除子空间,使得从样本空间中去除该目标
待去除子空间后,去除后样本空间中目标用户集的浓度最大。具体地,步骤“基于所述目标用户集在各个所述待去除子空间中的分布,从所述各个待去除子空间中确定目标去除子空间”,可以包括:
127.基于目标用户集在各个待去除子空间中的分布,计算各个待去除子空间对样本空间的空间去除贡献度,其中,空间去除贡献度表征样本空间在去除该待去除子空间后,目标用户集在去除后样本空间中的分布特征;
128.根据空间去除贡献度,从待去除子空间中确定目标去除子空间。
129.其中,目标用户集在去除后样本空间中的分布特征表征目标用户集在去除后样本空间中的分布特点,其可以有多种表现形式,例如,可以以去除后样本空间中的目标样本用户数作为该分布特征;又如,可以计算目标用户集在去除后样本空间中的目标样本用户浓度,并将该目标样本用户浓度作为分布特征;等等。
130.具体地,目标用户集在样本空间bm中的目标样本用户浓度可以参照下式计算:其中,nm表示样本空间bm里的样本用户数量,yi为样本用户i的真实标签且yi∈{0,1},其中yi=1表示该样本用户为目标样本用户,yi=0则表示该样本用户不为目标样本用户。因此,可以用f(y)来表示目标用户集在样本空间bm中的目标样本用户浓度,类似地,可计算目标用户集在去除后样本空间中的目标样本用户浓度。
131.其中,待去除子空间对样本空间的空间去除贡献度表征样本空间在去除该待去除子空间后,目标用户集在去除后样本空间中的分布特征。
132.在一实施例中,在计算待去除子空间对样本空间的空间去除贡献度时,可以以目标用户集在去除后样本空间中的目标样本用户浓度,作为该待去除子空间对样本空间的空间去除贡献度。具体地,对样本空间bm进行一次空间去除处理后,可以得到去除后样本空间b
m+1
,也即,其中,bm∈c(bm),其中的含义为,从多个待去除子空间中选择目标去除子空间,使得剔除该目标去除子空间后,去除后样本空间的目标样本用户浓度最大。
133.进一步地,确定目标去除子空间后,即可针对目标去除子空间,对样本空间进行空间去除处理,得到去除后样本空间。针对目标去除子空间,对样本空间进行空间去除处理的方式可以有多种,例如,由于目标去除子空间也由至少一个特征维度构成,因此,可以根据目标去除子空间在至少一个特征维度上的属性信息,例如,特征取值范围,来确定目标待去除子空间的范围,进而从样本空间中剔除该范围,从而实现将目标去除子空间从样本空间中去除,具体地,步骤“针对目标去除子空间,对样本空间进行空间去除处理,得到去除后样本空间”,可以包括:
134.获取目标去除子空间在至少一个特征维度上的属性信息;
135.根据属性信息,对样本空间进行空间去除处理,得到去除后样本空间。
136.其中,目标去除子空间的属性信息为目标去除子空间在至少一个特征维度上的属性信息,例如,目标去除子空间的属性信息可以包括目标去除子空间在至少一个特征维度上的特征取值范围,因此,可以根据该属性信息,确定样本空间中目标去除样本空间所占据的空间范围,因此,即可对样本空间进行空间去除处理,得到去除后样本空间。
137.作为示例,参考图5,在由体重特征维度与身高特征维度两个特征维度构成的样本
空间中,确定目标去除子空间为1002所示的区域,其中,该目标去除子空间的属性信息为:该目标去除子空间在身高特征维度上的特征取值范围为(182.5,192.5],在体重特征维度上的特征取值范围为(85,175],因此,可以根据目标去除子空间在至少一个特征维度上的属性信息,在样本空间中确定目标去除子空间所占据的空间区域,进而可以对样本空间进行空间去除处理,得到去除后样本空间。在将目标去除子空间1002从图5中的样本空间中去除后,可以得到图6所示的去除后样本空间。
138.值得注意的是,基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理,得到目标样本空间,其中,样本用户集在目标样本空间中的分布信息应满足预设分布条件。
139.以上即为对步骤“基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理,得到目标样本空间”的展开中,“基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理,得到去除后样本空间”部分的解释,以下将对“获取样本用户集在去除后样本空间中的分布信息;若分布信息满足预设分布条件,将去除后样本空间作为目标样本空间。”作进一步解释。
140.其中,样本用户集在目标样本空间中的分布信息为描述样本用户集在目标样本空间中的分布情况的相关信息,例如,可以以样本用户集在目标样本空间中的样本容量作为分布信息;又如,可以分析样本用户集在目标样本空间的各特征维度上的聚集情况来确定分布信息;又如,可以分析样本用户在目标样本空间中的分布密度来确定分布信息;等等。
141.为了保证最后得到的目标样本空间在统计上具有可用意义,在对样本空间进行空间去除处理,得到去除后样本空间后,可以通过对样本用户集在去除后样本空间中的分布信息进行判断,是否满足预设分布条件,以确定该去除后样本空间是否为所需的目标样本空间。
142.在一实施例中,可以以样本用户集在目标样本空间中的样本容量作为分布信息,具体地,预设分布条件可以参考如下设置:
143.通过不断迭代,在执行k次空间去除处理后(其中k为正整数),得到去除后样本空间bk,若去除后样本空间bk满足以下预设分布条件,即可将该去除后样本空间作为目标样本空间:
[0144][0145]
上述式子中,指示函数i(
·
)的含义为,如果样本用户xi在去除后样本空间bk里,则取值为1,反之为0。n是样本用户的初始总量,也即全体样本用户的总量,因此,βk的含义是,属于去除后样本空间bk的样本用户数量相对于样本用户初始总量的占比。其中,β0是另一超参数,指示目标样本空间中的样本占比。该参数不宜过小,否则将会让结果失去统计意义,且容易被动。
[0146]
104、基于各个特征维度在目标样本空间中的特征取值范围,确定用户类型识别规则。
[0147]
其中,用户类型识别规则为用于识别用户类型的相关规则,例如,在金融应用中,可以将用户分为两类,一类是严格拒绝并不予提供风险性服务的劣质用户(以下简称“严拒
用户”),另一类则是非严拒的其余用户。当该金融应用要面向用户提供风险性服务时,可以通过用户类型识别规则来识别该用户所属的用户类型,以确定是否能向该用户提供风险性服务。
[0148]
由于本技术是通过对高维的空间样本进行空间去除处理,使得在处理后得到的目标样本空间中,目标样本用户的浓度远远大于整体样本空间,并且,通过关注该高浓度空间,进一步地从该高浓度空间中搜索组合得到用户类型识别规则,以使得可以通过应用该用户类型识别模型来进行用户类型识别。因此,确定用户类型识别规则的方式可以有多种,例如,可以基于各个特征维度在目标样本空间中的取值范围,确定各个特征维度对应的特征识别规则,进而得到用户类型识别规则,具体地,步骤“基于各个特征维度在目标样本空间中的特征取值范围,确定用户类型识别规则”,可以包括:
[0149]
基于各个特征维度在目标样本空间中的特征取值范围,确定各个特征维度对应的特征识别规则;
[0150]
对特征识别规则进行组合,得到组合后的用户类型识别规则。
[0151]
其中,特征维度对应的特征识别规则为用于对用户在该特征维度下的用户特征进行校验的规则,校验的结果可以包括校验通过与校验未通过。
[0152]
因此,可以基于各个特征维度在目标样本空间中的特征取值范围,确定各个特征维度对应的特征识别规则。作为示例,目标样本空间可以包括3个特征维度:d1,d2与d3,并且,可以确定各个特征维度在目标样本空间的特征取值范围分别为d1,d2与d3,这样的话,可以确定特征维度d1对应的特征识别规则为:若用户在特征维度d1上的用户特征取值在d1内,则校验通过,否则,校验未通过。类似地,特征维度d2的特征识别规则为:若用户在特征维度d2上的用户特征取值在d2内,则校验通过,否则,校验未通过。类似地,特征维度d3的特征识别规则为:若用户在特征维度d3上的用户特征取值在d3内,则校验通过,否则,校验未通过。
[0153]
在确定各个特征维度对应的特征识别规则后,即可通过对特征识别规则进行组合,得到组合后的用户类型识别规则。
[0154]
其中,组合的方式可以有多种,例如,可以通过逻辑符号将各个特征识别规则进行组合,得到组合后的用户类型识别规则。其中,逻辑符号是逻辑学中用以表示逻辑形式和逻辑运算的各种人工语言符号。逻辑符号的主要特点和作用在于它能精确地、单义地解释其所表示的对象,从而可以用来精确、简明地表示各种逻辑公理、定理和逻辑运算过程。作为示例,逻辑符号可以包括逻辑与,逻辑或,逻辑否,等等。值得注意的是,组合所用到的逻辑符号、以及各个特征识别规则之间的组合顺序以及组合层次等,可以基于业务需求进行设置。
[0155]
又如,可以通过赋予不同特征识别规则以不同的权重,并根据权重对特征识别规则进行组合,得到组合后的用户类型识别规则,等等。
[0156]
105、基于用户类型识别规则,识别目标用户的用户类型。
[0157]
在确认用户类型识别规则后,即可通过应用该用户类型识别规则,来识别目标用户的用户类型。具体地,步骤“基于用户类型识别规则,识别目标用户的用户类型”,可以包括:
[0158]
获取目标用户在至少一个特征维度下的用户特征;
[0159]
基于用户类型识别规则,对用户特征进行特征识别,得到识别结果;
[0160]
基于识别结果,确定目标用户的用户类型。
[0161]
在一实施例中,用户类型识别规则为由4个特征维度对应的特征识别规则组合而得,具体地,用户类型识别规则可以为r1&&r2&&r3&&r4,其中,&&为逻辑与符号,其表示只有两个操作数都是真,结果才是真;r1为特征维度a对应的特征识别规则;r2为特征维度为特征维度b对应的特征识别规则;r3为特征维度c对应的特征识别规则;r4为特征维度d对应的特征识别规则。
[0162]
服务器可以获取目标用户在特征维度a下的用户特征a,在特征维度b下的用户特征b,在特征维度c下的用户特征c,以及在特征维度d下的用户特征d。并基于用户类型识别规则r1&&r2&&r3&&r4对目标用户进行特征识别,具体地,若应用r1对a进行校验,应用r2对b进行校验,应用r3对c进行校验,应用r4对d进行校验,得到的校验结果均为校验通过,则可以确定目标用户的用户类型识别结果为,该目标用户与目标样本用户所属的用户类型相同,否则,则可以确定该目标用户与目标样本用户所属的用户类型不同。
[0163]
由上可知,本实施例可以生成样本用户集的样本空间,其中,所述样本用户集包括至少一个样本用户,所述样本空间包括每个所述样本用户在至少一个特征维度下的用户特征;从所述样本用户集中确定目标用户集,其中,所述目标用户集包括至少一个目标样本用户;基于所述目标用户集在各个所述特征维度下的分布,对所述样本空间进行空间去除处理,得到目标样本空间,其中,所述样本用户集在所述目标样本空间中的分布信息满足预设分布条件;基于所述各个特征维度在所述目标样本空间中的特征取值范围,确定用户类型识别规则;基于所述用户类型识别规则,识别目标用户的用户类型。
[0164]
该方案可以通过对高维的空间样本进行空间去除处理,使得在处理后得到的目标样本空间中,目标样本用户的浓度远远大于整体样本空间,并且,通过关注该高浓度空间,进一步地从该高浓度空间中搜索组合得到用户类型识别规则,以使得可以通过应用该用户类型识别模型来进行用户类型识别。该方案并非通过暴力穷举所有组合可能性来确定用户类型预测规则,而是有的放矢地“瞄准”样本空间中的高浓度的局部空间,并基于该局部空间来生成用户类型识别规则,因此,大大节约了计算资源与时间资源。
[0165]
并且,该方案也无需通过吸取大量的样本数据来训练机器学习的全局模型,而是通过在给定样本数据中确定目标样本用户浓度很高的局部空间,来生成用户类型预测规则,从而通过应用该目标类型预测规则来高效并准确地预测目标用户的用户类型,因此,该方案还通过节约样本资源,进一步地对用户类型识别方式进行改进。
[0166]
此外,该方案在获取样本用户集后,仅需人工对所需的超参数α及β0进行设置,即可基于样本用户集生成用户类型识别规则,因此,能够半自动化地生成用户类型识别规则。在将本技术在实际进行应用后,用户类型识别规则的开发周期时间大幅度缩短,从数据准备、特征加工、组合特征规则筛选等步骤的耗时从一天减少到1个小时,大大地提高了效率。另外,基于此方法,还可以充分挖掘特征空间,获得的特征组合在解释性、准确度、覆盖度都可以得到满足。
[0167]
根据上面实施例所描述的方法,以下将举例进一步详细说明。
[0168]
在本实施例中,将以用户类型识别装置集成在服务器与终端为例进行说明,该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群;该终端可以为手机、平
板电脑、笔记本电脑等设备。
[0169]
如图7所示,一种用户类型识别方法,具体流程如下:
[0170]
201、服务器获取终端发送的样本用户集,其中,样本用户集包括至少一个样本用户。
[0171]
在一实施例中,可以将本技术所述的用户类型识别方法应用于生成风控策略规则,具体地,可以用于生成能够识别恶意用户的风控策略规则,其中,恶意用户又称为黑名单用户,指的是在金融领域中具有较低信用度或较高风险的用户。
[0172]
服务器可以获取终端发送的样本用户集,其中,样本用户集中可以包括n个样本用户(n为正整数),每个样本用户可以包括至少一个特征维度下的用户特征,以及对应的真实标签。例如,特征维度可以包括性别,年龄,城市,教育水平,购买偏好,风险偏好,一年内借贷次数,一年内借贷总额,多头借贷行为,高危设备行为等维度。而对应的真实标签可以包括恶意用户与非恶意用户。
[0173]
202、服务器生成样本用户集的样本空间,其中,样本空间包括每个样本用户在至少一个特征维度下的用户特征。
[0174]
在一实施例中,服务器生成的样本空间可以由至少一个特征维度构成,其中,每个样本用户可以通过其在各个特征维度上的用户特征取值来确定其在样本空间中的位置,并且,样本用户在样本空间中的取值可以与样本用户的真实标签一致。
[0175]
例如,服务器生成的样本空间可以由以下十个特征维度构成:性别,年龄,城市,教育水平,购买偏好,风险偏好,一年内借贷次数,一年内借贷总额,多头借贷行为,高危设备行为。每个样本用户可以通过其在各个特征维度上的用户特征取值,来确定该样本用户在样本空间中的位置,此外,还可以根据样本用户的真实标签来确定样本用户在样本空间中的取值,例如,恶意用户或非恶意用户。
[0176]
203、服务器从样本用户集中确定目标用户集,其中,目标用户集包括至少一个目标样本用户。
[0177]
在一实施例中,可以根据样本用户的真实标签来确定目标样本用户,进而得到目标用户集。例如,可以将真实标签为恶意用户的样本用户确定为目标样本用户,从而得到由目标样本用户组成的目标用户集。
[0178]
204、服务器基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理,得到去除后样本空间。
[0179]
在一实施例中,参考图8,服务器可以迭代地对样本空间进行空间去除处理,以得到目标样本空间。具体地,首先可以初始化相关参数:初始化样本空间为b1,样本去除比例为α,以及目标样本空间中的样本占比β0,其中,α与β0为可为基于业务需求设置的超参数。
[0180]
进一步地,服务器可以基于样本用户集在各个特征维度下的分布,确定每个特征维度对应的待去除子空间。例如,服务器可以基于样本用户集在各个特征维度下的分布,对样本用户集中的样本用户进行排序,得到各个特征维度对应的排序结果,譬如,参考图8,以样本空间中的一特征维度为例,服务器可可以对所有样本用户x求α分位数x
(a)
,以及(1-α)分位数x
(1-a)
,类似地,服务器可以得到样本用户集在各个特征维度上的α分位数与(1-α)分位数。
[0181]
服务器可以选取从各特征维度对应的待去除子空间中,选择目标去除子空间b
*

以去除,使得去除后样本空间中目标样本用户浓度最高,得到的去除后样本空间即为b=b-b
*

[0182]
205、服务器获取样本用户集在去除后样本空间中的分布信息。
[0183]
在一实施例中,可以通过参照下式计算样本用户集在去除后样本空间中的分布信息:
[0184][0185]
其中,k表示迭代次数且k为正整数,指示函数i(
·
)的含义为,如果样本用户xi在去除后样本空间bk里,则取值为1,反之为0。n是样本用户的初始总量,也即全体样本用户的总量,因此,βk的含义是,属于去除后样本空间bk的样本用户数量相对于样本用户初始总量的占比。因此,对于第一次迭代,可以参照上式计算β1。
[0186]
206、若分布信息满足预设分布条件,服务器将去除后样本空间作为目标样本空间。
[0187]
在一实施例中,参考图8,可以将βk与β0作比较,若βk小于或等于β0,则可以将第k次迭代时得到的去除后样本空间作为目标样本空间,否则,则将样本空间更新为去除后样本空间,返回执行基于目标用户集在各个特征维度下的分布,对样本空间进行空间去除处理的步骤。
[0188]
207、服务器基于各个特征维度在目标样本空间中的特征取值范围,确定用户类型识别规则。
[0189]
在一实施例中,服务器可以基于各个特征维度在目标样本空间中的特征取值范围,确定各个特征维度对应的特征识别规则,并对特征识别规则进行组合,得到组合后的用户类型识别规则。
[0190]
208、服务器获取终端发送的目标用户的用户信息。
[0191]
其中,目标用户的用户信息可以包括目标用户在至少一个特征维度下的用户特征。
[0192]
209、服务器基于用户类型识别规则与用户信息,识别目标用户的用户类型。
[0193]
在一实施例中,服务器可以通过目标用户的用户信息,获取目标用户在至少一个特征维度下的用户特征。进一步地,可以基于用户类型识别规则,对用户特征进行特征识别,得到识别结果,并基于识别结果,确定目标用户的用户类型。
[0194]
由上可知,本技术实施例可以通过对高维的空间样本进行空间去除处理,使得在处理后得到的目标样本空间中,目标样本用户的浓度远远大于整体样本空间,并且,通过关注该高浓度空间,进一步地从该高浓度空间中搜索组合得到用户类型识别规则,以使得可以通过应用该用户类型识别模型来进行用户类型识别。本技术实施例并非通过暴力穷举所有组合可能性来确定用户类型预测规则,而是有的放矢地“瞄准”样本空间中的高浓度的局部空间,并基于该局部空间来生成用户类型识别规则,因此,大大节约了计算资源与时间资源。
[0195]
并且,本技术实施例也无需通过吸取大量的样本数据来训练机器学习的全局模型,而是通过在给定样本数据中确定目标样本用户浓度很高的局部空间,来生成用户类型
预测规则,从而通过应用该目标类型预测规则来高效并准确地预测目标用户的用户类型,因此,本技术实施例还通过节约样本资源,进一步地对用户类型识别方式进行改进。
[0196]
此外,在获取样本用户集后,本技术实施例仅需人工对所需的超参数α及β0进行设置,即可在给定目标样本用户与相关用户特征的条件下,提高风控策略开发的效率和对风险的覆盖率。在将本技术在实际进行应用后,用户类型识别规则的开发周期时间大幅度缩短,从数据准备、特征加工、组合特征规则筛选等步骤的耗时从一天减少到1个小时,大大地提高了效率。另外,基于此方法,还可以充分挖掘特征空间,获得的特征组合在解释性、准确度、覆盖度都可以得到满足。
[0197]
为了更好地实施以上方法,相应的,本技术实施例还提供一种用户类型识别装置,其中,该用户类型识别装置可以集成在服务器或终端中。该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群;该终端可以为手机、平板电脑、笔记本电脑等设备。
[0198]
例如,如图9所示,该用户类型识别装置可以包括生成单元301,目标确定单元302,去除单元303,规则确定单元304以及识别单元305,如下:
[0199]
生成单元301,用于生成样本用户集的样本空间,其中,所述样本用户集包括至少一个样本用户,所述样本空间包括每个所述样本用户在至少一个特征维度下的用户特征;
[0200]
目标确定单元302,用于从所述样本用户集中确定目标用户集,其中,所述目标用户集包括至少一个目标样本用户;
[0201]
去除单元303,用于基于所述目标用户集在各个所述特征维度下的分布,对所述样本空间进行空间去除处理,得到目标样本空间,其中,所述样本用户集在所述目标样本空间中的分布信息满足预设分布条件;
[0202]
规则确定单元304,用于基于所述各个特征维度在所述目标样本空间中的特征取值范围,确定用户类型识别规则;
[0203]
识别单元305,用于基于所述用户类型识别规则,识别目标用户的用户类型。
[0204]
在一实施例中,参考图10,所述去除单元303,可以包括:
[0205]
空间去除子单元3031,可以用于基于所述目标用户集在各个所述特征维度下的分布,对所述样本空间进行空间去除处理,得到去除后样本空间;
[0206]
信息获取子单元3032,可以获取所述样本用户集在所述去除后样本空间中的分布信息;
[0207]
空间确定子单元3033,可以若所述分布信息满足所述预设分布条件,将所述去除后样本空间作为目标样本空间。
[0208]
在一实施例中,参考图11,所述去除单元,还可以包括:
[0209]
目标更新子单元3034,可以若所述分布信息不满足所述预设分布条件,将所述样本空间更新为所述去除后样本空间,返回执行所述基于所述目标用户集在各个所述特征维度下的分布,对所述样本空间进行空间去除处理的步骤。
[0210]
在一实施例中,所述去除子单元3031,可以用于:
[0211]
基于所述样本用户集在各个所述特征维度下的分布,确定每个所述特征维度对应的待去除子空间,其中,所述待去除子空间包括各个所述特征维度;基于所述目标用户集在各个所述待去除子空间中的分布,从所述各个所述待去除子空间中确定目标去除子空间;针对所述目标去除子空间,对所述样本空间进行空间去除处理,得到去除后样本空间。
[0212]
在一实施例中,所述去除子单元3031,可以具体用于:
[0213]
基于所述样本用户集在各个所述特征维度下的分布,对所述样本用户集中的样本用户进行排序,得到各个所述特征维度对应的排序结果;根据所述排序结果,从所述样本用户集中选取各个所述特征维度的待去除用户;基于所述待去除用户,确定各个所述特征维度对应的待去除子空间。
[0214]
在一实施例中,所述去除子单元3031,可以具体用于:
[0215]
基于所述目标用户集在各个所述待去除子空间中的分布,计算各个所述待去除子空间对所述样本空间的空间去除贡献度,其中,所述空间去除贡献度表征所述样本空间在去除所述待去除子空间后,所述目标用户集在去除后样本空间中的分布特征;根据所述空间去除贡献度,从所述待去除子空间中确定目标去除子空间。
[0216]
在一实施例中,所述去除子单元3031,可以具体用于:
[0217]
获取所述目标去除子空间在至少一个所述特征维度上的属性信息;根据所述属性信息,对所述样本空间进行空间去除处理,得到去除后样本空间。
[0218]
在一实施例中,参考图12,所述规则确定单元304,可以包括:
[0219]
规则确定子单元3041,可以用于基于所述各个特征维度在所述目标样本空间中的特征取值范围,确定所述各个特征维度对应的特征识别规则;
[0220]
规则组合子单元3042,可以用于对所述特征识别规则进行组合,得到组合后的用户类型识别规则。
[0221]
在一实施例中,参考图13,所述识别单元305,可以包括:
[0222]
特征获取子单元3051,可以用于获取所述目标用户在至少一个所述特征维度下的用户特征;
[0223]
特征识别子单元3052,可以用于基于所述用户类型识别规则,对所述用户特征进行特征识别,得到识别结果;
[0224]
类型确定子单元3053,可以用于基于所述识别结果,确定所述目标用户的用户类型。
[0225]
在一实施例中,参考图14,所述目标确定单元302,可以包括:
[0226]
标签获取子单元3021,可以用于获取所述样本用户集中各个样本用户的真实标签;
[0227]
用户确定子单元3022,可以用于根据所述真实标签,从所述样本用户集中确定目标样本用户;
[0228]
目标确定子单元3023,可以用于基于所述目标样本用户,确定目标用户集。
[0229]
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
[0230]
由上可知,本实施例的用户类型识别装置中由生成单元301生成样本用户集的样本空间,其中,所述样本用户集包括至少一个样本用户,所述样本空间包括每个所述样本用户在至少一个特征维度下的用户特征;由目标确定单元302从所述样本用户集中确定目标用户集,其中,所述目标用户集包括至少一个目标样本用户;由去除单元303基于所述目标用户集在各个所述特征维度下的分布,对所述样本空间进行空间去除处理,得到目标样本
空间,其中,所述样本用户集在所述目标样本空间中的分布信息满足预设分布条件;由规则确定单元304基于所述各个特征维度在所述目标样本空间中的特征取值范围,确定用户类型识别规则;由识别单元305基于所述用户类型识别规则,识别目标用户的用户类型。
[0231]
该方案可以通过对高维的空间样本进行空间去除处理,使得在处理后得到的目标样本空间中,目标样本用户的浓度远远大于整体样本空间,并且,通过关注该高浓度空间,进一步地从该高浓度空间中搜索组合得到用户类型识别规则,以使得可以通过应用该用户类型识别模型来进行用户类型识别。该方案并非通过暴力穷举所有组合可能性来确定用户类型预测规则,而是有的放矢地“瞄准”样本空间中的高浓度的局部空间,并基于该局部空间来生成用户类型识别规则,因此,大大节约了计算资源与时间资源。并且,该方案也无需通过吸取大量的样本数据来训练机器学习的全局模型,而是通过在给定样本数据中确定目标样本用户浓度很高的局部空间,来生成用户类型预测规则,从而通过应用该目标类型预测规则来高效并准确地预测目标用户的用户类型,因此,该方案还通过节约样本资源,进一步地对用户类型识别方式进行改进。
[0232]
此外,本技术实施例还提供一种计算机设备,该计算机设备可以为服务器或终端等设备,如图15所示,其示出了本技术实施例所涉及的计算机设备的结构示意图,具体来讲:
[0233]
该计算机设备可以包括有一个或一个以上计算机可读存储介质的存储器401、包括有一个或者一个以上处理核心的处理器402、以及电源403等部件。本领域技术人员可以理解,图15中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0234]
存储器401可用于存储软件程序以及模块,处理器402通过运行存储在存储器401的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器401可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器401还可以包括存储器控制器,以提供处理器402和输入单元603对存储器401的访问。
[0235]
处理器402是计算机设备的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器401内的软件程序和/或模块,以及调用存储在存储器401内的数据,执行计算机设备的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器402可包括一个或多个处理核心;优选的,处理器402可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器402中。
[0236]
计算机设备还包括给各个部件供电的电源403(比如电池),优选的,电源可以通过电源管理系统与处理器402逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0237]
尽管未示出,计算机设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在
本实施例中,计算机设备中的处理器402会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器401中,并由处理器402来运行存储在存储器401中的应用程序,从而实现各种功能,如下:
[0238]
生成样本用户集的样本空间,其中,所述样本用户集包括至少一个样本用户,所述样本空间包括每个所述样本用户在至少一个特征维度下的用户特征;从所述样本用户集中确定目标用户集,其中,所述目标用户集包括至少一个目标样本用户;基于所述目标用户集在各个所述特征维度下的分布,对所述样本空间进行空间去除处理,得到目标样本空间,其中,所述样本用户集在所述目标样本空间中的分布信息满足预设分布条件;基于所述各个特征维度在所述目标样本空间中的特征取值范围,确定用户类型识别规则;基于所述用户类型识别规则,识别目标用户的用户类型。
[0239]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0240]
由上可知,本实施例的计算机设备可以通过对高维的空间样本进行空间去除处理,使得在处理后得到的目标样本空间中,目标样本用户的浓度远远大于整体样本空间,并且,通过关注该高浓度空间,进一步地从该高浓度空间中搜索组合得到用户类型识别规则,以使得可以通过应用该用户类型识别模型来进行用户类型识别。该计算机设备并非通过暴力穷举所有组合可能性来确定用户类型预测规则,而是有的放矢地“瞄准”样本空间中的高浓度的局部空间,并基于该局部空间来生成用户类型识别规则,因此,大大节约了计算资源与时间资源。并且,该计算机设备也无需通过吸取大量的样本数据来训练机器学习的全局模型,而是通过在给定样本数据中确定目标样本用户浓度很高的局部空间,来生成用户类型预测规则,从而通过应用该目标类型预测规则来高效并准确地预测目标用户的用户类型,因此,该计算机设备还通过节约样本资源,进一步地对用户类型识别方式进行改进。
[0241]
本技术实施例涉及的系统可以是由客户端、多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。
[0242]
以分布式系统为区块链系统为例,参见图16,图16是本技术实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图,由多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端形成,节点之间形成组成的点对点(p2p,peer to peer)网络,p2p协议是一个运行在传输控制协议(tcp,transmission control protocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。
[0243]
参见图16示出的区块链系统中各节点的功能,涉及的功能包括:
[0244]
1)路由,节点具有的基本功能,用于支持节点之间的通信。
[0245]
节点除具有路由功能外,还可以具有以下功能:
[0246]
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
[0247]
例如,应用实现的业务包括:
[0248]
2.1)钱包,用于提供进行电子货币的交易的功能,包括发起交易(即,将当前交易的交易记录发送给区块链系统中的其他节点,其他节点验证成功后,作为承认交易有效的
响应,将交易的记录数据存入区块链的临时区块中;当然,钱包还支持查询电子货币地址中剩余的电子货币;
[0249]
2.2)共享账本,用于提供账目数据的存储、查询和修改等操作的功能,将对账目数据的操作的记录数据发送到区块链系统中的其他节点,其他节点验证有效后,作为承认账目数据有效的响应,将记录数据存入临时区块中,还可以向发起操作的节点发送确认。
[0250]
2.3)智能合约,计算机化的协议,可以执行某个合约的条款,通过部署在共享账本上的用于在满足一定条件时而执行的代码实现,根据实际的业务需求代码用于完成自动化的交易,例如查询买家所购买商品的物流状态,在买家签收货物后将买家的电子货币转移到商户的地址;当然,智能合约不仅限于执行用于交易的合约,还可以执行对接收的信息进行处理的合约。
[0251]
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
[0252]
参见图17,图17是本技术实施例提供的区块结构(block structure)一个可选的示意图,每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值,各区块通过哈希值连接形成区块链。另外,区块中还可以包括有区块生成时的时间戳等信息。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了相关的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
[0253]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0254]
为此,本技术实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本技术实施例所提供的任一种用户类型识别方法中的步骤。例如,该指令可以执行如下步骤:
[0255]
生成样本用户集的样本空间,其中,所述样本用户集包括至少一个样本用户,所述样本空间包括每个所述样本用户在至少一个特征维度下的用户特征;从所述样本用户集中确定目标用户集,其中,所述目标用户集包括至少一个目标样本用户;基于所述目标用户集在各个所述特征维度下的分布,对所述样本空间进行空间去除处理,得到目标样本空间,其中,所述样本用户集在所述目标样本空间中的分布信息满足预设分布条件;基于所述各个特征维度在所述目标样本空间中的特征取值范围,确定用户类型识别规则;基于所述用户类型识别规则,识别目标用户的用户类型。
[0256]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0257]
其中,该存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。
[0258]
由于该存储介质中所存储的指令,可以执行本技术实施例所提供的任一种用户类型识别方法中的步骤,因此,可以实现本技术实施例所提供的任一种用户类型识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
[0259]
根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算
机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述用户类型识别方面的各种可选实现方式中提供的方法。
[0260]
以上对本技术实施例所提供的一种用户类型识别方法、装置、计算机设备、存储介质和系统进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1