模型构建方法、分类方法、装置和电子设备与流程

文档序号:32742001发布日期:2022-12-30 19:23阅读:30来源:国知局
模型构建方法、分类方法、装置和电子设备与流程

1.本公开涉及计算机技术领域,尤其涉及深度学习领域。具体涉及一种模型构建方法、分类方法、装置和电子设备。


背景技术:

2.深度学习凭借其强大的学习样本数据集内在规律和高度抽象化特征的能力,可以帮助人们自动做出决策,因而被应用于医疗诊断、语音识别、图像识别、自然语音理解、广告、就业、教育等领域,并且发挥了很好的效果。


技术实现要素:

3.本公开提供了一种模型构建方法、分类方法、装置和电子设备。
4.根据本公开的第一方面,提供了一种模型构建方法,包括:
5.获取第一训练样本,其中,所述第一训练样本包括第一对象的至少一个目标特征,所述目标特征为所述第一对象的身份属性特征之外的其他特征;
6.将所述第一训练样本输入预先构建的初始模型进行训练,得到用于对目标对象进行分类的第一模型。
7.根据本公开的第二方面,提供了一种分类方法,包括:
8.获取目标对象的至少一个第一目标特征,所述第一目标特征为所述目标对象的身份属性特征之外的其他特征;
9.将所述目标对象的所述至少一个第一目标特征输入第一模型进行分类,得到所述第一模型输出的所述目标对象的所属类别;
10.其中,所述第一模型为基于第一训练样本对预先构建的初始模型进行训练,得到用于对所述目标对象进行分类的模型,所述第一训练样本包括第一对象的至少一个第二目标特征,所述第二目标特征为所述第一对象的身份属性特征之外的其他特征。
11.根据本公开的第三方面,提供了一种模型构建装置,包括:
12.第一获取模块,用于获取第一训练样本,其中,所述第一训练样本包括第一对象的至少一个目标特征,所述目标特征为所述第一对象的身份属性特征之外的其他特征;
13.训练模块,用于将所述第一训练样本输入预先构建的初始模型进行训练,得到用于对目标对象进行分类的第一模型。
14.根据本公开的第四方面,提供了一种分类装置,包括:
15.第二获取模块,用于获取目标对象的至少一个第一目标特征,所述第一目标特征为所述目标对象的身份属性特征之外的其他特征;
16.第二分类模块,用于将所述目标对象的所述至少一个第一目标特征输入第一模型进行分类,得到所述第一模型输出的所述目标对象的所属类别;
17.其中,所述第一模型为基于第一训练样本对预先构建的初始模型进行训练,得到用于对所述目标对象进行分类的模型,所述第一训练样本包括第一对象的至少一个第二目
标特征,所述第二目标特征为所述第一对象的身份属性特征之外的其他特征。
18.根据本公开的第五方面,提供了一种电子设备,包括:
19.至少一个处理器;以及
20.与所述至少一个处理器通信连接的存储器;其中,
21.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面中所述的方法。
22.根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面或第二方面中所述的方法。
23.根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面或第二方面中所述的方法。
24.本公开实施例中,通过基于身份属性特征之外的其他特征构建第一训练样本,并基于第一训练样本训练得到第一模型。这样,可以避免第一模型因学习到样本中的身份属性特征,而依据身份属性特征做出相应地决策问题,进而可以避免第一模型因对象的身份不同而做出不同决策的问题。如此,有利于提高模型的公平性。
附图说明
25.附图用于更好地理解本方案,不构成对本公开的限定。其中:
26.图1是本公开实施例提供的一种模型构建方法的流程图之一;
27.图2是本公开实施例提供的一种模型构建方法的流程图之二;
28.图3是本公开实施例中分数段与违约率之间的对应关系示意图;
29.图4是本公开实施例中m个第二训练样本的生成过程示意图;
30.图5是本公开实施例中k个第二训练样本的生成过程示意图;
31.图6是本公开实施例提供的一种分类方法的流程图之一;
32.图7是本公开实施例提供的一种模型构建装置的结构示意图;
33.图8是本公开实施例提供的一种分类装置的结构示意图;
34.图9是本公开实施例提供的用于实现模型构建方法或实现分类方法的电子设备的框图。
具体实施方式
35.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
36.请参见图1,图1为本公开实施例提供的一种模型构建方法的流程图,所述模型构建方法包括以下步骤:
37.步骤s101、获取第一训练样本,其中,所述第一训练样本包括第一对象的至少一个目标特征,所述目标特征为所述第一对象的身份属性特征之外的其他特征;
38.步骤s102、将所述第一训练样本输入预先构建的初始模型进行训练,得到用于对目标对象进行分类的第一模型。
39.其中,所述第一模型可以是各种应用场景中的分类模型,例如,可以是招聘场景中的简历分类模型。或者,所述第一模型还可以是风控场景中的用户分类模型等。相应地,所述第一对象和所述目标对象可以是被分类的对象,例如,可以是招聘场景中投递简历的求职者。或者,所述第一对象和所述目标对象可以是风控场景中,请求与银行等机构签订合约的用户。上述身份属性特征可以包括:年龄特征、性别特征、所属地域特征等与身份相关的属性特征。上述目标特征可以根据具体的分类场景进行确定,例如,当所述第一模型为简历分类模型时,所述目标特征可以包括:毕业院校、工作经历、以及求职者所学专业等特征。
40.上述身份属性特征可以是指用于表征第一对象所属人群的身份属性特征,例如,所述身份属性特征可以包括:年龄、性别等身份属性特征。具体地,在模型构建之前,可以预先根据具体的模型训练场景确定所述身份属性特征,并可以基于所确定的身份属性特征构建一个身份属性特征集合,这样,在进行样本构建时,可以获取所述身份属性特征集合之外的其他特征构建样本。
41.可以理解的是,上述第一训练样本除了包括所述至少一个目标特征之外,还可以包括与所述至少一个目标特征相对应的标签,其中,所述标签用于表征所述第一对象所属分类。
42.相关技术中,深度学习模型虽然能够帮助人们自动做出决策,但由于一些原因,深度学习模型所做出的决策可能带有一定的偏见或歧视。例如,在通过模型筛选与工程师相关的岗位的简历时,所筛选出的简历中,男性占比通常远高于女性占比。这是由于在现实中,可能该岗位大多是由男性担任,这样,在模型训练时,输入模型的训练样本中,男性样本的数量远高于女性样本的数量,若样本的特征中包括性别特征,则训练得到的模型可能学习到该岗位男性相对于女性更具有优势的特征。这样,在基于该模型进行分类的过程中,在同等条件下,模型可能为男性设置更高的评分,从而做出具有偏见的决策。
43.该实施方式中,通过基于身份属性特征之外的其他特征构建第一训练样本,并基于第一训练样本训练得到第一模型。这样,可以避免第一模型因学习到样本中的身份属性特征,而依据身份属性特征做出相应地决策问题,进而可以避免第一模型因对象的身份不同而做出不同决策的问题。如此,有利于提高模型的公平性。
44.需要说明的是,基于本公开的技术方案构建的模型,并不是针对某一特定用户的分类模型,也并不能反映出某一特定用户的个人信息。同时,本公开实施例中所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
45.可选地,所述目标特征与所述身份属性特征的语义相关性小于预设值。
46.其中,可以所述预设值可以是预先设置的一个位于0至1之间的取值,例如,所述预设值可以为0.7或0.8等。具体可以根据实际场景进行选取。
47.具体地,由于第一对象的属性特征中除了所述身份属性特征之外,可能还包括与所述身份属性特征的语义较为接近的特征,例如,第一对象的属性特征可以包括“已成年”,其中,该特征实际上与“年龄”特征相关性较高,若将“是否已成年”作为第一训练样本中的目标特征,可能导致训练得到的第一模型出现年龄歧视的问题。
48.基于此,本公开实施例中,可以分别计算所获取的第一对象的特征与每个身份属性特征之间的语义相关性,并可以过滤所述第一对象的特征中,与任意一个身份属性特征的语义相关性大于或等于所述预设值的特征,然后,将过滤之后的特征作为所述至少一个
目标特征。从而使得所述目标特征与所述身份属性特征的语义相关性小于所述预设值。
49.在具体实施时,可以根据相关技术中常见的相关性计算方法计算所述目标特征与所述身份属性特征之间的语义相关性。例如,可以通过计算皮尔逊相关系数(pearson correlation coefficient,pearson相关系数)以确定两个特征之间的语义相关性。
50.该实施方式中,通过获取与所述身份属性特征的语义相关性小于预设值的目标特征构建所述第一训练样本,这样,可以进一步避免第一模型因学习到样本中与身份属性特征相关性较高的特征,而依据该特征做出相应地决策的问题,进而可以进一步避免第一模型因对象的身份不同,而做出不同决策的问题。如此,有利于提高模型的公平性。
51.需要说明的是,基于本公开的技术方案构建的模型,并不是针对某一特定用户的分类模型,也并不能反映出某一特定用户的个人信息。同时,本公开实施例中所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
52.可选地,所述第一对象为成功申请目标合约,且所述目标合约的生效周期超过预设周期的用户,所述第一模型为用于对申请所述目标合约的所述目标对象进行分类的模型,所述将所述第一训练样本输入预先构建的初始模型进行训练,得到用于对目标对象进行分类的第一模型之后,所述方法还包括:
53.获取第二对象的所述至少一个目标特征,所述第二对象为所述第一对象之外的其他对象;
54.基于所述第二对象的所述至少一个目标特征,生成第二训练样本;
55.将所述第一训练样本与所述第二训练样本分别输入所述第一模型进行训练,得到第二模型。
56.其中,上述目标合约可以是租赁合约、贷款合约等需要向特定机构进行申请,并需要经该机构审核的合约。在此情况下,所述目标对象为申请所述目标合约的用户,所述第一模型用于对所述申请所述目标合约的用户进行分类,并可以基于所述分类结果,确定是否与所述目标对象签订所述目标合约。下文以所述目标合约为贷款合约为例,对本公开实施例提供的方法作进一步的解释说明。
57.在生成所述第一训练样本的过程中,由于用户在成功申请贷款之后,相关机构并无法直接判断该用户的用户类别,即无法直接为该用户设置类别标签,通常需要获取一定周期的还款情况,才能确定该用户的类别。基于此,可以预先设置一个表现周期,也即所述预设周期,所述预设周期的长度可以为3个月或者4个月等相关较长的时间周期。由于第一对象在申请贷款之后,通常需要每个月定期进行还款,因此,可以获取所述预设周期内的还款情况,以确定所述第一对象的类别标签,例如,当所述预设周期为4个月时,若该4个月内某一第一对象均按期进行了还款,则可以将该第一对象的类别标签确定为“优质用户”。相应地,当在所述预设周期内,某一第一对象存在至少一次未按期还款的情况时,可以将该第一对象的类别标签确定为“不良用户”。
58.在确定第一对象的类别标签之后,即可基于第一对象的至少一个目标特征及类别标签生成所述第一训练样本,其中,所述目标特征可以包括:银行流水、账户余额、消费记录、信用报告、失信信息、被执行信息、法律诉讼和行政处罚等身份属性特征之外的特征。并基于所述第一训练样本对所述初始模型进行训练得到所述第一模型。如此,通过基于大量与风险评估相关的目标特征进行模型训练得到的第一模型,可以帮助相关企业对申请贷款
的对象进行风险评估及分类,从而降低信贷风险。
59.可以理解的是,在训练得到上述第一模型之后,用户在使用所述第一模型的过程中,所述第一模型可以支持用户加密上传数据并进行线上管理,保障数据安全和用户隐私不外泄。
60.在所述第一模型的训练过程中,本公开实施例基于芯片保护技术、内存安全技术、密码学技术,确保在建模环境之内各方数据可用不可见,建模环境之外加密数据不可被穿透破译。通过采用完整的数据、任务认证机制确保全程端到端的加密。同时,基于rust内存安全的多算子、多模型算法的实现,保障数据安全计算的同时满足多模型构建需求。
61.此外,使用本公开实施例提供的模型构建方法的产品还支持用户挑选最优模型、下载模型文件、获取预测结果、进行安全部署等操作。同时还支持gbdt、xgboost、lr等多种算法、自定义模型参数以及模型训练完成后交叉验证、调参、效果评估等操作。本公开实施例提供的模型构建方法建模流程简单明了,菜单切换方便快捷,用户可自主建模,快速迭代,更好的应对业务变化。
62.在训练得到所述第一模型之后,在本公开一个实施例中,为了进一步确保训练样本能够覆盖更多不同类型的用户,可以进一步获取所述第一对象之外的第二对象的至少一个目标特征,并可以基于预设手段确定所述第二对象的类别标签,以生成所述第二样本。然后,可以将所述第一训练样本与所述第二训练样本进行混合,并将混合后的样本集输入所述第一模型,以对所述第一模型进行增量训练,得到训练后的第二模型。
63.其中,所述第二对象可以是成功申请所述目标合约,且所述目标合约的生效周期不超过所述预设周期的用户。或者,所述第二对象还可以是:申请所述目标合约失败的用户。
64.请参见图2,在本公开一个实施例中,所述模型构建方法包括以下步骤:将第一训练样本输入初始模型,对所述初始模型进行训练,得到第一模型;将所述第一训练样本和第二训练样本输入第一模型,对所述第一模型进行训练,得到第二模型。其具体实现过程与上述实施例相同,为避免重复,在此不再予以赘述。
65.该实施方式中,通过基于第二对象的至少一个目标特征生成所述第二训练样本,并基于所述第一训练样本与所述第二训练样本对所述第一模型进行增量训练,以使训练样本能够覆盖更多不同类型的用户,从而可以进一步提高模型的训练效果。
66.需要说明的是,基于本公开的技术方案构建的模型,并不是针对某一特定用户的分类模型,也并不能反映出某一特定用户的个人信息。同时,本公开实施例中所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
67.可选地,所述基于所述第二对象的所述至少一个目标特征,生成第二训练样本,包括:
68.获取所述第二对象的历史违约率;
69.基于所述历史违约率和所述第二对象的所述至少一个目标特征,生成第二训练样本。
70.其中,所述历史违约率可以是是指第二对象的历史还款违约率。且所述历史违约率可以是从其他平台获取到的历史违约率。
71.由于所述第二对象为所述第一对象之外的其他对象,因此,所述第二对象不存在
所述预设周期内的还款情况,即无法基于所述预设周期内的还款情况确定所述第二对象的类别标签。
72.基于此,在本公开一个实施例中,可以基于所述第二对象的历史违约率以确定所述第二对象的类别标签,例如,当某一第二对象的历史违约率超过预设阈值时,可以将该第二对象的类别标签确定为“不良用户”。相应地,当某一第二对象的历史违约率不超过预设阈值时,可以将该第二对象的类别标签确定为“优质用户”。
73.该实施方式中,通过基于所述第二用户的历史违约率,以确定所述第二对象的类别标签,进而基于所述类别标签和所述第二对象的所述至少一个目标特征,生成第二训练样本,从而实现第二样本的构建过程。
74.需要说明的是,基于本公开的技术方案构建的模型,并不是针对某一特定用户的分类模型,也并不能反映出某一特定用户的个人信息。同时,本公开实施例中所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
75.可选地,所述获取第二对象的所述至少一个目标特征,包括:
76.获取n个所述第二对象的所述至少一个目标特征,所述n为大于1 的整数;
77.所述获取所述第二对象的历史违约率,包括:
78.分别获取所述n个所述第二对象的历史违约率;
79.所述基于所述历史违约率和所述第二对象的所述至少一个目标特征,生成第二训练样本,包括:
80.基于所述历史违约率和所述n个所述第二对象的所述至少一个目标特征,生成n个所述第二训练样本;
81.所述将所述第一训练样本与所述第二训练样本分别输入所述第一模型进行训练,得到第二模型,包括:
82.将所述第一训练样本与所述n个所述第二训练样本分别输入所述第一模型进行训练,得到第二模型。
83.具体地,由于在模型训练过程中,通常需要获取大量同类型的训练样本,并将所获取的训练样本输入所需训练的模型,才能完成模型的训练过程。
84.基于此,在本公开一个实施例中,可以分别获取n个所述第二对象的所述至少一个目标特征,并基于每个第二对象的历史违约率,确定与每个第二对象对应的类别标签,以生成所述n个第二训练样本,然后,基于所述第一训练样本和所述n个第二训练样本对所述第一模型进行训练,得到所述第二模型。
85.可以理解的是,所述n个第二训练样本为基于n个不同的第二对象生成的n个样本,且所述n个第二对象的目标特征可以不同,所述n个第二对象的历史违约率也可以不同。上述第一训练样本的数量也可以为多个。
86.该实施方式中,通过获取n个第二训练样本,并基于所述第一训练样本和所述n个第二训练样本对所述第一模型进行训练,得到所述第二模型。如此,可以进一步提高模型的训练效果。
87.需要说明的是,基于本公开的技术方案构建的模型,并不是针对某一特定用户的分类模型,也并不能反映出某一特定用户的个人信息。同时,本公开实施例中所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
88.可选地,所述n个所述第二对象包括m个第一子对象,所述m为大于1的整数,所述第一子对象为成功申请所述目标合约,且所述目标合约的生效周期不超过所述预设周期的用户,所述基于所述历史违约率和所述 n个所述第二对象的所述至少一个目标特征,生成n个所述第二训练样本,包括:
89.基于所述历史违约率,将所述m个第一子对象划分为至少两个第一对象集合,其中,一个所述第一对象集合对应一个第一违约率;
90.基于所述第一违约率,确定所述第一违约率对应的所述第一对象集合中,每个第一子对象的类型标签,其中,所述类型标签包括第一标签和第二标签,所述m个第一子对象中,具有所述第一标签的第一子对象的数量与所述m个比值为所述第一违约率;
91.基于所述m个第一子对象的所述类型标签和所述m个第一子对象的所述至少一个目标特征,生成m个所述第二训练样本。
92.其中,所述m可以小于或等于所述n。所述第一子对象可以是指:成功申请贷款,且贷款合同的生效周期不超过所述预设周期的用户,在此情况下,无法获取所述第一子对象在所述预设周期内的还款情况,因此,无法基于所述第一子对象在所述预设周期内的还款情况确定所述第一子对象的类别标签。所述第一标签可以为“不良用户”,所述第二标签可以为“优质用户”。
93.具体地,由于违约率超过预设阈值的第二对象实际上可能并非不良用户。相应地,违约率低于预设阈值的第二对象实际上可能并非优质用户。因此,简单判断单一用户的违约率与预设阈值之间的关系,以确定该用户的类别标签,可能导致标签设置不准确的问题。
94.基于此,本公开实施例中,可以将违约率相同或相近的第一子对象划分至同一第一对象集合,并可以基于所述第一对象集合中的所有第一子对象的违约率,确定所述第一对象集合对应的第一违约率,例如,可以将所述第一对象集合中,所有第一子对象的平均违约率确定为所述第一对象集合对应的第一违约率。然后,可以基于所述第一违约率确定所述第一对象集合中,各个类型的用户的数量。
95.例如,当某一第一对象集合包括100个第一子对象,且所述第一对象集合对应的第一违约率为5%时,可以推断出该100个第一子对象中可能存在5%的不良用户,因此,可以从该100个第一子对象中任取5个第一子对象,并将该5个第一子对象的类别标签确定为“不良用户”,同时,将剩下95个第一子对象的类别标签确定为“优质用户”,从而可以获得 100个第二训练样本。如此,即可确定所述m个第一子对象的类别标签,从而得到所述m个第二样本。
96.请参见图3,可以预先建立分数段与违约率之间的对应关系表,然后,通过基于所获取到的每个第一子对象的所述至少一个目标特征对每个第一子对象分别进行评分,并确定每个第一子对象所述分数段,以确定其所对应的违约率。请参见图4,在本公开一个实施例中,假设所述m个第一子对象可以划分为20个第一对象集合,所述20个第一对象集合对应20 个第一违约率,则可以基于每个第一违约率在所述第一违约率所对应的第一对象集合中随机采样生成正样本和负样本,其中,所述正样本为类别标签确定为“不良用户”的样本,相应地,负样本为类别标签确定为“优质用户”的样本。例如,图3中按照第一违约率1随机采样生成样本的过程为:在所述第一违约率1所对应的第一对象集合1中,随机采样“第一违约率1
×
l”个第一子对象确定为正样本,采样后第一对象集合1中剩余的第一子对象确定为负
样本,其中,所述l为所述第一对象集合1中的第一子对象的数量。如此,即可得到所述m个第二训练样本。
97.该实施方式中,通过将违约率相同或相近的第一子对象划分至同一第一对象集合,并可以基于所述第一对象集合中的所有第一子对象的违约率,确定所述第一对象集合对应的第一违约率,然后,基于所述第一违约率确定所述第一对象集合中,各个类型的用户的数量。如此,相对于简单判断单一用户的违约率与预设阈值之间的关系,以确定该用户的类别标签而言,可以提高标签设置的准确性。
98.需要说明的是,基于本公开的技术方案构建的模型,并不是针对某一特定用户的分类模型,也并不能反映出某一特定用户的个人信息。同时,本公开实施例中所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
99.可选地,所述n个所述第二对象包括k个第二子对象,所述k为大于1的整数,所述第二子对象为申请所述目标合约失败的用户,所述基于所述历史违约率和所述n个所述第二对象的所述至少一个目标特征,生成 n个所述第二训练样本,包括:
100.基于所述历史违约率,将所述k个第二子对象划分为至少两个第二对象集合,其中,一个所述第二对象集合对应一个第二违约率;
101.基于所述第二违约率,确定所述第二违约率对应的所述第二对象集合中的每个第二子对象的类型标签,其中,所述类型标签包括第一标签和第二标签,所述k个第二子对象中,具有所述第二标签的第二子对象的数量与所述k个比值为所述第二违约率的s倍,所述s大于1;
102.基于所述k个第二子对象的所述类型标签和所述k个第二子对象的所述至少一个目标特征,生成k个所述第二训练样本。
103.其中,所述k可以小于或等于所述n。所述第二子对象可以是指:被拒绝贷款的用户。由于被拒绝贷款的用户并不一定是“不良用户”,例如,某一用户征信状况良好,但由于其在其他机构贷款额度相对较高,在此情况下,该用户可能被拒绝贷款。同时,由于所述第二子对象为被拒绝贷款的用户,因此,无法获取所述第二子对象在所述预设周期内的还款情况,进而无法基于所述第一子对象在所述预设周期内的还款情况确定所述第一子对象的类别标签。
104.基于此,本公开实施例进一步基于所述第二子对象的历史违约率,以确定所述第二子对象的类别标签。所述第一标签可以为“不良用户”,所述第二标签可以为“优质用户”。
105.具体地,可以将违约率相同或相近的第二子对象划分至同一第二对象集合,并可以基于所述第二对象集合中的所有第二子对象的违约率,确定所述第二对象集合对应的第二违约率,例如,可以将所述第二对象集合中,所有第二子对象的平均违约率确定为所述第二对象集合对应的第二违约率。然后,可以基于所述第二违约率确定所述第二对象集合中,各个类型的用户的数量。
106.由于所述第二子对象为被拒绝贷款的用户,因此,相对于第一子对象而言,其为不良用户的概率更大。即所述第二子对象为不良用户的概率可能大于其历史违约率。因此,在基于所述第二违约率确定所述第二对象集合中,各个类型的用户的数量时,可以在所述第二违约率的基础上,乘以一个系数s,以确保所设定的类别标签更接近真实情况。
107.例如,在本公开一个实施例中,所述s可以等于2。当某一第二对象集合包括100个
第二子对象,且所述第二对象集合对应的第一违约率为10 %时,可以从该100个第二子对象中任取(100*10%*2)=20个第二子对象,并将该20个第二子对象的类别标签确定为“不良用户”,同时,将剩下80个第二子对象的类别标签确定为“优质用户”,从而可以获得100 个第二训练样本。如此,即可确定所述k个第二子对象的类别标签,从而得到所述k个第二样本。
108.请参见图3,可以预先建立分数段与违约率之间的对应关系表,然后,通过基于所获取到的每个第二子对象的所述至少一个目标特征对每个第二子对象分别进行评分,并确定每个第二子对象所述分数段,以确定其所对应的违约率。请参见图5,在本公开一个实施例中,假设所述k个第一子对象可以划分为20个第二对象集合,所述20个第二对象集合对应20 个第二违约率,则可以基于每个第二违约率在所述第二违约率所对应的第二对象集合中随机采样生成正样本和负样本,其中,所述正样本为类别标签确定为“不良用户”的样本,相应地,负样本为类别标签确定为“优质用户”的样本。例如,图5中按照第二违约率1随机采样生成样本的过程为:在所述第二违约率1所对应的第二对象集合1中,随机采样“第二违约率1
×2×
d”个第二子对象确定为正样本,采样后第二对象集合1中剩余的第二子对象确定为负样本,其中,所述d为所述第二对象集合1中的第二子对象的数量。如此,即可得到所述k个第二训练样本。
109.该实施方式中,通过将违约率相同或相近的第二子对象划分至同一第二对象集合,并基于所述第二对象集合中的所有第二子对象的违约率,确定所述第二对象集合对应的第二违约率,然后,基于所述第二违约率确定所述第二对象集合中,各个类型的用户的数量。如此,相对于简单判断单一用户的违约率与预设阈值之间的关系,以确定该用户的类别标签而言,可以提高标签设置的准确性。
110.需要说明的是,基于本公开的技术方案构建的模型,并不是针对某一特定用户的分类模型,也并不能反映出某一特定用户的个人信息。同时,本公开实施例中所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
111.可选地,所述将所述第一训练样本输入预先构建的初始模型进行训练,得到用于对目标对象进行分类的第一模型之后,所述方法还包括:
112.获取第一测试集,其中,所述第一测试集包括至少两组测试数据,所述至少两组测试数据与至少两个第三对象一一对应,所述至少两个第三对象的所述身份属性特征满足预设分布条件;
113.将所述至少两组测试数据分别输入所述第一模型进行分类,得到所述第一模型输出的至少两组分类结果,其中,一组分类结果对应一组测试数据,所述分类结果包括第一标签和第二标签;
114.基于所述分类结果采用预设手段对所述第一模型进行评价,输出评价结果,其中,所述预设手段至少包括以下手段中的至少一项:
115.统计具有所述第一标签的所述第三对象的所述身份属性特征是否满足所述预设分布条件;
116.统计具有所述第二标签的所述第三对象的所述身份属性特征是否满足所述预设分布条件。
117.其中,所述身份属性特征可以包括性别属性特征、年龄属性特征,相应地,所述预
设分布条件可以包括性别比例、年龄分布情况。下文以“所述至少两个第三对象的性别比例满足第一比值,且所述至少两个第三对象的年龄分布满足第一分布条件,对本公开实施例提供的方法作进一步的解释说明。
118.具体地,所述第三对象对应的测试数据可以包括所述第三对象的所述至少一个目标特征。所述第一比值可以为1:1,所述第一分布条件可以是为:预先设置的各个年龄阶段中,每个年龄阶段的第三对象的数量相同。所述第一标签可以为“不良用户”,所述第二标签可以为“优质用户”。
119.在基于所述第一模型对测试数据进行分类的分类结果对所述第一模型进行评价的过程中,可以基于所述第一比值、第一分布条件确定所述第一模型是否存在歧视性问题。
120.具体而言,由于输入第一模型的测试数据中,所述至少两个第三对象的性别比例满足第一比值。因此,在第一模型进行分类之后,若每个类别中的性别比例均满足所述第一比值,则说明所述第一模型不存在性别歧视的问题。反之,若存在一个类别中的性别比例不满足所述第一比值,则说明所述第一模型可能存在性别歧视的问题。
121.基于此,本公开实施例中,在所述第一模型输出所述至少两个分类结果之后,基于所述分类结果统计具有所述第一标签的所述第三对象的性别比例是否满足所述第一比值。或者,基于所述分类结果统计具有所述第二标签的所述第三对象的性别比例是否满足所述第一比值。若具有所述第一标签的所述第三对象的性别比例满足所述第一比值,则具有所述第二标签的所述第三对象的性别比例也将满足所述第一比值,从而可以确定所述第一模型不存在性别歧视的问题。
122.相应地,由于输入第一模型的测试数据中,所述至少两个第三对象的年龄分布满足第一分布条件。因此,在第一模型进行分类之后,若每个类别中的各第三对象的年龄分布均满足所述第一分布条件,则说明所述第一模型不存在年龄歧视的问题。反之,若存在一个类别中的各第三对象的年龄分布不满足所述第一分布条件,则说明所述第一模型可能存在年龄歧视的问题。
123.在本公开一个实施例中,可以同时基于上述三种手段对所述第一模型进行评价,若基于上述三种手段确定所述第一模型不存在性别歧视、年龄歧视,则可以输出所述第一模型满足公平性要求的评价结果。相应地,若第一模型存在性别歧视、年龄歧视中的至少一者,则可以输出所述第一模型不满足公平性要求的评价结果,在此情况下,可以进一步对所述第一模型进行训练。
124.在本公开另一实施例中,所述将所述第一训练样本与所述第二训练样本分别输入所述第一模型进行训练,得到第二模型之后,所述方法还包括:
125.获取第一测试集,其中,所述第一测试集包括至少两组测试数据,所述至少两组测试数据与至少两个第三对象一一对应,所述至少两个第三对象的所述身份属性特征满足预设分布条件;
126.将所述至少两组测试数据分别输入所述第二模型进行分类,得到所述第二模型输出的至少两组分类结果,其中,一组分类结果对应一组测试数据,所述分类结果包括第一标签和第二标签;
127.基于所述分类结果采用预设手段对所述第二模型进行评价,输出评价结果,其中,所述预设手段至少包括以下手段中的至少一项:
128.统计具有所述第一标签的所述第三对象的所述身份属性特征是否满足所述预设分布条件;
129.统计具有所述第二标签的所述第三对象的所述身份属性特征是否满足所述预设分布条件。
130.通过上述步骤即可实现对所述第二模型的公平性进行评价,其具体实现过程与上述实施例类似,为避免重复,在此不再予以赘述。
131.该实施方式中,通过判断第一模型对测试数据进行分类输出的分类结果中,各个类别中的第三对象的身份属性特征的分布情况是否与测试数据中的第三对象的身份属性特征的分布情况相对应,以实现对模型公平性的评价过程。
132.需要说明的是,基于本公开的技术方案构建的模型,并不是针对某一特定用户的分类模型,也并不能反映出某一特定用户的个人信息。同时,本公开实施例中所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
133.在本公开另一实施例中,所述预设手段还包括:评价所述第一模型输出的分类结果是否符合公理,例如,所述公理可以包括:在同等情况下,用户的收入越高,其信用越好。如此,通过判断所述第一模型的输出结果是否满足公理,以确定所述第一模型是否合格。
134.在本公开另一实施例中,所述至少两组测试数据中,各个类别的测试数据的数量相同。在此情况下,所述预设手段还可以包括:统计具有所述第一标签的第三对象的数量与具有所述第二标签的所述第三对象的数量是否相等。如此,通过判断第一模型输出的分类结果中,各类别的数据数量是否与测试数据中的各类别的数据数量相匹配,以确定所述第一模型是否合格。
135.在本公开另一实施例中,还可以通过统计所述第一模型输出的分类结果中对,不同性别的第三对象分类的auc精度及ks精度是否相等,以确定所述第一模型的公平性。同时,还可以通过统计所述第一模型输出的分类结果中对,不同年龄的第三对象分类的auc精度及ks精度是否相等,以确定所述第一模型的公平性。
136.在本公开另一实施例中,可以基于上述模型构建方法分人群构建不同的模型,具体而言,可以针对不同年龄阶段分别构建不同的所述第一模型或所述第二模型。例如,针对0-20岁、21-40岁、41-60岁、61岁以上分别构建对应的模型。这样,在对目标对象进行分类时,可以获取所述目标对象的年龄,将所述目标对象的所述至少一个目标特征输入与其年龄所对应的模型进行分类。如此,可以进一步提高模型分类的公平性。
137.此外,还可以基于不同性别构建不同的第一模型或第二模型。
138.上述第一模型可以是树模型,其中,所述树模型中的每个叶子节点中可以包括一个分类条件,如此,仅需将所述目标对象的所述至少一个目标特征输入所述树模型,即可完成对所述目标对象的分类。其中,在构建所述第一模型的过程中,所述树模型的每个叶子节点需要满足如下两个条件: 1,不可只覆盖单个样本;2、不可只覆盖单个类别。如此,可以进一步提高所述第一模型的分类效果。
139.请参见图6,为本公开实施例提供的一种分类方法的流程图,所述分类方法包括以下步骤:
140.步骤s601、获取目标对象的至少一个第一目标特征,所述第一目标特征为所述目标对象的身份属性特征之外的其他特征;
141.步骤s602、将所述目标对象的所述至少一个第一目标特征输入第一模型进行分类,得到所述第一模型输出的所述目标对象的所属类别;
142.其中,所述第一模型为基于第一训练样本对预先构建的初始模型进行训练,得到用于对所述目标对象进行分类的模型,所述第一训练样本包括第一对象的至少一个第二目标特征,所述第二目标特征为所述第一对象的身份属性特征之外的其他特征。
143.可以理解的是,由于本公开实施例中的第一模型是基于上述实施例提供的模型构建方法所构建的模型,因此,本公开通过基于第一模型对目标对象进行分类可以实现上述实施例中的全部有益效果,为避免重复,在此不再予以赘述。
144.该实施方式中,通过基于身份属性特征之外的其他特征构建第一训练样本,并基于第一训练样本训练得到第一模型。这样,可以避免第一模型因学习到样本中的身份属性特征,而依据身份属性特征做出相应地决策问题,进而可以避免第一模型因对象的身份不同而做出不同决策的问题。如此,有利于提高第一模型对目标对象进行分类的公平性。
145.可选地,所述将所述目标对象的所述至少一个第一目标特征输入第一模型进行分类,得到所述第一模型输出的所述目标对象的所属类别,包括:
146.所述将所述目标对象的所述至少一个第一目标特征输入第二模型进行分类,得到所述第二模型输出的所述目标对象的所属类别,其中,所述第二模型为将所述第一训练样本与第二训练样本分别输入所述第一模型进行训练,得到的训练后的模型;所述第二训练样本为基于第二对象的所述至少一个目标特征生成的样本,其具体生成过程与上述实施例相同,为避免重复,在此不再予以赘述。
147.需要说明的是,本公开的技术方案分类方法,并不是针对某一特定用户进行分类的方法,也并不能反映出某一特定用户的个人信息。同时,本公开实施例中所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
148.请参见图7,为本公开实施例提供的一种模型构建装置700的结构示意图,所述模型构建装置700包括:
149.第一获取模块701,用于获取第一训练样本,其中,所述第一训练样本包括第一对象的至少一个目标特征,所述目标特征为所述第一对象的身份属性特征之外的其他特征;
150.训练模块702,用于将所述第一训练样本输入预先构建的初始模型进行训练,得到用于对目标对象进行分类的第一模型。
151.可选地,所述目标特征与所述身份属性特征的语义相关性小于预设值。
152.可选地,所述第一对象为成功申请目标合约,且所述目标合约的生效周期超过预设周期的用户,所述第一模型为用于对申请所述目标合约的所述目标对象进行分类的模型,所述第一获取模块701,还用于获取第二对象的所述至少一个目标特征,所述第二对象为所述第一对象之外的其他对象;所述装置还包括:
153.生成模块,用于基于所述第二对象的所述至少一个目标特征,生成第二训练样本;
154.所述训练模块702,还用于将所述第一训练样本与所述第二训练样本分别输入所述第一模型进行训练,得到第二模型。
155.可选地,所述生成模块,包括:
156.第一获取子模块,用于获取所述第二对象的历史违约率;
157.第一生成子模块,用于基于所述历史违约率和所述第二对象的所述至少一个目标
特征,生成第二训练样本。
158.可选地,所述第一获取模块701,具体用于获取n个所述第二对象的所述至少一个目标特征,所述n为大于1的整数;
159.所述第一获取子模块,具体用于分别获取所述n个所述第二对象的历史违约率;
160.所述第一生成子模块,具体用于基于所述历史违约率和所述n个所述第二对象的所述至少一个目标特征,生成n个所述第二训练样本;
161.所述训练模块702,具体用于将所述第一训练样本与所述n个所述第二训练样本分别输入所述第一模型进行训练,得到第二模型。
162.可选地,所述n个所述第二对象包括m个第一子对象,所述m为大于1的整数,所述第一子对象为成功申请所述目标合约,且所述目标合约的生效周期不超过所述预设周期的用户,所述第一生成子模块,包括:
163.第一划分单元,用于基于所述历史违约率,将所述m个第一子对象划分为至少两个第一对象集合,其中,一个所述第一对象集合对应一个第一违约率;
164.第一确定单元,用于基于所述第一违约率,确定所述第一违约率对应的所述第一对象集合中,每个第一子对象的类型标签,其中,所述类型标签包括第一标签和第二标签,所述m个第一子对象中,具有所述第一标签的第一子对象的数量与所述m个比值为所述第一违约率;
165.第一生成单元,用于基于所述m个第一子对象的所述类型标签和所述m个第一子对象的所述至少一个目标特征,生成m个所述第二训练样本。
166.可选地,所述n个所述第二对象包括k个第二子对象,所述k为大于1的整数,所述第二子对象为申请所述目标合约失败的用户,所述第一生成子模块,包括:
167.第二划分单元,用于基于所述历史违约率,将所述k个第二子对象划分为至少两个第二对象集合,其中,一个所述第二对象集合对应一个第二违约率;
168.第二确定单元,用于基于所述第二违约率,确定所述第二违约率对应的所述第二对象集合中的每个第二子对象的类型标签,其中,所述类型标签包括第一标签和第二标签,所述k个第二子对象中,具有所述第一标签的第二子对象的数量与所述k个比值为所述第二违约率的s倍,所述s 大于1;
169.第二生成单元,用于基于所述k个第二子对象的所述类型标签和所述 k个第二子对象的所述至少一个目标特征,生成k个所述第二训练样本。
170.可选地,所述第一获取模块701,还用于获取第一测试集,其中,所述第一测试集包括至少两组测试数据,所述至少两组测试数据与至少两个第三对象一一对应,所述至少两个第三对象的所述身份属性特征满足预设分布条件;所述装置还包括:
171.第一分类模块,用于将所述至少两组测试数据分别输入所述第一模型进行分类,得到所述第一模型输出的至少两组分类结果,其中,一组分类结果对应一组测试数据,所述分类结果包括第一标签和第二标签;
172.评价模块,用于基于所述分类结果采用预设手段对所述第一模型进行评价,输出评价结果,其中,所述预设手段至少包括以下手段中的至少一项:
173.统计具有所述第一标签的所述第三对象的所述身份属性特征是否满足所述预设分布条件;
174.统计具有所述第二标签的所述第三对象的所述身份属性特征是否满足所述预设分布条件。
175.需要说明地,本实施例提供的模型构建装置700能够实现上述模型构建方法实施例的全部技术方案,因此至少能够实现上述全部技术效果,此处不再赘述。
176.请参见图8,为本公开实施例提供的一种分类装置800的结构示意图,所述分类装置800包括:
177.第二获取模块801,用于获取目标对象的至少一个第一目标特征,所述第一目标特征为所述目标对象的身份属性特征之外的其他特征;
178.第二分类模块802,用于将所述目标对象的所述至少一个第一目标特征输入第一模型进行分类,得到所述第一模型输出的所述目标对象的所属类别;
179.其中,所述第一模型为基于第一训练样本对预先构建的初始模型进行训练,得到用于对所述目标对象进行分类的模型,所述第一训练样本包括第一对象的至少一个第二目标特征,所述第二目标特征为所述第一对象的身份属性特征之外的其他特征。
180.需要说明地,本实施例提供的分类装置800能够实现上述分类方法实施例的全部技术方案,因此至少能够实现上述全部技术效果,此处不再赘述。
181.需要说明的是,基于本公开的技术方案构建的模型,并不是针对某一特定用户的分类模型,也并不能反映出某一特定用户的个人信息。同时,本公开实施例中所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
182.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
183.图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
184.如图9所示,电子设备900包括计算单元901,其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序,来执行各种适当的动作和处理。在ram903中,还可存储设备900操作所需的各种程序和数据。计算单元 901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o) 接口905也连接至总线904。
185.电子设备900中的多个部件连接至i/o接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
186.计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,
例如模型构建方法或者分类方法。例如,在一些实施例中,模型构建方法或者分类方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由rom 902和/或通信单元909而被载入和/或安装到设备 900上。当计算机程序加载到ram 903并由计算单元901执行时,执行上文描述的模型构建方法或者分类方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行模型构建方法或者分类方法。
187.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
188.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
189.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
190.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。
191.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
192.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
193.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
194.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1