基于用户分类的模型训练、业务分配方法、装置及设备与流程

文档序号:25702718发布日期:2021-06-30 00:36阅读:79来源:国知局
基于用户分类的模型训练、业务分配方法、装置及设备与流程

1.本说明书实施例涉及人工智能技术领域,特别涉及一种业务分配方法、装置及设备。


背景技术:

2.随着各行各业的发展,对于业务类型的细分程度也在不断提高。这些业务可以是为用户提供相应服务的业务,也可以是需要用户及时进行处理的业务,相应的,不同类型的用户所需要获取的业务也都不尽相同。因此,预先根据用户的相关信息,判断用户可能会获取的业务,从而预先准备好相应业务对应的数据和资源,能够有效提高后续过程中的业务处理效率,改善用户的体验。
3.目前在预测用户获取的业务时,往往预先获取大量的样本数据,并利用这些样本数据训练相应的机器学习模型,从而利用训练后的机器学习模型实现对不同用户所需的业务进行预测的效果。但是,目前在获取到样本数据后,往往需要对这些样本数据进行标注。而为了保证模型的准确性,样本数据一般具有较为庞大的数量,对这些样本数据进行标注不仅需要消耗较大的时间和资源,对于标注者的专业知识需求也较高,从而影响模型的实际训练效果。因此,目前亟需一种能够快速准确地训练模型以保证用户的业务预测效果的方法。


技术实现要素:

4.本说明书实施例的目的是提供一种基于用户分类的模型训练、业务分配方法、装置及设备,以解决如何快速准确地训练模型以保证用户的业务预测效果的问题。
5.为解决上述技术问题,本说明书实施例提供一种基于用户分类的模型训练方法,包括:获取用户样本数据;所述用户样本数据包括有标签数据和无标签数据;所述有标签数据基于用户的业务处理记录对应有用户类别;通过对应于所述无标签数据的近邻有标签数据确定无标签数据的用户类别概率;所述近邻有标签数据包括与无标签数据之间的差异小于指定差距阈值的有标签数据;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;所述用户分类模型用于根据用户信息确定用户分类以分配用户对应于所述用户分类的业务。
6.本说明书实施例还提出一种基于用户分类的模型训练装置,包括:用户样本数据获取模块,用于获取用户样本数据;所述用户样本数据包括有标签数据和无标签数据;所述有标签数据基于用户的业务处理记录对应有用户类别;用户类别概率确定模块,用于通过对应于所述无标签数据的近邻有标签数据确定无标签数据的用户类别概率;所述近邻有标
签数据包括与无标签数据之间的差异小于指定差距阈值的有标签数据;所述用户类别概率包括无标签数据属于各个用户类别的概率;近邻相似正则化特征构造模块,用于基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;分类正则化特征生成模块,用于利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;用户分类模型获取模块,用于综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;所述用户分类模型用于根据用户信息确定用户分类以分配用户对应于所述用户分类的业务。
7.本说明书实施例还提出一种业务分配设备,包括存储器和处理器;所述存储器,用于存储计算机程序指令;所述处理器,用于执行所述计算机程序指令以实现以下步骤:获取用户样本数据;所述用户样本数据包括有标签数据和无标签数据;所述有标签数据基于用户的业务处理记录对应有用户类别;通过对应于所述无标签数据的近邻有标签数据确定无标签数据的用户类别概率;所述近邻有标签数据包括与无标签数据之间的差异小于指定差距阈值的有标签数据;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;所述用户分类模型用于根据用户信息确定用户分类以分配用户对应于所述用户分类的业务。
8.为了解决上述技术问题,本说明书实施例还提出一种基于用户分类的业务分配方法,包括:获取目标用户的用户特征信息;将所述用户特征信息输入用户分类模型,得到用户类别;所述用户分类模型,通过以下方式获得:获取到包含有标签数据和无标签数据的用户样本数据后,根据有标签数据和无标签数据确定用户类别概率;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;将对应于所述用户类别的业务分配至所述目标用户。
9.本说明书实施例还提出一种基于用户分类的业务分配装置,包括:用户特征信息获取模块,用于获取目标用户的用户特征信息;用户类别获取模块,用于将所述用户特征信息输入用户分类模型,得到用户类别;所述用户分类模型,通过以下方式获得:获取到包含有标签数据和无标签数据的用户样本数据后,根据有标签数据和无标签数据确定用户类别概率;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;业务分配模块,用于将对应于所述用户类别的业务分配至所述目标用户。
10.本说明书实施例还提出一种基于用户分类的业务分配设备,包括存储器和处理器;所述存储器,用于存储计算机程序指令;所述处理器,用于执行所述计算机程序指令以实现以下步骤:获取目标用户的用户特征信息;将所述用户特征信息输入用户分类模型,得到用户类别;所述用户分类模型,通过以下方式获得:获取到包含有标签数据和无标签数据的用户样本数据后,根据有标签数据和无标签数据确定用户类别概率;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;将对应于所述用户类别的业务分配至所述目标用户。
11.由以上本说明书实施例提供的技术方案可见,本说明书实施例在获取到用户样本数据后,只针对其中的部分数据进行标注,进而在考虑有标签数据和无标签数据之间的关联性的情况下,依次确定用户类别概率和近邻相似正则化特征,结合与信息类别相对应的分类正则化特征,实现对于用户分类模型的训练,从而能够利用所述用户分类模型完成用户的分类,进而根据用户类别为用户分配相应的业务。通过上述方法,减少了大量标注数据所消耗的时间和资源,充分挖掘了数据之间的关联关系,优化了分类模型的泛化效果,提升了用户的业务处理体验。
附图说明
12.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
13.图1为本说明书实施例一种基于用户分类的模型训练方法的流程图;
14.图2为本说明书实施例一种模型训练过程的示意图;
15.图3为本说明书实施例一种业务分配过程的示意图;
16.图4为本说明书实施例一种基于用户分类的业务分配方法的流程图;
17.图5为本说明书实施例一种基于用户分类的模型训练装置的模块图;
18.图6为本说明书实施例一种基于用户分类的业务分配装置的模块图;
19.图7为本说明书实施例一种基于用户分类的模型训练设备的结构图;
20.图8为本说明书实施例一种基于用户分类的业务分配设备的结构图。
具体实施方式
21.下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
22.为了解决上述技术问题,首先介绍本说明书实施例一种基于用户分类的模型训练
方法。所述基于用户分类的模型训练方法的执行主体可以为基于用户分类的模型训练设备。所述基于用户分类的模型训练设备包括但不限于服务器、工控机、pc机等。如图1所示,所述基于用户分类的模型训练方法可以包括以下具体实施步骤。
23.s110:获取用户样本数据;所述用户样本数据包括有标签数据和无标签数据;所述有标签数据基于用户的业务处理记录对应有用户类别。
24.用户样本数据可以是用于训练模型的样本数据。所述用户样本数据可以是用户自身的基本信息,例如学历、性别、年龄等数据,也可以是用户处理业务的历史记录信息。具体的,所述用户样本数据中可以包括有标签数据和无标签数据。在机器学习领域中,基于部分有标签数据和部分无标签数据进行建模学习具备快速准确的特点,具有较好的应用价值。
25.所述有标签数据即为标注有相应的标签的数据。所述标签可以是用户类别,具体的,所述用户类别可以是基于用户的业务处理记录所设置的。所述用户类别是结合用户的业务处理情况对用户进行分类后所得到的结果,具体的,所述用户类别可以包括正向类别和负向类别,分别表示历史业务处理量多和历史业务处理量少的情况。
26.优选的,为了减少标注数据所消耗的时间,所述有标签数据对应于用户样本数据的整体可以只具备一个较小的比例。
27.在一些实施方式中,为用户样本数据添加标签可以是在确定需要进行标注的部分用户样本数据之后,先确定这些用户样本数据所对应的测试用户。之后,可以获取这些测试用户在预设测试时间内的业务处理记录,进而基于所述业务处理记录为对应于测试用户的用户样本数据添加标签。所述预设测试时间可以基于实际应用的需求进行设置,例如可以设置为3条、7天、一个月、三个月等。
28.利用一个具体的示例进行说明,假设所添加的标签包括正类标签和负类标签。正类标签可以表示用户具有较为频繁的业务处理记录,负类标签可以表示用户在近期几乎不存在业务处理记录。相应的,所述预设测试时间可以设置为3个月。则在获取到测试用户在三个月内的业务处理记录后,若所述测试用户在三个月内存在业务处理记录,则标记正类标签;若所述测试用户在三个月内不存在业务处理记录,则标记负类标签。
29.上述实施方式只是一种结合标签类别所设计的具体示例,实际应用中基于标签的不同类型可以采取其他的方式来对数据进行标记,在此不再赘述。
30.s120:通过对应于所述无标签数据的近邻有标签数据确定无标签数据的用户类别概率;所述近邻有标签数据包括与无标签数据之间的差异小于指定差距阈值的有标签数据;所述用户类别概率包括无标签数据属于各个用户类别的概率。
31.在获取所述有标签数据和无标签数据之后,可以利用所述有标签数据确定所述无标签数据的用户类别概率。在有标签数据的标签已经对相应的用户类别进行标识的情况下,可以基于无标签数据与有标签数据之间的相似程度,确定无标签数据对应于各个用户类别的概率。所述用户类别概率即用于表示无标签数据归属于各个用户类别的概率。
32.具体的,可以是通过近邻有标签数据来确定所述用户类别概率。所述近邻有标签数据是在有标签数据中,与无标签数据之间的差异小于指定差距阈值的数据。所述指定差异阈值用于表示同一个类别中的数据之间的最大差异程度。
33.在一些实施方式中,确定有标签数据和无标签数据之间的差异可以是通过k近邻相似算法来确定。k近邻相似算法的思想为特征空间中的k个最相似(即特征空间中最邻近)
的样本中的大多数属于某一个类别,通过计算不同样本数据之间的欧式距离,可以根据不同样本之间的距离远近实现样本数据的分类。具体的实施方式可以基于实际应用的情况进行设置,在此对实现过程不再赘述。
34.在确定无标签数据的近邻有标签数据之后,可以统计所述近邻有标签数据中对应于不同用户类别的数量,从而确定所述用户类别概率。假设用户类别包括正向类别和负向类别,相应的用户类别概率也包括正向类别概率和负向类别概率,则正向类别概率p
+
(x
u
)=k
+
/k,式中,k
+
为近邻有标签数据中正类样本的个数,k为近邻有标签数据的个数,负向类别概率p

(x
u
)=k

/k,式中,k

为近邻有标签数据中负类样本的个数。
35.在一些实施方式中,在求取所述用户类别概率之前,还可以对所述用户样本数据进行预处理。所述预处理包括将所述用户样本数据构建为分别对应于各个用户的原始特征,再基于预设特征字段对所述原始特征进行补全。
36.由于样本数据所对应的数据表可以是基于不同的数据类型而分别获取的,因此在得到样本数据后,可以将不同的数据表中的数据列按照用户标识进行汇集,从而得到对应于各个用户的原始特征。相应的,为了保障后续过程中能够对所述原始特征进行有效利用,对于所述原始特征中的缺失值列,可以进行补全。所述预设特征字段可以是对应于不同的补全规则的字段。例如,对于原始特征中数值特征的缺失值,预设特征字段可以为“0”值进行补全;对于其中非数值特征的缺失值,预设特征字段可以为“unknown”值进行补全。实际应用中还可以根据需求利用其他预设特征字段实现原始特征的补全,并不限于上述示例,在此不再赘述。
37.在一些实施方式中,所述用户样本数据可以是构建得到的特征的形式,从而能够在后续的模型训练过程中得到更好的应用,即所述用户样本数据可以为用户信息特征。
38.在获取所述用户信息特征时,可以先基于采集得到的用户信息构建原始特征,具体的构建原始特征的方式可以参照上述实施方式中的介绍,在此不再赘述。针对原始特征中的类别特征进行编码,其中,类别特征包括学历、性别中的至少一种特征,编码的方式可以是one

hot编码。
39.基于用户样本数据对应于时间的不同特征还可以构建时间序列历史特征和时间序列聚合特征。
40.所述时间序列历史特征可以表示相应的时间区间内的用户样本数据所构成的特征,具体的可以利用f
his
=[feature
time
,time=1,2,3,4,5,6]进行构造,该式可以表示当时间段分别取前第一个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月时,利用不同时间区间内的用户样本数据所构建得到的特征。
[0041]
所述时间序列聚合特征可以表示基于时间区间和获取特征的方式而得到的特征,具体的可以利用f
agg
=[f(feature)
time
,time=1

3,1

6,1

9,1

12]获取时间序列聚合特征f
agg
,式中的f()分别取mean()平均值、max()最大值、min()最小值、std()标准差,时间段可以分别取前1个月、前3个月、前6个月、前第12个月,从而实现基于某项取数方式对一定时间区间内的样本数据特征进行聚合。实际应用中所获取的特征类别也并不限于上述具体示例,在此不再赘述。
[0042]
在得到原始特征、时间序列历史特征和时间序列聚合特征之后,可以综合这些特征得到用于进行后续的模型训练过程的特征,从而便于模型训练的进行。
[0043]
s130:基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据。
[0044]
在获取到用户类别概率之后,可以基于所述用户类别概率构造近邻相似正则化特征。近邻相似正则化特征是在考虑无标签数据和有标签数据之间的相互关系的情况下所构造的特征数据,从而充分学习无标签数据和近邻有标签数据之间的潜在分布信息。
[0045]
具体的,在所述用户类别包括正向类别和负向类别的情况下,可以利用公式确定近邻相似正则化特征,式中,r
ns
为近邻相似正则化特征,x
u
为无标签数据,|x
u
|为无标签数据个数,p
+
(x
u
)为无标签数据对应于正向类别的用户类别概率,p

(x
u
)为无标签数据对应于负向类别的用户类别概率,为将样本数据输入子分类器后得到的分类结果,所述子分类器用于确定用户类别,ω
+
为正向类别,ω

为负向类别。
[0046]
优选的,在所述用户样本数据是基于不同的信息类别而获取到的情况下,在构造近邻相似正则化特征时,也可以针对各个信息类别分别构造所述近邻相似正则化特征。具体的,结合上述公式,其中的子分类器f可以是在对应于其中一个信息类别的子分类器,相应的,各个信息类别也都对应有各自的子分类器。通过分别获取不同信息类别下的近邻相似正则化特征,从而最大化地区分了不同视角下相应数据的差异性,提高了数据的区分度,有利于模型的训练效果。
[0047]
所述信息类别可以是对应于用户样本数据的不同特征的类别。在一些实施方式中,所述信息类别可以包括用户基本信息类别、业务信息类别和交易信息类别。所述用户基本信息类别可以是用户自身的信息所对应的类别,例如可以是用户的学历、年龄、性别等用户信息;业务信息类别可以是相应的业务所属的类别,例如在金融领域,可以是取款业务、转账业务、查询业务等不同类型的业务。交易信息类别可以用于表示用户在处理业务时的具体交互信息,例如业务处理时间、业务处理具体流程等信息。实际应用中也可以根据需求确定其他信息类别,并不限于上述示例,在此不再赘述。
[0048]
s140:利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别。
[0049]
在构造得到近邻相似正则化特征之后,还可以利用用户样本数据生成对应于不同信息类别的分类正则化特征。所述分类正则化特征是在考虑不同信息类别的特征之间相互影响的效果后,所获取到的特征。
[0050]
在本实施例中,针对不同信息类别分别设置有相应的子分类器,不同的子分类器用于根据不同信息类别的信息实现用户的分类。为了使得不同的子分类器均能够取得相应的技术效果,不同信息类别下对应的子分类器的输出也都不尽相同,从而避免各个子分类器趋于一致,提高模型的泛化效果。相应的,在各个分类器输出不完全一致的情况下,也需要综合考虑不同的子分类器之间的结果的影响程度,进而实现对子分类器的优化。所述分类正则化特征即是为了获取这些子分类器的结果差异而构建的特征。
[0051]
具体的,可以利用公式获取分类正则化特征,式中,r
vm
为分类正则化特征,x
u
为无标签数据,|x
u
|为无标签数据个数,f1为对应于用户基本信息类别的子分类器,f2为对应于业务信息类别的子分类器,f3为对应于交易信息类别的子分类器,所述子分类器用于确定用户类别。上述公式是在信息类别为基本信息类别、业务信息类别和交易信息类别的情况下所构建的公式,实际应用中基于信息类别的数量以及信息类别的具体类型可以对上述公式进行相应调整,在此不做赘述。
[0052]
s150:综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;所述用户分类模型用于根据用户信息确定用户分类以分配用户对应于所述用户分类的业务。
[0053]
由于所述近邻相似正则化特征、分类正则化特征均能够反映子分类器的分类效果,因此基于近邻相似正则化特征、分类正则化特征的值可以对子分类器所对应的模型进行优化以得到最终的用户分类模型。
[0054]
在一些实施方式中,训练过程可以是基于经验损失、l2正则化损失、近邻相似正则化特征和分类正则化特征计算目标函数。经验损失可以是根据有标签数据求取得到的损失,用于反映子分类器在有标签数据上的拟合程度。基于经验损失的大小也可以进一步对模型进行优化。l2正则化损失用于限制参数过多时造成的过拟合现象,提高模型的泛化能力。
[0055]
目标函数可以是用于评估模型效果的函数。具体的,可以是利用公式计算目标函数,式中,l为目标函数,r
emp
为经验损失,r
ns
为近邻相似正则化特征,r
vm
为分类正则化特征,r
reg
为l2正则化损失,α、β、γ为超参数。
[0056]
在获得对应于目标函数的结果后,基于所述目标函数的值可以对子分类器进行优化,具体的,可以结合目标函数,利用梯度下降法求取对应的优化问题。重复执行获取对应于子分类器的目标函数、基于目标函数对子分类器进行优化的步骤,直至达到预设迭代次数或优化前后测试结果的损失值之差小于预设阈值,完成子分类器的优化,可以利用所述子分类器构建最终的用户分类模型。基于以上示例,在信息类别包括基本信息类别、业务信息类别和交易信息类别的情况下,优化得到的子分类器分别为f1、f2、f3,相应地与上述信息类别对应。
[0057]
所述用户分类模型可以是在综合优化后的子分类器后所得到的模型,具体的,可以利用公式获取用户分类模型,式中,f(x)为用户分类模型,f
v
为子分类器,x为用户信息,ω1为第一用户类别,ω2为第二用户类别。上述示例只是在子分类器对应于上述三种信息类别的情况下所设置的公式,实际应用中可以根据具体的信息类别确定相应的生成用户分类模型的公式,并不限于上述示例,在此不再赘述。
[0058]
在一些实施方式中,训练完成所述用户分类模型之后,可以利用测试数据针对所
述用户分类模型进行测试。具体的,可以是利用公式进行测试。通过输入相应的测试数据x,比对测试结果和测试数据对应的实际类别,从而验证用户分类模型的准确性。
[0059]
在得到所述用户分类模型之后,即可将需要分析的数据输入所述用户分类模型,根据所输出的用户分类结果,确定对应的业务,从而为用户分配该业务。
[0060]
下面结合图2和图3,利用一个具体的示例对上述方法的流程进行说明。
[0061]
图2为对应于模型训练过程的流程示意图。其中,在获取到少量有标签样本和大量无标签样本后,利用所述少量有标签样本可以单独计算经验损失。而结合所述少量有标签样本和大量无标签样本,分别从基础信息视角、交易信息视角和产品信息视角构建对应的近邻信息,再利用近邻信息分别确定各个视角下的近邻相似正则化项。此外,综合各个视角下的信息,还可以确定视角多样性正则化项。结合所述经验损失、视角多样正则化、近邻相似性正则化项以及l2正则化,即可实现用户分类模型的训练。
[0062]
图3为对应于具体的训练及测试过程的示意图。从数据仓库中获取数据后,对数据进行预处理,并基于特征工程构建相应的特征后,将这些特征划分为训练样本和测试样本,利用训练样本完成用户分类模型的训练,利用测试样本可以获取对应于用户分类模型的预测结果,进而可以基于预测结果判断模型的准确性,实现模型的优化。
[0063]
基于上述实施例和示例的介绍,可以看出,所述方法在获取到用户样本数据后,只针对其中的部分数据进行标注,进而在考虑有标签数据和无标签数据之间的关联性的情况下,依次确定用户类别概率和近邻相似正则化特征,结合与信息类别相对应的分类正则化特征,实现对于用户分类模型的训练,从而能够利用所述用户分类模型完成用户的分类,进而根据用户类别为用户分配相应的业务。通过上述方法,减少了大量标注数据所消耗的时间和资源,充分挖掘了数据之间的关联关系,优化了分类模型的泛化效果,提升了用户的业务处理体验。
[0064]
基于图1所对应的基于用户分类的模型训练方法,介绍本说明书实施例中的一种基于用户分类的业务分配方法。所述基于用户分类的业务分配方法的执行主体可以是基于用户分类的业务分配设备。如图4所示,所述基于用户分类的业务分配方法可以包括以下具体实施步骤。
[0065]
s410:获取目标用户的用户特征信息。
[0066]
目标用户可以是需要为其分配业务,或需要预测其需要执行的业务的用户。用户特征信息即为对应于所述目标用户的信息。所述用户特征信息可以根据用户分类模型的需求进行设置,例如,所述用户特征信息可以是用户自身的身份信息、也可以是用户所处理的历史业务的信息等等,对此不做限制。
[0067]
s420:将所述用户特征信息输入用户分类模型,得到用户类别;所述用户分类模型,通过以下方式获得:获取到包含有标签数据和无标签数据的用户样本数据后,根据有标签数据和无标签数据确定用户类别概率;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所
述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型。
[0068]
在获取所述用户特征信息之后,可以将用户特征信息输入用户分类模型。由于用户分类模型能够根据用户特征信息确定用户对应的类别,因此可以输出相应的用户类别。具体的对于所述用户分类模型的介绍以及获取方法可以参照图1所对应的实施例中的介绍,在此不再赘述。
[0069]
s430:将对应于所述用户类别的业务分配至所述目标用户。
[0070]
基于不同的用户类别,可以预先设置相应的业务,在确定对应于所述目标用户的用户类别后,即可将该用户类别所对应的业务分配至所述目标用户。
[0071]
具体的确定用户类别与业务之间的对应关系可以通过管理人员直接指定,也可以基于历史数据训练得到。具体的获取方式可以基于实际应用情况进行设置,在此不再赘述。
[0072]
基于图1所对应的基于用户分类的模型训练方法,介绍本说明书实施例一种基于用户分类的模型训练装置。如图5所示,所述基于用户分类的模型训练装置包括以下模块。
[0073]
用户样本数据获取模块510,用于获取用户样本数据;所述用户样本数据包括有标签数据和无标签数据;所述有标签数据基于用户的业务处理记录对应有用户类别。
[0074]
用户类别概率确定模块520,用于通过对应于所述无标签数据的近邻有标签数据确定无标签数据的用户类别概率;所述近邻有标签数据包括与无标签数据之间的差异小于指定差距阈值的有标签数据;所述用户类别概率包括无标签数据属于各个用户类别的概率。
[0075]
近邻相似正则化特征构造模块530,用于基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据。
[0076]
分类正则化特征生成模块540,用于利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别。
[0077]
用户分类模型获取模块550,用于综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;所述用户分类模型用于根据用户信息确定用户分类以分配用户对应于所述用户分类的业务。
[0078]
基于图4所对应的基于用户分类的业务分配方法,介绍本说明书实施例一种基于用户分类的业务分配装置。如图6所示,所述基于用户分类的业务分配装置包括以下模块。
[0079]
用户特征信息获取模块610,用于获取目标用户的用户特征信息。
[0080]
用户类别获取模块620,用于将所述用户特征信息输入用户分类模型,得到用户类别;所述用户分类模型,通过以下方式获得:获取到包含有标签数据和无标签数据的用户样本数据后,根据有标签数据和无标签数据确定用户类别概率;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型。
[0081]
业务分配模块630,用于将对应于所述用户类别的业务分配至所述目标用户。
[0082]
基于图1所对应的基于用户分类的模型训练方法,本说明书实施例提供一种基于用户分类的模型训练设备。如图7所示,所述基于用户分类的模型训练设备可以包括存储器和处理器。
[0083]
在本实施例中,所述存储器可以按任何适当的方式实现。例如,所述存储器可以为只读存储器、机械硬盘、固态硬盘、或u盘等。所述存储器可以用于存储计算机程序指令。
[0084]
在本实施例中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit,asic)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机程序指令实现以下步骤:获取用户样本数据;所述用户样本数据包括有标签数据和无标签数据;所述有标签数据基于用户的业务处理记录对应有用户类别;通过对应于所述无标签数据的近邻有标签数据确定无标签数据的用户类别概率;所述近邻有标签数据包括与无标签数据之间的差异小于指定差距阈值的有标签数据;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;所述用户分类模型用于根据用户信息确定用户分类以分配用户对应于所述用户分类的业务。
[0085]
基于图4所对应的基于用户分类的业务分配方法,本说明书实施例提供一种基于用户分类的业务分配设备。如图8所示,所述基于用户分类的业务分配设备可以包括存储器和处理器。
[0086]
在本实施例中,所述存储器可以按任何适当的方式实现。例如,所述存储器可以为只读存储器、机械硬盘、固态硬盘、或u盘等。所述存储器可以用于存储计算机程序指令。
[0087]
在本实施例中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit,asic)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机程序指令实现以下步骤:获取目标用户的用户特征信息;将所述用户特征信息输入用户分类模型,得到用户类别;所述用户分类模型,通过以下方式获得:获取到包含有标签数据和无标签数据的用户样本数据后,根据有标签数据和无标签数据确定用户类别概率;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;将对应于所述用户类别的业务分配至所述目标用户。
[0088]
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,
对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmable logic device,pld)(例如现场可编程门阵列(field programmable gate array,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardware description language,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advanced boolean expression language)、ahdl(altera hardware description language)、confluence、cupl(cornell university programming language)、hdcal、jhdl(java hardware description language)、lava、lola、myhdl、palasm、rhdl(ruby hardware description language)等,目前最普遍使用的是vhdl(very

high

speed integrated circuit hardware description language)与verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
[0089]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0090]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的第一硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
[0091]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0092]
本说明书可用于众多第一或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
[0093]
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、
组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0094]
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1