基于用户画像分析的大数据处理方法及大数据处理系统与流程

文档序号:33336311发布日期:2023-03-04 01:24阅读:61来源:国知局
基于用户画像分析的大数据处理方法及大数据处理系统与流程

1.本发明涉及大数据处理领域,具体而言,涉及一种基于用户画像分析的大数据处理方法及大数据处理系统。


背景技术:

2.目前,各大在线平台为了能够向用户推荐用户感兴趣的内容,例如商品、视频、音乐等,往往会对用户历史操作行为进行记录,进而根据用户自身的历史操作行为量身定制用户感兴趣的推荐内容。而作为单一用户或者新用户,其历史用户操作数量较少,仅根据自身数据作为内容推荐依据并不能准确地推荐用户感兴趣的内容。


技术实现要素:

3.本发明的目的在于提供一种基于用户画像分析的大数据处理方法及大数据处理系统。
4.第一方面,本发明实施例提供一种基于用户画像分析的大数据处理方法,包括:根据潜在价值用户名单过滤针对于指定的在线平台中登录请求,其中,登录请求包括登录用户标识;当登录用户标识与潜在价值用户名单中包括的至少一个潜在用户标识匹配时,将与潜在用户标识匹配的用户作为目标用户;获取在线平台维护的多个监控线程服务器的算力裕量;调用算力裕量最高的监控线程服务器作为目标服务器,以基于目标服务器监控目标用户是否执行目标操作;在监控确定出现目标操作的基础上,生成针对目标用户的内容推荐指示;响应于针对目标用户的内容推荐指示,基于目标用户的用户画像,得到针对目标用户的内容推荐参考对象;根据内容推荐参考对象从预置内容推荐谱图中确定出目标推荐内容,其中,内容推荐参考对象与目标推荐内容存在关联关系。
5.第二方面,本发明实施例提供一种大数据处理系统,包括服务器;服务器用于执行第一方面至少一种可能的实施方式中的方法。
6.相比现有技术,本发明提供的有益效果包括:采用本发明公开的一种基于用户画像分析的大数据处理方法及大数据处理系统,通过潜在价值用户名单确定出目标用户并对其进行监控,在监控确定目标用户出现目标操作的基础上,生成针对目标用户的内容推荐指示;然后响应于内容推荐指示,基于目标用户的用户画像,得到针对目标用户的内容推荐参考对象;最终根据内容推荐参考对象从预置内容推荐谱图中确定出目标推荐内容,如此设计,利用了目标用户的用户画像确定内容推荐参考对象,进而能够根据内容推荐参考对象完成确定目标用户的目标推荐内容,相较于仅利用目标用户的自身历史数据,能够提高目标推荐内容的准确性。
附图说明
7.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
8.图1为本发明实施例提供的基于用户画像分析的大数据处理方法的步骤流程示意图;图2为本发明实施例提供的服务器的结构示意框图。
具体实施方式
9.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
10.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
11.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
12.此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
13.下面结合附图,对本发明的具体实施方式进行详细说明。
14.为了解决前述背景技术中的技术问题,图1为本公开实施例提供的基于用户画像分析的大数据处理方法的流程示意图,下面对该基于用户画像分析的大数据处理方法进行详细介绍。
15.步骤110,根据潜在价值用户名单过滤针对于指定的在线平台中登录请求,其中,登录请求包括登录用户标识。
16.步骤120,当登录用户标识与潜在价值用户名单中包括的至少一个潜在用户标识匹配时,将与潜在用户标识匹配的用户作为目标用户。
17.步骤130,获取在线平台维护的多个监控线程服务器的算力裕量;步骤140,调用算力裕量最高的监控线程服务器作为目标服务器,以基于目标服务器监控目标用户是否执行目标操作;步骤150,在监控确定出现目标操作的基础上,生成针对目标用户的内容推荐指示。
18.步骤160,响应于针对目标用户的内容推荐指示,基于目标用户的用户画像,得到针对目标用户的内容推荐参考对象;步骤170,根据内容推荐参考对象从预置内容推荐谱图中确定出目标推荐内容,其中,内容推荐参考对象与目标推荐内容存在关联关系。
19.在本发明实施例中,在线平台可以是指在线交易平台、在线购物平台、在线视频平台等等,在此不做限制,而潜在价值用户名单可以是指用户在与在线交易平台存在关联协议的其他平台中执行过某些特定的操作行为后被标记并记录到潜在价值用户名单中的,例如开通会员、购买商品等。而当检测到属于潜在价值用户名单的用户登录平台后,可以调用专门用户监测用户行为的监控线程服务器用于监控,为了实现负载平衡,减轻服务器负担,防止服务器崩溃(例如在某些特定日期,在线平台开展对应活动会使得登录用户段时间内大量出现),因此每次执行监视任务的服务器均为当前剩余监控线程服务器中算力裕量最多的服务器。在作为目标服务器对目标用户的用户行为进行持续监控过程中,若出现了目标用户作出了目标操作,例如查看了对应的会员开通规则页面或者浏览了预设内容等,那么可以认为此时向该目标用户推荐对应的目标内容,很有可能会使目标用户产生消费等正面操作,因此可以基于目标用户的用户画像,确定出内容推荐参考对象,并利用内容推荐参考对象和预置内容推荐谱图中预置内容推荐谱图中存储的推荐内容的关联关系,向目标用户推荐目标推荐内容。如此设计,能够高效地为目标用户推荐能够产生正面影响的推荐内容。
20.为了能够更加清楚的描述本发明实施例提供的方案,下面对前述步骤步骤150进行详细的描述。
21.在步骤101中,服务器响应于针对目标用户的内容推荐指示,获得目标用户的用户画像向量。
22.在实际实施时,服务器接收到针对目标用户的内容推荐指示时,可以获得目标用户的用户画像向量,其中,用户画像向量是将目标用户的用户基础特征(即采用用户基础数据表示的用户特征)进行二值量化处理得到的,用户画像向量取值为0或1,如此,便于电子设备进行识别和计算。采用用户画像向量进行用户表征时,其特征存储量低、匹配效率高且识别准确率高。
23.在步骤102中,根据用户画像向量,从多个用户类别集合中得到目标用户的用户画像向量对应的参考用户类别集合。
24.其中,多个用户类别集合,通过对用户数据库中的多个用户执行聚合操作获取的。
25.在实际实施时,对目标用户进行用户匹配可以看作是从用户数据库中查找是否存在与目标用户极度相似的用户的过程。其中,服务器可以根据用户数据库中的各个用户的用户画像向量,对用户数据库中的各个用户进行聚类处理,得到多个用户类别集合,每个用户类别集合对应一个聚合中心(聚类中心),并建立聚合中心与各用户画像向量之间的映射关系,通过该映射关系,服务器可以根据用户的用户画像向量查找到对应的聚合中心,并依据聚合中心得到目标用户所归属的用户类别集合。
26.示例性地,服务器接收到针对目标用户p的内容推荐指示后,获得目标用户p的用户画像向量h,(由0和1组成的多维向量,也可以理解成由0或1组成的矩阵),并根据预先存储的(用户画像向量-聚合中心)映射关系表t,得到目标用户p的用户画像向量h在映射关系表t中最接近的用户画像向量,并将最接近的用户画像向量对应的聚合中心所属的用户类别集合作为目标用户对应的参考用户类别集合。
27.对得到最接近的用户画像向量进行说明,在一些实施例中,参考用户类别集合的获得方法可以通过如下示例获取,每个用户类别集合对应一个参考用户画像向量,参考用
户画像向量可以作为索引,在映射关系表中执行相应的查询操作。前述步骤102可以由步骤1021至步骤1023实现。
28.步骤1021,服务器分别得到目标用户的用户画像向量与各用户类别集合对应的参考用户画像向量之间的第一特征相似度。
29.在实际实施时,服务器计算目标用户的用户画像向量与用户数据库中各用户类别集合对应的参考用户画像向量之间的第一特征相似度,即由于用户画像向量可以是由0和1组成的多维二进制向量,可以使用第一特征相似度(例如汉宁相似度)衡量二进制特征之间的距离,是通过统计数值不同的特征位的数量作为距离,如(1000)与(0011)的距离为3。
30.步骤1022,获得与用户画像向量的第一特征相似度最高的参考用户画像向量所对应的聚合中心,作为参考聚合中心。
31.在实际实施时,服务器选取第一特征相似度最高的参考用户画像向量对应的聚合中心,作为目标用户所对应的参考聚合中心。
32.步骤1023,从多个用户类别集合中得到参考聚合中心对应的用户类别集合,作为目标用户的用户画像向量对应的参考用户类别集合。
33.在实际实施时,服务器以参考聚合中心为索引,在用户数据库被划分成的多个用户类别集合中,得到目标用户对应的参考用户类别集合。
34.示例性地,用户数据库中的各个用户进行聚类处理后,得到5个用户类别集合,用户类别集合对应一个聚合中心和一个参考用户画像向量,服务器得到目标用户的用户画像向量,与上述5个用户类别集合的参考用户画像向量的第一特征相似度,并获得5个第一特征相似度中的最小第一特征相似度对应的参考用户画像向量,并将该参考用户画像向量对应的用户类别集合作为目标用户的参考用户类别集合。
35.如此,通过上述步骤1021至步骤1023得到目标用户对应的参考用户类别集合的方式,能够有效减少用户匹配过程中的匹配范围,提高用户匹配效率。
36.在步骤103中,获得参考用户类别集合中的各个用户的分布标准,并根据分布标准对参考用户类别集合中的用户执行整合操作,得到参考用户组。
37.其中,分布标准包括:用户和目标用户的用户同质信息、用户对应的分类信息。
38.在实际实施时,服务器可以根据参考用户类别集合中的各个用户的分布标准,对参考用户类别集合中的各个用户执行整合操作,得到目标用户对应的参考用户组。分布标准可以包括目标用户与参考用户类别集合中各个用户的用户同质信息、以及目标用户归属的分类信息。其中,用户同质信息,可以通过目标用户的用户基础特征与参考用户类别集合中用户的用户基础特征得到,即服务器获得目标用户的用户基础特征m,以及参考用户类别集合中各个用户的用户基础特征fi,并分别计算用户基础特征m与各用户基础特征fi的之间的第二特征相似度li,可以直接将得到的将第二特征相似度li作为用户同质信息,也可以对第二特征相似度li进行其他处理(如加权处理)后得到的数据作为用户同质信息。另外,用户对应分类信息,可以通过对目标用户以及用户数据库中各个用户进行用户识别得到的用户所属类别,其中,用户所属的类别可以包括vip用户和非vip用户。这里,对用户基础特征进行说明,用户基础特征为采用用户基础数据表示的用户特征,用户特征是对用户执行特征抽取操作得到的,即用户基础特征的数值为浮点值,与二进制用户画像向量相比,用户基础特征可以表征的数据范围更大,相比用户画像向量(用户画像向量是对用户基础
特征进行了量化压缩),用户基础特征的数据更准确,作为用户相似度度量更准确。在实际应用中,通过特征提取得到的用户的用户基础特征,以及对用户基础特征进行散列计算后得到的用户画像向量均可看作是用户的表示向量即用户embedding。
39.在一些实施例中,分布标准可以通过以下方式获得,当分布标准包括用户和目标用户的用户同质信息时,服务器可以通过步骤1031a至1032a得到分布标准,然后通过步骤1033a获得参考用户组。
40.步骤1031a,服务器获得参考用户类别集合中的各个用户的用户基础特征。
41.步骤1032a,根据目标用户的用户基础特征与各个用户的用户基础特征的第二特征相似度,得到用户和目标用户的用户同质信息。
42.在实际实施时,服务器根据目标用户的用户基础特征(例如年龄、地区、性别、历史消费记录、历史行为操作等),分别得到目标用户与参考用户类别集合中的各个用户的第二特征相似度,作为用户同质信息。
43.步骤1033a,根据用户和目标用户的用户同质信息,对参考用户类别集合中的各个用户执行整合操作,得到参考用户组。
44.在实际实施时,服务器可以对步骤1032a得到的用户同质信息按照从小到大的顺序排序,使得参考用户类别集合中的各个用户按照更相似到更不相似的顺序排序,得到相似程度由高到低的参考用户组。
45.通过步骤1031a-1033a根据用户的用户基础特征得到的分布标准,是在前述根据用户的用户画像向量筛选得到参考用户类别集合的前提下,再次根据用户的用户基础特征得到的,如此,能够保持用户基础特征与用户画像向量一致性、有效提高用户匹配的效率。
46.在一些实施例中,用户对应的分类信息可以通过以下示例获得,当分布标准包括用户对应的分类信息时,服务器可以通过步骤1031b至1032b得到分布标准,然后,通过步骤1033b获得参考用户组。
47.步骤1031b,服务器获得参考用户类别集合中的各个用户的用户基础特征。
48.在实际实施时,用户基础特征为采用用户基础数据表示的用户特征。
49.步骤1032b,根据用户基础特征,得到用户对应的分类信息,用户对应的分类信息用于指示用户对应各个用户类型的置信度。
50.在实际实施时,服务器依次对目标用户以及参考用户类别集合中的各个用户进行用户识别,得到用户对应各个用户类型的置信度,得到用户对应的分类信息(用户类别)。需要说明的是,为了加快计算,可以预先对用户数据库中各用户类别集合内的用户进行用户识别,得到各个用户对应的分类信息。
51.步骤1033b,根据用户对应的分类信息,对参考用户类别集合中的用户执行整合操作,得到参考用户组。
52.在实际实施时,服务器可以根据用户对应的分类信息,对参考用户类别集合中的各个用户执行整合操作,得到参考用户组。
53.示例性地,以目标用户归属的分类信息为非vip用户,则可以将参考用户类别集合中属于vip的用户排到非vip用户的后面。
54.在一些实施例中,可以根据分类参考级别得到参考用户组,具体通过以下步骤获取,步骤1033b可以通过步骤201至步骤203实现。
55.步骤201,服务器对目标用户进行类别判定,得到目标用户的目标分类归属。
56.步骤202,根据目标分类归属及用户对应的分类信息,得到参考用户类别集合中用户的分类参考级别。
57.在实际实施时,针对用户的分类参考级别的得到至少存在以下情况:若目标用户是非vip用户,则参考用户类别集合中非vip用户的优先级高于vip用户;若目标用户是vip用户,则参考用户类别集合中vip用户的优先级高于非vip用户。
58.步骤203,根据用户对应的分类信息、以及参考用户类别集合中用户的分类参考级别,对参考用户类别集合中的用户执行整合操作,得到参考用户组。
59.在实际实施,若目标用户归属的分类信息为非vip用户,则可以将参考用户类别集合中属于vip的用户排到非vip用户的后面;若目标用户归属的分类信息为vip用户,则可以将参考用户类别集合中属于非vip的用户排到vip用户的后面。
60.在一些实施例中,参考用户组可以通过以下方式获得,该方式中,分布标准包括用户和目标用户的用户同质信息、以及用户对应的分类信息时,服务器可以通过步骤1031c至1032c得到参考用户组。
61.步骤1031c,服务器根据用户和目标用户的用户同质信息,对参考用户类别集合中的用户执行整合操作,得到初始参考用户组。
62.在实际实施时,服务器对目标用户执行特征抽取操作,得到目标用户的用户基础特征,并对参考用户类别集合中各个用户执行特征抽取操作,得到各个用户对应的用户基础特征,进而根据目标用户的用户基础特征与参考用户类别集合中各个用户的用户基础特征,得到各个用户和目标用户的第二特征相似度,作为目标用户与各个用户的用户同质信息,并按照第二特征相似度从小到大的顺序对参考用户类别集合中的各个用户执行整合操作得到初始参考用户组,即初始参考用户组中的用户是从最相似逐渐到越来越不相似。
63.步骤1032c,根据用户对应的分类信息,对初始参考用户组中的各个用户的分布进行整合,得到参考用户组。
64.在实际实施时,服务器根据用户对应的分类信息,对步骤1031c得到的初始参考用户组进行重新排序(即二次排序)。目标用户为非vip用户时,对于初始参考用户组中vip用户(针对该目标用户,vip用户特征表现一般)排到非vip用户的后面。还可以针对用户的分类进行不同的第二特征相似度阈值设置,如对于vip的目标用户的第二特征相似度阈值设置为0.3,非vip的目标用户的第二特征相似度阈值设置为0.5,对于vip的目标用户,在根据用户基础特征排序时,当初始参考用户组中的用户与目标用户的第二特征相似度高于0.3则认为不相似,直接丢弃;对于非vip的目标用户,则采用0.5。
65.在一些实施例中,服务器还可以通过以下方式得到参考用户组:服务器根据目标用户的用户基础特征与中间参考用户组中各个用户的用户基础特征的第二特征相似度,对中间参考用户组中各个用户进行重新排序,得到参考用户组。
66.在一些实施例中,服务器可以先从参考用户类别集合中选取预置占比的用户作为候选用户,并根据候选用户,得到参考用户组。
67.步骤301,服务器获得参考用户类别集合中各个用户的用户画像向量。
68.在实际实施时,服务器在得到目标用户对应的参考用户类别集合之后,可以继续获得参考用户类别集合中各个用户的用户画像向量(二进制特征)。
69.步骤302,得到目标用户的用户画像向量与各个用户的用户画像向量之间的第二特征相似度。
70.在实际实施时,服务器分别计算目标用户与参考用户类别集合中各个用户的第二特征相似度。
71.步骤303,根据第二特征相似度,从参考用户类别集合包括的各个用户中选取预置占比的用户,得到待定参考用户组。
72.在实际实施时,服务器按照第二特征相似度从小到大的顺序对参考用户类别集合中的用户执行整合操作,并取排序后的前k(k≥1且k为整数)个用户作为候选用户。根据这些候选用户执行相应的用户匹配操作,并根据待定参考用户组,得到针对目标用户的内容推荐参考对象。如此,结合用户画像向量以及分布标准进行用户匹配能够有效减少针对参考用户类别集合的匹配次数,提高用户匹配效率。
73.在步骤104中,根据参考用户组,得到针对目标用户的内容推荐参考对象。
74.在实际实施时,服务器按照参考用户组中各个用户的顺序,依次输出目标用户与各个用户的用户相似度、以及相应的置信度作为相应的内容推荐参考对象,如此,能够有效提高用户匹配的准确性。
75.在一些实施例中,上述用户匹配方法可以根据预置推荐模型实现,预置推荐模型包括特征向量识别网络、特征向量定位网络、用户整合网络及全量输出网络,下面进行示例性的说明。
76.步骤401,服务器通过预置推荐模型的特征向量识别网络,获得目标用户的用户画像向量。
77.在实际实施时,针对目标用户的用户匹配方法可以通过预置推荐模型实现,预置推荐模型可以包括特征向量识别网络、特征向量定位网络、用户整合网络及全量输出网络。服务器在接收到针对目标用户的内容推荐指示后,解析内容推荐指示,并将目标用户输入至预先训练完成的预置推荐模型的特征向量识别网络,得到目标用户的用户画像向量。特征向量识别网络可以是根据卷积神经网络实现。
78.示例性地,特征向量识别网络可以采用5层卷积层、1层池化层(例如pool层)、1层特征嵌入层(例如embedding层)及1层散列计算层(例如hash layer)实现。
79.在一些实施例中,预置推荐模型的特征向量识别网络包括特征抽取子网络和特征标准化子网络,服务器还可以通过以下方式获得目标用户的用户画像向量:服务器通过特征抽取子网络,对目标用户执行特征抽取操作,得到目标用户的用户基础特征;通过特征标准化子网络,对目标用户的用户基础特征执行标准化操作,得到目标用户的用户画像向量。
80.在实际实施时,服务器可以先将目标用户输入特征抽取子网络,提取目标用户的用户基础特征,然后,继续将用户基础特征输入至特征标准化子网络,对用户基础特征执行标准化操作,得到目标用户的用户画像向量。如此,当用户基础特征表征目标用户与参考用户类别集合中用户相似时,目标用户的用户画像向量与相应用户的用户画像向量也相似,保证了用户基础特征与用户画像向量的一致性。
81.示例性地,可以由5层卷积层、1层池化层、1层特征嵌入层可以构成特征抽取子网络,根据特征抽取子网络获得目标用户的用户基础特征,1层散列计算层构成特征标准化子网络,根据特征标准化子网络获得目标用户的用户画像向量。
82.步骤402,通过预置推荐模型的特征向量定位网络,根据用户画像向量,从多个用户类别集合中得到目标用户的用户画像向量对应的参考用户类别集合。
83.其中,多个用户类别集合,通过对用户数据库中的多个用户执行聚合操作获取。
84.在实际实施时,特征向量定位网络可以用于读取预先存储的用户画像向量-聚合中心的映射关系,并根据该映射关系,得到目标用户的用户画像向量对应的参考用户类别集合的功能。
85.步骤403,通过预置推荐模型的用户整合网络,获得参考用户类别集合中各个用户的分布标准,并根据分布标准对参考用户类别集合中的用户执行整合操作,得到参考用户组。
86.其中,分布标准包括:用户和目标用户的用户同质信息、用户对应的分类信息。
87.在实际实施时,预置推荐模型的用户整合网络,可以用于根据参考用户类别集合中各个用户的分布标准对参考用户类别集合中的用户执行整合操作,得到参考用户组,以使服务器能够根据参考用户组,得到目标用户的内容推荐参考对象,该内容推荐参考对象可以用于展示目标用户与参考用户类别集合中各个用户的用户同质信息以及对应的置信度。
88.在一些实施例中,分布标准包括用户对应的分类信息时,预置推荐模型的用户整合网络包括第一整合子网络、第二整合子网络、分类网络及分布整合网络。服务器通过第一整合子网络,获得参考用户类别集合中各个用户对应的分类信息。通过第二整合子网络,对目标用户的用户基础特征进行计算,得到目标用户对应的目标分类归属。通过分类网络,根据目标分类归属及用户对应的分类信息,得到参考用户类别集合中的用户的分类参考级别。通过分布整合网络,根据分类参考级别以及用户对应的分类信息,对参考用户类别集合中的用户执行整合操作,得到参考用户组。通过预置推荐模型的全量输出网络,根据参考用户组,得到针对目标用户的内容推荐参考对象。
89.在一些实施例中,提供如下详细的步骤对预置推荐模型的训练过程进行说明。
90.步骤501,服务器获得待处理样本用户训练对以及原始的预置推荐模型。
91.在实际实施时,样本用户训练对包括对比样本用户、相同样本用户及差异样本用户,对比样本用户与相同样本用户为同一用户,对比样本用户与差异样本用户为差异用户。
92.步骤502,通过特征向量识别网络,依次对待处理样本用户训练对执行特征抽取操作,得到待处理样本用户训练对的用户画像向量。
93.步骤503,通过特征向量定位网络,根据待处理样本用户训练对的用户画像向量,从多个用户类别集合中得到待处理样本用户训练对的用户画像向量对应的参考用户类别集合。
94.在实际实施时,多个用户类别集合是通过对用户数据库中的多个用户执行聚合操作获取的。
95.步骤504,通过用户整合网络,获得参考用户类别集合中各个用户的分布标准,并根据分布标准参考用户类别集合中的用户执行整合操作,得到预测参考用户组。
96.在实际实施时,分布标准包括:用户和待处理样本用户训练对的相似度信息、用户对应的分类信息。
97.步骤505,通过全量输出网络,根据预测参考用户组,得到针对待处理样本用户训
练对的内容推荐参考对象。
98.步骤506,获得与待处理样本用户训练对的用户画像向量对应的第一损失函数参量,并根据待处理样本用户训练对与预测参考用户组中各个用户之间的差异,得到待处理样本用户训练对的第二损失函数参量。
99.步骤507,根据第一损失函数参量以及第二损失函数参量,更新待训练预置推荐模型的网络参量。
100.在实际实施时,根据第一损失函数参量和第二损失函数参量得到联合损失,对预置推荐模型的网络参量进行更新,对预置推荐模型进行训练,直至模型收敛。
101.应用本发明实施例,根据针对目标用户的内容推荐指示,实现用户匹配的过程中,首先根据目标用户的用户画像向量得到目标用户对应的参考用户类别集合,如此,能够有效减少用户匹配过程中的匹配范围,提高用户匹配效率;其次,根据参考用户类别集合中各个用户与目标用户的相似度信息、用户对应的分类信息中至少之一对参考用户类别集合中的用户执行整合操作,得到参考用户组,如此,结合用户画像向量以及分布标准进行用户匹配能够有效减少针对参考用户类别集合的匹配次数,提高用户匹配效率;最后根据参考用户组,获得内容推荐参考对象,如此,能够提高用户匹配的准确性。
102.下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
103.以在用户排重场景中,对用户进行用户匹配的应用为例,根据深度学习的二值化特征的用户匹配方法,由于二值化特征的特征存储量低、匹配效率高、识别准确率好,已经大规模应用于用户排重场景中。然而,由于用户画像向量对用户基础特征进行了量化压缩,导致匹配不准确,而一般用户匹配方法中会在用户画像向量召回后额外添加一层根据用户基础特征比对的校准层,然而此校准层需要额外提取校准需要的用户基础特征,带来特征提取的额外资源损耗;且召回层的用户特征与校准层用户特征的特征不同源造成某些相同样本用户用户召回层召回后、在校准层丢失等情况;同时还存在特征表征能力不足的问题,对于不同的用户类型用户embedding表征能力不同,如对于vip用户embedding的表征效果差。
104.根据此,本发明实施例提供一种用户匹配方法,该方法可以是根据特征统一模型(即前文提到的预置推荐模型)实现的。在共享底层网络权重的同时实现用户画像向量学习、用户基础特征学习、以及类别判定,学习过程中经过两个阶段学习能够避免多任务干扰。其中,在第一阶段中通过网络级联以及学习任务相关约束的设计保持用户画像向量、用户基础特征二者的一致性学习;在第二阶段中重点学习类别判定能力。训练完成的预置推荐模型在实际应用中可以经过一次模型推理即可以提取到三个对匹配有意义的特征,并通过散列计算层召回(相当于前文提到预置推荐模型中的特征向量定位网络)、校正层排序(相当于前文提到预置推荐模型中的用户整合网络)、后处理层(相当于前文提到预置推荐模型中的全量输出网络)借助类别判定设置最终召回的用户置信度,从而形成更准确的用户匹配系统。采用该用户匹配方法的用户匹配系统能够具有以下优点:1)共享底层网络参数,从而应用中仅需要一次预置推荐模型的特征提取过程即可获得三种特征;2)不同于常规的用户排重的方案,仅仅召回相似用户,本发明实施例提供的用户匹配方法,通过上述预置推荐模型的三个模块在对用户进行召回的前提下实现针对用户的召回结果更准确的排序、排序结果的置信度输出等功能,对整体用户匹配更具备指导意义;3)设计了保持用户基
础特征与用户画像向量一致性的模型及学习方法,从而提升常规匹配系统中前后不同特征的协同召回/过滤效果,提升召回中排序准确率;4)该方法支持更多的应用扩展,如对于用户embedding表现不佳的分类,可通过设计后续模块提升此类用户匹配效果等。
105.相关技术中,训练一个用户画像向量模型,在用户匹配过程中,通过用户画像向量模型的召回层,召回用户数据库的库存用户中与目标用户query中相关用户样本,不做用户排序;又例如,训练两个模型:处理用户画像向量的模型、处理用户基础特征的模型,在用户匹配中,通过用户画像向量召回层召回后,采用浮点第一特征相似度做排序,返回。然而,第一种方案由于召回结果无序、无法获得召回结果的相似度排序,同时不能得到召回结果是否准确。第二种方案中召回结果与排序结果表现可能出现较多不一致,如很多被召回的样本、在排序层未必一致,容易造成召回层被召回的样本,在排序层由于排序结果为相似度不足被排序后置从而被过滤,另外,由于用户匹配系统自身不能预知召回置信度,不能给本次样本召回提出实质的效果评估,然而对于用户表征不好的类别往往需要通过效果评价来协助处理,同时需要进行2次模型前向计算特征,耗时较大,在海量数据匹配应用场景中效果差。
106.本发明实施例提供的用户匹配方法,能够提升召回的用户的用户画像向量与排序的用户基础特征一致性,从而降低召回与排序表现不一致的情况;并设计针对每个目标用户query的匹配效果评估,可支持不同匹配效果的优化:通过引入分类信息,设置评估层,对本次匹配结果进行自身效果评估,在本匹配框架上,可以借助评估层对效果不佳的匹配进行二次处理,从而提升整体匹配准确率。设计统一模型,降低应用中的特征推理损耗:通过统一模型级联特征设计、相关特征约束学习、二阶段分类学习等,实现多任务共享底层特征,一次推理获得多个输出。
107.首先,从产品侧进行说明。根据本发明实施例提供的用户匹配方法得到的用户画像向量可用于用户排重场景中。
108.根据预置推荐模型的散列计算输出,进行用户匹配包含以下步骤:1)通过模型获得到库存用户的用户画像向量,2)获得散列计算的量化中心(如聚类中心:把所有库存的量化特征进行聚类到8192个聚类中心,每个聚类中心可视为一个量化中心),3)把量化中心作为匹配的索引,建立索引与用户数据库(量化中心与库存中的用户画像向量)的关联关系;4)在用户匹配中根据query用户的用户画像向量找到最近的索引,5)获得这些索引的关联用户得到候选用户匹配召回,6)根据召回用户的用户画像向量与目标用户的用户画像向量计算第二特征相似度,并对欧氏距离从小到大排序;7)取排序中前k个用户作为召回结果;8)进入到效果评估层(相当于前述预置推荐模型中用户整合网络的类比比对层,用于通过分布标准,对召回的用户进行效果评估)。
109.在实际实施时,通过如下示例来示出的效果评估方式的主要过程:输入样本经过统一模型一次推理,得到目标用户的用户画像向量、用户基础特征、分类信息。在建立用户数据库库存时,库存的样本的用户画像向量用于建立用户画像向量索引,库存样本的分类信息、用户基础特征需要存储待后续使用。在用户匹配过程中,输入样本经过统一模型获得特征后,在散列计算索引进行召回得到召回的用户信息、对召回的用户信息查询该用户在存储中的用户基础特征,所有召回用户的用户基础特征与目标用户的用户基础特征进行向量距离计算,并从小到大排序的到召回的更相似到更不相似的排序效果。排序结果经过效
果评估层,对于vip(用户embedding表现不佳)召回用户,采用vip分类的预测置信度(prob)取负(1-prob)作为召回用户的置信度(即越属于vip的类别置信度越低),然后重新排序:把属于vip别的召回用户排到非vip别的召回用户的后面并依然按第二特征相似度从小到大排序,最终,按照排序后的结果展示匹配召回的每个用户、以及相应的置信度。
110.其中,本发明实施例还提供另一种效果评估方式,在召回层与前述步骤一致,不同在于分类信息的使用,具体使用方式是:针对分类进行不同的第二特征相似度阈值设置,如对于vip的目标用户阈值为0.3,非vip为0.5,对于vip目标用户,在用户基础特征排序时,当召回样本与目标用户的第二特征相似度高于0.3则认为不相似,直接丢弃;对于非vip目标用户,当召回样本与目标用户的第二特征相似度高于0.5,则认为不相似,直接丢弃。
111.上述两种效果评估方式,后者示出的效果评估方式是借助分类来过滤不相关样本;前者示出的效果评估方式是借助分类来对所有召回样本评估,不作过滤。
112.接下来,说明本发明实施例提供的预置推荐模型的训练过程。预置推荐模型分两阶段学习,在第一阶段训练出了整合子网络的所有参数;第二阶段训练整合子网络。在一阶段联合学习的同时,提供散列计算与用户基础特征一致性约束;在第二阶段主要不影响底层特征同时学习分类特征。整体模型训练过程主要包括1)训练所需数据准备:训练对数据准备;2)模型构成及两个阶段学习主要过程;3)损失计算等。
113.首先,对数据准备过程进行说明。本发明实施例提供的预置推荐模型,在训练时,需要训练对数据作为输入,但从海量数据中找合适的训练对比较困难,因此,一般是先在海量数据中标注相同样本用户对,然后通过相同样本用户对进行差异样本用户挖掘,得到训练对。
114.1)标注数据准备——获得相同样本用户对:标注用户样本对是否相似的标签,如从海量数据中抽取两个用户作为一对,送给标注,标注返回每对是/否足够相似。由于模型用于用户排重系统,故两个样本需要极度相似才算相似样本,示例性的,编号1、2对应的用户,或经过用户攻击产生的其他用户。其中,标注为相似的样本对为相同样本用户对,标注为不相似的样本为差异样本用户对。本标注主要收集相同样本用户对,差异样本用户对可不收集,通过下述挖掘方式获得训练对的差异样本用户即可。
115.2)训练对数据挖掘:由于训练度量学习特征需要由对比样本用户anchor、相同样本用户positive、差异样本用户negative(a、p、n)组成的样本用户训练对进行损失函数学习,样本用户训练对中a和p构成相同样本用户对,a和n构成差异样本用户对,在学习任务中,相同样本用户对是需要特征足够接近——第二特征相似度l2足够小(从而可被相互匹配到),而差异样本用户对需要足够远离。在上述标注中已经获得的每个样本对,可以作为训练对的anchor和positive(随机选择一个用户为anchor即可),关于如何进一步挖掘差异样本用户(包含复杂差异样本用户、全局差异样本用户)如下:对每个batch的相同样本用户对(假设有bs对,bs≥1且bs为正整数)分别进行如下方式挖掘差异样本用户得到训练对:对某个样本x对中的x-anchor(随机选择一张作为anchor):从剩余的bs-1个样本对(每对随机选择一张用户)的样本中计算其与x-anchor的距离,按距离从小到大排序,去除top5用户后,取前20个样本作为复杂差异样本用户(由于需要学习的是极度相似样本的特征,认为距离越小越相似,而海量数据中,两个用户为极度相似的置信度比较低,故直接去掉top5的相似样本、剩余的样本可构成训练对中的复杂差
异样本用户),分别与x组成训练对,故每个样本对产生20个训练对,整个batch得到20*bs个训练对。为了保证差异样本用户对挖掘有效,bs需要设置相对大一点的值,如1024。
116.根据训练对的度量学习对难样本要求多,若都是简单样本,则模型无法学到具有区分度的表征。实际上前20个差异样本用户里不能保证全是复杂差异样本用户,但能保证难样本比较多,故对学习有利。
117.其次,对模型结构及学习过程进行说明,模型结构分为5模块:基础特征提取模块(根据卷积神经网络实现)、用户基础特征模块、散列计算模块、分类模块、损失学习(loss)。
118.在实际实施时,用户基础特征+散列计算设计级联结构具有以下优点:散列计算层与浮点embedding层采用级联结构,级联结构可以一定程度保证用户画像向量学习与用户基础特征学习一致,也即当用户基础特征相似时,散列计算层学习的输入也是相似,为了保证散列计算最终学习输出与浮点一致(即散列计算学习后也是相似),仅需要在散列计算层经过loss学习的约束维持使之与浮点表现一致即可。
119.再次,针对模型的训练过程进行说明。模型的训练过程包括以下部分:1)参数初始化:在模型预训练环节五层卷积层采用在数据集上预训练的网络参量,新添加的层如用户基础特征、散列计算量化层采用方差为0.01,均值为0的高斯分布进行初始化。2)设置学习参数。3)学习率:均对采用lr=0.0005学习率。每经过10轮迭代(一轮迭代即一个epoch)后lr变为原来的0.1倍即0.1lr。4)学习过程:对全量数据,进行n(n≥1且n为整数)轮迭代;每轮迭代处理一次全量样本对,直到某轮epoch下平均epoch loss不再下降;5)对每个epoch的每轮迭代中的具体操作如下:把全量用户对,根据上述步骤产生每个批次(batch)的用户及挖掘的训练对,可以进行以下操作:1)一阶段模型前向:训练时神经网络对输入的训练对进行前向计算得到用户基础特征层、散列计算层的预测结果,用m、n表示,其中m为1x64向量表示用户基础特征,n为1x256向量表示用户画像向量。输出得到训练对的用户基础特征表示(ma、mp、mn)、用户画像向量表示(na、np、nn)。2)二阶段模型前向:训练时神经网络对输入的训练对进行前向计算得到各个用户的分类信息。3)loss计算:针对一阶段计算总损失1(loss1)、二阶段计算总损失2(loss2)。4)网络参量更新:采用随机梯度下降法,把(3)的loss进行梯度后向计算得到参数的更新值,并更新对应阶段的待学习网络参数。
120.对于每个用户的量化结果,满足这一目标的损失函数如下:1)其中为该用户的量化n在第i位的值(如256位),为第i位的量化目标,由经过sign函数产生——采用符号函数产生量化学习任务的目标编码(如下式sign函数,对coding向量n的每一位分别通过符号函数计算其目标编码,最终n的目标编码为b)。然后采用回归损失regression loss使coding输出向量n与目标编码b的l2距离变小。
121.权重:由于coding的regression loss收敛比triplet-loss快,并且coding的重要性比特征度量能力低,为了保证triplet-loss在整体loss中处于主导地位,从而保证embedding始终具有相似度度量的能力,故本处设为0.01(或小于1的其他值,可视情况调整)。
122.在实际应用中,对于一阶段中可以使用不同的网络结构、不同的预训练模型权重作为基础模型;对于复杂类别,可根据实际情况调整,如若用户embedding不能很好表征,可加入到复杂类别中,支持后续复杂类别的匹配调整;对于复杂类别的后处理调整方式不局限于上述说的两种方案,如可以在query时就判断出query用户是复杂,从而匹配时对复杂
query的召回进行人工判断等其他处理方案;模型学习为二阶段,实际上也可以三阶段或根据学习任务优先级、数据调整。
123.通过本发明实施例,能够实现完整高效的用户匹配系统:包括快速的根据第一特征相似度的全库匹配、根据有限召回结果第二特征相似度的召回排序、匹配结果的自动调整/自动置信度分析。通过统一模型设计实现多任务学习集合到一起,并实现用户画像向量与用户基础特征表现更一致的学习方法。且统一模型只需要一次推理即可实现多个特征提取,避免多特征提取需要多倍资源,降低应用中对资源的要求。
124.应用本发明实施例能够有以下有益效果:1)实现一个完整的用户排重系统,包括用户画像向量召回、用户基础特征重排序、复杂类别的置信度调整/或经过复杂样本在散列计算召回上进行二次过滤,最终返回排序结果等,使的系统自身对输出结果可进行评估。
125.2)实现一个统一模型的学习、特征提取,应用中可以一次前向计算获得多个特征,避免多次前向计算带来资源浪费。
126.3)支持扩展应用:该系统框架上,对于复杂类别,可在后续接入复杂类别的后处理等,进一步提升复杂类别匹配效果。
127.本发明实施例提供一种服务器100,服务器100包括处理器及存储有计算机指令的非易失性存储器,计算机指令被处理器执行时,服务器100执行前述的基于用户画像分析的大数据处理方法。如图2所示,图2为本发明实施例提供的服务器100的结构框图。服务器100包括存储器111、处理器112及通信单元113。
128.为实现数据的传输或交互,存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如,可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。
129.出于说明目的,前面的描述是参考具体实施例而进行的。但是,上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导,众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用,从而使本领域技术人员最佳地利用本公开,并利用具有不同修改的各种实施例以适于预期的特定应用。出于说明目的,前面的描述是参考具体实施例而进行的。但是,上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导,众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用,从而使本领域技术人员最佳地利用本公开,并利用具有不同修改的各种实施例以适于预期的特定应用。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1