一种用户兴趣识别方法及装置与流程

文档序号:19879753发布日期:2020-02-08 06:52阅读:175来源:国知局
一种用户兴趣识别方法及装置与流程
本发明涉及深度学习
技术领域
,特别涉及一种用户兴趣识别方法及装置。
背景技术
:对于用于刻画用户兴趣偏好的机器学习模型而言,传统做法如图1所示,直接将所有app放在一起学习,通过网络得到app的向量表示参数,不考虑时序信息,每个app之间相互独立,只是静态地去统计用户历史上使用过哪些类型的app作为特征变量使用,而在短时间内用户的行为偏好往往会发生变化,却会被当做噪音,干扰信息,造成模型预测不准确。因此在建模过程中,需要考虑时序信息,捕获用户长期稳定的兴趣与短期突变的爱好。例如,在网络营销、推荐、风控的大数据应用场景中,为了更好的满足用户的体验,用户常常主动授权服务商获取其移动设备中安装的app安装列表信息,用于评估用户的兴趣偏好,结合实际业务场景,给用户更精准的推荐,更高的信用额度等。通过数据分析发现,用户的兴趣偏好会随着时间的推移而发生变化,例如,对于一个喜欢音乐的用户,在求职招聘期间,会集中下载很多招聘类的app,当用户入职后,该类app会被删除,而音乐类的app却不会轻易被卸载。此外,当前的应用市场上存在几百万个app,每个app下载渠道提供的app描述信息,app的类别信息等会存在差异,而且应用市场上,每天都在新增新的app应用,人工去整理归类这些信息对于服务商而言需要投入巨大的成本,因此需要利用机器学习模型,自动地去提取app的语义信息,以便实现用户兴趣识别。技术实现要素:为了解决现有技术的问题,本发明实施例提供了一种用户兴趣识别方法及装置,解决了现有技术因忽略用户app时序信息而造成的模型预测不准确问题,获取了跟用户兴趣有关的更丰富语义信息,提高了用户兴趣识别的准确度。所述技术方案如下:一方面,提供了一种用户兴趣识别方法,所述方法包括:将包含用户app时序信息的app列表数据,输入神经网络识别模型,通过所述神经网络识别模型进行包含加权聚合的计算,输出用户兴趣识别结果,其中,所述神经网络识别模型是通过输入包含用户app时序信息的app列表训练数据训练得到的。进一步地,所述神经网络识别模型通过以下方式训练得到:将包含用户app时序信息的app列表训练数据输入预设神经网络识别模型,生成app向量数据;对所述app向量数据进行加权聚合;利用预设多层感知机算法继续进行训练,获得所述神经网络识别模型。进一步地,对所述app向量数据进行加权聚合之前,分别计算每个用户的每个app权重,从而获取多个用户的各自app权重数据。进一步地,分别计算每个用户的每个app权重,从而获取多个用户的各自app权重数据,包括:分别将app向量数据中的两个原始embedding向量进行两两点乘,得到n维交互向量,然后分别将所述两个原始embedding向量和所述n维交互向量,拼接成3n维输入向量,计算得到所述多个用户的各自app权重数据,其中n为大于1的整数。进一步地,所述方法还包括:获取app列表数据,根据安装人数对所述app列表数据进行清洗,去除其中的低频app,然后对所有app进行标注,获取app各自编号;获取多个用户不同时刻的相应app信息,基于所述app各自编号,分别对每一用户以及该用户不同时刻的相应app信息进行标注,获得包含用户app时序信息的app列表数据。进一步地,所述加权聚合包括:依次对后一时刻app向量权重与前一时刻app向量权重,加权得到权重w21、w22、w23、…、w2n、w2(n+1),再依次将每一时刻app向量权重与前面所有时刻app向量权重进行聚合,获得每一时刻的聚合向量,再将所述每一时刻的聚合向量求和或求均值,其中,n为大于1的整数。另一方面,提供了一种用户兴趣识别装置,所述装置包括模型识别模块,所述模型识别模块用于:将包含用户app时序信息的app列表数据,输入神经网络识别模型,通过所述神经网络识别模型进行包含加权聚合的计算,输出用户兴趣识别结果,其中,所述神经网络识别模型是通过输入包含用户app时序信息的app列表训练数据训练得到的。进一步地,所述装置还包括模型训练模块,所述模型训练模块包括向量生成子模块、加权聚合子模块和mlp子模块,所述向量生成子模块将包含用户app时序信息的app列表训练数据输入预设神经网络识别模型,生成app向量数据;加权聚合子模块对所述app向量数据进行加权聚合;所述mlp子模块利用预设多层感知机算法继续进行训练,获得所述神经网络识别模型。进一步地,所述模型训练模块还包括权重计算子模块,所述权重计算子模块用于:对所述app向量数据进行加权聚合之前,分别将app向量数据中的两个原始embedding向量进行两两点乘,得到n维交互向量,然后分别将所述两个原始embedding向量和所述n维交互向量,拼接成3n维输入向量,计算得到所述多个用户的各自app权重数据,其中n为大于1的整数。进一步地,所述加权聚合包括:依次对后一时刻app向量权重与前一时刻app向量权重,加权得到权重w21、w22、w23、…、w2n、w2(n+1),再依次将每一时刻app向量权重与前面所有时刻app向量权重进行聚合,获得每一时刻的聚合向量,再将所述每一时刻的聚合向量求和或求均值,其中,n为大于1的整数。本发明实施例提供的技术方案带来的有益效果是:利用神经网络识别模型,通过融合时序信息的app语义特征提取方案,获得包含时序行为动作信息的app低维度向量以及其他语义更丰富的识别结果,由于考虑充分考虑了app动态时序信息,并通过加权聚合操作在识别过程中融合不同app之间的交互信息,可以动态地计算用户长期兴趣与短期兴趣,提高了用户兴趣识别的准确率,并且自动获取的app低维度向量,也可以作为其他深度学习或后续应用(如聚类、相似度计算)的输入数据。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是现有技术中一种通过机器学习模型进行用户兴趣识别的流程图;图2是本发明实施例提供的用户兴趣识别方法流程图;图3是一优选实施方式的神经网络识别模型训练流程示意图;图4是一优选方式的用户兴趣识别方法流程示意图;图5是一优选实施例提供的用户兴趣识别方法中神经网络模型主网络框架图;图6是图5中加权聚合子网络框架图;图7是本发明实施例提供的用户兴趣识别装置结构示意图;图8是一优选实施方式的户兴趣识别装置结构示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在本发明的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。本发明实施例提供的用户兴趣识别方法及装置,充分考虑用户app时序信息,通过结合app时序信息训练的用户兴趣识别模型进行计算识别,获取到了更丰富的语义信息向量和用户兴趣识别结果,提高了用户兴趣识别准确度,并且作为附加效果,上述更丰富全面的语义信息向量,也可以直接作为其他数据处理过程(聚类或机器学习算法等)的输入数据,方便实用。因此,该用户兴趣识别方法及装置适用于于大数据领域涉及用户兴趣识别的多种应用场景,例如用户信息挖掘、用户信息分析、网络营销、网络推荐、网络信贷风控等。下面结合具体实施例及附图,对本发明实施例提供的用户兴趣识别方法及装置,作详细说明。图2是本发明实施例提供的用户兴趣识别方法流程图。如图2所示,本发明实施例提供的用户兴趣识别方法,包括以下步骤:101、输入包含用户app时序信息的app列表数据。具体地,将包含用户app时序信息的app列表数据,输入神经网络识别模型。这里,用户app时序信息是指针对某一用户的一个或多个app安装、卸载的时序行为动作信息,例如安装或卸载时间、安装或卸载次数、安装或卸载频率等,除此之外也可以包含现有技术中任何可能的其他时序行为动作信息,本发明实施例不对其加以特别限定。而为了全面地识别用户兴趣偏好,app列表数据中除了包含用户app时序信息外,还可以包括用户安装或卸载的app名称信息、app类别信息和/或合法获取的用户个人信息等。另外,这里的神经网络识别模型优选地根据用户兴趣特定识别目的以及上述app列表数据独创性地创建的,当然也可以采用现有技术中其他任何可能的用户兴趣识别模型,本发明实施例不对其加以特别限定。区别于传统技术中的用户兴趣识别方案,本发明实施例充分考虑到了动态的用户app时序信息,通过学习模型学习和获取更丰富全面和精准的用户兴趣相关语义信息,从而动态地计算用户长期兴趣与短期兴趣,提高了用户兴趣识别的准确度。102、通过神经网络识别模型进行包含加权聚合的计算。具体地,通过神经网络识别模型对输入的用户app列表数据进行计算,计算过程包含加权聚合操作,加权聚合的作用主要是将用户app列表数据中的用户app时序信息和/或其他app信息数据根据相应权重进行融合或拼接,便于进行后续的计算。其中,这里的神经网络识别模型,是通过输入包含用户app时序信息的app列表训练数据训练得到的,具体训练过程本发明实施例不对其加以限定,可以采用现有技术中任何可能的方式,只要其获得的神经网络模型,能实现本发明实施例所申明的用户兴趣识别功能即可。另外,在一优选实施方式中,对app向量数据进行加权聚合之前,分别计算每个用户的每个app权重,从而获取多个用户的各自app权重数据。至于计算获取的方法,可以采用现有技术中任何可能的方式,本发明实施例不对其加以特别限定。103、输出用户兴趣识别结果。具体地,根据用户兴趣识别目的,进行app列表数据相应选取以及计算模型相应参数设置,经过上述计算过程后,输出相应用户兴趣识别结果。对于如何选取app列表数据、计算模型如何进行参数设置以及输出何种用户兴趣识别结果(用户兴趣识别结果的具体数据形式或兴趣项目内容),可以根据具体需要进行相应设置,本发明实施例不对其加以特别限定。例如,可以选取与用户交易信用相关的app列表数据,包括用户交易信用相关app时序信息、交易信用相关app类别以及交易信用相关用户个人信息,输出的识别结果则是用户交易信用级别或用户违约风险概率等。图3是一优选实施方式的神经网络识别模型训练流程示意图。如图3所示,本发明实施例提供的神经网络识别模型通过以下步骤训练得到:201、将包含用户app时序信息的app列表训练数据输入预设神经网络识别模型,生成app向量数据;202、对app向量数据进行加权聚合;203、利用预设多层感知机算法继续进行训练,获得所述神经网络识别模型。首先,这里的预设神经网络识别模型是根据训练需要预先设计创建的网络模型,该预设神经网络识别模型优选地包括输入层、聚合层、mlp网络层以及输出层。将包含用户app时序信息的app列表训练数据输入预设神经网络识别模型的输入层,生成app向量数据;在预设神经网络识别模型的聚合层对app向量数据进行加权聚合;在预设神经网络识别模型的mlp网络层继续进行训练,输出结果进行验证,从而获得神经网络识别模型。其次,在一优选实施方式中,在201步骤之前,还包括以下操作步骤:获取app列表训练数据,根据安装人数对app列表训练数据进行清洗,去除其中的低频app,然后对所有app进行标注,获取app各自编号;获取多个用户不同时刻的相应app信息,基于app各自编号,分别对每一用户以及该用户不同时刻的相应app信息进行标注,获得包含用户app时序信息的app列表训练数据。另外,在一优选实施方式中,在202步骤之前,还包括以下操作步骤:分别将app向量数据中的两个原始embedding向量进行两两点乘,得到n维交互向量,然后分别将所述两个原始embedding向量和所述n维交互向量,拼接成3n维输入向量,通过mlp网络计算得到多个用户的各自app权重数据,其中n为大于1的整数。即上述预设神经网络识别模型还包括权重计算子网络或权重计算网络层,上述操作步骤通过权重计算子网络或权重计算网络层执行训练过程。图4是一优选方式的用户兴趣识别方法流程示意图。如图4所示,该优选实施方式下用户兴趣识别方法,包括以下步骤:301、获取app列表数据,根据安装人数对app列表数据进行清洗,去除其中的低频app,然后对所有app进行标注,获取app各自编号;302、获取多个用户不同时刻的相应app信息,基于app各自编号,分别对每一用户以及该用户不同时刻的相应app信息进行标注,获得包含用户app时序信息的app列表数据;303、将包含用户app时序信息的app列表数据,输入神经网络识别模型,生成app向量数据;304、分别将app向量数据中的两个原始embedding向量进行两两点乘,得到n维交互向量,然后分别将两个原始embedding向量和n维交互向量,拼接成3n维输入向量,计算得到多个用户的各自app权重数据,其中n为大于1的整数;305、依次对后一时刻app向量权重与前一时刻app向量权重,加权得到权重w21、w22、w23、…、w2n、w2(n+1),再依次将每一时刻app向量权重与前面所有时刻app向量权重进行聚合,获得每一时刻的聚合向量,再将每一时刻的聚合向量求和或求均值,其中,n为大于1的整数;306、通过神经网络模型(的mlp网络层)进行mlp计算,输出用户兴趣识别结果。图5是一优选实施例提供的用户兴趣识别方法中神经网络模型主网络框架图。图6是图5中加权聚合子网络框架图在一优选实施例中,用户兴趣识别方法实现过程如下所述。在涉及用户交易的大数据分析场景下,当用户首次授权,服务商获取得到用户的app安装列表信息时,记为t0时刻,即初始时刻,对于该时刻获取的app列表,已经无法得到每个app的按照顺序,当用户成为平台的活跃用户时,在后面的时刻,t1,t2,…,可以获取用户的新增的app,或者删除了哪些app。为了获取作为输入数据的app列表数据,需要进行数据预处理,首先准备app列表库:选择一个时间较长的时间窗口,如从2017年开始的,本平台上所有的借款用户,将借款用户中安装的app列表进行数据清洗,根据app安装的人数,去除低频的app最终生成一个去重的app列表,分别为每个app分配一个唯一的数字编号,如a_1,a_2,…,a_n等;其次,构建数据集:对于选择时间窗口中的借款人群,选择能够获取得到用户多个不同时刻的app列表的人群,根据获取得到的用户不同时刻的app信息,以及用户的标签信息y(如用户是否发生信用违约等),对于任意一个用户,根据app列表库,利用符号表示为,如x:[u_1:{t0:[a_100,a_2,a_20,…],t1:[a_10],t2:[a_1,a_25],…},u_2:{t0:[a_2,a_3,a_10,a_100,…],t1:[a_13],….},…],对应的标签y:[1,0,…]通过以上数据预处理得到的输入数据如下:x:借款用户手机中,安装的app列表信息,如表中所示,包括app名称、app安装时间用户编号app名称app安装时间10000微信2018-01-0108:43:1710000拼多多2018-02-1118:23:18….…..10001支付宝2019-06-0111:11:11…....y:用户在平台是否发生违约,[0,1]在本发明实施例中,核心步骤在于神经网络识别模型的网络设计,详细过程如下:1)初始化网络参数:图5中小矩形框表示一个app的语义向量表示,在初始时刻t0,该时刻的app列表中app数据相对较多,训练过程中t0时刻app之间的顺序无关(不考虑顺序关系),对于给定的app,在网络设计中提前设定各个app的向量维度为n(16或者64),为了加快模型收敛,用高斯随机噪声进行初始化参数,模型学习过程中就是要更新默认参数,为每个app得到一个带语义信息的向量表示;2)主网络设计过程:如图5所示,a.主网络的输入包含初始时刻t0的app列表,以及后续的t1,t2,…tn个时刻的app列表,通过后续时刻的app都前面的多个时刻app的embedding向量进行加权,得到加权的app的embedding向量。具体地,利用t1时刻的app列表,对于t0时刻的所有app的列表,根据子网络或其他权重计算方法生成的权重信息,得到一组权重列表,t1->t0:[w11,w12,w13,…,w1n,],利用权重信息加权t0时刻原始的embedding向量,将加权的向量进行聚合(求和sum/求均值ave),得到一组n维向量agg_emb_t0;依次,对于t2时刻而言,利用t2时刻的新增的app对于t0,t1时刻的app进行加权,得到另一组权限信息,t2->t0,t1:[w21,w22,w23,…,w2n,w2(n+1)],(注前面n+1,是因为多了t1时刻的app),再次利用新的权重信息,加权app的原始embedding向量,聚合得到新的向量n维向量agg_emb_t1;按照上述步骤,对于有tn个时刻的样本,最终得到n个聚合向量,[agg_emb_t0,agg_emb_t1,…,agg_emb_tn],将tn个时刻的向量进一步聚合,作为下一层的mlp网络的输入,经过多层神经网络,最终得到用户逾期的概率;b.根据给定的用户的标签信息y,利用多层mlp网络进行训练,如图5所示加权聚合后的上部框架,该部分网络是典型的mlp,多层感知机算法,网络的深度、隐含节点的个数可根据数据的大小进行设定;3)子网络的设计:如图6所示,子网络的目的是得到后面时刻的app与前面时刻所有app的权重信息。用得到的权重信息w,对原始的embedding向量进行加权。子网络的网络如图3所示,该网络输入为两个app的原始的embedding向量,通过将app与app向量进行点乘,得到n维交互向量,最后将两个输入的app原始的向量,以及交互向量,拼接成3n维的输入向量,通过多层mlp网络,得到一个[0,1]之间的权重信息。4)根据数据集的大小,设定其他超参数,对模型进行训练,评估,得到最终的模型参数。其中,得到的app的向量可以作为特征,用于其他机器学习算法。子网络输出的权重信息是根据下一个时刻的app的不同而动态调整的,不是静态的一个权重系数。充分考虑了app与app之间的交互信息,为主网络提供的更多样的输入信息。为了刻画用户安装的app在时间上的先后顺序,通过一个子网络,自动学习了一个权重信息,用于加权初始时刻app的向量,因此app的向量表示与传统方法相比,语义信息是很丰富的。仅仅通过主网络就可以实现本发明实施例提供的用户兴趣识别方法过程,子网络的设计主要是对加权聚合前权重计算子步骤的优化。主网络与子网络的输入都是app的embedding向量(模型需要学习的参数),是全连接的mlp网络,主网络的功能是通过深度神经网络模型,输入为用户安装app以及安装的时序信息,输出为每个app学习得到一个n维度的向量表示,以及用户是否发生违约的概率。子网络,也就是权重网络,输入两个app的embedding向量,是用于计算每个样本后面时刻app与初始时刻的app之间的权重,子网络输出为一个[0,1]之间的权重,用该权重来加权初始时刻app的embedding向量,目的是使得网络有更丰富的表征能力。通过上述神经网络识别模型计算,输出用户发生违约的概率,以及各个app的低维的向量表示。图7是本发明实施例提供的用户兴趣识别装置结构示意图。图8是一优选实施方式的户兴趣识别装置结构示意图。如图7所示,本发明实施例提供的用户兴趣识别装置1包括模型识别模块11,预先存储有神经网络识别模型,模型识别模块11用于:将包含用户app时序信息的app列表数据,输入神经网络识别模型,通过神经网络识别模型对app列表数据进行包含加权聚合的计算,输出用户兴趣识别结果,其中,神经网络识别模型是通过输入包含用户app时序信息的app列表训练数据训练得到的。如图8所示,该优选实施方式的用户兴趣识别装置2包括模型训练模块21和模型识别模块22,模型训练模块21包括向量生成子模块211、权重计算子模块212、加权聚合子模块213和mlp子模块214。其中,向量生成子模块211将包含用户app时序信息的app列表训练数据输入预设神经网络识别模型,生成app向量数据。权重计算子模块212用于:对app向量数据进行加权聚合之前,分别将app向量数据中的两个原始embedding向量进行两两点乘,得到n维交互向量,然后分别将两个原始embedding向量和所述n维交互向量,拼接成3n维输入向量,计算得到多个用户的各自app权重数据,其中n为大于1的整数。加权聚合子模块213用于对app向量数据进行加权聚合。mlp子模块利用预设多层感知机算法继续进行训练,获得神经网络识别模型。上述加权聚合包括:依次对后一时刻app向量权重与前一时刻app向量权重,加权得到权重w21、w22、w23、…、w2n、w2(n+1),再依次将每一时刻app向量权重与前面所有时刻app向量权重进行聚合,获得每一时刻的聚合向量,再将所述每一时刻的聚合向量求和或求均值,其中,n为大于1的整数。需要说明的是:上述实施例提供的用户兴趣识别装置在触发用户兴趣识别业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的用户兴趣识别装置与用户兴趣识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。综上所述,本发明实施例提供的用户兴趣识别方法及装置,相比现有技术,具有以下有益效果:1、充分考虑用户app时序信息,将时序信息融入深度网络模型设计中,通过结合app时序信息训练的用户兴趣识别模型进行计算识别,获取到了更丰富的语义信息向量和用户兴趣识别结果,提高了用户兴趣识别准确度;2、模型的输出除了如用户是否违约的概率的具体识别结果外,还包括各个app的embedding向量表示,该向量作为模型的参数的一部分,作为附加效果,上述更丰富全面的语义信息向量,可以作为自动提取的特征,也可以直接作为其他数据处理过程(聚类或机器学习算法等)的输入数据,方便实用。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1