内容推荐方法及装置与流程

文档序号:26715675发布日期:2021-09-22 19:56阅读:70来源:国知局
内容推荐方法及装置与流程

1.本发明涉及内容推荐领域,具体涉及一种内容推荐方法及装置。


背景技术:

2.网络的发展,使得用户可以查看的内容量较大。对于用户而言,从大量的内容中查找自己喜欢的内容,工作量较大,因此,向用户推荐内容,可以帮助用户快速地找到喜欢的内容。
3.在向用户推荐内容时,现有采用的预测算法出于工程实现上对计算复杂度的要求,用于训练和识别的特征向量大都假设特征与特征之间相互独立(如逻辑回归),使得在使用特征之间的关系改善预测效果时,需人工操作来选定关联特征。预测算法通过核函数将低维向量映射到高维的算法(如svm),有通过特征两两结合组成新的特征再输入逻辑回归模型的算法(如fm),有引入树模型的方法(如lr+gbdt),有使用神经网络的算法(如深度学习算法)等,在计算复杂度可接受的情况下取得特征之间的部分关系。如svm、lr+gbdt,深度学习等预测算法,通过将输入特征向量映射到另一个空间来取得特征之间的关系。但是在新的空间,向量的各维度没有可解释性。因此,得到的特征之间的关系准确度不高,无法提升预测的准确性。


技术实现要素:

4.鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的内容推荐方法及装置。
5.根据本发明的一个方面,提供了一种内容推荐方法,其包括:
6.获取目标用户的历史操作数据,其中,历史操作数据包含目标用户操作过的内容;
7.根据历史操作数据以及目标用户操作过的内容的标签信息,生成目标用户的一阶用户特征向量以及高阶用户特征向量;
8.根据目标内容的一阶内容特征向量及高阶用户特征向量,确定目标内容的高阶内容特征向量;目标内容的一阶内容特征向量是根据目标内容的标签信息生成的;
9.将一阶用户特征向量、高阶用户特征向量、一阶内容特征向量以及高阶内容特征向量输入至预设的推荐模型,得到输出结果,根据输出结果确定是否将目标内容推荐给目标用户;其中,预设的推荐模型用于预测目标用户是否喜欢目标内容。
10.可选地,目标内容的一阶内容特征向量的获取方式包括:
11.获取多个内容的标签信息;其中,每个内容具有至少一个标签信息;
12.对多个内容的标签信息的维度特征进行统计,确定一阶内容特征向量的各维度特征;一阶内容特征向量的维度特征为多个标签信息的维度特征的总和;
13.根据目标内容所包括的标签信息,设置目标内容的一阶内容特征向量的特征值,得到对应的目标内容的一阶内容特征向量;其中,将标签信息对应的维度特征的特征值设置为第一取值,非标签信息对应的其它维度特征的特征值设置为第二取值。
14.可选地,根据历史操作数据以及目标用户操作过的内容的标签信息,生成目标用户的一阶用户特征向量以及高阶用户特征向量进一步包括:
15.根据目标用户操作过的内容的标签信息,确定目标用户操作过的内容的一阶内容特征向量;
16.将目标用户操作过的多个内容的一阶内容特征向量中相同维度特征的特征值进行指定运算,根据各维度特征的特征值的运算结果生成目标用户的一阶用户特征向量;其中,目标用户的一阶用户特征向量与内容的一阶内容特征向量具有相同的维度特征;
17.根据多个内容的一阶内容特征向量,进行频繁项筛选,得到高阶内容特征向量候选集;
18.对目标用户操作过的内容按照标签信息的出现频次进行筛选,生成目标用户的高频一阶用户特征向量;
19.根据目标用户的高频一阶用户特征向量以及高阶内容特征向量候选集,生成目标用户的高阶用户特征向量。
20.可选地,根据多个内容的一阶内容特征向量,进行频繁项筛选,得到高阶内容特征向量候选集,包括:
21.计算多个内容的一阶内容特征向量中各维度特征的频率,确定各维度特征组合的频繁项的支持度;
22.针对任一内容,根据频繁项的支持度,去除支持度低于预设支持值的频繁项的维度特征组合,将其它频繁项的维度特征组合作为内容的高阶内容特征向量候选集。
23.可选地,对目标用户操作过的内容进行筛选,生成目标用户的高频一阶用户特征向量;以及,根据目标用户的高频一阶用户特征向量以及高阶内容特征向量候选集,生成目标用户的高阶用户特征向量,包括:
24.计算内容的一阶内容特征向量中特征值为第一数值的维度特征的频次,获取频次高于预设频次值的维度特征;筛选内容的一阶内容特征向量中维度特征的特征值进行或运算,得到目标用户的高频一阶用户特征向量;
25.根据高阶内容特征向量候选集中的频繁项的各维度特征组合,选取对应维度特征组合的目标用户的高频一阶用户特征向量与内容的一阶内容特征向量按照相同维度特征相乘后累加求和,根据求和结果计算得到目标用户的各维度特征组合的特征向量平均值;
26.遍历目标用户的各维度特征组合的特征向量平均值,去除特征向量平均值为第三数值的维度特征组合,得到的各维度特征组合为目标用户的高阶用户特征向量。
27.可选地,根据目标内容的一阶内容特征向量及高阶用户特征向量,确定目标内容的高阶内容特征向量进一步包括:
28.根据高阶用户特征向量中的各维度特征组合,选取对应维度特征组合的目标内容的一阶内容特征向量与操作过目标内容的用户的高频一阶用户特征向量按照相同维度特征相乘后累加求和,根据求和结果计算得到目标内容的各维度特征组合的特征向量平均值;
29.遍历目标内容的各维度特征组合的特征向量平均值,去除特征向量平均值为第四数值的维度特征组合,得到的各维度特征组合为目标内容的高阶内容特征向量。
30.可选地,方法还包括:训练得到推荐模型;
31.训练得到推荐模型具体为:
32.构建训练样本的输入数据和标注信息,将训练样本的输入数据输入至待训练的推荐模型中进行训练,将得到的输出结果与标注信息进行比对,根据比对结果调整推荐模型的训练参数,得到训练后的推荐模型;
33.其中,训练样本的输入数据包括样本用户的一阶用户特征向量、样本用户的高阶用户特征向量、样本内容的一阶内容特征向量、样本内容的高阶内容特征向量;标注信息包括正样本标注信息和负样本标注信息;标注信息根据样本用户对样本内容的历史操作数据进行标注。
34.根据本发明的另一方面,提供了一种内容推荐装置,其包括:
35.获取模块,适于获取目标用户的历史操作数据,其中,历史操作数据包含目标用户操作过的内容;
36.用户特征向量生成模块,适于根据历史操作数据以及目标用户操作过的内容的标签信息,生成目标用户的一阶用户特征向量以及高阶用户特征向量;
37.内容特征向量生成模块,适于根据目标内容的一阶内容特征向量及高阶用户特征向量,确定目标内容的高阶内容特征向量;目标内容的一阶内容特征向量是根据目标内容的标签信息生成的;
38.推荐模块,适于将一阶用户特征向量、高阶用户特征向量、一阶内容特征向量以及高阶内容特征向量输入至预设的推荐模型,得到输出结果,根据输出结果确定是否将目标内容推荐给目标用户;其中,预设的推荐模型用于预测目标用户是否喜欢目标内容。
39.根据本发明的又一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
40.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述内容推荐方法对应的操作。
41.根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述内容推荐方法对应的操作。
42.根据本发明的内容推荐方法及装置,获取目标用户的历史操作数据,得到目标用户操作过的大量内容。根据内容自身的标签信息和用户的操作关联,确定用户的一阶用户特征向量,再根据目标用户操作过的内容进一步筛选过滤确定高阶用户特征向量。基于同一内容的各个用户的高阶用户特征向量之间的共性,得到内容的高阶内容特征向量。本发明实现无需增加维度特征的情况下,引入高阶用户特征向量和高阶内容特征向量,使用维度特征组合的方式,增加推荐模型可使用的数据,从而提升推荐模型的预测效果。
43.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
44.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
45.图1示出了根据本发明一个实施例的内容推荐方法的流程图;
46.图2示出了根据本发明一个实施例的内容推荐装置的功能框图;
47.图3示出了根据本发明一个实施例的一种电子设备的结构示意图。
具体实施方式
48.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
49.图1示出了根据本发明一个实施例的内容推荐方法的流程图。如图1所示,内容推荐方法具体包括如下步骤:
50.步骤s101,获取目标用户的历史操作数据。
51.本实施例中,目标用户的历史操作数据由用户授权获取。历史操作数据包含目标用户操作过的内容。其中,内容为具有标签信息的多媒体内容,如歌曲、视频、电子书等各种具有标签信息的内容,其中,标签信息可以根据具体的内容、场景、风格、情感、作者、地区、语言、主题等信息确定标签信息。为方便理解本发明,以下内容以歌曲为例进行说明,但需要注意的是,本发明中内容不仅限于歌曲。
52.目标用户对内容的操作行为,包括如收藏、播放、浏览等操作行为。当目标用户对任一内容发生操作行为时,对应的产生历史操作数据,记录该内容为目标用户操作过的内容。如目标用户收藏了内容i,播放了内容s,则目标用户操作过内容i、内容s。目标用户包含一个或多个目标用户。
53.步骤s102,根据历史操作数据以及目标用户操作过的内容的标签信息,生成目标用户的一阶用户特征向量以及高阶用户特征向量。
54.标签信息可以根据数据库中存储的多个内容预先创建,并与各个内容绑定,方便在获取到具体的内容时,可以对应的获取到内容的标签信息。每个内容具有至少一个标签信息,如歌曲a可以具有休闲娱乐、网络流行、正面情绪、励志等标签信息。根据目标用户操作过的内容的标签信息,确定内容的一阶内容特征向量。内容的一阶内容特征向量中包含多个不同维度特征,一阶内容特征向量的维度特征为多个标签信息的维度特征的总和,每个维度特征与一个标签信息对应。具体的,先获取数据库中存储的多个内容的标签信息,通过对多个内容的标签信息的维度特征进行统计,根据多个内容的标签信息抽象,将每个标签信息与一个维度特征相对应,每个维度特征均为一维的特征,从而确定一阶内容特征向量的各维度特征。当统计多个内容的标签信息有n个时,确定一阶内容特征向量包含n个维度特征,x=[x1,x2,x3……
x
n
]。其中,x1为第1个维度特征,x
n
为第n个维度特征。如休闲娱乐的标签信息对应第2个维度特征x2、网络流行的标签对应第5个维度特征x5等,标签信息与具体的维度特征的对应关系可以根据实施情况设置,此处不做限定。
[0055]
在确定一阶特征向量中包含的各个维度特征后,针对目标用户操作过的内容,根据内容的至少一个标签信息,设置内容的一阶内容特征向量的特征值。将至少一个标签信息对应的维度特征的特征值设置为第一取值,非标签信息对应的其它维度特征的特征值设置为第二取值。为方便理解,本实施例中,第一取值以1为例,第二取值以0为例进行说明,如
某内容歌曲a,其具有休闲娱乐、网络流行、正面情绪、励志标签信息,将休闲娱乐、网络流行、正面情绪、励志标签信息的维度特征的特征值设置为1,其它维度特征的特征值设置为0,得到对应的内容的一阶内容特征向量为x=[0,1,0,0,1
……
0]。第一取值和第二取值也可以采用其他数值,此处不做限定。
[0056]
目标用户的一阶用户特征向量与操作过的内容的一阶内容特征向量紧密相关,具有相同的维度特征,如目标用户收藏了内容i,内容i的一阶内容特征向量作为目标用户的部分一阶用户特征向量,当目标用户还操作其它内容时,需要将目标用户操作的各个内容的一阶内容特征向量中相同维度特征的特征值进行指定运算,如将多个内容的一阶内容特征向量中第一维度特征的特征值进行指定运算,根据第一维度特征的特征值的运算结果生成得到目标用户的一阶用户特征向量的第一维度特征。指定运算可以采用如或运算,目标用户操作过内容x1、x2、x3,将内容x1、x2、x3的一阶内容特征向量按照相同的维度特征,x
11
与x
21
与x
31
的特征值进行或运算,x
12
与x
22
与x
32
的特征值进行或运算
……
x
1n
与x
2n
与x
3n
的特征值进行或运算,得到目标用户的一阶用户特征向量。即当目标用户操作过某内容时,则当该内容的一阶内容特征向量中各维度特征中特征值为1,也设置目标用户在对应的维度特征的特征值为1。目标用户的一阶用户特征向量与内容的一阶内容特征向量具有相同的维度特征,y
j
=[x
j1
,x
j2
,x
j3
……
x
jn
]。
[0057]
目标用户的一阶用户特征向量根据目标用户的历史操作数据确定,其中包含目标用户喜欢的内容,也可能包含目标用户不喜欢的内容,如目标用户误操作的内容、目标用户试听半分钟后关闭的内容等。在确定目标用户的高阶用户特征向量时,还需以目标用户喜欢的内容以依据,先确定目标用户的高频一阶用户特征向量,以计算准确的高阶用户特征向量。
[0058]
具体的,目标用户喜欢的内容应多于目标用户不喜欢的内容,对应的标签信息出现的频次高的标签信息应为目标用户喜欢的内容。针对目标用户,对目标用户操作过的内容按照标签信息的出现频次进行筛选,确定目标用户操作过的内容的各个标签信息的频次,获取频次高于预设频次值的标签信息。如3次,预设频次值根据实施情况设置,此处不做限定。标签信息的频次计算,根据标签信息与维度特征的一一对应关系,通过计算目标用户操作过的内容的一阶内容特征向量中特征值为1的维度特征的频次,即得到标签信息的频次。获取频次高于预设频次值的维度特征,筛选目标用户操作过的内容的一阶内容特征向量中该维度特征的特征值进行或运算,频次高于预设频次值的维度特征保留,对应的得到目标用户的高频一阶用户特征向量的各个特征值。对于频次低于或等于预设频次值的维度特征不做保留,可以直接将目标用户的高频一阶用户特征向量中不做保留的维度特征的特征值设置为0。
[0059]
在得到目标用户的高频一阶用户特征向量后,基于目标用户的高频一阶用户特征向量、高阶内容特征向量候选集,计算目标用户的高阶用户特征向量,以便过滤不必要的一阶用户特征向量。
[0060]
高阶内容特征向量候选集中包含的是各个内容中出现频率较多的标签信息对应的维度特征,目标用户的高频一阶用户特征向量体现了目标用户喜欢的内容的标签信息,根据高阶内容特征向量候选集和目标用户的高频一阶用户特征向量计算得到高阶用户特征向量为目标用户喜欢的内容的标签信息的组合对应的维度特征组合,从而可以获悉目标
用户喜欢的标签信息组合,方便后续为目标用户进行内容推荐。
[0061]
对于高阶内容特征向量候选集,根据得到的多个内容的一阶内容特征向量进行特征组合,得到频繁项,通过频繁项筛选,确定高阶内容特征向量候选集,具体的,由于多个内容的一阶内容特征向量中的各维度特征均是由所有标签信息抽象得到的各个维度特征,使得根据每个内容的标签信息生成的内容的一阶内容特征向量为稀疏的一阶特征向量,其中特征值为0的维度特征较多。基于上述问题,将各个维度特征进行组合,得到维度特征组合的频繁项。频繁项可以由2个、3个或n个维度特征组合得到。计算各个内容的一阶内容特征向量中各维度特征的频率,确定各维度特征对应的频繁项。具体的,计算各个内容的一阶内容特征向量中特征值为第一数值的各维度特征在所有维度特征中出现的频率,根据频率确定各维度特征组合的频繁项的支持度。如励志这一标签信息对应的维度特征出现的概率较低,仅出现一次时,则其他标签信息对应的维度特征与励志这一标签信息对应的维度特征组合后,其出现的概率与励志这一标签信息对应的维度特征出现的概率也会较低,其出现的次数也仅为一次,频繁项的各个维度特征的组合与单个维度特征出现频率相同时,频繁项的各个维度特征的组合与单个维度特征的数据在训练时的效果相同,频繁项的维度特征组合为无效的维度特征组合。根据概率确定各维度特征组合的频繁项的支持度时,可以根据频率高低对应的设置支持度。根据频繁项的支持度,去除支持度低于预设支持值的频繁项的维度特征组合,如预设支持值为2,支持度低于预设支持值的频繁项,即去除无效的维度特征组合,保留支持度高于或等于预设支持值的其它频繁项的维度特征组合,将其作为高阶内容特征向量候选集。对应的,第i个内容的高阶内容特征向量候选集为c
i
=[c
i2
,c
i3
……
c
in
],c
i2
为第i个内容的2个维度特征组合的频繁项,c
in
为第i个内容的n个维度特征组合的频繁项,其中,各个频繁项均为支持度高于或等于预设支持值的频繁项。各个内容的高阶内容特征向量候选集,为c=[c
1,
c
2,

c
i

c
m
],内容的总数为m,c1为第1个内容的高阶内容特征向量候选集,c
m
为第m个内容的高阶内容特征向量候选集。此处,各个内容为数据库中存储的各个内容,每个内容都根据内容的一阶内容特征向量进行计算,得到各个内容的高阶内容特征向量候选集。
[0062]
在得到高阶内容特征向量候选集后,由于用户的一阶用户特征向量与内容的一阶内容特征向量的维度特征均相同,根据高阶内容特征向量候选集确定用户的各个频繁项,其中,目标用户的k个维度特征组合的频繁项与内容的k阶特征的频繁项(k个维度特征组合即k阶特征)对应。根据目标用户操作过的内容,如目标用户j操作过s个内容,针对目标用户j,根据高阶内容特征向量候选集中的频繁项的各维度特征组合,选取对应维度特征组合的目标用户的高频一阶用户特征向量与其关联的s个内容的一阶内容特征向量按照相同维度特征相乘后,将乘积累加求和,根据求和结果计算得到目标用户的各维度特征组合的特征向量平均值,特征向量平均值即将求和结果除以关联的内容个数,除以s,得到特征向量平均值。如高阶内容特征向量候选集中包含的2个维度特征组合的频繁项,分别为x5和x9,将s个内容中一阶内容特征向量的x
i5
和x
i9
,与目标用户j的高频一阶用户特征向量中的x
j5
和x
j9
分别相乘求和后,计算平均值,特征向量平均值=(第1个内容的一阶内容特征向量的x
15
*x
j5
+第2个内容的一阶内容特征向量的x
25
*x
j5
+第3个内容的一阶内容特征向量的x
35
*x
j5
……
+第s个内容的一阶内容特征向量的x
s5
*x
j5
+第1个内容的一阶内容特征向量的x
19
*x
j9
+第2个内容的一阶内容特征向量的x
29
*x
j9
+第3个内容的一阶内容特征向量的x
39
*x
j9
……
+第s个内容
的一阶内容特征向量的x
s9
*x
j9
)/s。将高阶内容特征向量候选集中的频繁项的各维度特征组合分别计算,确定目标用户的各维度特征组合的特征向量平均值。然后,遍历该目标用户的各维度特征组合的特征向量平均值,去除特征向量平均值为第三数值的维度特征组合,此处,第三数值可以为如0,即去除用户关注度低的特征维度组合,得到的其它各维度特征组合为该目标用户的高阶用户特征向量,即目标用户关注度高、喜欢的标签信息组合。
[0063]
进一步,若目标用户为多个时,则分别根据各个目标用户各自操作工的内容,以及对应的高阶内容特征向量候选集,确定各个目标用户的高阶用户特征向量。对于非目标用户的其他用户,其他用户的高阶用户特征向量的确定方式与目标用户的高阶用户特征向量确定方式相同,根据其他用户操作过的内容、内容的高阶内容特征向量候选集,确定其他用户的高阶用户特征向量。
[0064]
步骤s103,根据目标内容的一阶内容特征向量及高阶用户特征向量,确定目标内容的高阶内容特征向量。
[0065]
目标内容的一阶内容特征向量是根据目标内容的标签信息生成的,具体参照步骤s102中内容的一阶内容特征向量生成方式得到。目标内容可以为一个或多个目标内容,分别根据每个目标内容的标签信息生成各自的一阶内容特征向量。
[0066]
进一步,对于训练推荐模型所需的训练样本的输入数据,样本内容的一阶内容特征向量也采用上述方式获取。具体的,对于多个样本内容,根据各个样本内容具有的标签信息,分别得到各个样本内容的一阶内容特征向量,x
i
=[x
i1
,x
i2
,x
i3
……
x
in
],其中,x
i
代表第i个样本内容,x
i1
代表第i个样本内容的第1个维度特征。
[0067]
在确定目标用户的高阶用户特征向量后,针对目标内容,确定目标内容的高阶内容特征向量。
[0068]
具体的,根据高阶用户特征向量中的各维度特征组合,即用户喜欢的标签信息组合,筛选出目标内容受用户关注、被用户喜欢的频繁项的维度特征组合。由于用户的一阶用户特征向量与目标内容的一阶内容特征向量的维度特征均相同,目标内容的k个维度特征组合的频繁项与用户的k阶特征的频繁项(k个维度特征组合即k阶特征)对应。当目标内容i被p个用户操作过时,根据高阶用户特征向量,对应的可以得出目标内容i被p个用户选择是由于哪些标签信息组合,即高阶内容特征向量。具体的,对于目标内容i,选取对应维度特征组合的目标内容的一阶内容特征向量与目标内容关联的p个用户的高频一阶用户特征向量按照相同维度特征相乘后,将乘积累加求和,根据求和结果计算得到目标内容的各维度特征组合的特征向量平均值,特征向量平均值即将求和结果除以关联的用户个数,除以p,得到特征向量平均值。如高阶用户特征向量中包含某2个维度特征组合,分别为x1和x3,将p个用户的高频一阶用户特征向量的x
11
和x
13
、x
21
和x
23
……
x
p1
和x
p3
,均与目标内容i的一阶内容特征向量中的x
i1
和x
i3
分别相乘求和后,计算平均值,特征向量平均值=(第1个用户的高频一阶用户特征向量的x
11
*x
i1
+第2个用户的高频一阶用户特征向量的x
21
*x
i1
+第3个用户的高频一阶用户特征向量的x
31
*x
i1
……
+第p个用户的高频一阶用户特征向量的x
p1
*x
i1
+第1个用户的高频一阶用户特征向量的x
13
*x
i3
+第2个用户的高频一阶用户特征向量的x
23
*x
i3
+第3个用户的高频一阶用户特征向量的x
33
*x
i3
……
+第p个用户的高频一阶用户特征向量的x
p3
*x
i3
)/p。然后,遍历该目标内容的各维度特征组合的特征向量平均值,去除特征向量平均值为第四数值的维度特征组合,第四数值可以为如0,得到的各维度特征组合为该目标内容的高阶内容
特征向量,即内容受用户关注、喜欢的频繁项的维度特征组合。此处,高阶用户特征向量为预先计算的操作过目标内容的用户的高阶用户特征向量。
[0069]
步骤s104,将一阶用户特征向量、高阶用户特征向量、一阶内容特征向量以及高阶内容特征向量输入至预设的推荐模型,得到输出结果,根据输出结果确定是否将目标内容推荐给目标用户。
[0070]
根据以上各步骤,得到目标内容的一阶内容特征向量、目标用户的一阶用户特征向量、目标内容的高阶内容特征向量和目标用户的高阶用户特征向量后,将以上数据进行拼接,构建为输入数据。
[0071]
将输入数据输入至预设的推荐模型,得到对应的输出结果。根据输出结果,如输出结果为1,则预测目标用户可能喜欢目标内容,将目标内容推荐给目标用户,若输出结果为0,则预测目标用户不喜欢目标内容,无需将目标内容推荐给目标用户。
[0072]
进一步,本实施例中预设的推荐模型通过训练得到,推荐模型的训练过程具体为:构建训练样本的输入数据和标注信息,将训练样本的输入数据输入至待训练的推荐模型中进行训练,将得到的输出结果与标注信息进行比对,根据比对结果调整推荐模型的训练参数,从而得到训练后的推荐模型。可选地,本实施例中推荐模型采用fm算法,可以通过维度特征组合的频繁项进行逻辑回归。
[0073]
构建的训练样本的输入数据可以由样本内容的一阶内容特征向量x
i
、样本内容的高阶内容特征向量、样本用户的一阶用户特征向量y
j
、样本用户的高阶用户特征向量拼接得到。如输入数据v=[x
i
,样本内容i的高阶内容特征向量,y
j
,用户j的高阶用户特征向量]。
[0074]
标注信息包括正样本标注信息和负样本标注信息。正样本标注信息为1,负样本标注信息为0。标注信息根据样本用户对样本内容的历史操作数据进行标注,如根据样本用户j对样本内容i的历史操作数据为收藏、播放时长等于样本内容时长等,将样本用户j和样本内容i组成的输入数据对应的标注信息设置为正样本标注信息1;若样本用户p对样本内容s的历史操作数据中,仅播放半分钟,或直接切换至其它样本内容,则将样本用户p和样本内容s组成的输入数据对应的标注信息设置为负样本标注信息0。具体标注信息根据实施情况进行标注,此处不做限定。
[0075]
将输入数据输入至待训练的推荐模型中,得到输出结果,将输出结果与标注信息进行对比,根据标注信息调整推荐模型的参数,完成对推荐模型的训练。
[0076]
根据本发明提供的内容推荐方法,获取目标用户的历史操作数据,得到目标用户操作过的大量内容。根据内容自身的标签信息和用户的操作关联,确定用户的一阶用户特征向量,再根据目标用户操作过的内容进一步筛选过滤确定高阶用户特征向量。基于同一内容的各个用户的高阶用户特征向量之间的共性,得到内容的高阶内容特征向量。本发明实现无需增加维度特征的情况下,引入高阶用户特征向量和高阶内容特征向量,使用维度特征组合的方式,增加推荐模型可使用的数据,从而提升推荐模型的预测效果。
[0077]
图2示出了根据本发明一个实施例的内容推荐装置的功能框图。如图2所示,内容推荐装置包括如下模块:
[0078]
获取模块210,适于获取目标用户的历史操作数据,其中,历史操作数据包含目标用户操作过的内容;
[0079]
用户特征向量生成模块220,适于根据历史操作数据以及目标用户操作过的内容
的标签信息,生成目标用户的一阶用户特征向量以及高阶用户特征向量;
[0080]
内容特征向量生成模块230,适于根据目标内容的一阶内容特征向量及高阶用户特征向量,确定目标内容的高阶内容特征向量;目标内容的一阶内容特征向量是根据目标内容的标签信息生成的;
[0081]
推荐模块240,适于将一阶用户特征向量、高阶用户特征向量、一阶内容特征向量以及高阶内容特征向量输入至预设的推荐模型,得到输出结果,根据输出结果确定是否将目标内容推荐给目标用户;其中,预设的推荐模型用于预测目标用户是否喜欢目标内容。
[0082]
可选地,内容特征向量生成模块230进一步适于:
[0083]
获取多个内容的标签信息;其中,每个内容具有至少一个标签信息;
[0084]
对多个内容的标签信息的维度特征进行统计,确定一阶内容特征向量的各维度特征;一阶内容特征向量的维度特征为多个标签信息的维度特征的总和;根据目标内容所包括的标签信息,设置目标内容的一阶内容特征向量的特征值,得到对应的目标内容的一阶内容特征向量;其中,将标签信息对应的维度特征的特征值设置为第一取值,非标签信息对应的其它维度特征的特征值设置为第二取值。
[0085]
可选地,用户特征向量生成模块220进一步适于:
[0086]
根据目标用户操作过的内容的标签信息,确定目标用户操作过的内容的一阶内容特征向量;
[0087]
将目标用户操作过的多个内容的一阶内容特征向量中相同维度特征的特征值进行指定运算,根据各维度特征的特征值的运算结果生成目标用户的一阶用户特征向量;其中,目标用户的一阶用户特征向量与内容的一阶内容特征向量具有相同的维度特征;
[0088]
根据多个内容的一阶内容特征向量,进行频繁项筛选,得到高阶内容特征向量候选集;
[0089]
对目标用户操作过的内容按照标签信息的出现频次进行筛选,生成目标用户的高频一阶用户特征向量;
[0090]
根据目标用户的高频一阶用户特征向量以及高阶内容特征向量候选集,生成目标用户的高阶用户特征向量。
[0091]
可选地,用户特征向量生成模块220进一步适于:
[0092]
计算多个内容的一阶内容特征向量中各维度特征的频率,确定各维度特征组合的频繁项的支持度;
[0093]
针对任一内容,根据频繁项的支持度,去除支持度低于预设支持值的频繁项的维度特征组合,将其它频繁项的维度特征组合作为内容的高阶内容特征向量候选集。
[0094]
可选地,用户特征向量生成模块220进一步适于:
[0095]
计算内容的一阶内容特征向量中特征值为第一数值的维度特征的频次,获取频次高于预设频次值的维度特征;筛选内容的一阶内容特征向量中维度特征的特征值进行或运算,得到目标用户的高频一阶用户特征向量;
[0096]
根据高阶内容特征向量候选集中的频繁项的各维度特征组合,选取对应维度特征组合的目标用户的高频一阶用户特征向量与内容的一阶内容特征向量按照相同维度特征相乘后累加求和,根据求和结果计算得到目标用户的各维度特征组合的特征向量平均值;
[0097]
遍历目标用户的各维度特征组合的特征向量平均值,去除特征向量平均值为第三
数值的维度特征组合,得到的各维度特征组合为目标用户的高阶用户特征向量。
[0098]
可选地,内容特征向量生成模块230进一步适于:
[0099]
根据高阶用户特征向量中的各维度特征组合,选取对应维度特征组合的目标内容的一阶内容特征向量与操作过目标内容的用户的高频一阶用户特征向量按照相同维度特征相乘后累加求和,根据求和结果计算得到目标内容的各维度特征组合的特征向量平均值;
[0100]
遍历目标内容的各维度特征组合的特征向量平均值,去除特征向量平均值为第四数值的维度特征组合,得到的各维度特征组合为目标内容的高阶内容特征向量。
[0101]
可选地,装置还包括:训练模块250,适于训练得到推荐模型;
[0102]
训练模块250进一步适于:
[0103]
构建训练样本的输入数据和标注信息,将训练样本的输入数据输入至待训练的推荐模型中进行训练,将得到的输出结果与标注信息进行比对,根据比对结果调整推荐模型的训练参数,得到训练后的推荐模型;
[0104]
其中,训练样本的输入数据包括样本用户的一阶用户特征向量、样本用户的高阶用户特征向量、样本内容的一阶内容特征向量、样本内容的高阶内容特征向量;标注信息包括正样本标注信息和负样本标注信息;标注信息根据样本用户对样本内容的历史操作数据进行标注。
[0105]
以上各模块的描述参照方法实施例中对应的描述,在此不再赘述。
[0106]
本技术还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的内容推荐方法。
[0107]
图3示出了根据本发明一个实施例的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
[0108]
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(communications interface)304、存储器(memory)306、以及通信总线308。
[0109]
其中:
[0110]
处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
[0111]
通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。
[0112]
处理器302,用于执行程序310,具体可以执行上述内容推荐方法实施例中的相关步骤。
[0113]
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
[0114]
处理器302可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0115]
存储器306,用于存放程序310。存储器306可能包含高速ram存储器,也可能还包括非易失性存储器(non

volatile memory),例如至少一个磁盘存储器。
[0116]
程序310具体可以用于使得处理器302执行上述任意方法实施例中的内容推荐方法。程序310中各步骤的具体实现可以参见上述内容推荐实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上
述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
[0117]
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0118]
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0119]
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
[0120]
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0121]
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0122]
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的内容推荐装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0123]
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未
列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1