多媒体信息推荐方法及装置与流程

文档序号:15144420发布日期:2018-08-10 20:16阅读:124来源:国知局

本申请涉及信息处理技术领域,更具体地说,涉及一种多媒体信息推荐方法及装置。



背景技术:

随着信息技术的发展,涌现了大量的多媒体信息平台,并为用户提供着海量的多媒体信息资源,通过多媒体信息推荐的方式,能够从海量的多媒体信息资源中将适合用户的或用户所需的多媒体信息快速推荐给用户,提高用户获取多媒体信息的效率。

目前,基于协同过滤算法的多媒体信息推荐方法,在对用户点播多媒体信息的频率信息进行处理时,通常会将多媒体信息的点播频率信息视为多媒体信息的评分信息,并采用与用户评分行为相匹配的高斯分布模型来构建概率模型。但是,用户对多媒体信息的点播行为通常是一次点播或多次循环点播的情况居多,即用户点播行为并不符合高斯分布,所以,目前采用高斯分布模型来对多媒体信息的点播频率信息进行建模,并不能对多媒体信息的点播频率信息进行很好的拟合,最终导致多媒体信息推荐的准确性较差。

因此,目前迫切需要一种能够提高推荐准确性的多媒体信息推荐方案。



技术实现要素:

有鉴于此,本申请提供了一种多媒体信息推荐方法及装置,以解决现有多媒体信息推荐方案准确性较差的技术问题。

为了实现上述目的,现提出的方案如下:

一种多媒体信息推荐方法,包括:

获取待进行多媒体推荐的用户集合中,用户对多媒体集合中各条多媒体信息的历史点播频率信息;

根据所述历史点播频率信息,使用泊松分布构建包含用户特征矩阵和多媒体信息特征矩阵的概率模型;所述用户特征矩阵包括所述用户集合中每一用户的特征向量,所述多媒体信息特征矩阵包括所述多媒体集合中每一条多媒体信息的特征向量;

对所述概率模型进行矩阵分解,以获得所述用户特征矩阵和所述多媒体信息特征矩阵;

根据所述用户特征矩阵及所述多媒体信息特征矩阵,确定所述用户集合中每一用户对所述多媒体集合中各条多媒体信息的预测点播频率;

至少根据用户对各条多媒体信息的预测点播频率,从多媒体集合中确定需要向所述用户推荐的多媒体信息。

一种多媒体信息推荐装置,包括:

历史信息获取单元,用于获取待进行多媒体推荐的用户集合中,用户对多媒体集合中各条多媒体信息的历史点播频率信息;

概率模型构建单元,用于根据所述历史点播频率信息,使用泊松分布构建包含用户特征矩阵和多媒体信息特征矩阵的概率模型;所述用户特征矩阵包括所述用户集合中每一用户的特征向量,所述多媒体信息特征矩阵包括所述多媒体集合中每一条多媒体信息的特征向量;

特征矩阵获取单元,用于对所述概率模型进行矩阵分解,以获得所述用户特征矩阵和所述多媒体信息特征矩阵;

预测信息确定单元,用于根据所述用户特征矩阵及所述多媒体信息特征矩阵,确定所述用户集合中每一用户对所述多媒体集合中各条多媒体信息的预测点播频率;

推荐信息确定单元,用于至少根据用户对各条多媒体信息的预测点播频率,从多媒体集合中确定需要向所述用户推荐的多媒体信息。

从上述的技术方案可以看出,本申请实施例提供的多媒体信息推荐方法及装置,获取待进行多媒体推荐的用户集合中,用户对多媒体集合中各条多媒体信息的历史点播频率信息,根据所述历史点播频率信息,使用泊松分布构建包含用户特征矩阵和多媒体信息特征矩阵的概率模型,克服了高斯分布模型无法很好地拟合多媒体信息的点播频率信息的问题,然后,对所述概率模型进行矩阵分解,获得所述用户特征矩阵和所述多媒体信息特征矩阵,根据所述用户特征矩阵及所述多媒体信息特征矩阵,确定所述用户集合中每一用户对所述多媒体集合中各条多媒体信息的预测点播频率,用户对多媒体信息的预测点播频率,能够准确反映了该多媒体信息相对于用户的适宜程度,从而至少根据用户对各条多媒体信息的预测点播频率,能够从多媒体集合中准确地确定出需要向所述用户推荐的多媒体信息,提高多媒体信息推荐的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的多媒体信息推荐方法的一种流程图;

图2为本申请实施例提供的多媒体信息推荐方法的另一种流程图;

图3为本申请实施例提供的多媒体信息推荐方法的又一种流程图;

图4为本申请实施例提供的多媒体信息推荐方法的又一种流程图;

图5为本申请实施例提供的多媒体信息推荐方法的再一种流程图;

图6为本申请实施例提供的多媒体信息推荐装置的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在对本申请实施例公开的多媒体信息推荐方法进行介绍之前,首先对本申请实施例公开的多媒体信息推荐方法的构思过程进行简要介绍,具体如下:

为了提高用户获取多媒体信息的效率,传统的多媒体信息推荐方案,基于协同过滤算法对用户点播多媒体信息的频率信息进行处理,在处理过程中,通常会将多媒体信息的点播频率信息视为多媒体信息的评分信息,并采用与用户评分行为相匹配的高斯分布来构建概率模型,但由于多媒体信息的用户点播行为并不符合高斯分布,所以,利用高斯分布构建的概率模型并不能对多媒体信息的点播频率信息进行很好的拟合,最终导致多媒体信息推荐的准确性较差。

鉴于现有多媒体信息推荐方法存在的问题,本发明根据用户对多媒体信息的历史点播频率信息,使用与用户点播行为相匹配的泊松分布来构建概率模型,以克服使用高斯分布构建的概率模型无法很好地拟合用户对多媒体信息的点播频率信息的问题,并通过对泊松分布构建概率模型进行矩阵分解,得到用户特征矩阵和多媒体信息特征矩阵,进而准确地确定出用户对多媒体信息的预测点播频率,根据所述预测点播频率,能够从多媒体集合中准确地确定需要向所述用户推荐的多媒体信息。

接下来对本申请实施例公开的多媒体信息推荐方法进行介绍。

请参阅图1,图1为本申请实施例提供的多媒体信息推荐方法的一种流程图。

如图1所示,所述方法包括:

s100:获取待进行多媒体推荐的用户集合中,用户对多媒体集合中各条多媒体信息的历史点播频率信息。

用户集合中包括待进行多媒体推荐的用户,多媒体集合中包括待推荐给用户的多媒体信息。在用户对多媒体信息进行点播后,会生成用户对多媒体信息的点播频率信息,点播频率信息能够从一定程度上反映用户对多媒体信息的偏好,因此,本发明实施例将用户对多媒体集合中各条多媒体信息的历史点播频率信息作为建模与分析的数据基础。

s110:根据所述历史点播频率信息,使用泊松分布构建包含用户特征矩阵和多媒体信息特征矩阵的概率模型。

所述用户特征矩阵包括所述用户集合中每一用户的特征向量,所述多媒体信息特征矩阵包括所述多媒体集合中每一条多媒体信息的特征向量。

用户对多媒体的历史点播频率信息符合泊松分布,使用泊松分布来构建概率模型,能够很好地对历史点播频率信息进行数据拟合,提高概率模型的准确性。

在使用泊松分布所构建的概率模型中,用户特征矩阵与多媒体信息特征矩阵为待求解变量。

s120:对所述概率模型进行矩阵分解,以获得所述用户特征矩阵和所述多媒体信息特征矩阵。

矩阵分解过程就是对概率模型中用户特征矩阵与多媒体信息特征矩阵的求解过程,对概率模型进行矩阵分解后,可以得到相应的用户特征矩阵与多媒体信息特征矩阵的求解结果。

s130:根据所述用户特征矩阵及所述多媒体信息特征矩阵,确定所述用户集合中每一用户对所述多媒体集合中各条多媒体信息的预测点播频率。

用户特征矩阵包括用户集合中每一用户的特征向量,多媒体信息特征矩阵包括多媒体集合中每一条多媒体信息的特征向量,根据任一用户的特征向量与任一条多媒体信息的特征向量,即可确定出任一用户对任一条多媒体信息的预测点播频率,进而得到所述用户集合中每一用户对所述多媒体集合中各条多媒体信息的预测点播频率。

s140:至少根据用户对各条多媒体信息的预测点播频率,从多媒体集合中确定需要向所述用户推荐的多媒体信息。

一示例中,在确定出用户对各条多媒体信息的预测点播频率后,可以直接将多媒体集合中用户的预测点播频率最高的前n条多媒体信息确定为需要向所述用户推荐的多媒体信息。

另一示例中,在确定出用户对各条多媒体信息的预测点播频率后,可以进一步将多媒体集合中用户的预测点播频率最高的且该用户未点播过的前n条多媒体信息确定为需要向所述用户推荐的多媒体信息。

当然,还可以根据具体业务需求,利用用户对各条多媒体信息的预测点播频率,从多媒体集合中确定需要向所述用户推荐的多媒体信息。

本实施例提供的多媒体信息推荐方法,获取待进行多媒体推荐的用户集合中,用户对多媒体集合中各条多媒体信息的历史点播频率信息,据所述历史点播频率信息,使用泊松分布构建包含用户特征矩阵和多媒体信息特征矩阵的概率模型,克服了高斯分布模型无法很好地拟合多媒体信息的点播频率信息的问题,然后,对所述概率模型进行矩阵分解,获得所述用户特征矩阵和所述多媒体信息特征矩阵,根据所述用户特征矩阵及所述多媒体信息特征矩阵,确定所述用户集合中每一用户对所述多媒体集合中各条多媒体信息的预测点播频率,用户对多媒体信息的预测点播频率,能够准确反映了该多媒体信息相对于用户的适宜程度,从而至少根据用户对各条多媒体信息的预测点播频率,能够从多媒体集合中准确地确定出需要向所述用户推荐的多媒体信息,提高多媒体信息推荐的准确性。

请参阅图2,图2为本申请实施例提供的多媒体信息推荐方法的另一种流程图。

如图2所示,所述方法包括:

s200:获取表示用户对多媒体的收听频率信息的三元组b。

所述三元组b包括用户集合u、多媒体集合i和点播信息矩阵r,即b=<u,i,r>;u={u1,u2,…,ui,…,u|u|},其中,ui表示第i个用户;i={i1,i2,…,ij,…,i|i|},其中,ij表示第j条多媒体信息;所述点播信息矩阵r包括用户集合u中每一用户对多媒体集合i中各条多媒体信息的点播次数,即r={ri,j}|u|×|i|,其中,表示第i个用户ui对第j条多媒体信息的点播次数,1≤i≤|u|,1≤j≤|i|;|u|为用户集合u中的用户数;|i|为多媒体集合i中的多媒体信息条数。

其中,所述三元组b即为前述实施例中所述的历史点播频率信息。

s210:根据所述历史点播频率信息,使用泊松分布构建包含用户特征矩阵和多媒体信息特征矩阵的概率模型。

s220:确定所述多媒体集合中多媒体信息间的相关性,各条多媒体信息间的相关性组成多媒体信息相关性矩阵;和/或,确定所述用户集合中用户间的相关性,各用户间的相关性组成用户相关性矩阵。

具体地,本步骤中可以仅确定多媒体信息间的相关性,也可以仅确定用户间的相关性,当然,还可以同时确定二者。

一示例中,所述确定所述多媒体集合中多媒体信息间的相关性的过程可包括以下步骤:

a1)、获取表示多媒体的标签信息的三元组p,所述三元组p包括多媒体集合i、标签集合t和多媒体标签矩阵a,即,p=<i,t,a>,t={t1,t2,…,tt,…,t|t|},a={aj,t}|i|×|t|,所述多媒体标签矩阵a包括多媒体集合i中每一条多媒体信息是否拥有标签集合t中各标签的信息,其中,aj,t=1表示第j条多媒体信息ij拥有第t个标签,aj,t=0表示第j条多媒体信息ij未拥有第t个标签,1≤t≤|t|,|t|为标签集合t中的标签个数。

a2)、计算基于所述三元组p的多媒体集合i中多媒体信息间的相关性。

利用以下公式(1)可获得第j条多媒体信息ij和第n条多媒体信息in共同拥有的标签数目cj,n,从而获得多媒体结合i中多媒体信息之间共同拥有标签的信息矩阵c,c={cj,n}|i|×|i|。

cj,n=|aj·∩an·|……(1)

公式(1)中,aj·表示第j条多媒体信息ij是否拥有标签集合t的信息;an·表示第n条多媒体信息in是否拥有标签集合t的信息;1≤n≤|i|。

利用以下公式(2)获得归一化处理后的标签数目c’j,n,从而获得多媒体信息相关性矩阵c’,c’={c’jn}|i|×|i|。

公式(2)中,|aj·|表示第j条多媒体信息ij拥有标签数目。

一示例中,所述确定所述用户集合中用户间的相关性的过程可包括以下步骤:

b1)、获取表示用户间的好友关系的二元组q,所述二元组q包括用户集合u和好友关系矩阵f,即,q=<u,f>,f={fi,m}|u|×|u|,所述好友关系矩阵f包括表示用户集合u中任意两个用户是否为好友的信息;其中,fi,m=1表示第m个用户um是第i个用户ui的好友,fi,m=0表示第m个用户um不是第i个用户ui的好友,1≤m≤|u|。

b2)、计算基于所述三元组b和所述二元组q的所述用户集合u中用户间的相关性。

利用以下公式(3)计算第i个用户ui和第m个用户um之间的相关性,获得用户相关性矩阵s={si,m}|u|×|u|:

公式(3)中,ii,m表示第i个用户ui与第m个用户um共同点播过的多媒体信息的集合,表示第i个用户ui对多媒体集合i中多媒体信息的点播次数的均值,表示第i个用户ui对多媒体集合i中多媒体信息的点播次数的均值。

进一步地,还可利用以下公式(4)计算改进后的第i个用户ui和第m个用户um之间的相关性,获得改进后的用户相关性矩阵s’={s’i,m}|u|×|u|:

公式(4)中,fi·表示第i个用户ui拥有的好友个数信息,f·m表示好友为用户um的用户个数信息。

s230:将所述用户相关性矩阵和/或所述多媒体信息相关性矩阵融合至所述概率模型中,得到融合后的概率模型,用于供后续步骤进行矩阵分解。

可以理解的是,若步骤s220中仅确定多媒体信息间的相关性,则本步骤中仅将多媒体信息间的相关性组成的多媒体信息相关性矩阵融合至概率模型中;若步骤s220中仅确定用户间的相关性,则本步骤中仅将用户间的相关性组成的用户相关性矩阵融合至概率模型中;若步骤s220中同时确定了多媒体信息间的相关性和用户间的相关性,则本步骤中同时将用户相关性矩阵和多媒体信息相关性矩阵融合至概率模型中。

其中,融合了用户相关性矩阵和/或多媒体信息相关性矩阵的概率模型,充分挖掘了用户之间的相关性以及多媒体信息之间的相关性,能够更加符合用户点播行为的概率分布。

s240:对所述概率模型进行矩阵分解,以获得所述用户特征矩阵和所述多媒体信息特征矩阵。

s250:根据所述用户特征矩阵及所述多媒体信息特征矩阵,确定所述用户集合中每一用户对所述多媒体集合中各条多媒体信息的预测点播频率。

s260:至少根据用户对各条多媒体信息的预测点播频率,从多媒体集合中确定需要向所述用户推荐的多媒体信息。

其中,步骤s240-s260与前述实施例中的步骤s120-s140相类似,具体可参见前述实施例的内容,在此不再赘述。

本实施例提供的多媒体信息推荐方法,根据表示用户对多媒体的收听频率信息的三元组b,使用泊松分布来构建概率模型,并将用户相关性矩阵和/或多媒体信息相关性矩阵融合到概率模型中,使得融合后的概率模型充分挖掘了用户之间的相关性以及多媒体信息之间的相关性,能够更加符合用户点播行为的概率分布,进而提高了概率模型的准确性,从而使得基于该概率模型最终得到的多媒体信息推荐结果更加准确。

请参阅图3,图3为本申请实施例提供的多媒体信息推荐方法的又一种流程图。

如图3所示,所述方法包括:

s300:获取待进行多媒体推荐的用户集合中,用户对多媒体集合中各条多媒体信息的历史点播频率信息。

其中,所述历史点播频率信息包括表示用户对多媒体的收听频率信息的三元组b,所述三元组b包括用户集合u、多媒体集合i和点播信息矩阵r,具体可参见前述实施例中关于三元组b的相关内容。

s310:构建所述历史点播频率信息的泊松先验分布,所述泊松先验分布包含用户特征矩阵和多媒体信息特征矩阵。

利用以下公式(5),构建点播信息矩阵r的泊松先验分布p(r|w,v):

公式(5)中,wi表示第i个用户ui的特征向量;vj表示第j条多媒体信息ij的特征向量;w表示用户集合u中所有用户的特征向量所构成的用户特征矩阵;v表示多媒体集合i中所有多媒体信息的特征向量所构成的多媒体信息特征矩阵。

s320:构建用户特征矩阵的gamma先验分布。

利用以下公式(6),构建用户特征矩阵w的gamma先验分布p(w|α,β):

s330:构建多媒体信息特征矩阵的gamma先验分布。

利用以下公式(7),构建多媒体信息特征矩阵v的gamma先验分布p(v|α,β):

公式(6)与公式(7)中,α和β均为gamma分布的预设参数,具体可通过人工设定。

s340:对所述泊松先验分布、所述用户特征矩阵的gamma先验分布和所述多媒体信息特征矩阵的gamma先验分布进行贝叶斯推断,得到用户特征矩阵和多媒体信息特征矩阵的极大后验概率。

利用以下公式(8),获得用户特征矩阵和多媒体信息特征矩阵的极大后验概率p(w,v|r,α,β):

p(w,v|r,α,β)∝p(r|w,v)p(w|α,β)p(v|α,β)……(8)

s350:根据所述极大后验概率,确定最小化目标函数。

对公式(8)取对数,经过推断后,获得如公式(9)所示的基本的最小化目标函数e(r,w,v):

进一步地,还可将前述实施例中获得的多媒体信息相关性矩阵c’与用户相关性矩阵s’融合到上式(9)中,得到如公式(10)所示的融合后的最小化目标函数e’(r,w,v,c’,s’):

公式(10)中,λs为多媒体信息相关性在融合后的最小化目标函数中的预设权重,λc为用户相关性在融合后的最小化目标函数中的预设权重。融合后的最小化目标函数即为本发明所要构建的概率模型。

其中,步骤s310-s350可用于实现前述实施例中的步骤s110,或,步骤s210-s230。

s360:对所述概率模型进行矩阵分解,以获得所述用户特征矩阵和所述多媒体信息特征矩阵。

具体地,可使用梯度下降算法,求解最小化目标函数,以获得用户特征矩阵v和多媒体信息特征矩阵w。其中,使用梯度下降算法求解的最小化目标函数具体可以为所述融合后的最小化目标函数e’(r,w,v,c’,s’)。

其中,步骤s360可用于实现前述实施例中的步骤s120或s240。

s370:根据所述用户特征矩阵及所述多媒体信息特征矩阵,确定所述用户集合中每一用户对所述多媒体集合中各条多媒体信息的预测点播频率。

s380:至少根据用户对各条多媒体信息的预测点播频率,从多媒体集合中确定需要向所述用户推荐的多媒体信息。

利用以下公式(11),获取第i个用户ui对第j条多媒体信息ij的预测点播频率

公式(11)中,h表示用户的特征向量wi与多媒体信息的特征向量vi的维度,表示第i个用户ui的特征向量wi中第z个元素,表示第j条多媒体信息ij的特征向量vj中第z个元素。

重复执行利用公式(11),获取第i个用户ui对第j条多媒体信息ij的预测点播频率的步骤,能够获得第i个用户ui对多媒体集合i中所有多媒体信息的预测点播频率。

进一步地,根据预测点播频率的大小排序,确定出需要向所述用户推荐的多媒体信息。

本实施例提供的多媒体信息推荐方法,通过构建历史点播频率信息的泊松先验分布、用户特征矩阵的gamma先验分布与多媒体信息特征矩阵的gamma先验分布,并对其进行贝叶斯推断,得到用户特征矩阵和多媒体信息特征矩阵的极大后验概率,并获取融合了多媒体信息相关性矩阵与用户相关性矩阵的最小化目标函数,由此得到了概率模型,最后通过矩阵分解得到用户特征矩阵和所述多媒体信息特征矩阵,进而准确地确定出用户对多媒体信息的预测点播频率,为多媒体信息的精准推荐提供的科学严谨的技术保障。

请参阅图4,图4为本申请实施例提供的多媒体信息推荐方法的又一种流程图。

如图4所示,所述方法包括:

s400:根据多媒体集合中每一条多媒体信息的历史评论,确定该条多媒体信息的特征向量。

将多媒体信息的历史评论内容作为推荐依据之一,并对多媒体信息的历史评论内容进行充分挖掘,根据多媒体信息的历史评论确定多媒体信息的特征向量。

s410:根据用户集合中用户对多媒体集合中各条多媒体信息的历史评论,确定该用户的偏好特征向量。

根据用户对任一多媒体信息的历史评论,可以确定出该用户对该多媒体信息的偏好程度,进而确定出该用户对所有多媒体信息的偏好程度,从而得到该用户的偏好特征向量。

s420:根据用户的偏好特征向量和多媒体集合中各条多媒体信息的特征向量,确定所述用户对各条多媒体信息的偏好程度。

s430:根据用户对各条多媒体信息的预测点播频率,以及用户对各条多媒体信息的偏好程度,从多媒体集合中确定需要向所述用户推荐的多媒体信息。

其中,所述用户对各条多媒体信息的预测点播频率可通过前述实施例中的步骤s100-s130、s200-s250或s300-s370获得,在此不再赘述。

将用户对各条多媒体信息的预测点播频率,以及用户对各条多媒体信息的偏好程度相结合,共同来确定需要向所述用户推荐的多媒体信息,不仅充分利用了用户点播多媒体信息的频率信息,而且还充分结合了多媒体信息的历史评论,充实了推荐依据,进一步提高了多媒体信息推荐的准确度。

本实施例提供的多媒体信息推荐方法,充分挖掘了多媒体信息的历史评论,由此确定了多媒体信息的特征向量与用户的偏好特征向量,并进一步确定出用户对各条多媒体信息的偏好程度,根据前述实施例中得到的用户对各条多媒体信息的预测点播频率,结合用户对各条多媒体信息的偏好程度,从多媒体集合中确定需要向所述用户推荐的多媒体信息,进一步提高了多媒体信息推荐结果的准确度。

请参阅图5,图5为本申请实施例提供的多媒体信息推荐方法的再一种流程图。

如图5所示,所述方法包括:

s500:针对多媒体集合中每一条多媒体信息,从多媒体信息的每一条历史评论中提取特征词及特征词对应的观点词。

其中,步骤s500可包括:

c1)、针对多媒体集合中每一条多媒体信息,对多媒体信息的每一条历史评论进行分词,并对分词后的词进行词性标注。

c2)、提取每条历史评论中词性为第一词性的词作为特征词。

在多媒体信息的历史评论中,多媒体信息的特征通常表现为名词或名词短语,所以,第一词性可以包括名词以及名词短语。

c3)、在所述特征词所在的历史评论中,提取与所述特征词满足设定位置关系的第二词性的词作为所述特征词对应的观点词。

观点词用于表征用户对多媒体信息的情感信息,如赞美词汇、厌恶词汇等,由于大多数的情感词汇是形容词或副词,所以第二词性可以包括形容词和副词。

具体地,可采用以下公式(12)来获取与特征词对应的观点词:

其中,fi为特征词,bi为观点词,wherefi→bi表示特征词在观点词之前,wherefi←bi表示特征词在观点词之后,wherefi←→bi表示观点词在特征词的前面和后面,maxdis(fi,bi)表示距离特征词fi最远的观点词,mindis(fi,bi)表示距离特征词fi最近的观点词,gi为提取结果。

在历史评论中存在两个以上的观点词的情况下,当多个观点词均位于特征词之后时,选择距离最远的观点词作为与特征词对应的观点词;当多个观点词均位于特征词之前时,选择距离最近的观点词作为与特征词对应的观点词;当多个观点词分别位于特征词前面与后面时,选择距离最远的观点词作为与特征词对应的观点词。

例如,有三条评论分别是:(1)非常灵动好听的声音;(2)嗓音非常高亢大气;(3)古典的歌词相当好听。“非常灵动好听的声音”中的特征词为“声音”,“嗓音非常高亢大气”中的特征词为“嗓音”,“古典的歌词相当好听”中的特征词为“歌词”。在“非常灵动好听的声音”中,观点词“灵动”与“好听”均位于特征词“声音”前面,因此,选择距离最近的观点词“好听”作为与特征词“声音”相对应的观点词;在“嗓音非常高亢大气”中,观点词“高亢”与“大气”均位于特征词“声音”后面,因此,选择距离最远的观点词“大气”作为与特征词“嗓音”相对应的观点词;在“古典的歌词相当好听”中,观点词“古典”与“好听”分别位于特征词“声音”前面与后面,因此,选择距离最远的观点词“好听”作为与特征词“歌词”相对应的观点词。在日常生活中,最后出现的修饰词往往是最重要的。

s510:根据特征词对应的观点词,确定所述观点词对应的评价分类。

所述评价分类至少包括:好评和非好评。

每条评论的评价分类信息di为:

di={("f1","0|0|1"),("f2","1|0|0"),…("fn","0|1|0")}……(13)

其中,fi表示第i个特征词,0|0|1表示特征词fi对应1个好评的观点词,1|0|0或0|1|0表示特征词fi对应1个非好评的观点词。具体地,非好评可以进一步分为差评与中评,其中,1|0|0表示特征词fi对应1个差评的观点词,0|1|0表示特征词fi对应1个中评的观点词。也即,三个数值位按照从左到右顺序,取值为1时分别代表差评、中评和好评。

多媒体信息的评论中经常会出现不同的词汇来描述相同的特征,如果不对这类词汇进行合并,分析后的结果可能会出现极大的偏差且不易于理解。例如,“声音”与“嗓音”为相同特征的不同词汇。因此,在所述根据特征词对应的观点词,确定所述观点词对应的评价分类之前,还可以针对从所述多媒体信息的各条历史评论中提取出的特征词,将其中语义相同的特征词合并为统一的特征词。

具体地,利用以下公式(14)来计算汉语相似度sim(x1,x2):

公式(14)中,dis(x1,x2)表示两个词x1与x2的距离,γ为可调节参数,γ表示相似度为0.5时的词语距离值,当汉语相似度sim(x1,x2)大于预设汉语相似度阈值ksim时,将x1与x2合并为统一的特征词。

例如,针对前述评论“(1)非常灵动好听的声音;(2)嗓音非常高亢大气;(3)古典的歌词相当好听”,可以设定γ=1.6,ksim=0.85,利用公式(14)可以计算得到:

sim(“声音”,“嗓音”)=0.927778>ksim;

sim(“声音”,“歌词”)=0.432211<ksim。

由此可以确定,“声音”与“嗓音”应该合并为统一的特征词,而“声音”与“歌词”不应该合并为统一的特征词。

可选的,在对两个语义相同的特征词进行合并统一时,可以将该两个特征词在该条多媒体信息的所有评论中,出现次数最多的一个作为合并后的特征词。除此之外,还可以从两个特征词中随机选择一个作为合并后的特征词。

s520:根据特征词对应观点词的评价分类,统计所述多媒体信息的各条历史评论中相同特征词的好评率。

统计后的所有评论的评价分类信息d为:

d={("f1","2|0|10"),("f2","2|1|5"),…("fn","3|0|9")}……(15)

其中,2|0|10表示对第1个特征词f1给出的差评有2个,中评有0个,好评有10个,以此类推,得到了对每个特征词给出的差评、中评与好评的个数信息。

然后,根据公式(15)可以得到所有评论中每一个特征词的好评率,具体如下式(16)所示:

d’={("f1","10/12"),("f2","5/8"),…("fn","9/12")}

={("f1","0.833"),("f2","0.625"),…("fn","0.750")}……(16)

s530:由所述多媒体信息的各条历史评论包含的各特征词及其对应的好评率组成所述多媒体信息的特征向量。

上式(16)中,所有历史评论包含的各特征词及其对应的好评率组成了所述多媒体信息的特征向量。

其中,步骤s500-s530可用于实现前述实施例中的步骤s400。

s540:根据用户集合中用户对多媒体集合中各条多媒体信息的历史评论,确定该用户的偏好特征向量。

其中,步骤s540可包括:

d1)、针对从多媒体集合中各条多媒体信息的历史评论中提取出的特征词,根据用户对每一特征词的评论次数,以及该特征词的所有用户的总评论次数,确定所述用户对该特征词的关注度;和/或,针对从多媒体集合中各条多媒体信息的历史评论中提取出的特征词,根据用户对每一特征词的平均好评率,以及该特征词的所有用户的平均好评率,确定所述用户对该特征词的挑剔度。

例如,当用户u对特征词fi的评论次数高于该特征词fi的所有用户的平均评论次数时,判定该用户u对特征词fi的关注度高于大部分用户对特征词fi的关注度。具体地,可利用以下公式(17)来计算用户u对特征词fi的关注度attention(u,fi):

公式(17)中,count(u,fi)为用户u对特征词fi的评论次数,count(u)为用户u对所有特征词的总评论次数,count(fi)为所有用户对特征fi的总评论次数,n为所有用户对所有特征词的总评论次数。

d2)、根据用户对每一特征词的关注度和/或挑剔度,确定用户对该特征词的偏好度,用户对各特征词的偏好度组成用户的偏好特征向量。

例如,当用户u对特征词fi的平均好评率低于所有用户对该特征词fi的平均好评率时,判定该用户u对特征词fi的挑剔度高于大部分用户对特征词fi的挑剔度。具体地,可利用以下公式(18)来计算用户u对特征词fi的挑剔度cavil(u,fi):

公式(18)中,表示所有用户对特征词fi的平均好评率,gi(u)表示用户u对特征词fi的平均好评率,n为所有用户对所有特征词的总评论次数。其中,通过统计用户u对特征词fi的好评次数nig(u)与总评论次数ni(u),则可得到用户u对特征词fi的平均好评率gi(u)=nig(u)/ni(u);通过统计所有用户对特征词fi的好评次数nig与总评论次数ni,则可得到所有用户对特征词fi的平均好评率

然后,利用以下公式(19)来计算用户u对特征词fi的偏好度prefer(u,fi):

prefer(u,fi)=attention(u,fi)×cavil(u,fi)……(19)

由此得到用户u对各特征词fi的偏好度,从而构成了用户的偏好特征向量prefer(u)。

s550:根据用户的偏好特征向量和多媒体集合中各条多媒体信息的特征向量,确定所述用户对各条多媒体信息的偏好程度。

s560:根据用户对各条多媒体信息的预测点播频率,以及用户对各条多媒体信息的偏好程度,从多媒体集合中确定需要向所述用户推荐的多媒体信息。

利用证据理论方法,将用户对各条多媒体信息的预测点播频率与用户对各条多媒体信息的偏好程度进行融合,进而从多媒体集合中确定出需要向所述用户推荐的多媒体信息。

根据证据理论方法,利用以下公式(21),计算归一化常数k:

在公式(21)中,q1(ui,ij)为根据用户对各条多媒体信息的预测点播频率确定的用户ui喜欢多媒体信息ij的概率,q2(ui,ij)为根据用户对各条多媒体信息的偏好程度确定的用户ui喜欢多媒体信息ij的概率。其中,q1(ui,ij)具体为用户ui对多媒体信息ij的预测点播频率与用户ui对所有多媒体信息的预测点播频率和值的比值;q2(ui,ij)具体为用户ui对多媒体信息ij的偏好程度与用户ui对所有多媒体信息的偏好程度和值的比值。

然后,利用以下公式(22),来计算用户ui喜欢多媒体信息ij的联合概率qi,j:

最后,按照联合概率qi,j的大小排序,从多媒体集合中确定需要向所述用户推荐的多媒体信息。

在其他示例中,还可以单独根据用户对各条多媒体信息的偏好程度,从多媒体集合中确定需要向所述用户推荐的多媒体信息。

其中,所述用户对各条多媒体信息的预测点播频率可通过前述实施例中的步骤s100-s130、s200-s250或s300-s370获取得到,在此不再赘述。

本实施例提供的多媒体信息推荐方法,从多媒体信息的历史评论中提取特征词及特征词对应的观点词,根据特征词对应观点词的评价分类,统计相同特征词的好评率,根据用户对特征词的关注度和/或挑剔度,确定用户的偏好特征向量,充分挖掘了历史评论中的内容,再结合多媒体信息的特征向量,准确确定出用户对各条多媒体信息的偏好程度,最后再结合用户对各条多媒体信息的预测点播频率,通过两种算法的融合,提高了最终推荐结果的准确性。

本申请提供的上述实施例中,图1-图3所示流程图对应的实施例实际为基于协同过滤算法的多媒体信息推荐方法,其使用泊松分布对用户点播多媒体信息的频率信息进行建模,有效利用了用户点播多媒体信息的频率信息,提高了所构建概率模型的准确度。并且,在基于泊松分布的矩阵分解过程中,充分挖掘和利用了多媒体信息中存在的标签和好友关系等社会化信息,提高了推荐算法的准确度。图4-图5所示流程图对应的实施例实际为基于多媒体信息评论内容与基于协同过滤算法相结合的多媒体信息推荐方法,其中,对多媒体信息的历史评论的内容进行了充分挖掘,再结合协同过滤算法,从两方面共同确定需要向所述用户推荐的多媒体信息,进一步提高了多媒体信息推荐的准确度。

本发明实施例还提供了多媒体信息推荐装置,所述多媒体信息推荐装置用于实现本发明实施例提供的多媒体信息推荐方法,下文描述的多媒体信息推荐装置内容,可与上文描述的多媒体信息推荐方法内容相互对应参照。

请参阅图6,图6为本申请实施例提供的多媒体信息推荐装置的一种结构示意图。

如图6所示,所述装置包括:

历史信息获取单元100,用于获取待进行多媒体推荐的用户集合中,用户对多媒体集合中各条多媒体信息的历史点播频率信息;

概率模型构建单元200,用于根据所述历史点播频率信息,使用泊松分布构建包含用户特征矩阵和多媒体信息特征矩阵的概率模型;所述用户特征矩阵包括所述用户集合中每一用户的特征向量,所述多媒体信息特征矩阵包括所述多媒体集合中每一条多媒体信息的特征向量;

特征矩阵获取单元300,用于对所述概率模型进行矩阵分解,以获得所述用户特征矩阵和所述多媒体信息特征矩阵;

预测信息确定单元400,用于根据所述用户特征矩阵及所述多媒体信息特征矩阵,确定所述用户集合中每一用户对所述多媒体集合中各条多媒体信息的预测点播频率;

推荐信息确定单元500,用于至少根据用户对各条多媒体信息的预测点播频率,从多媒体集合中确定需要向所述用户推荐的多媒体信息。

一示例中,所述装置还包括:

第一相关性确定单元,用于确定所述多媒体集合中多媒体信息间的相关性,各条多媒体信息间的相关性组成多媒体信息相关性矩阵;

和/或,

第二相关性确定单元,用于确定所述用户集合中用户间的相关性,各用户间的相关性组成用户相关性矩阵;

概率模型融合单元,用于将所述用户相关性矩阵和/或所述多媒体信息相关性矩阵融合至所述概率模型中,得到融合后的概率模型,用于供后续步骤进行矩阵分解。

相应地,所述历史信息获取单元,包括:

三元组b获取单元,用于获取表示用户对多媒体的收听频率信息的三元组b,所述三元组b包括用户集合u、多媒体集合i和点播信息矩阵r,所述点播信息矩阵r包括用户集合u中每一用户对多媒体集合i中各条多媒体信息的点播次数;

所述第一相关性确定单元,包括:

三元组p获取单元,用于获取表示多媒体的标签信息的三元组p,所述三元组p包括多媒体集合i、标签集合t和多媒体标签矩阵a,所述多媒体标签矩阵a包括多媒体集合i中每一条多媒体信息是否拥有标签集合t中各标签的信息;

第一相关性计算单元,用于计算基于所述三元组p的多媒体集合i中多媒体信息间的相关性;

所述第二相关性确定单元,包括:

二元组q获取单元,用于获取表示用户间的好友关系的二元组q,所述二元组q包括用户集合u和好友关系矩阵f,所述好友关系矩阵f包括表示用户集合u中任意两个用户是否为好友的信息;

第二相关性计算单元,用于计算基于所述三元组b和所述二元组q的所述用户集合u中用户间的相关性。

一示例中,所述概率模型构建单元,包括:

第一先验分布构建单元,用于构建所述历史点播频率信息的泊松先验分布,所述泊松先验分布包含用户特征矩阵和多媒体信息特征矩阵;

第二先验分布构建单元,用于构建用户特征矩阵的gamma先验分布;

第三先验分布构建单元,用于构建多媒体信息特征矩阵的gamma先验分布;

极大后验概率获取单元,用于对所述泊松先验分布、所述用户特征矩阵的gamma先验分布和所述多媒体信息特征矩阵的gamma先验分布进行贝叶斯推断,得到用户特征矩阵和多媒体信息特征矩阵的极大后验概率;

最小化目标函数确定单元,用于根据所述极大后验概率,确定最小化目标函数。

所述特征矩阵获取单元,包括:

最小化目标函数求解单元,用于使用梯度下降算法,求解所述最小化目标函数,以获得用户特征矩阵和多媒体信息特征矩阵。

本实施例提供的多媒体信息推荐装置,获取待进行多媒体推荐的用户集合中,用户对多媒体集合中各条多媒体信息的历史点播频率信息,据所述历史点播频率信息,使用泊松分布构建包含用户特征矩阵和多媒体信息特征矩阵的概率模型,克服了高斯分布模型无法很好地拟合多媒体信息的点播频率信息的问题,然后,对所述概率模型进行矩阵分解,获得所述用户特征矩阵和所述多媒体信息特征矩阵,根据所述用户特征矩阵及所述多媒体信息特征矩阵,确定所述用户集合中每一用户对所述多媒体集合中各条多媒体信息的预测点播频率,用户对多媒体信息的预测点播频率,能够准确反映了该多媒体信息相对于用户的适宜程度,从而至少根据用户对各条多媒体信息的预测点播频率,能够从多媒体集合中准确地确定出需要向所述用户推荐的多媒体信息,提高多媒体信息推荐的准确性。

在另一实施例中,所述多媒体信息推荐装置还可以包括:

多媒体特征向量确定单元,用于根据多媒体集合中每一条多媒体信息的历史评论,确定该条多媒体信息的特征向量;

用户偏好特征向量确定单元,用于根据用户集合中用户对多媒体集合中各条多媒体信息的历史评论,确定该用户的偏好特征向量;

偏好程度确定单元,用于根据用户的偏好特征向量和多媒体集合中各条多媒体信息的特征向量,确定所述用户对各条多媒体信息的偏好程度;

所述推荐信息确定单元,包括:

推荐信息综合确定单元,用于根据用户对各条多媒体信息的预测点播频率,以及用户对各条多媒体信息的偏好程度,从多媒体集合中确定需要向所述用户推荐的多媒体信息。

一示例中,所述多媒体特征向量确定单元,包括:

词汇信息提取单元,用于针对多媒体集合中每一条多媒体信息,从多媒体信息的每一条历史评论中提取特征词及特征词对应的观点词;

评价分类确定单元,根据特征词对应的观点词,确定所述观点词对应的评价分类,所述评价分类至少包括:好评和非好评;

好评率统计单元,用于根据特征词对应观点词的评价分类,统计所述多媒体信息的各条历史评论中相同特征词的好评率;

其中,由所述多媒体信息的各条历史评论包含的各特征词及其对应的好评率组成所述多媒体信息的特征向量。

一示例中,所述多媒体信息推荐装置还可以包括:

特征词合并单元,用于针对从所述多媒体信息的各条历史评论中提取出的特征词,将其中语义相同的特征词合并为统一的特征词。

一示例中,所述词汇信息提取单元,包括:

评论分词标注单元,用于针对多媒体集合中每一条多媒体信息,对多媒体信息的每一条历史评论进行分词,并对分词后的词进行词性标注;

特征词提取单元,用于提取每条历史评论中词性为第一词性的词作为特征词;

观点词提取单元,用于在所述特征词所在的历史评论中,提取与所述特征词满足设定位置关系的第二词性的词作为所述特征词对应的观点词。

一示例中,所述用户偏好特征向量确定单元,包括:

关注度确定单元,用于针对从多媒体集合中各条多媒体信息的历史评论中提取出的特征词,根据用户对每一特征词的评论次数,以及该特征词的所有用户的总评论次数,确定所述用户对该特征词的关注度;

和/或,

挑剔度确定单元,用于针对从多媒体集合中各条多媒体信息的历史评论中提取出的特征词,根据用户对每一特征词的平均好评率,以及该特征词的所有用户的平均好评率,确定所述用户对该特征词的挑剔度;

偏好度确定单元,用于根据用户对每一特征词的关注度和/或挑剔度,确定用户对该特征词的偏好度,用户对各特征词的偏好度组成用户的偏好特征向量。

本实施例提供的多媒体信息推荐装置,充分挖掘了多媒体信息的历史评论,由此确定了多媒体信息的特征向量与用户的偏好特征向量,并进一步确定出用户对各条多媒体信息的偏好程度,根据前述实施例中得到的用户对各条多媒体信息的预测点播频率,结合用户对各条多媒体信息的偏好程度,从多媒体集合中确定需要向所述用户推荐的多媒体信息,进一步提高了多媒体信息推荐结果的准确度。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1