一种基于用户行为偏好的视频内容访问预测与推荐方法与流程

文档序号：12271402阅读：395来源：国知局

本发明属于网络视频技术领域，尤其涉及一种基于用户行为偏好的视频内容访问预测与推荐方法。

背景技术：

随着互联网和多媒体技术的飞速发展，网络上的视频数量和种类呈现急剧增长的态势，如何从大规模的视频数据中找到用户所需的视频内容是当前视频应用领域面临的重要问题。近年来，基于个性化的视频内容访问预测与推荐技术成为研究热点。

众所周知，不同用户兴趣爱好、关注领域以及个人经历等方面的不同，往往导致他们有不同的视频选择倾向，也就是用户具有个性化(personalized)特点。近年来，为满足不同用户的个性化需求，个性化推荐系统(Personalized Recommender System)应运而生。个性化推荐技术是一种根据用户兴趣偏好向用户推荐其感兴趣内容的技术和方法，但是目前急迫需要一种可以实现个性化的视频内容访问预测与推荐的方法。

技术实现要素：

为实现个性化的视频内容访问预测与推荐，本发明提供一种基于用户行为偏好的用户视频内容访问预测与推荐方法。

为解决上述问题，本发明采用如下的技术方案：

一种基于用户行为偏好的视频内容访问预测与推荐方法包括以下步骤：

S1、通过聚类技术实现镜头边缘检测和提取视频的关键帧；

S2、基于用户评分数据，采用深度学习技术CNN学习视频关键帧的深度视觉特征，并进一步基于深度视觉特征向量来表征视频内容；

S3、基于视频的深度视觉特征向量和观影记录，通过多级贝叶斯模型构建用户行为偏好模型；

S4、基于用户行为偏好模型，采用线性回归技术实现视频内容访问预测与推荐。

作为优选，S1具体包括：

S1.1、镜头边缘检测

分别采用帧间的三通道颜色直方图差异和当前两帧相同坐标位置的像素亮度差异来判断当前两帧是否在镜头的边缘。如果颜色直方图的差异和帧间的亮度差异都很大，则判定这两帧分别处于一个镜头的尾部和另一个镜头的头部。然后基于检测到的镜头边缘帧，将原视频分为一定数量的子视频，每一个子视频都是一个镜头；

S1.2、视频关键帧的提取

采用聚类技术提取每一个镜头的关键帧，即基于H-S色调饱和度二维直方图将一个镜头的所有帧无监督地聚类，将靠近聚类中心的帧作为视频的关键帧，进而将全部镜头的关键帧构成整个视频的关键帧。

作为优选，S2具体包括：

S2.1、视频训练数据库的构建

在提取视频关键帧后，将网络视频的用户平均评分视为这些关键帧的标签，标签将为有监督的CNN网络的训练提供约束，然后由全部添加标签后的视频关键帧组成训练数据库。

S2.2、视频深度视觉特征的提取

首先利用由视频帧及其评分标签建立的数据库，有监督地训练卷积神经网络，并依据训练后的卷积神经网络来获取视频的深度视觉特征。

作为优选，S4具体为：对于一个待推荐的视频集，首先获取每一部视频的深度视觉特征向量，然后基于用户行为偏好模型，采用线性回归技术判断该用户是否喜欢该视频，从而完成视频内容访问预测，最后将预测结果中标记为正例的视频推荐给该用户。

本发明的特点如下：

首先，本发明基于视频帧的颜色饱和度直方图，通过聚类技术提取视频关键帧，并以关键帧表征视频内容，进而达到降低视频数据处理复杂度、去除冗余信息的目的。其次，本发明以网络上海量视频数据和网络用户为研究对象，通过引入深度学习技术CNN，并利用网络评分数据指导CNN训练以获取视频的深度视觉特征向量，并通过深度特征向量表征视频内容。此外，本发明基于视频的深度视觉特征向量和观影记录，采用多级贝叶斯模型构建用户行为偏好模型。最后，基于用户行为偏好模型，通过线性回归实现视频内容访问预测与推荐，有效提高了个性化视频推荐的准确度。

本发明所提方法采用关键帧提取技术，在降低视频处理数据量的同时，还能保证视频内容表示的完整性。相对于传统视频推荐技术，本发明采用的深度学习技术CNN能够获得更具表征能力的深度视觉特征，基于深度视觉特征构建的用户行为偏好模型可以获得更加准确的用户行为偏好，以提高视频内容访问预测与推荐的有效性和准确性。

附图说明：

图1基于用户行为偏好的个性化视频推荐流程图；

图2镜头边缘检测流程图；

图3基于聚类算法的视频关键帧提取流程图；

图4卷积操作示意图；

图5抽样操作示意图；

图6卷积神经网络结构示意图。

具体实施方式

根据上述描述，以下是具体的实施流程，但本专利所保护的范围并不限于该实施流程。

本发明实施例提供一种基于用户行为偏好的视频内容访问预测与推荐方法，首先，本发明采用聚类技术提取视频的关键帧，然后基于用户评分数据，采用深度学习技术CNN学习视频关键帧的深度视觉特征，并进一步基于深度视觉特征向量来表征视频内容。然后通过多级贝叶斯模型构建用户行为偏好模型。最后基于用户行为偏好模型，采用线性回归技术实现视频内容访问预测与推荐。如图1所示，具体包括以下步骤：

1.通过聚类技术实现镜头边缘检测和视频关键帧的提取

相对于图像特征提取，由于视频具有大容量、数据冗余度高的特点，其特征提取及表示也存在冗余度高、表征不准确的缺陷。视频关键帧在表征视频内容时不仅可以降低冗余度而且能够准确的表征视频内容。视频关键帧的提取一般分为镜头边缘检测和基于镜头的关键帧提取两个部分。以下是视频关键帧提取的具体步骤。

1.1.镜头边缘检测

考虑到两个镜头切换时，帧与帧的颜色分布、物体及其位置等都会发生很大的变化，为检测到这种变化，并基于这种变化检测镜头边缘，本发明分别采用帧间的三通道颜色直方图和两帧相同坐标位置的像素的亮度差异来判断当前两帧是否在镜头的边缘，其具体流程如附图2所示。

假设f_k表示视频的第k帧，H_k表示第k帧的三通道颜色直方图，则第k帧同第k+1帧的颜色直方图差异D_h定义如下：

其中，视频帧f_k的大小为M×N，L表示RGB三通道颜色直方图的组数，其值为3×256即768。

若两帧相同像素位置亮度不同，则两帧在该特定像素位置存在空间差异，两帧特定像素位置空间差异d_i,j定义如下：

其中，I_i,j(f_k)表示第k帧特定位置(i,j)的亮度，若两帧相同像素位置亮度差值大于0，则判定该像素位置存在空间差异且其值为1。两帧的整体空间差异由同一像素位置但亮度不同的像素对的个数来表示，两帧整体空间差异D_s定义如下：

其中，d_i,j(f_k,f_k+1)表示特定第k帧和第k+1帧特定空间位置(i,j)的空间差异，视频帧f_k的大小为M×N。

如果颜色直方图和帧间的空间差异都很大，则初步判定这两帧可能为镜头的边缘帧。一些节奏过快的视频，同一镜头也存在差异较大的相邻帧，造成误判。但是，前一镜头的尾帧和后一镜头的头帧组成的帧对，其颜色直方图差异将达到极大值，在此本发明进一步通过该特性去除误判。边缘帧进一步确认依据如下：

D_h(f_k,f_k+1)＞D_h(f_k-1,f_k) (4)

D_h(f_k,f_k+1)＞D_h(f_k+1,f_k+2) (5)

其中，公式(4)和(5)表示第k帧和第k+1帧的颜色直方图差异同时大于第k-1帧和第k帧的颜色直方图差异以及k+1帧同k+2帧的颜色直方图差异。

最后，基于检测到的镜头边缘帧本发明将原视频分为一定数量的子视频，每一个子视频都是一个镜头。视频镜头边缘检测技术为视频的关键帧提取奠定了基础。

1.2.视频关键帧的提取

对于一个镜头，本发明提取镜头的全部帧并由这些帧构成一个帧集S＝{f₁,f₂,…,f_N}，其中N是提取的帧数。然后采用聚类技术，并取阈值为δ将N个帧分为M个聚类，即δ₁,δ₂,…,δ_M。对于每一个聚类，距离其聚类中心最近的帧即为关键帧，视频关键帧提取算法流程图如附图3所示。其中，相邻两帧的相似性D_hs定义如下：

其中，H_i(h,s)，H_j(h,s)分别表示第i帧和第j帧的16×8H-S 2D颜色直方图，即色调饱和度直方图，该直方图其色调所在维的组数为L_h，其值为16，饱和度所在维的组数为L_s，其值为8。直方图每一坐标取值为色调和饱和度处于该区间的像素个数。

2.视频深度视觉特征的获取

传统的图像特征存在诸多缺陷，如鲁棒性差、表征不够准确等。随着深度学习技术的发展，更具表征能力和抽象能力的图像特征提取成为可能，并且网络评分数据不仅能够反映视频的主观质量以及用户偏好，也可用于指导卷积神经网络CNN的训练，从而利于深度学习技术提取出更适合视频推荐的视觉特征。本发明将利用由视频关键帧及其评分标签建立的数据库，有监督地训练卷积神经网络，并依据训练后的卷积神经网络来获取视频的深度视觉特征。本发明首先采取聚类技术提取一部视频的关键帧，然后通过卷积神经网络来学习各个关键帧的深度视觉特征。所提取的深度视觉特征具有更好的表征能力也更适用于视频推荐，为后续的工作奠定了基础。视频深度视觉特征的获取主要分为视频训练数据库的构建和深度视觉特征的提取两部分。

2.1.视频训练数据库的构建

本发明通过豆瓣电影和IDMB等视频点评网站，获取视频的评分信息。每一部视频的平均评分将作为训练卷积神经网络的约束项，并且原有的视频数据库将根据十分制被分为十类。然后，采用聚类技术提取十类视频集中每部视频的关键帧，且该视频的平均评分将作为每一帧的分类依据。最终本发明得到由关键帧构成的训练数据库。

2.2.视频深度视觉特征的获取

本发明首先利用由视频帧及其评分标签建立的数据库，有监督地训练卷积神经网络，并依据训练后的卷积神经网络来获取视频的深度视觉特征。本发明通过聚类技术提取一部视频的关键帧，然后通过卷积神经网络来评估各个关键帧的深度视觉特征。深度视觉特征具有更好的表征能力并且更适用于视频推荐，为后续的工作奠定了基础。

本发明采用10层结构的卷积神经网络，包括4层卷积层，4层采样层，两个全连接层，见附图6。由于最终的输出是十分制的，则将图6中网络结构的F10设置为10个神经元。并且在所有卷积层中均使用5×5的窗口对原图进行操作，在C1卷积层中设置6个特征图，C3、C5中设置16个特征图，C7中设置120个特征图。另外，所有采样层均采用2×2的窗口进行抽样。最后通过一个由84个神经元构成的全连接层与输出层相连接完成识别任务。其中卷积层的计算形式如公式(7)，抽样层S上的神经元X计算公式如公式(8)，卷积层操作如附图4，抽样层操作如附图5。

其中，l表示卷积网络当前的层数，j表示当前的神经元个数，kernel为卷积核，每个特征图可以有不同的卷积核，M_j为输入特征图的一个选择，每一层有唯一的偏移B，n表示从卷积层到抽样层的窗口大小。

卷积神经网络的设计完成后，本发明将基于训练数据库实现有监督的卷积神经网络训练。由于网络上某部视频的平均评分反映了用户对该视频的喜好程度，并且评分越高说明该视频吸引该用户的能力越强。因此，引入用户平均评分实现有监督的卷积神经网络训练，将会获得更适用于个性化视频推荐的特征。由于F10是一个多分类(Softmax Regression)，所以损失函数l具体定义如下：

其中，n表示训练数据库所有的帧数，y_i表示数据库中第i帧的评分标签，w和b表示F10的权重和偏移。通过最小化公式9，本发明完成整个有监督的网络训练，最终全连接层F9的输出则是本发明获得的深度视觉特征，F9共有84个神经元，则视频帧的深度视觉特征表示为一个84维的向量f＝(d₁,d₂,…,d₈₄)，其中d_i表示全连接层F9的第i个神经元的输出。

3.用户行为偏好模型的构建

本发明用基于关键帧的深度视觉特征向量来表征一部视频，并进一步基于用户历史观看记录，通过多级贝叶斯模型构建用户行为偏好模型。对于一部视频，其含有一定数量的关键帧，而每一个关键帧对应一个深度视觉特征构成的向量。为实现基于关键帧表征一部视频，本发明将所有关键帧的特征向量相加并归一化得到视频的深度视觉特征向量。考虑到用户的行为偏好决定其过去的观影记录，而观影记录又反过来反映用户的行为偏好，故此本发明进一步基于观看记录，通过多级贝叶斯模型得到用户的行为偏好模型。

本发明将基于多级贝叶斯模型构建用户行为偏好模型，多级贝叶斯模型不仅可以准确的表示用户的行为偏好，且该模型能通过整个用户集来估计新用户的行为偏好，以在一定程度上解决用户冷启动问题。对于一个含有M个关键帧的视频，本发明将M个关键帧的深度视觉特征向量相加并归一化得到该视频的深度视觉特征，视频深度视觉v具体计算如下：

其中，f_i表示第i帧关键帧的深度视觉特征向量。

对于一个新用户u，本发明采用向量w^u表示其用户行为偏好模型。考虑到新用户的个人数据存在欠缺，本发明将其行为偏好模型视为先验分布N(μ,Σ)的随机采样，即如下所示：

w^u～N(μ,Σ) (11)

其中μ，Σ分别是贝叶斯模型先验分布的均值和协方差矩阵。对于一个有K个用户的系统，μ，Σ的估计公式如下：

由式(12)和式(13)得到贝叶斯模型的先验分布后，对于观看记录为D_u＝(v₁,v₂,…,v_N)的用户u，其行为偏好模型的学习过程即是最大化似然函数的过程，其似然函数w^u_MAP定义如下：

其中，N表示用户观看视频数，y_i^u表示用户u对视频v_i^u的评分。

此外，本发明采用简单的线性回归技术预测用户对视频的喜好评分，则用户u对视频v的喜好评分y具体计算如下：

y＝v^Tw^u+ε (15)

其中，视频v由式(10)计算而来，ε表示高斯噪声，并且高斯噪声方差k²_u一般设为0.1。

4.基于用户行为偏好模型的视频内容访问预测与推荐

对于一个用户u，本发明首先基于其用户行为偏好模型采用线性回归技术实现视频评分估计，预测评分y具体计算如下：

y＝v^Tw^u+ε (17)

其中，w^u表示用户行为偏好模型，ε表示高斯噪声，v表示待评估的视频。

然后根据经验设置阈值，当评分大于阈值T则代表用户可能访问该视频，从而实现视频内容访问预测，具体判定标准如下:

最后本发明进一步将内容访问预测结果中标记为正的视频推荐给用户，从而完成整个个性化视频内容访问预测与推荐。

本发明以网络上海量的视频数据和网络用户为研究对象。首先采用聚类技术提取视频的关键帧；然后基于视频评分数据，采用深度学习技术卷积神经网络(Convolutional Neural Networks，CNN)学习视频关键帧的深度视觉特征，并对视频全部关键帧的深度视觉特征求均值，以表示视频的深度视觉特征向量；进一步基于用户观看记录以及视频的深度视觉特征向量，通过多级贝叶斯模型构建用户行为偏好模型。对于待推荐的视频集，本发明基于用户行为偏好模型，采用线性回归技术预测用户对各视频的喜好评分，以实现用户对视频内容访问的预测，并将标记为正例的视频预测结果推荐给用户。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张菁;刘际洪;卓力;杨莹;梁西;
技术所有人：北京工业大学;
我是此专利的发明人

上一篇：一种基于并行关联规则挖掘的配电网运行可靠性预测方法与流程
上一篇：一种文件查找方法及移动终端与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。