视频推荐方法、其装置、信息处理设备及存储介质与流程

文档序号:17763151发布日期:2019-05-24 21:53阅读:163来源:国知局
视频推荐方法、其装置、信息处理设备及存储介质与流程

本发明涉及视频技术领域,尤其涉及一种视频推荐方法、其装置、信息处理设备及存储介质。



背景技术:

随着互联网技术的不断发展,网络视频日益丰富,用户观看视频不再局限于电视,还可以通过互联网搜索感兴趣的视频观看,不再受限电视的播放时限。除此之外,互联网视频还可以向用户推荐用户,方便用户选择。

目前,视频推荐依赖于用户观看视频的历史行为,可以为用户推荐出与历史观看视频相似的视频。然而,在实际应用情况下,视频之间的交互行为数据较为稀疏,且视频存在着长尾分布的问题,因此会影响推荐效果。例如,如果某视频新上线时没有与用户的历史交互记录,对于这类视频的推荐的准确性会大大降低。



技术实现要素:

本发明提供一种视频推荐方法、其装置、信息处理设备及存储介质,用以优化视频推荐的准确度。

第一方面,本发明提供一种视频推荐方法,包括:

获取用户选择的目标视频以及数据库中的其它预测视频的标签信息;所述标签信息为视频的属性信息;

将所述目标视频依次与各所述预测视频组成视频对,根据所述标签信息分别确定各所述视频对的特征矩阵;

将各所述特征矩阵依次带入预先训练完成的预测模型,获得各所述预测视频与所述目标视频之间的相似度;

将所述预测视频按照相似度由高到低的顺序排列向用户推荐所述目标视频的相似视频。

在一种可实现的实施方式中,在本发明提供的上述方法中,所述特征矩阵包括:所述目标视频的标签信息与所述预测视频的标签信息的重合程度特征、重合比率特征、空值特征和独热码特征。

在一种可实现的实施方式中,在本发明提供的上述方法中,所述目标视频的标签信息与所述预测视频的标签信息的重合程度由以下公式确定:

featurecount(tagi)=len(i1.tagi∩i2.tagi);

其中,featurecount(tagi)表示两个标签信息之间的重合程度,len(i1.tagi∩i2.tagi)表示两个标签信息之间的重合长度,i1.tagi表示所述目标视频的标签信息,i2.tagi表示所述预测视频的标签信息。

在一种可实现的实施方式中,在本发明提供的上述方法中,所述目标视频的标签信息与所述预测视频的标签信息的重合比率由以下公式确定:

其中,featurerate(tagi)表示两个标签信息之间的重合比率,len(i1.tagi∩i2.tagi)表示两个标签信息之间的重合长度,min(i1.tagi,i2.tagi)表示两个标签信息的长度最小值,i1.tagi表示所述目标视频的标签信息,i2.tagi表示所述预测视频的标签信息。

在一种可实现的实施方式中,在本发明提供的上述方法中,所述目标视频的标签信息与所述预测视频的标签信息的空值特征采用以下方式确定:

当所述目标视频的标签信息为空时,确定所述目标视频的标签信息的空值特征为0;当所述目标视频的标签信息不为空时,确定所述目标视频的标签信息的空值特征为1;

当所述预测视频的标签信息为空时,确定所述预测视频的标签信息的空值特征为0;当所述预测视频的标签信息不为空时,确定所述预测视频的标签信息的空值特征为1。

在一种可实现的实施方式中,在本发明提供的上述方法中,所述预测模型为xgboost模型。

在一种可实现的实施方式中,在本发明提供的上述方法中,所述xgboot模型采用以下方式训练:

获取多个视频,根据各所述视频的标签信息确定出多个正样本和负样本;所述正样本和所述负样本均包括两个视频,所述正样本中两个视频的相似度为1,所述负样本中两个视频的相似度为0;

按照设定比例对所述正样本和所述负样本进行下采样,生成训练样本集和测试样本集;

确定所述训练样本集和所测试样本集中各样本的特征矩阵;

根据所述训练样本集和所述测试样本集中各样本的特征矩阵对所述xgboot模型进行训练。

在一种可实现的实施方式中,在本发明提供的上述方法中,所述标签信息包括:视频的类型、导演、编剧、演员、语言以及片长。

第二方面,本发明提供一种视频推荐装置,包括:

获取单元,用于获取用户选择的目标视频以及数据库中的其它预测视频的标签信息;所述标签信息为视频的属性信息;

特征矩阵确定单元,用于将所述目标视频依次与各所述预测视频组成视频对,根据所述标签信息分别确定各所述视频对的特征矩阵;

相似度确定单元,将各所述特征矩阵依次带入预先训练完成的预测模型,获得各所述预测视频与所述目标视频之间的相似度;

推荐单元,用于将所述预测视频按照相似度由高到低的顺序排列向用户推荐所述目标视频的相似视频。

在一种可实现的实施方式中,在本发明提供的上述装置中,所述特征矩阵包括:所述目标视频的标签信息与所述预测视频的标签信息的重合程度特征、重合比率特征、空值特征和独热码特征;

所述预测模型为xgboost模型。

第三方面,本发明提供一种信息处理设备,包括:

存储器,用于存储程序指令;

处理器,用于调用所述存储器中存储的所述程序指令,按照获得的程序执行:获取用户选择的目标视频以及数据库中的其它预测视频的标签信息;将所述目标视频依次与各所述预测视频组成视频对,根据所述标签信息分别确定各所述视频对的特征矩阵;将各所述特征矩阵依次带入预先训练完成的预测模型,获得各所述预测视频与所述目标视频之间的相似度;将所述预测视频按照相似度由高到低的顺序排列向用户推荐所述目标视频的相似视频;

其中,所述标签信息为视频的属性信息。

第四方面,本发明提供一种计算机可读的非易失性存储介质,所述计算机可读的非易失性存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算执行上述任一视频推荐方法。

本发明提供的视频推荐方法、其装置、信息处理设备及存储介质,通过获取用户选择的目标视频以及数据库中的其它预测视频的标签信息;将目标视频依次与各预测视频组成视频对,根据标签信息分别确定各视频对的特征矩阵;将各特征矩阵依次带入预先训练完成的预测模型,获得各预测视频与目标视频之间的相似度;将预测视频按照相似度由高到低的顺序排列向用户推荐目标视频的相似视频。视频的标签信息作为视频的固有属性,不会随着用户与视频的交互而发生改变,本发明实施例根据视频的标签信息的文本语义的分析,对用户选择的某一视频与数据库中的其它视频进行相似度的预测,而不依赖与用户的历史交互行为,可以有效提高视频推荐的准确度,具有更加广泛的适用性。

附图说明

图1为本发明实施例提供的视频推荐方法的流程图;

图2为本发明实施例提供的模型训练方法的流程图;

图3为本发明实施例提供的视频推荐装置的结构示意图;

图4为本发明实施例提供的信息处理设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

下面结合附图对本发明实施例提供的视频推荐方法、其装置、信息处理设备及存储介质进行详细说明。

本发明实施例的第一方面,提供一种视频推荐方法,如图1所示,本发明实施例提供的视频推荐方法,包括:

s101、获取用户选择的目标视频以及数据库中的其它预测视频的标签信息;

s102、将目标视频依次与各预测视频组成视频对,根据标签信息分别确定各视频对的特征矩阵;

s103、将各特征矩阵依次带入预先训练完成的预测模型,获得各预测视频与目标视频之间的相似度;

s104、将预测视频按照相似度由高到低的顺序排列向用户推荐目标视频的相似视频。

其中,视频的标签信息是指视频的属性信息,可以包括:视频的类型、导演、编剧、演员、语言以及片长等属性信息。视频的标签信息一般可为多个离散的关键词,例如,电影《无双》的标签信息中的视频类型可包括:剧情、动作、犯罪;视频的导演为:庄文强;视频的编剧为:庄文强;视频的演员可包括:周润发、郭富城、张静初、冯文娟、廖启智;视频的语言为:中文、粤语;视频的片长为:130分钟。视频的标签信息作为视频的固有属性,不会随着用户与视频的交互而发生改变,即使是新上线的视频仍然具有这些标签信息。因此,本发明实施例根据视频的标签信息的文本语义的分析,对用户选择的某一视频与数据库中的其它视频进行相似度的预测,而不依赖与用户的历史交互行为,可以有效提高视频推荐的准确度,并且相比于现有技术,本发明实施例提供的上视频推荐方法对用户从未观看过的视频或者新上线的视频仍然适用,适用性更加广泛。

具体来说,在实际应用中,用户观看过某一视频发现感兴趣之后,可能会对这一类型的视频感兴趣,或者对与观看的视频同导演或同演员的其它视频感兴趣,因此想要进一步搜索相关的视频观看。在本发明实施例提供的上述视频推荐方法中,根据标签信息中的上述内容进行相似度的匹配,从而按照相似度由高到低的顺序向用户推荐相关视频。

在具体实施时,将用户选择的视频作为目标视频,需要对数据库中除该视频以外的其它视频进行与目标视频间的相似度预测,在本发明实施例中,将数据库中进行相似度计算的视频作为预测视频。依次对比每个预测视频与目标视频间的相似度,再按照相似度由高到低的顺序向用户推荐相关视频。

在本发明实施例中,目标视频与预测视频构成的视频对的特征矩阵可以包括目标视频与预测视频的标签信息之间的以下特征:重合程度特征、重合比率特征、空值特征和独热码特征。可理解的是,在实际观看视频中,当两个视频的标签信息的重合度越好,则说明这两个视频可能相似度也比较高。因此,将两视频标签信息的重合程度作为特征矩阵的一个特征。另外,为了进一步提高预测模型的准确度,本发明实施例还将两个视频的标签信息的重合比率作为特征矩阵的一个特征。而视频的标签信息一般为离散的关键词,因此本发明实施例还在特征阵列中加入了空值和独热码两个特征。其中,独热码是处理离散特征的一种有效手段;空值特征可以说明视频的标签信息是否为空。当然,在具体实施时,还可以根据实际需要,在视频对的特征阵列中增加其它有利于提高预测准确度的特征,在此不一一列举,且不对其进行限定。

具体来说,目标视频的标签信息与预测视频的标签信息的重合程度由以下公式确定:

featurecount(tagi)=len(i1.tagi∩i2.tagi);

其中,i1.tagi表示目标视频的标签信息,i2.tagi表示预测视频的标签信息。采用上述公式可以计算出两个视频的标签信息的重合长度,并且该长度信息来反映两个视频的标签信息的重合程度。采用len(i1.tagi∩i2.tagi)可以计算出目标视频的标签信息与预测视频的标签信息的重合长度;标签信息包括多个离散关键词时,重合长度可为两个视频的重合关键词的数量。重合长度越大,则说明两个视频的标签信息的重合程度越高;重合长度越小,则说明两个视频的标签信息的重合程度越低。

目标视频的标签信息与预测视频的标签信息的重合比率由以下公式确定:

其中,i1.tagi表示目标视频的标签信息,i2.tagi表示预测视频的标签信息。采用len(i1.tagi∩i2.tagi)可以计算出目标视频的标签信息与预测视频的标签信息的重合长度,采用min(i1.tagi,i2.tagi)可以计算出目标视频的标签信息与预测视频的标签信息的长度最小值,重合长度与长度最小值的比值为重合比率。重合比率相比于重合长度,还考虑到重合标签所占比例,两个视频的标签信息重合程度和重合比例均可以说明两个视频的相关性。在实际应用中,还可以采用余弦相似度计算等其它方式计算两个视频的标签信息的重合比率。在此不做限定。

目标视频的标签信息与预测视频的标签信息的空值特征采用以下方式确定:

当目标视频的标签信息为空时,确定目标视频的标签信息的空值特征为0;当目标视频的标签信息不为空时,确定目标视频的标签信息的空值特征为1;

当预测视频的标签信息为空时,确定预测视频的标签信息的空值特征为0;当预测视频的标签信息不为空时,确定预测视频的标签信息的空值特征为1。

将目标视频以及预测视频的标签信息是否为空转化为特征值来表示,有利于后续生成特征矩阵。在实际应用中,如果视频的标签信息中不包含任何关键词或文本,可以确定该标签信息为空,进而确定该视频的标签信息的空值特征为0;如果视频的标签信息中包括一个或多个关键词或文本,可以确定该标签信息不为空,进而确定该视频的标签信息的空值特征为1。

由于视频的标签信息中通常包含许多离散值(关键词或文本),因此在本发明实例中采用独热码(one-hot)来表征标签信息的各种状态。在具体实施时,可以对目标视频和预测视频的标签信息中的部分离散值或全部离散值进行状态编码。例如,可以对目标视频和预测视频的标签信息中的前四个离散值进行状态编码,如果标签信息中的离散值包括:恐怖、悬疑、动作、爱情,当视频的标签信息中包含哪个关键词,则在对应位置标1,未包含的关键词位置标0。两个视频的标签信息编码后的向量长度为8。例如,如果目标视频的标签信息表示为i1(恐怖、悬疑),预测视频的标签信息表示为i2(动作),则目标视频和预测视频的独热码特征为(1,1,0,0,0,0,1,0);如果目标视频的标签信息表示为i1(动作),预测视频的标签信息表示为i2(爱情),则目标视频和预测视频的独热码特征为(0,0,1,0,0,0,0,1)。

将目标视频与预测视频的上述多个特征得到的特征向量横向拼接后生成目标视频与预测视频构成的视频对的特征矩阵。将该特征阵列带入到预先训练完成的预测模型中,可以获得目标视频与预测视频之间的相似度。

在本发明实施例中,预测模型可采用xgboost模型。xgboost模型为一种梯度提升树模型,属于一种监督模型,针对根据标签信息中的离散值确定的特征矩阵,采用xgboost模型进行预测具有较高的准确度。除此之外,在实际应用中,还可以根据实际情况采用其它模型作为预测模型,在此不做限定。

具体地,xgboot模型采用如图2所示的方式训练:

s201、获取多个视频,根据各视频的标签信息确定出多个正样本和负样本;

s202、按照设定比例对正样本和负样本进行下采样,生成训练样本集和测试样本集;

s203、确定训练样本集和测试样本集中各样本的特征矩阵;

s204、根据训练样本集和测试样本集中各样本的特征矩阵对xgboot模型进行训练。

其中,正样本和负样本均包括两个视频,正样本中两个视频的相似度为1,负样本中两个视频的相似度为0。本发明实施例提供的上述视频推荐方法,将推荐问题转化为二分类问题。其中,对正负样本的构造十分关键。在实际应用中,获取的多个样本构成的样本全集可表示为:

s={((i1,i2),1)…,((ir-1,ir),0)…,((in-1,in),0)};

其中,n表示获取的视频的数量,样本全集s的长度为n个视频的两两组合的数量(ir-1,ir)表示样本的标识(id),((ir-1,ir),1)表示视频r-1和视频r的相似度为1,((ir-1,ir),0)表示视频r-1和视频r的相似度为0。正样本为上述视频样本中相似度为1的样本,负样本为上述视频样本中相似度为0的样本。

在实际应用中,可采用人工分类的方式确定正样本和负样本。也可以在相关网站上直接获取相关的视频,两两组合生成正样本;再随机获取视频生成负样本。例如,可以针对某一视频将豆瓣网站相关推荐视频果直接作为正样本,并在不同的视频类别中分别抽取一定量的非豆瓣相关推荐列表中的视频对作为负样本。除此之外,还可以采用其它方式获取正负样本,此处不做限定。

由于正样本的数量有限,为了一定程度上减少正负样本数量不平衡,对模型训练产生影响,在本发明实施例中,可以采取下采样的方法,在正负样本中采样,可将采样的80%作为训练样本,采样的20%作为测试样本,生成训练样本集和测试样本集。其中训练样本集和测试样本集均包括正样本和负样本,且正样本和负样本的比例满足设定比例。在具体实施时,该设定比例可设置为正负样本的比为1:7,1:8等值,一般不超过1:20。

在确定出训练样本集和测试样本集之后,进一步确定两个样本集中各样本的特征矩阵。样本的特征矩阵仍然包括:样本中两个视频的标签信息的重合程度特征、重合比率特征、空值特征和独热码特征。上述特征可采用上述方式进行确定,此处不再赘述。

在确定出训练样本集和测试样本集中的各样本的特征矩阵以及相似度之后,可对xgboost模型进行训练。xgboost模型本质上是一种加法模型,因此,对于给定的训练样本集d={(xi,yi)},可采用加法训练的方式学习k颗树,xgboost模型函数表达式如下:

其中,xi表示训练样本,yi表示样本相似度,fk表示树模型,f表示假设空间。

假设空间f的表达式为:

f={f(x)=wq(x)}(q:rm→t,w∈rt);

其中,q(x)表示将样本x分到了某个叶子节点上,w表示叶子节点的分数,wq(x)表示回归树对样本的预测值。

由此,采用训练样本集对xgboost模型进行训练,确定xgboost模型的各参数,采用测试样本集对训练后的xgboost模型进行测试,并根据测试结果进一步调整xgboost模型的参数,以提高xgboost模型的预测准确度。

在训练完成后,可以采用该xgboost模型对目标视频和预测视频构成的视频对调参,即可输出目标视频与预测视频之间的相似度。按照相似度由高到低的顺序向用户推荐用户所选中视频的相似视频,提高视频推荐的准确度,提升用户体验。

本发明实施例的第二方面,提供一种视频推荐装置,如图3所示,本发明实施例提供的视频推荐装置,包括:

获取单元31,用于获取用户选择的目标视频以及数据库中的其它预测视频的标签信息;标签信息为视频的属性信息;

特征矩阵确定单元32,用于将目标视频依次与各预测视频组成视频对,根据标签信息分别确定各视频对的特征矩阵;

相似度确定单元33,将各特征矩阵依次带入预先训练完成的预测模型,获得各预测视频与目标视频之间的相似度;

推荐单元34,用于将预测视频按照相似度由高到低的顺序排列向用户推荐目标视频的相似视频。

视频的标签信息作为视频的固有属性,不会随着用户与视频的交互而发生改变,本发明实施例提供的上述装置根据视频的标签信息的文本语义的分析,对用户选择的某一视频与数据库中的其它视频进行相似度的预测,而不依赖与用户的历史交互行为,可以有效提高视频推荐的准确度,具有更加广泛的适用性。

可选地,特征矩阵包括:目标视频的标签信息与预测视频的标签信息的重合程度特征、重合比率特征、空值特征和独热码特征。

可选地,特征矩阵确定单元32,具体用于执行以下公式确定目标视频的标签信息与预测视频的标签信息的重合程度:

featurecount(tagi)=len(i1.tagi∩i2.tagi);

其中,featurecount(tagi)表示两个标签信息之间的重合程度,len(i1.tagi∩i2.tagi)表示两个标签信息之间的重合长度,i1.tagi表示目标视频的标签信息,i2.tagi表示预测视频的标签信息。

可选地,特征矩阵确定单元32,具体用于执行以下公式确定目标视频的标签信息与预测视频的标签信息的重合比率:

其中,featurerate(tagi)表示两个标签信息之间的重合比率,len(i1.tagi∩i2.tagi)表示两个标签信息之间的重合长度,min(i1.tagi,i2.tagi)表示两个标签信息的长度最小值,i1.tagi表示目标视频的标签信息,i2.tagi表示预测视频的标签信息。

可选地,特征矩阵确定单元32,具体用于当目标视频的标签信息为空时,确定目标视频的标签信息的空值特征为0;当目标视频的标签信息不为空时,确定目标视频的标签信息的空值特征为1;当预测视频的标签信息为空时,确定预测视频的标签信息的空值特征为0;当预测视频的标签信息不为空时,确定预测视频的标签信息的空值特征为1。

可选地,预测模型为xgboost模型。

可选地,xgboot模型采用以下方式训练:

获取多个视频,根据各视频的标签信息确定出多个正样本和负样本;

按照设定比例对正样本和负样本进行下采样,生成训练样本集和测试样本集;

确定训练样本集和所测试样本集中各样本的特征矩阵;

根据训练样本集和测试样本集中各样本的特征矩阵对xgboot模型进行训练。

其中,正样本和负样本均包括两个视频,正样本中两个视频的相似度为1,负样本中两个视频的相似度为0。

本发明实施例的第三方面,提供一种信息处理设备,如图4所示,本发明实施例提供的信息处理设备包括:

存储器41,用于存储程序指令;

处理器42,用于调用存储器41中存储的程序指令,按照获得的程序执行:获取用户选择的目标视频以及数据库中的其它预测视频的标签信息;将目标视频依次与各预测视频组成视频对,根据标签信息分别确定各视频对的特征矩阵;将各特征矩阵依次带入预先训练完成的预测模型,获得各预测视频与目标视频之间的相似度;将预测视频按照相似度由高到低的顺序排列向用户推荐目标视频的相似视频;

其中,标签信息为视频的属性信息。

本发明实施例的第四方面,提供一种计算机可读的非易失性存储介质,该计算机可读的非易失性存储介质存储有计算机可执行指令,该计算机可执行指令用于使计算执行上述任一视频推荐方法。

本发明实施例提供的上述视频推荐方法、其装置、信息处理设备及存储介质,通过获取用户选择的目标视频以及数据库中的其它预测视频的标签信息;将目标视频依次与各预测视频组成视频对,根据标签信息分别确定各视频对的特征矩阵;将各特征矩阵依次带入预先训练完成的预测模型,获得各预测视频与目标视频之间的相似度;将预测视频按照相似度由高到低的顺序排列向用户推荐目标视频的相似视频。视频的标签信息作为视频的固有属性,不会随着用户与视频的交互而发生改变,本发明实施例根据视频的标签信息的文本语义的分析,对用户选择的某一视频与数据库中的其它视频进行相似度的预测,而不依赖与用户的历史交互行为,可以有效提高视频推荐的准确度,具有更加广泛的适用性。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器,使得通过该计算机或其他可编程数据处理设备的处理器执行的指令可实现流程图中的一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图的一个流程或多个流程和/或方框图的一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1