一种相似视频的计算方法及装置与流程

文档序号:14835997发布日期:2018-06-30 12:25阅读:242来源:国知局
一种相似视频的计算方法及装置与流程

本申请涉及数据处理技术领域,特别涉及一种相似视频的计算方法及装置。



背景技术:

目前,在计算相似视频文件时,通常基于协同过滤算法,利用用户的操作历史事件,如播放、点击、喜欢、分享、不喜欢等,再根据视频的特征计算出相似的视频。

但是以上基于协同过滤算法和视频特征的计算方案,往往局限于需要依赖大量的用户历史事件建立模型,而每次训练模型的建立都需要耗费较长的时间,训练好的模型再去利用视频特征进行计算,不仅会使得计算效率较低,还会使得计算的结果发生较大的偏差,造成两个视频内容完全无关却可能被计算成相似视频,造成准确率较低。



技术实现要素:

有鉴于此,本申请的目的在于提供一种相似视频的计算方法及装置,用以解决现有技术中相似视频计算方案中计算效率较低且准确率较低的技术问题。

为解决以上技术问题,本申请提供了一种相似视频的计算方法,包括:

获得待计算的视频集合,所述视频集合中包括至少一个目标视频,所述目标视频具有至少一个标签;

获得所述目标视频对应的目标视频集合,所述目标视频集合中包含至少一个待选视频,且所述待选视频与所述目标视频具有至少一个相同的标签;

基于预设的标签库中标签对应的权重值,计算所述目标视频集合中每个所述待选视频与所述目标视频的相似权重值;

根据所述相似权重值,确定所述目标视频集合中所述目标视频所对应的相似视频集合,所述相似视频集合中包括至少一个相似视频。

上述方法,优选地,基于预设的标签库中标签的权重值,计算所述目标视频集合中每个所述待选视频与所述目标视频的相似权重值,包括:

确定所述目标视频集合中每个所述待选视频与所述目标视频相同的目标标签;

基于预设的标签库中标签对应的权重值,计算每个所述待选视频与所述目标视频的相似权重值,所述相似权重值为所述待选视频的目标标签对应的权重值之和。

上述方法,优选地,根据所述相似权重值,确定所述目标视频集合中所述目标视频所对应的相似视频集合,包括:

对所述目标视频集合中的待选视频按照其相似权重值的大小进行排序,得到排序结果;

在所述目标视频集合中,确定相似权重值排序在前M位的待选视频为所述目标视频的相似视频,所述相似视频组成所述目标视频对应的相似视频集合,M为大于或等于1的正整数。

上述方法,优选地,根据所述相似权重值,确定所述目标视频集合中所述目标视频所对应的相似视频集合,包括:

在所述目标视频集合中,确定相似权重值大于预设的权重阈值的待选视频为所述目标视频的相似视频,所述相似视频组成所述目标视频对应的相似视频集合。

上述方法,优选地,还包括:

根据所述目标视频的标签,在所述标签库中添加新标签。

上述方法,优选地,还包括:

对所述标签库中所述标签对应的权重值进行修改。

本申请还提供了一种相似视频的计算装置,包括:

目标获得单元,用于获得待计算的视频集合,所述视频集合中包括至少一个目标视频,所述目标视频具有至少一个标签;

集合获得单元,用于获得所述目标视频对应的目标视频集合,所述目标视频集合中包含至少一个待选视频,且所述待选视频与所述目标视频具有至少一个相同的标签;

相似计算单元,用于基于预设的标签库中标签对应的权重值,计算所述目标视频集合中每个所述待选视频与所述目标视频的相似权重值;

相似确定单元,用于根据所述相识去那种值,确定所述目标视频集合中所示目标视频所对应的相似视频集合,所述相似视频集合中包括至少一个相似视频。

上述装置,优选的,所述相似计算单元包括:

标签确定子单元,用于确定所述目标视频集合中每个所述待选视频与所述目标视频相同的目标标签;

权重计算子单元,用于基于预设的标签库中标签对应的权重值,计算每个所述待选视频与所述目标视频的相似权重值,所述相似权重值为所述待选视频的目标标签对应的权重值之和。

上述装置,优选的,所述相似确定单元具体用于:对所述目标视频集合中的待选视频按照其相似权重值的大小进行排序,得到排序结果,在所述目标视频集合中,确定相似权重值排序在前M位的待选视频为所述目标视频的相似视频,所述相似视频组成所述目标视频对应的相似视频集合。

上述装置,优选的,所述相似确定单元具体用于:

在所述目标视频集合中,确定相似权重值大于预设的权重阈值的待选视频为所述目标视频的相似视频,所述相似视频组成所述目标视频对应的相似视频集合。

上述装置,优选的,还包括:

标签更新单元,用于根据所述目标视频的标签,在所述标签库中添加新标签。

上述装置,优选的,还包括:

权重修改单元,用于对所述标签库中所述标签对应的权重值进行修改。

由以上方案可知,本申请提供的一种相似视频的计算方法及装置,预先为视频所涉及的各种标签设置权重值,在需要计算相似视频时,通过计算具有相同标签的视频之间的相似权重值,从而获得与目标视频相似的相似视频集合,完成相似计算。由此,本申请只需依靠预先设置的标签库及视频本身的内容来实现相似视频的计算,无需进行模型训练等操作,从而提高了计算效率及计算准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例一提供的一种相似视频的计算方法的流程图;

图2为本申请实施例一提供的一种相似视频的计算方法的部分流程图;

图3为本申请实施例一提供的一种相似视频的计算方法的另一流程图;

图4为本申请实施例一提供的一种相似视频的计算方法的又一流程图;

图5为本申请实施例二提供的一种相似视频的计算装置的结构示意图;

图6为本申请实施例二提供的一种相似视频的计算装置的部分结构示意图;

图7~图9分别为本申请实施例的应用示例图。

具体实施方式

在现有的基于协同过滤算法和视频特征的计算方案中,存在以下缺陷:

首先,在目前的计算方案中,需要不断的调整参数利用用户历史行为数据重新训练模型,如果用户的操作事件不存在,则可能无法训练模型导致无法计算结果;还有可能因为用户的不正当操作而对训练模型造成影响,无法计算出正确的结果;

其次,协同过滤算法依靠用户的行为数据来判断视频之间的关联性,但是存在两个视频内容完全不相关却可能被计算出来相似的情况,导致视频之间的关联性不强,无法满足视频的相似度计算的评估标准;

另外,针对不同的情况无法快速的完成结果的计算,必须事先调整参数,再根据评估参数调整模型直到方差、协方差满足一定的范围才能使用。

鉴于以上问题,本申请提出以下相似视频的计算方案,不依靠用户的历史行为进行计算,能够快速的进行增量和全量计算,快速的根据实际环境调整参数重新计算,并且能够保证所计算出的相似视频的准确性,即保证视频之间的关联性。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参考图1,为本申请实施例一提供的一种相似视频的计算方法的实现流程图,适用于具有数据处理能力的计算机、服务器等设备或终端,用以视频的相似视频或相似视频集合的计算。

在本实施例中,该方法可以包括以下步骤:

步骤101:获得待计算的视频集合。

其中,视频集合中包括至少一个目标视频,每个目标视频具有至少一个标签。本实施例的目的就在于计算与目标视频相似的视频。目标视频中的标签可以理解为视频标签,如电影、主演或上传日期等。

例如,本实施例中获得待计算的视频集合包含A~D四个目标视频,目标视频A具有综艺、吐槽、2017、张三等标签,目标视频B具有综艺、音乐、2017、李四等标签,等等。

在一种实现方式中,本实施例中可以利用TFIDF(term frequency–inverse document frequency)算法提取每个目标视频的标签。

步骤102:获得目标视频对应的目标视频集合。

其中,目标视频集合中包含至少一个待选视频,且待选视频与目标视频具有至少一个相同的标签,例如,目标视频A具有综艺标签和吐槽标签,视频E具有综艺标签(与A的综艺标签相同)和搞笑标签,视频F具有电影标签和吐槽标签(与A的吐槽标签相同),视频E和视频F均为目标视频对应的目标视频集合中的待选视频。

在一种实现方式中,本实施例中可以首先对同一视频标签维度的按照视频热度进行倒排索引,再从倒排索引的视频列表中获取到与目标视频具有至少一个相同标签的待选视频,组成目标视频集合。

步骤103:基于预设的标签库中标签对应的权重值,计算目标视频集合中每个待选视频与目标视频的相似权重值。

其中,标签库中包括多个标签,标签库的建立可以预先通过人工整理方式加机器学习相关技术实现,例如,使用TFIDF算法将所有视频的关键标签进行提取之后,再利用人工整理完成标签的筛选,根据不同的分类将标签归类分级,建立形成标签库。

需要说明的是,在标签库中,每个标签隶属于一个标签维度,如大分类、细分类、类型、国家、日期和演员6个维度。通常情况下,每个标签仅属于一个维度。例如,大分类维度下的综艺标签、细分类维度下的吐槽标签、类型维度下的搞笑标签、国家维度下的中国或美国标签、日期维度下的2017年或2018年、演员维度下的X或Y等。

另外,标签库中每个标签所隶属的标签维度具有自己的权重值,例如:大分类维度下的标签权重0.1、细分类维度下的标签权重0.3、类型维度下的标签权重0.1、国家维度下的标签权重0.1、日期维度下的标签权重0.1和演员维度下的标签权重0.4。

其中,标签所对应的标签维度的权重值可以根据历史经验数据和业务需求进行预先设置,也可以在后续根据需求进行动态调整。

需要说明的是,本实施例中基于标签对应的权重值来计算目标视频集合中每个待选视频分别与目标视频的相似权重值,该相似权重值表明待选视频与所述目标视频之间的相似度。

步骤104:根据相似权重值,确定目标视频集合中目标视频所对应的相似视频集合。

其中,相似视频集合中包括至少一个相似视频,该相似视频是与目标视频相似的视频,而该相似视频集合为目标视频的相似视频候选集。

需要说明的是,本实施例中所获得的相似视频集合的个数与目标视频的个数相一致,也就是说,本实施例中基于标签库及目标视频的标签来计算每个目标视频各自所对应的相似视频集合,即每个目标视频的相似视频候选集。

其中,本实施例中在获得目标视频的相似视频集合之后,可以将相似视频集合进行输出,例如,显示在正在播放目标视频的终端,推荐给正在观看目标视频的用户,由用户选择是否观看相似视频,改善用户观看体验。

由以上方案可知,本申请实施例一提供的一种相似视频的计算方法,预先为视频所涉及的各种标签设置对应的权重值,在需要计算相似视频时,通过计算具有相同标签的视频之间的相似权重值,从而获得与目标视频相似的相似视频集合,完成相似计算。由此,本实施例中只需依靠预先设置的标签库及视频本身的内容来实现相似视频的计算,无需进行模型训练等操作,从而提高了计算效率及计算准确率。

在一种实现方式中,图1中的步骤103可以通过以下方式实现,如图2中所示:

步骤201:确定目标视频集合中每个待选视频与目标视频相同的目标标签。

例如,本实施例中首先对目标视频集合中的待选视频的标签进行提取或者确定,以得到每个待选视频各自所含有的标签,之后,再根据这些待选视频的标签,找到每个待选视频分别与目标视频所含有的相同的标签,例如,在标签库维度下(大分类:0.1、细分类:0.3、类型:0.1、国家:0.1、日期:0.1、演员:0.4),目标视频A具有标签:综艺、吐槽、搞笑、C国、2017年及张三,待选视频E具有标签:综艺、音乐、优美、C国、2017年、李四,那么待选视频E与目标视频A相同的目标标签有:综艺、C国和2017年。

步骤202:基于预设的标签库中标签的权重值,计算每个待选视频与目标视频的相似权重值。

其中,该相似权重值为待选视频的目标标签对应的权重值之和。

例如,目标视频A具有标签:综艺、吐槽、搞笑、C国、2017年及张三,待选视频E具有标签:综艺、音乐、优美、C国、2017年、李四,而待选视频E与目标视频A相同的目标标签分别为:综艺、C国和2017年,这三个标签对应的标签维度的权重分别为:大分类综艺0.1、国家C国0.1和日期2017年0.1,那么计算这些目标标签对应的权重值之和为:0.1+0.1+0.1,即为0.3,由此,待选视频E与目标视频A的相似权重值为0.3。

在一种实现方式中,本实施例在获得每个目标视频所对应的目标视频集合之后,可以对目标视频集合中的待选视频根据视频热度来进行倒排索引,再从待选视频倒排索引中按照顺序来找到每个待选视频与目标视频所含有的相同的目标标签,之后,可以将视频热度的权重考虑到计算待选视频与目标视频的相似权重值中,例如将待选视频的视频热度权重值添加到待选视频与目标视频的相似权重值中,得到新的相似权重值,该新的相似权重值表明待选视频与目标视频之间的相似度。

在一种实现方式中,图1中的步骤104可以通过以下方式实现:

首先,本实施例对目标视频集合中经过相似权重值计算的待选视频按照其相似权重值的大小进行排序,排在最前的相似权重值最大,排在最后的相似权重值最小,之后,在排序好的目标视频集合中,确定相似权重值排序在前M(大于或者等于1的正整数)位的待选视频为目标视频的相似视频,这些相似视频组成目标视频对应的相似视频集合。

例如,在相似权重值计算并排序好的目标视频集合中有100个待选视频,按照相似权重值从大到小的顺序依次排序,本实施例中选取排序在前10个的待选视频,确认这10个待选视频为目标视频的相似视频,组成目标视频对应的相似视频集合,作为向用户推荐的相似视频候选集,提供给用户选择是否播放观看。

在另一种实现方式中,图1中的步骤104也可以通过以下方式实现:

首先,本实施例中预先设置一个权重阈值,之后在计算好相似权重值的目标视频集合中选取相似权重值大于或等于该权重阈值的待选视频,将这些选取的待选视频确定为目标视频的相似视频,这些相似视频组成目标视频对应的相似视频集合。

其中,权重阈值的设置可以根据用户需求及历史数据进行设置,例如,设置成0.5或者0.3。

例如,在相似权重值计算好的目标视频集合中含有100个待选视频,本实施例中选取相似权重值大于0.5的待选视频组成目标视频的相似视频集合,作为向用户推荐的相似视频候选集,提供给用户选择是否播放观看。

需要说明的是,现网中的视频多种多样,标签繁多,可能存在所计算出的相似权重值差异较大,且分布不均的情况,例如在100个待选视频中,有2个待选视频的相似权重值分别为0.5和0.7,而其他98个待选视频的相似权重值均在0~0.2之前,那么如果采用相似权重值排序选取相似视频的方案可能会将相似度较低的待选视频认为是目标视频的相似视频,因此,此时选取相似权重值大于权重阈值的待选视频为相似视频的方案能够在一定程度上提高相似计算的准确性。

在一种实现方式中,本实施例在计算目标视频的相似视频集合之后,还可以包含以下步骤,如图3中所示:

步骤105:根据目标视频的标签,在标签库中添加新标签。

其中,本实施例中可以利用TFIDF算法提取每个目标视频的标签,在标签库中查找是否目标视频的标签的维度下是否含有该标签,如果没有,就将这些标签添加到标签库中,实现实时更新标签库的目的。

在一种实现方式中,本实施例在计算目标视频的相似视频集合之后,还可以包括以下步骤,如图4中所示:

步骤106:对标签库中标签所对应的权重值进行修改。

具体的,本实施例中在计算目标视频的相似视频集合之后,根据用户对目标视频和/或相似视频集合中的相似视频所进行的行为操作来对标签对应的权重值进行修改,例如,本实施例在将目标视频的相似视频集合推荐给用户之后,用户对相似视频集合中的相似视频进行点击播放、删除或忽略等操作,本实施例中可以根据用户这些操作来确定所涉及的标签所对应的权重值是否需要进行修改,并进行相应的修改。例如,本实施例中在将相似视频推荐给用户之后,用户点击综艺和吐槽标签的视频进行播放,并忽略其他视频,相应的,本实施例中将标签库中综艺标签和吐槽标签所对应的标签维度的权重值进行修改,例如,从0.1修改为0.2。

由此,本实施例中根据经验和业务数据对标签库中标签维度的初始权重值进行设置,并根据标签库中标签对应的权重值计算目标视频的相似视频集合,而在后续计算中,可以根据相似视频集合推荐后的用户使用效果如用户行为数据等来调整各个标签所属维度的权重值,从而达到更好的推荐效果,进一步改善用户使用体验。

需要说明的是,现网中视频的增长率很高,本实施例中可以每隔一段时间对视频进行全量计算,而对于视频的增量可以实时进行,也就是说,本实施例中通过标签库及视频本申请内容实现相似视频的计算,具有高性能特点,因此对于增长率较高的增量视频可以实时完成,例如,有新的视频出现,本实施例中可以实时对新的视频进行相似权重值计算;而对于现网的全部视频本实施例中可以通过设置时间间隔来每隔一定的时间长来完成一次全量视频的相似权重值计算,计算出的相似权重值结果根据高低进行排序,实现相似计算。进一步的,还可以结合视频内容的相关性如用户的行为数据对计算结果进行评估及参数调整,如调整标签所对应的权重值等。

参考图5,为本申请实施例二提供的一种相似视频的计算装置的结构示意图,该装置适用于具有数据处理能力的计算机、服务器等设备或终端,用以视频的相似视频或相似视频集合的计算。

在本实施例中,该装置可以包括以下结构:

目标获得单元501,用于获得待计算的视频集合。

其中,视频集合中包括至少一个目标视频,每个目标视频具有至少一个标签。本实施例的目的就在于计算与目标视频相似的视频。目标视频中的标签可以理解为视频标签,如电影、主演或上传日期等。

例如,本实施例中目标获得单元501获得待计算的视频集合包含A~D四个目标视频,目标视频A具有综艺、吐槽、2017、张三等标签,目标视频B具有综艺、音乐、2017、李四等标签,等等。

在一种实现方式中,本实施例中可以利用TFIDF(term frequency–inverse document frequency)算法提取每个目标视频的标签。

集合获得单元502,用于获得所述目标视频对应的目标视频集合。

其中,目标视频集合中包含至少一个待选视频,且待选视频与目标视频具有至少一个相同的标签,例如,目标视频A具有综艺标签和吐槽标签,视频E具有综艺标签(与A的综艺标签相同)和搞笑标签,视频F具有电影标签和吐槽标签(与A的吐槽标签相同),视频E和视频F均为目标视频对应的目标视频集合中的待选视频。

在一种实现方式中,本实施例中集合获得单元502可以首先对同一视频标签维度的按照视频热度进行倒排索引,再从倒排索引的视频列表中获取到与目标视频具有至少一个相同标签的待选视频,组成目标视频集合。

相似计算单元503,用于基于预设的标签库中标签对应的权重值,计算所述目标视频集合中每个所述待选视频与所述目标视频的相似权重值。

其中,标签库中包括多个标签,标签库的建立可以预先通过人工整理方式加机器学习相关技术实现,例如,使用TFIDF算法将所有视频的关键标签进行提取之后,再利用人工整理完成标签的筛选,根据不同的分类将标签归类分级,建立形成标签库。

需要说明的是,在标签库中,每个标签隶属于一个标签维度,如大分类、细分类、类型、国家、日期和演员6个维度。通常情况下,每个标签仅属于一个维度。例如,大分类维度下的综艺标签、细分类维度下的吐槽标签、类型维度下的搞笑标签、国家维度下的中国或美国标签、日期维度下的2017年或2018年、演员维度下的X或Y等。

另外,标签库中每个标签所隶属的标签维度具有自己的权重值,例如:大分类维度下的标签权重0.1、细分类维度下的标签权重0.3、类型维度下的标签权重0.1、国家维度下的标签权重0.1、日期维度下的标签权重0.1和演员维度下的标签权重0.4。

其中,标签所对应的标签维度的权重值可以根据历史经验数据和业务需求进行预先设置,也可以在后续根据需求进行动态调整。

需要说明的是,本实施例中相似计算单元503基于标签对应的权重值来计算目标视频集合中每个待选视频分别与目标视频的相似权重值,该相似权重值表明待选视频与所述目标视频之间的相似度。

相似确定单元504,用于根据所述相识去那种值,确定所述目标视频集合中所示目标视频所对应的相似视频集合。

其中,相似视频集合中包括至少一个相似视频,该相似视频是与目标视频相似的视频,而该相似视频集合为目标视频的相似视频候选集。

需要说明的是,本实施例中相似确定单元504所获得的相似视频集合的个数与目标视频的个数相一致,也就是说,本实施例中基于标签库及目标视频的标签来计算每个目标视频各自所对应的相似视频集合,即每个目标视频的相似视频候选集。

其中,本实施例中在相似确定单元504获得目标视频的相似视频集合之后,可以将相似视频集合进行输出,例如,显示在正在播放目标视频的终端,推荐给正在观看目标视频的用户,由用户选择是否观看相似视频,改善用户观看体验。

标签更新单元505,用于根据所述目标视频的标签,在所述标签库中添加新标签。

其中,本实施例中可以利用TFIDF算法提取每个目标视频的标签,在标签库中查找是否目标视频的标签的维度下是否含有该标签,如果没有,就将这些标签添加到标签库中,实现实时更新标签库的目的。

权重修改单元506,用于对所述标签库中所述标签对应的权重值进行修改。

具体的,本实施例中在计算目标视频的相似视频集合之后,根据用户对目标视频和/或相似视频集合中的相似视频所进行的行为操作来对标签对应的权重值进行修改,例如,本实施例在将目标视频的相似视频集合推荐给用户之后,用户对相似视频集合中的相似视频进行点击播放、删除或忽略等操作,本实施例中可以根据用户这些操作来确定所涉及的标签所对应的权重值是否需要进行修改,并进行相应的修改。例如,本实施例中在将相似视频推荐给用户之后,用户点击综艺和吐槽标签的视频进行播放,并忽略其他视频,相应的,本实施例中将标签库中综艺标签和吐槽标签所对应的标签维度的权重值进行修改,例如,从0.1修改为0.2。

由此,本实施例中根据经验和业务数据对标签库中标签维度的初始权重值进行设置,并根据标签库中标签对应的权重值计算目标视频的相似视频集合,而在后续计算中,可以根据相似视频集合推荐后的用户使用效果如用户行为数据等来调整各个标签所属维度的权重值,从而达到更好的推荐效果,进一步改善用户使用体验。

在本实施例中,该服务器可以包括有处理器及存储器,处理器及存储器为服务器等承载以上本实施例的设备上的元器件,上述的目标获得单元501、集合获得单元502、相似计算单元503、相似确定单元504、标签更新单元505及权重修改单元506等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

例如,上述各个程序单元以安装包或处理类的形式存储在存储器中,同时存储器中还存储有预先设置的配置文件,处理器通过调用安装包处理类,来执行以上各个程序单元,实现相应的功能。

具体的,处理器中包含内核,由内核去存储器中调取相应的程序单元,内核可以设置一个或多个,通过在获取到目标视频及目标视频对应的目标视频集合之后,基于标签库中标签对应的权重值计算目标视频与目标视频集合中每个待选视频的相似权重之后,再根据相似权重值确定与目标视频对应的相似视频集合。

其中,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

由以上方案可知,本申请实施例二提供的一种相似视频的计算装置,预先为视频所涉及的各种标签设置对应的权重值,在需要计算相似视频时,通过计算具有相同标签的视频之间的相似权重值,从而获得与目标视频相似的相似视频集合,完成相似计算。由此,本实施例中只需依靠预先设置的标签库及视频本身的内容来实现相似视频的计算,无需进行模型训练等操作,从而提高了计算效率及计算准确率。

在一种实现方式中,图5中的相似计算单元503可以通过以下结构实现,如图6中所示:

标签确定子单元601,用于确定所述目标视频集合中每个所述待选视频与所述目标视频相同的目标标签。

例如,本实施例中标签确定子单元601首先对目标视频集合中的待选视频的标签进行提取或者确定,以得到每个待选视频各自所含有的标签,之后,再根据这些待选视频的标签,找到每个待选视频分别与目标视频所含有的相同的标签,例如,在标签库维度下(大分类:0.1、细分类:0.3、类型:0.1、国家:0.1、日期:0.1、演员:0.4),目标视频A具有标签:综艺、吐槽、搞笑、C国、2017年及张三,待选视频E具有标签:综艺、音乐、优美、C国、2017年、李四,那么待选视频E与目标视频A相同的目标标签有:综艺、C国和2017年。

权重计算子单元602,用于基于预设的标签库中标签对应的权重值,计算每个所述待选视频与所述目标视频的相似权重值。

其中,该相似权重值为待选视频的目标标签对应的权重值之和。

例如,目标视频A具有标签:综艺、吐槽、搞笑、C国、2017年及张三,待选视频E具有标签:综艺、音乐、优美、C国、2017年、李四,而待选视频E与目标视频A相同的目标标签分别为:综艺、C国和2017年,这三个标签对应的标签维度的权重分别为:大分类综艺0.1、国家C国0.1和日期2017年0.1,那么计算这些目标标签对应的权重值之和为:0.1+0.1+0.1,即为0.3,由此,待选视频E与目标视频A的相似权重值为0.3。

在一种实现方式中,本实施例在获得每个目标视频所对应的目标视频集合之后,可以对目标视频集合中的待选视频根据视频热度来进行倒排索引,再从待选视频倒排索引中按照顺序来找到每个待选视频与目标视频所含有的相同的目标标签,之后,可以将视频热度的权重考虑到计算待选视频与目标视频的相似权重值中,例如将待选视频的视频热度权重值添加到待选视频与目标视频的相似权重值中,得到新的相似权重值,该新的相似权重值表明待选视频与目标视频之间的相似度。

在一种实现方式中,图5中的相似确定单元504具体可以通过以下方式实现:

对所述目标视频集合中的待选视频按照其相似权重值的大小进行排序,得到排序结果,在所述目标视频集合中,确定相似权重值排序在前M位的待选视频为所述目标视频的相似视频,所述相似视频组成所述目标视频对应的相似视频集合。

也就是说,本实施例相似确定单元504首先对目标视频集合中经过相似权重值计算的待选视频按照其相似权重值的大小进行排序,排在最前的相似权重值最大,排在最后的相似权重值最小,之后,在排序好的目标视频集合中,确定相似权重值排序在前M(大于或者等于1的正整数)位的待选视频为目标视频的相似视频,这些相似视频组成目标视频对应的相似视频集合。

例如,在相似权重值计算并排序好的目标视频集合中有100个待选视频,按照相似权重值从大到小的顺序依次排序,本实施例中选取排序在前10个的待选视频,确认这10个待选视频为目标视频的相似视频,组成目标视频对应的相似视频集合,作为向用户推荐的相似视频候选集,提供给用户选择是否播放观看。

在另一种实现方式中,图5中的相似确定单元504也可以通过以下方式实现:

在所述目标视频集合中,确定相似权重值大于预设的权重阈值的待选视频为所述目标视频的相似视频,所述相似视频组成所述目标视频对应的相似视频集合。

也就是说,本实施例中相似确定单元504预先设置一个权重阈值,之后在计算好相似权重值的目标视频集合中选取相似权重值大于或等于该权重阈值的待选视频,将这些选取的待选视频确定为目标视频的相似视频,这些相似视频组成目标视频对应的相似视频集合。

其中,权重阈值的设置可以根据用户需求及历史数据进行设置,例如,设置成0.5或者0.3。

例如,在相似权重值计算好的目标视频集合中含有100个待选视频,本实施例中选取相似权重值大于0.5的待选视频组成目标视频的相似视频集合,作为向用户推荐的相似视频候选集,提供给用户选择是否播放观看。

需要说明的是,现网中的视频多种多样,标签繁多,可能存在所计算出的相似权重值差异较大,且分布不均的情况,例如在100个待选视频中,有2个待选视频的相似权重值分别为0.5和0.7,而其他98个待选视频的相似权重值均在0~0.2之前,那么如果采用相似权重值排序选取相似视频的方案可能会将相似度较低的待选视频认为是目标视频的相似视频,因此,此时选取相似权重值大于权重阈值的待选视频为相似视频的方案能够在一定程度上提高相似计算的准确性。

需要说明的是,现网中视频的增长率很高,本实施例中可以每隔一段时间对视频进行全量计算,而对于视频的增量可以实时进行,也就是说,本实施例中通过标签库及视频本申请内容实现相似视频的计算,具有高性能特点,因此对于增长率较高的增量视频可以实时完成,例如,有新的视频出现,本实施例中可以实时对新的视频进行相似权重值计算;而对于现网的全部视频本实施例中可以通过设置时间间隔来每隔一定的时间长来完成一次全量视频的相似权重值计算,计算出的相似权重值结果根据高低进行排序,实现相似计算。进一步的,还可以结合视频内容的相关性如用户的行为数据对计算结果进行评估及参数调整,如调整标签所对应的权重值等。

本申请实施例还提供了一种电子设备,如服务器或电脑等设备,用于实现图1~图6中所示的方案。以下对电子设备在实现视频相似计算的实现示例进行举例说明:

首先,本实施例中的电子设备中包含两个功能模块,这些功能模块通过电子设备中的处理器来实现:标签库数据读取和维度权重值读取模块和视频元数据读取解析和相似视频计算模块。

以下对两个功能模块的具体实现进行说明:

1、标签库数据读取和维度权重值读取模块的实现流程如图7中所示:

(1)标签库读取

本实施例中通过服务(如定时更新服务,能够读取最新的配置进行后续计算)读取redis(电子设备中的存储设备及其线上服务)中的标签库,在内存中构建类似HashMap的数据结构,为之后的数据做准备;

(2)维度权重值读取

本实施例中通过服务读取电子设备配置中的默认相关参数,如标签库中标签维度及维度权重值等,对计算进行初始化,例如,读取皮质中的维度权重值等初始参数,将参数写入相应的常量中。

2、视频元数据读取解析和相似视频计算模块的实现流程如图8中所示:

(1)通过服务从redis中读取所有的视频元数据内容,对视频元数据内容进行过滤和解析,获取用于计算的数据,如前文中目标视频及目标视频集合等数据;

(2)计算视频的倒排索引,以便后续快速查询相关标签的视频

利用redis的特殊结构实现视频的倒排索引列表,根据标签库所设计的维度,例如type、actor等,例如一个视频的标签为“电影”、“张三”,可以将这个视频按照不同的维度分别放入不同的标签维度中;

(3)利用之前已经获取的标签库数据和相关的维度参数,结合根据标签库建立的所有视频的倒排索引,分别计算每个视频的相似性候选集;

如图9中所示,例如对视频1234计算它的相似视频,首先找到它对应不同维度的标签。例如视频1234含有电影、张三等标签,那么在建立的视频倒排索引中会找到含有相同标签的视频,对所存在的所有视频做权重和标签的计算,最终得到相对视频1234的其他视频对该视频的分数,依照分数对计算后的视频做分数的降序排列获取关联性从高到低的视频集合。

例如,标签权重值:大分类:0.1,细分类:0.3,类型:0.1,国家:0.1,日期:0.1,演员:0.4,而视频1:综艺、吐槽、搞笑、中国、2017年、张三,视频2:综艺、音乐、优美、C国、2017年、李四,在找到相同的标签后,视频1和视频2的相似度为:0.1+0.1+0.1=0.3。

(4)存储集合提供服务

将视频和所计算的相似视频集存储到redis中,并且在其他存储软件中进行备份。利用redis读写性能较高的特性,利用http接口或者RPC接口的方式将数据提供给需要用到的服务,如推荐给用户,为用户提供更好的体验。

由此,本申请中不依赖于用户的历史行为数据,能够快速的根据实际情况调整参数完成增量和全量计算,能够保证视频之间的相关性。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种相似视频的计算方法及装置进行了详细介绍,对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1