处理视频资源的方法及装置与流程

文档序号:11286457阅读:232来源:国知局
处理视频资源的方法及装置与流程

本公开涉及互联网技术应用领域,特别涉及一种处理视频资源的方法及装置。



背景技术:

在视频资源的处理过程中,大家基本在处理相同视频时都采用的视频资源名称相同,或者视频资源名称去掉国语,粤语等,使视频资源名称硬匹配相同,才认为视频资源为同一部视频。

在上述视频资源的处理方法可知,该视频资源的处理方法存在同一部视频有多个名字,如星际迷航2和星际迷航2:暗黑无界,导致视频资源之间无法匹配的问题。



技术实现要素:

为了解决相关技术中存在的同一部视频有多个名字,导致视频资源之间无法匹配的问题,本公开提供了一种处理视频资源的方法及装置。

一种处理视频资源的方法,所述方法包括:

视频资源两两之间确定所在网页页面之间的页面相似度;

提取所在网页页面中视频资源的名称标签,获得视频资源名称;

根据所述视频资源名称确定所述视频资源两两之间的名称相似度;

融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度;

根据所述相似度识别所述两两视频资源是否匹配。

一种处理视频资源的装置,所述装置包括:

页面相似度确定模块,用于视频资源两两之间确定所在网页页面之间的页面相似度;

视频资源名称获取模块,用于提取所在网页页面中视频资源的名称标签,获得视频资源名称;

名称相似度获取模块,用于根据所述视频资源名称确定所述视频资源两两之间的名称相似度;

融合模块,用于融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度;

识别模块,用于根据所述相似度识别所述两两视频资源是否匹配。

本公开的实施例提供的技术方案可以包括以下有益效果:

视频资源两两之间确定所在网页页面之间的页面相似度;提取所在网页页面中视频资源的名称标签,获得视频资源名称;根据视频资源名称确定视频资源两两之间的名称相似度;融合名称相似度和页面相似度,获得视频资源两两之间的相似度;根据相似度识别两两视频资源是否匹配。由上述方法可知,通过视频资源两两之间确定所在网页页面之间的页面相似度,并根据视频资源名称确定视频资源两两之间的名称相似度后,融合名称相似度和页面相似度,获得视频资源两两之间的相似度,根据相似度识别两两视频资源是否匹配,解决了同一部视频有多个名字,导致视频资源之间无法匹配的问题。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种处理视频资源的方法的流程图;

图2是图1对应实施例的视频资源两两之间确定所在网页页面之间的页面相似度在一个实施例的流程图;

图3是图1对应实施例的融合名称相似度和页面相似度,获得视频资源两两之间的相似度在一个实施例的流程图;

图4是图1对应实施例的根据相似度识别两两视频资源是否匹配在一个实施例的流程图;

图5是根据一示例性实施例示出的一种处理视频资源的装置框图;

图6是图5对应实施例的页面相似度确定模块在一个实施例的框图;

图7是图5对应实施例的融合模块在一个实施例的框图。

具体实施方式

这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种处理视频资源的方法的流程图。如图1所示,该处理视频资源的方法可以包括以下步骤。

在步骤110中,视频资源两两之间确定所在网页页面之间的页面相似度。

其中,视频资源所在网页页面为包含着视频资源信息的网页页面。在一个示例性实施例中,该视频资源信息可以包括视频资源的:名称,国家地区,导演,演员,语言和摘要等信息。

确定所在网页页面之间的页面相似度通过计算出视频资源所在网页页面的哈希字符串,并根据视频资源所在网页页面的哈希字符串,确定视频资源所在网页页面之间的页面相似度。

在步骤130中,提取所在网页页面中视频资源的名称标签,获得视频资源名称。

其中,视频资源所在的网页页面中包含着视频资源信息,视频资源信息中包含该视频资源的名称。从视频资源所在网页页面中,提取存储的视频资源信息,从视频资源信息中,提取视频资源的名称标签,从而根据视频资源的名称标签,获得视频资源名称。

在步骤150中,根据视频资源名称确定视频资源两两之间的名称相似度。

在一个示例性实施例中,可采用编辑距离的方式,计算视频资源两两之间的名称相似度。

首先定义这样一个函数——edit(i,j),它表示第一个字符串的长度为i的子串到第二个字符串的长度为j的子串的编辑距离。其中i和j代表两个视频资源的视频资源名称转化成字符串形式的字符串长度。

ifi=0且j=0,edit(i,j)=0

ifi=0且j>0,edit(i,j)=j

ifi>0且j=0,edit(i,j)=i

ifi≥1且j≥1,edit(i,j)==min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},

当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i,j)=1,否则,f(i,j)=0。

根据上述步骤得出数据矩阵,并根据该数据矩阵计算出两个视频间的编辑距离。根据编辑距离计算出两个视频资源的名称相似度,公式如下。

其中,sim2(a,b)为两个视频的名称相似度,edita,b为两个视频间的编辑距离。根据该公式确定视频资源两两之间的名称相似度。对于本发明,此方法仅供参考,实际实现方法并不局限于此。

在步骤170中,融合名称相似度和页面相似度,获得视频资源两两之间的相似度。

其中,融合名称相似度和页面相似度即通过计算获取的名称相似度和页面相似度,得到视频资源两两之间的相似度。该相似度用于表明视频资源之间是否相匹配。

在步骤190中,根据相似度识别两两视频资源是否匹配。

其中,通过比较预先配置的相似度阈值和获取的相似度,从而识别两两视频资源是否匹配,若两两视频匹配,则该两两视频资源为相同的视频,若两两视频资源不匹配,则该两两视频资源为不相同的视频。

此实施例解决了同一部视频有多个名字,导致视频资源之间无法匹配的问题。

图2是根据一示例性实施例示出的对步骤110的细节进行描述。如图2所示,该步骤110可包括以下步骤。

在步骤111中,分别计算视频资源所在网页页面的哈希字符串。

在一个示例性实施例中,将视频资源所在页面中包含的视频资源信息中的视频资源的名称,国家地区,导演,演员,语言和摘要等信息进行合并分词,通过hash算法把每个词变成hash值,并将该hash值按照在视频资源所在网页页面的出现频率,形成加权字符串。将各个hash值形成的加权字符串进行累加,得到一个序列串。将得到的序列串变成只含有0和1的字符串,即为得到的视频资源所在网页页面的哈希字符串。对于本发明,此方法仅供参考,实际实现方法并不局限于此。

在步骤113中,根据哈希字符串,视频资源两两之间确定所在网页页面之间的页面相似度。

其中,得到视频资源所在网页页面的哈希字符串simhash(a)和simhash(b),并根据哈希字符串simhash(a)和simhash(b),来使视频资源两两之间确定所在网页页面之间的页面相似度。公式如下。

其中,sim1(a,b)即为视频资源两两之间确定的所在网页页面之间的页面相似度。

此实施例实现了视频资源两两之间确定所在网页页面之间的页面相似度。

图3是根据一示例性实施例示出的对步骤170的细节进行描述。如图3所示,该步骤170可包括以下步骤。

在步骤171中,获取预先配置的相似度权重。

其中,预先配置的相似度权重用于表示在相似度计算中名称相似度或页面相似度所占的权重比例。获取预先配置的相似度权重,从而根据相似度权重,计算视频资源两两之间的相似度。

在步骤173中,根据相似度权重,融合名称相似度和页面相似度,获得视频资源两两之间的相似度。

其中,融合名称相似度和页面相似度,获得视频资源两两之间的相似度的公式如下。

其中,sim(a,b)为视频资源两两之间的相似度,sim1(a,b)为页面相似度,sim2(a,b)为名称相似度,为代表页面相似度的相似度权重。

此实施例实现了融合名称相似度和页面相似度,获得视频资源两两之间的相似度的步骤。

图4是根据一示例性实施例示出的对步骤190的细节进行描述。如图4所示,该步骤190可包括以下步骤。

在步骤191中,判断相似度是否大于预先配置的相似度阈值。

其中,相似度阈值为预先配置的表明视频资源两两之间是否匹配的数值。通过比较相似度和相似度阈值,来判断视频资源两两之间是否匹配。

在步骤193中,若相似度大于预先配置的相似度阈值,则识别两两视频资源匹配。

当视频资源两两之间的相似度大于预先配置的相似度阈值时,即代表视频资源两两之间相似度高,识别到该两两视频资源相匹配。

在步骤195中,若相似度不大于预先配置的相似度阈值,则识别两两视频资源不匹配。

当视频资源两两之间的相似度不大于预先配置的相似度阈值时,即代表视频资源两两之间相似度不高,识别到该两两视频资源不匹配。

此实施例实现了识别两两视频资源是否匹配。

在一个示例性实施例中,在根据相似度识别两两视频资源是否匹配步骤之后,该处理视频资源的方法还包括。

在根据相似度识别两两视频资源匹配之后,两两合并视频资源。

其中,当根据相似度识别两两视频资源匹配之后,即该两两视频资源相同,此时合并该视频资源。

在一个示例性实施例的具体实现中,在实现推荐视频资源时,将匹配的视频资源合并的视频资源推荐给用户,从而避免向用户推荐重复的视频资源。

此实施例实现了两两合并匹配的视频资源。

图5是根据一示例性实施例示出的一种处理视频资源的装置框图。该装置执行图1任一所示的处理视频资源的方法的全部或者部分步骤。如图5所示,该装置包括但不限于:页面相似度确定模块210,视频资源名称获取模块230,名称相似度获取模块250,融合模块270和识别模块290。

页面相似度确定模块210用于视频资源两两之间确定所在网页页面之间的页面相似度。

视频资源名称获取模块230用于提取所在网页页面中视频资源的名称标签,获得视频资源名称。

名称相似度获取模块250用于根据视频资源名称确定视频资源两两之间的名称相似度。

融合模块270用于融合名称相似度和页面相似度,获得视频资源两两之间的相似度。

识别模块290用于根据相似度识别两两视频资源是否匹配。

图6是图5对应实施例的页面相似度确定模块在一个实施例的框图。如图6所示,页面相似度确定模块210包括但不限于:计算单元211和确定单元213。

计算单元211用于分别计算视频资源所在网页页面的哈希字符串。

确定单元213用于根据哈希字符串,视频资源两两之间确定所在网页页面之间的页面相似度。

图7是图5对应实施例的融合模块在一个实施例的框图。如图7所示,该融合模块270包括但不限于:权重获取单元271和相似度计算单元273。

权重获取单元271用于获取预先配置的相似度权重。

相似度计算单元273用于根据相似度权重,融合名称相似度和所述页面相似度,获得视频资源两两之间的相似度。

在一个示例性实施例中,图5对应实施例的识别模块290包括但不限于:判断单元。

判断单元,用于判断相似度是否大于预先配置的相似度阈值,若为是,则两两视频资源匹配,若为否,则

两两视频资源不匹配。

在一个示例性实施例中,该处理视频资源的装置还可以包括但不限于:合并模块。

合并模块,用于在根据相似度识别两两视频资源匹配之后,两两合并视频资源。

上述装置中各个模块的功能和作用的实现过程详见上述处理视频资源的方法中对应步骤的实现过程,在此不再赘述。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1