一种视频信息的表示方法及装置与流程

文档序号:14677342发布日期:2018-06-12 21:41阅读:175来源:国知局
一种视频信息的表示方法及装置与流程

本发明涉及视频处理技术领域,特别是涉及一种视频信息的表示方法及装置。



背景技术:

近几年来伴随着互联网技术的普及与发展,越来越多的视频客户端出现在人们的生活娱乐中,为了迎合用户的观看习惯,往往会进行视频推荐、视频相似性检索或者视频查询等工作,而视频特征提取则是进行这些工作的基础。

与传统的数据库的特征提取不同,视频特征提取不单单是对数值和字符的相关信息进行提取,而是对集成了对图像、音频、文字等非格式化信息的综合提取。传统的视频特征提取方法多集中于从视频的描述信息、视频标题、视频帧等方面提取信息,而将这些信息作为视频特征进行相应的视频推荐或视频相似度检索的基础,会造成视频推荐结果并不是用户所想要的视频,或者会出现检索出的视频相似度较低。



技术实现要素:

针对于上述问题,本发明提供一种视频信息的表示方法及装置,通过将视频信息以向量形式进行表示,实现了提高用户体验度的目的。

为了实现上述目的,本发明提供了如下技术方案:

一种视频信息的表示方法,该方法包括:

获取用户的视频播放记录列表,其中,所述视频播放记录列表记录了用户观看的多个视频信息;

为所述视频播放记录列表中的每个视频设置与之对应的视频标识;

获取所述视频播放记录列表中的每个视频的播放次数,建立所述每个视频的视频标识与对应的播放次数的映射表;

对所述映射表进行向量训练,生成所述每个视频的向量。

优选地,所述获取用户的视频播放记录列表,包括:

获取用户的视频访问日志;

根据预设的统计时间提取所述视频访问日志中的视频播放记录;

根据预设的视频清洗规则,对提取到的视频播放记录进行清洗处理,生成用户的视频播放记录列表,其中,所述视频播放记录列表记录了用户观看的多个视频信息。

优选地,所述预设的视频清洗规则至少包括以下规则中的一个:

过滤掉播放时长不满足阈值的视频的规则、过滤掉用户对视频进行跳跃观看的视频的规则以及将连续播放的电视剧合并为一个专辑视频的规则。

优选地,所述获取所述视频播放记录列表中的每个视频的播放次数,建立所述每个视频的视频标识与对应的播放次数的映射表,包括:

获取所述视频播放记录列表中的每个视频的播放次数;

提取出待校正的视频,对所述待校正的视频的播放次数进行校正处理,得到所述待校正的视频的校正播放次数,并将所述校正播放次数作为所述待校正的视频的播放次数;

建立所述每个视频的视频标识与对应的播放次数的映射表。

优选地,所述提取出待校正的视频,对所述待校正的视频的播放次数进行校正处理,得到所述待校正的视频的校正播放次数,并将所述校正播放次数作为所述待校正的视频的播放次数,包括:

根据所述每个视频的热度信息,在所述视频播放记录列表中提取出待校正的视频;

设置所述待校正视频的校正系数,并根据预设公式M=Nk,计算得到所述待校正的视频的校正播放次数,并将所述校正播放次数作为所述待校正的视频的播放次数,其中,N为初始播放次数,k为校正系数。

一种视频信息的表示装置,包括:

获取模块,用于获取用户的视频播放记录列表,其中,所述视频播放记录列表记录了用户观看的多个视频信息;

设置模块,用于为所述视频播放记录列表中的每个视频设置与之对应的视频标识;

建立模块,用于获取所述视频播放记录列表中的每个视频的播放次数,建立所述每个视频的视频标识与对应的播放次数的映射表;

生成模块,用于对所述映射表进行向量训练,生成所述每个视频的向量。

优选地,所述获取模块包括:

获取单元,用于获取用户的视频访问日志;

提取单元,用于根据预设的统计时间提取所述视频访问日志中的视频播放记录;

处理单元,用于根据预设的视频清洗规则,对提取到的视频播放记录进行清洗处理,生成用户的视频播放记录列表,其中,所述视频播放记录列表记录了用户观看的多个视频信息。

优选地,所述预设的视频清晰规则至少包括以下规则中的一个:

过滤掉播放时长不满足阈值的视频的规则、过滤掉用户对视频进行跳跃观看的视频的规则以及将连续播放的电视剧合并为一个专辑视频的规则。

优选地,所述建立模块包括:

次数获取单元,用于获取所述视频播放记录列表中的每个视频的播放次数;

校正处理单元,用于提取出待校正的视频,对所述待校正的视频的播放次数进行校正处理,得到所述待校正的视频的校正播放次数,并将所述校正播放次数作为所述待校正的视频的播放次数;

映射建立单元,用于建立所述每个视频的视频标识与对应的播放次数的映射表。

优选地,所述校正处理单元包括:

视频提取单元,用于根据所述每个视频的热度信息,在所述视频播放记录列表中提取出待校正的视频;

计算子单元,用于设置所述待校正视频的校正系数,并根据预设公式M=Nk,计算得到所述待校正的视频的校正播放次数,并将所述校正播放次数作为所述待校正的视频的播放次数,其中,N为初始播放次数,k为校正系数。

相较于现有技术,本发明通过将用户观看的多个视频信息记录为了视频播放记录列表,然后对每个视频设置了对应的视频标签,并建立了视频标签与视频播放次数的映射表,最后对映射表进行向量训练,生成每个视频的向量。进而提供了将视频信息表示成了向量的方法。因为将视频信息表示成向量模式,可以实现视频信息基于向量的相似度计算,由于向量相似度的计算可以准确识别出各个视频的相似度关系,进而将向量作为视频信息表示形式,可以有效地作为视频检索、视频相似度检测、视频推荐等工作的基础,提高了用户的体验度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种视频信息的表示方法的流程示意图;

图2为本发明实施例提供的一种视频映射表建立方法的流程示意图;

图3为本发明实施例提供的一种视频信息的表示装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1为本发明实施例提供的一种视频信息的表示方法的流程示意图,该方法可以包括以下步骤:

S11、获取用户的视频播放记录列表,其中,所述视频播放记录列表记录了用户观看的多个视频信息;

该视频播放记录列表是根据用户的视频访问日志生成的,具体的,在本发明的另一实施例中,还提供了一种视频播放记录列表的生成方法,可以包括:

获取用户的视频访问日志;

根据预设的统计时间提取所述视频访问日志中的视频播放记录;

根据预设的视频清洗规则,对提取到的视频播放记录进行清洗处理,生成用户的视频播放记录列表,其中,所述视频播放记录列表记录了用户观看的多个视频信息。

可以理解的是,每个视频客户端后台或者视频服务器都会有相应的日志记录系统,该日志记录系统会记录用户的视频访问信息,进而可以通过用户访问日志获取用户的视频的相关信息。

由于日志记录系统会记录每个用户观看过的视频的所有信息,因此该信息量巨大,为了减少工作量也为了能够将后续对该视频用户进行视频推荐等更具有时效性和准确性,例如,用户的观看喜好是随时间变化的,比如在某一明星当红期间,该用户可能会观看这个明显的相关视频的次数较多,而随着时间推移,用户可能会观看另一个明星的相关视频的次数较多。所以在生成该用户的视频播放记录列表之前需要先设置一个统计时间,也就是统计该时间段内的视频播放相关记录,可以以每天为单位也可以星期为单位,具有统计时间的预设与最终目的相关,本发明不做限制。

当提取到用户的视频播放记录后,为了保证视频信息的准确性和客观性,并不能直接生成用户的视频播放记录列表。而是要对提取到的用户的视频播放记录进行预处理,在预处理过程中需要根据预设的视频清洗规则对视频播放记录进行清洗,该预设的视频清洗规则至少包括以下规则中的一个:

过滤掉播放时长不满足阈值的视频的规则、过滤掉用户对视频进行跳跃观看的视频的规则以及将连续播放的电视剧合并为一个专辑视频的规则。

举例说明,播放时长不满足阈值的视频是指的播放时长较短的视频,具体的,当用户在视频客户端或网页上选择了对应视频进行播放时,可能会由于某些误操作选取了本不是自己想看的视频,这时当视频进行播放时,用户往往会在视频播放的前几秒发现这个错误,从而关闭视频,在视频日志记录系统中也会将此次播放记录为用户的视频播放,但是对于分析该用户的视频观看习惯时,这种视频记录并不具有分析意义,所以要将这种视频记录清洗掉。

同理,也要过滤掉用户对视频进行跳跃观看的视频,因为用户跳跃观看的视频很大程度也是用户不太感兴趣的视频,所以也要将这种视频清洗掉。

同时要将连续播放的电视剧合并为一个专辑视频,避免对后续视频统计次数造成影响。例如用户连续观看一个电视剧的前三集,日志中的记录会是播放了三次,本质是看了同一电视剧,所以进行合并以免对统计次数造成影响需要将这种视频合并为一个专辑视频。

S12、为所述视频播放记录列表中的每个视频设置与之对应的视频标识;

为每个视频设置对应的视频标识是能够在用简单的标识词来对视频进行标记,方便后续的查找与分析。具体的,比如对观看的旅游视频设置标签为旅游,为了区分各个视频的更精确信息也可以设置二级标签,比如旅游-张家界,电视剧-琅琊榜等。

S13、获取所述视频播放记录列表中的每个视频的播放次数,建立所述每个视频的视频标识与对应的播放次数的映射表;

在本发明技术方案的基础上,参见图2,本发明的另一实施例还提供了一种视频映射表的建立方法,可以包括:

S131、获取所述视频播放记录列表中的每个视频的播放次数;

S132、提取出待校正的视频,对所述待校正的视频的播放次数进行校正处理,得到所述待校正的视频的校正播放次数,并将所述校正播放次数作为所述待校正的视频的播放次数;

S133、建立所述每个视频的视频标识与对应的播放次数的映射表。

统计视频播放记录列表中的每个视频的播放次数,然后建立视频标与播放次数之间的映射关系,但是在创建映射关系之前需要对某些视频的播放次数进行校正,具体包括:

根据所述每个视频的热度信息,在所述视频播放记录列表中提取出待校正的视频;

设置所述待校正视频的校正系数,并根据预设公式M=Nk,计算得到所述待校正的视频的校正播放次数,并将所述校正播放次数作为所述待校正的视频的播放次数,其中,N为初始播放次数,k为校正系数。

根据每个视频的热度信息,提取出待校正视频,所谓热度信息主要体现在视频的推荐信息和排行榜信息等方面,比如,某些用户观看视频的习惯是喜欢观看视频排行榜靠前的视频,而有些用户会在视频客户端上设置接收推荐信息的页面,也就是会经常观看视频客户端推送的视频信息,这样就会造成热门视频的播放次数会远远大于其他视频的播放次数,为了保证生成结果的客观性,需要对视频播放次数进行校正。比如热门视频它的播放次数肯定会高于其他视频的,为了符合统计规律,则会对该次数设置一个校正系数k,该校正系数取值为0-1这样可以对类似于热门视频的播放次数进行校正,使其此播放次数更加趋于客观性,具有统计意义。

S14、对所述映射表进行向量训练,生成所述每个视频的向量。

在此步骤中主要是采用向量训练模型生成每个视频的向量。例如,采用CBOW模型进行训练,在CBOW模型中选择合理的窗口,其中,窗口为CBOW模型中的概念,例如,窗口大小为5就是考虑一个词的前5个和后5个词语,即参照这种模式对映射表进行训练,可以将每个视频映射到一个高维空间中,得到向量。

当将该视频信息表示方法应用在视频检测、视频相似度检测和视频推荐等工作时,也就是将每个视频的向量的相应维度的值进行相关计算,比如计算两个向量之间的余弦值和欧氏距离等,这样就可以判断对应两个视频的相似度高低。比如,视频标签分别为九寨沟与张家界的两个视频对应的向量相似度远大于视频标签分别为九寨沟与动漫的向量相似度。这样通过将视频信息用向量表示为视频的推荐、检索等方面的提供了判断依据和分析基础。

通过本发明实施例公开的视频信息的表示方法的技术方案,通过将用户观看的多个视频信息记录为了视频播放记录列表,然后对每个视频设置了对应的视频标签,并建立了视频标签与视频播放次数的映射表,最后对映射表进行向量训练,生成每个视频的向量。进而提供了将视频信息表示成了向量的方法。因为将视频信息表示成向量模式,可以实现视频信息基于向量的相似度计算,由于向量相似度的计算可以准确识别出各个视频的相似度关系,进而将向量作为视频信息表示形式,可以有效地作为视频检索、视频相似度检测、视频推荐等工作的基础,提高了用户的体验度。

与本发明实施例提供的视频信息的表示方法的技术方案相对应,本发明的实施例还提供了一种视频信息的表示装置,参见图3,该装置可以包括:

获取模块1,用于获取用户的视频播放记录列表,其中,所述视频播放记录列表记录了用户观看的多个视频信息;

设置模块2,用于为所述视频播放记录列表中的每个视频设置与之对应的视频标识;

建立模块3,用于获取所述视频播放记录列表中的每个视频的播放次数,建立所述每个视频的视频标识与对应的播放次数的映射表;

生成模块4,用于对所述映射表进行向量训练,生成所述每个视频的向量。

具体的,所述获取模块1包括:

获取单元,用于获取用户的视频访问日志;

提取单元,用于根据预设的统计时间提取所述视频访问日志中的视频播放记录;

处理单元,用于根据预设的视频清洗规则,对提取到的视频播放记录进行清洗处理,生成用户的视频播放记录列表,其中,所述视频播放记录列表记录了用户观看的多个视频信息。

对应的,所述预设的视频清晰规则至少包括以下规则中的一个:

过滤掉播放时长不满足阈值的视频的规则、过滤掉用户对视频进行跳跃观看的视频的规则以及将连续播放的电视剧合并为一个专辑视频的规则。

具体的,所述建立模块3包括:

次数获取单元,用于获取所述视频播放记录列表中的每个视频的播放次数;

校正处理单元,用于提取出待校正的视频,对所述待校正的视频的播放次数进行校正处理,得到所述待校正的视频的校正播放次数,并将所述校正播放次数作为所述待校正的视频的播放次数;

映射建立单元,用于建立所述每个视频的视频标识与对应的播放次数的映射表。

相应的,所述校正处理单元包括:

视频提取单元,用于根据所述每个视频的热度信息,在所述视频播放记录列表中提取出待校正的视频;

计算子单元,用于设置所述待校正视频的校正系数,并根据预设公式M=Nk,计算得到所述待校正的视频的校正播放次数,并将所述校正播放次数作为所述待校正的视频的播放次数,其中,N为初始播放次数,k为校正系数。

在本发明实施例提供的视频信息表示装置中,通过获取模块获取了用户的视频播放记录列表,在设置模块中设置了每个视频的视频标识,并通过建立模块建立了视频标识与对应的视频播放次数的映射表,最终在生成模块中,生成了每个视频的向量。进而提供了将视频信息表示成了向量的方法。因为将视频信息表示成向量模式,可以实现视频信息基于向量的相似度计算,由于向量相似度的计算可以准确识别出各个视频的相似度关系,进而将向量作为视频表征,可以有效地作为视频检索、视频相似度检测、视频推荐等工作的基础,提高了用户的体验度。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1