一种按顺序推荐视频的方法及装置与流程

文档序号:12379240阅读:289来源:国知局
一种按顺序推荐视频的方法及装置与流程

本发明涉及视频推荐技术领域,特别是涉及一种按顺序推荐视频的方法及装置。



背景技术:

网络技术的发展,使得利用网络收看视频越来越普及。为了减少用户点击视频的负担,提高用户体验,视频的提供方发明了视频推荐技术。利用该技术,当视频序列的某一集结束之后,视频播放软件会自动寻找并向用户推荐下一集视频,在用户无需点击操作的情况下,自动播放下一集视频。

现有的视频推荐技术利用视频的标题来自动寻找和推荐下一集视频。其原理为:对视频库中所有视频的标题进行处理,去掉标点符号,仅保留文字字符(作为关键词)和数字。将关键词作为视频归类的依据,关键词相同的视频认为是同一序列的视频,并将数字作为视频播放顺序的序号。以“射雕英雄传-8”、“射雕英雄传-9”作为连续的两集视频的标题,在对视频的标题进行处理后,保留的关键词均为“射雕英雄传”,数字分别是“8”和“9”。由于这两个视频的关键词相同,而数字代表的序号很明显地处于一前一后的位置,因此,利用现有技术进行视频推荐,在播放完视频“射雕英雄传-8”且用户未通过点击方式表示停止播放的情况下,将自动寻找并向用户推荐视频“射雕英雄传-9”来播放。

可见,利用现有的视频推荐技术,存在推荐的视频不准确的问题。有以下两种表现:一个表现是不能解决视频标题相同而内容不同的问题,以“射雕英雄传-9”为例简单说明,如果视频库中两个视频的标题均为“射雕英雄传-9”,但一个为1983年翁美玲版,另一个为1994年朱茵版,那么利用现有技术推荐时,可能出现版本播放错误。另一个表现是不能解决视频内容相同而标题不同的问题,例如视频库中存在两个以上的1983年翁美玲版射雕英雄传第九集的视频,但彼此之间标题不同,一个以“射雕英雄传-9”为标题,另一个以“83版射雕英雄传-9”为标题,则利用现有技术播放完视频标题为“射雕英雄传8粤语翁美玲黄日华”的视频后,有可能因标题处理得到的关键词不同而无法找到和推荐以上两个视频,造成用户体验收到差评。



技术实现要素:

本发明所要解决的技术问题是提供一种按顺序推荐视频的方法,能准确找到和推荐正确的视频。

本发明解决上述技术问题的技术方案如下:

一种按顺序推荐视频的方法,该方法包括:

获取所有视频的标题,根据所述字符筛选出标题关键词;

以标题关键词划分视频类型,生成视频集合;

将所述视频集合中符合预置规则的等长视频进行排序,确定代表视频向用户进行推荐。

优选的,所述以标题关键词划分视频类型,生成视频集合,具体为:

以预定字符间隔为间隔对所述标题关键词进行切片,得到一个以上的词片,每个所述词片的长度为设定的词片长度;

将所述视频库中每个视频的标题分别按每个词片进行哈希运算,将输出值与该词片相同的标题所对应的视频作为该词片下的视频,从而得到每个所述词片下的视频集合。

优选的,所述将视频集合中符合预置规则的等长视频进行排序,确定代表视频向用户进行推荐,具体为:

记录每个视频的标题中的每个数字;统计各数字在所有视频的标题中出现的次数;将每个视频的标题中出现次数最少的数字作为该视频的主序号;

将每个视频的标题按该视频的主序号进行哈希运算,将输出值与该主序号相同的标题所对应的视频作为该主序号下的视频,从而得到每个所述主序号下的视频集合;

将每个所述主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合;

从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合,以视频长度的均值与该代表等长视频集合的视频长度的均值相差不超过均值时差为选择依据,按照所述主序号从小到大的顺序,依次从各主序号下的视频集合中选取一个等长视频集合,作为该主序号的代表等长视频集合,从而得到代表等长视频集合序列;

在每个所述代表等长视频集合序列中,按主序号从小到大的顺序,依次从每个所述代表等长视频集合中任选一个视频作为相应主序号的代表视频,向用户推荐。

优选的,所述均值时差为从最小的主序号下的视频集合中选取的代表等长视频集合的视频长度的均值的40%。

优选的,在将每个所述主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合之后,在从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合之前,还包括:将每个所述等长视频集合中所有视频的所述标题关键词统一化。

优选的,将每个所述等长视频集合中所有视频的所述标题关键词统一化的方法为:将每个所述等长视频集合中所有视频的所述标题关键词统一为该等长视频集合中所有视频的所述标题关键词中最短的任一个。

优选的,在将每个所述主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合之后,在从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合之前,还包括:将每个所述主序号下的视频集合中符合合并条件的两个以上的所述等长视频集合合并,所述合并条件包括:

各所述等长视频集合的视频长度的均值与其中最小的均值之差都不超过所述最小的均值的临界比例;

和/或,

将每个所述等长视频集合中所有视频的标题关键词的公共部分,作为该等长视频集合的代表标题关键词;任一所述等长视频集合的代表标题关键词,去掉其与其他任一所述等长视频集合的代表标题关键词的公共字串,剩余字串的长度不大于合并临界字符数。

优选的,所述临界比例为5%,和/或,所述合并临界字符数为2个字符。

优选的,在将每个所述主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合之后,在从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合之前,还包括:将每个所述主序号下的视频集合中符合分裂条件的所述等长视频集合分裂;其中,

所述分裂条件包括:将每个所述等长视频集合中所有视频的标题关键词的公共部分,作为该等长视频集合的代表标题关键词;所述等长视频集合中至少有一个视频的标题与标题关键词,去掉该等长视频集合的代表标题关键词,剩余字串的长度都大于分裂临界字符数;

分裂方法包括:将所述等长视频集合中,标题与标题关键词去掉该等长视频集合的代表标题关键词之后,剩余字串的长度都大于分裂临界字符数的视频的视频长度增加,并将其分组到一个新设立的等长视频集合中。

优选的,所述分裂临界字符数为2个字符。

一种按顺序推荐视频的装置,该装置包括:关键词筛选单元、视频集合生成单元和代表视频推荐单元;

所述关键词筛选单元,用于获取所有视频的标题,根据所述字符筛选出标题关键词;

所述视频集合生成单元,用于以标题关键词划分视频类型,生成视频集合;

所述代表视频推荐单元,用于将所述视频集合中符合预置规则的等长视频进行排序,确定代表视频向用户进行推荐。

优选的,所述视频集合生成单元,具体为:

以预定字符间隔为间隔对所述标题关键词进行切片,得到一个以上的词片,每个所述词片的长度为设定的词片长度;

将所述视频库中每个视频的标题分别按每个词片进行哈希运算,将输出值与该词片相同的标题所对应的视频作为该词片下的视频,从而得到每个所述词片下的视频集合。

优选的,所述代表视频推荐单元,具体为:

记录每个视频的标题中的每个数字;统计各数字在所有视频的标题中出现的次数;将每个视频的标题中出现次数最少的数字作为该视频的主序号;

将每个视频的标题按该视频的主序号进行哈希运算,将输出值与该主序号相同的标题所对应的视频作为该主序号下的视频,从而得到每个所述主序号下的视频集合;

将每个所述主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合;

从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合,以视频长度的均值与该代表等长视频集合的视频长度的均值相差不超过均值时差为选择依据,按照所述主序号从小到大的顺序,依次从各主序号下的视频集合中选取一个等长视频集合,作为该主序号的代表等长视频集合,从而得到代表等长视频集合序列;

在每个所述代表等长视频集合序列中,按主序号从小到大的顺序,依次从每个所述代表等长视频集合中任选一个视频作为相应主序号的代表视频,向用户推荐。

通过使用以上方法,解决了现有技术推荐的视频不准确的两种表现,从而准确地找到和推荐正确的视频。

附图说明

图1为本发明提出的按顺序推荐视频的方法的流程图。

图2为本发明提出的按顺序推荐视频的装置的原理框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

本发明的目的是使系统自动准确地找到并向用户推荐正确视频,最核心的工作是先将视频进行正确地归集,令同一内容的视频归集为同一组(本发明称之为“等长视频集合”)中,然后对等长视频集合按照其序号(本发明称之为“主序号”)进行排序,得到一个主序号由大到小排列的代表等长视频集合序列,接下来,在需要进行视频推荐时,就可以按照主序号从大到小的顺序,依次从每个等长视频集合中取出一部视频来推荐给用户了。可见,本发明最核心的技术就是使视频正确地被归集。本发明是通过多层分类的方法对视频进行归集的:从视频的标题中取出标题关键词和数字;第一步,按标题关键词中切分出来的词片对视频进行分类归集;第二步,按照主序号对视频进行分类归集;第三步,按视频长度对视频进行分类归集。以上三步是层层递进的,即在第一步的基础上,对第一步得到的每个词片下的视频集合分别实施第二步,又在第二步的基础上对其实施结果分别实施第三步,这是本发明解决其发明目的,准确地实施视频的寻找和推荐的核心。当然,还可以进一步对视频进行更为精细的分类归集,这可以在较佳实施例中得以体现。

由以上分析还可以得知,将视频按照词片进行第一步分类归集后,每个视频可以被归集到多个词片下的视频集合中,如果归集的是视频本身的话,本发明所需的存储空间就会很大。为了解决存储空间的问题,本发明中,无论以上第一、二、三步还是其他的对视频的分类归集,所操作的实体可以为视频的存储地址,也就是说,本发明各步骤所得到的各层次的视频集合,本质上是视频的存储地址的集合,这样就解决了进行多次分类归集工作所需存储空间过大的问题。

本发明中,对视频(实际是视频的存储地址)进行分类归集的操作,多是通过哈希运算来实现。哈希运算是常见的现有技术,是一种单向密码体制。它是一个从明文到密文的不可逆的映射,可以将任意长度的输入(如本发明中的视频的标题等)经过运算以后得到固定长度的输出(如本发明中的视频集合,即实际所指的视频的存储地址的集合等)。典型的哈希算法包括MD2、MD4、MD5和SHA-1等。

图1为本发明提出的按顺序推荐视频的方法的流程图。如图1所示,该方法包括:

S11:获取所有视频的标题,根据所述字符筛选出标题关键词。具体为,将视频库中所有视频的标题中的多余字符去掉,将剩余字串作为该视频的标题关键词。

S12:以标题关键词划分视频类型,生成视频集合。具体为:以预定字符间隔为间隔对标题关键词进行切片,得到一个以上的词片,每个词片的长度为设定的词片长度;将视频库中每个视频的标题分别按每个词片进行哈希运算,将输出值与该词片相同的标题所对应的视频作为该词片下的视频,从而得到每个词片下的视频集合。

本步骤中,视频库指的是所有视频组成的库,其组成元素为视频,每个视频具有由一个以上的字符组成的标题、视频长度、视频内容、存储地址等信息。本发明的目的正是要通过分析标题、视频长度等信息,将具有相同的视频内容的视频的存储地址归集到一起,从而实施自动的寻找和推荐。

每个视频的标题必须包含字符,如字母、数字、汉字、韩语字符、日语字符等,这是表征视频内容的部分。此外,视频的标题还可能含有标点符号、序号字符等其他符号。

常见的标点符号(两个'符号之间为一个标点符号)有:'[',']','{','}','(',')','(',')','【','】','{','}','《','》',',','。',':',':','、','<','>','’',';',':','·','','?','<','>','『','』','@',';','◆','=','×','/','〔','〕','√','@','□','Π','§','№','☆','','○','●','◎','◇','◆','□','■','△','▲','※','→','←','↑','↓','','#','&','@','\','^','_','ˉ','ˇ','··','‘','’','々','~','‖','∶','”','’','‘','|','〃','〔','〕','《','》','「','」','『','』','.','〖','〗','【','【','】','(',')','〔','〕','“','!','!','.','-','_','+','_',′-′,'-','@','#','$','%','^','&','*','`','/',',','.',′′,'《','》','[',']'等等。

常见的序号字符(两个'符号之间为一个标点符号)有:'1','2','3','4','5','6','7','8','9','0','1','2','3','4','5','6','7','8','9','0','一','二','三','四','五','六','七','八','九','零','十','百','千','拾','佰','仟','壹','贰','叁','肆','伍','陆','柒','捌','玖','①','②','③','④','⑤','⑥','⑦','⑧','⑨','㈠','㈡','㈢','㈣','㈤','㈥','㈦','㈧','㈨','⒈','⒉','⒊','⒋','⒌','⒍','⒎','⒏','⒐','Ⅰ','Ⅱ','Ⅲ','Ⅳ','Ⅴ','Ⅵ','Ⅶ','Ⅷ','Ⅸ','上','中','下','a','b','c','d','e','f','g','A','B','C','D','E','F','G','A','B','C','D','E','F','G','a','b','c','d','e','f','g'等等。特殊的序号字符有:'上','中','下'等等。

一个字串如果只包含标点符号、序号字符而不含有其他种类的字符,该字串不允许作为视频的标题。视频的标题中除去多余字符之外的部分,本发明称之为该视频的标题关键词。本发明中,多余字符可以为标点符号,也可以为序号字符,还可以为标点符号和序号字符。当然,多余字符还可以包括其他种类的可被本发明中的标题关键词所忽略的字符。

本步骤对标题关键词进行切片,切片的间隔为预定字符间隔,该预定字符间隔的一个较佳实施例为一个字符。在对标题关键词进行切片后,就可以得到一个以上的词片。以标题关键词“射雕英雄传”为例,对其以一个字符为间隔进行切片,如设定词片长度为两个字符,则得到的词片有四个:“射雕”、“雕英”、“英雄”、“雄传”;如设定词片长度为三个字符,则得到的词片有三个:“射雕英”、“雕英雄”、“英雄传”。

可见,词片长度能够决定词片的数量,同时,由于词片是本发明对视频进行第一步分类归集的依据,如果较长,易因视频的标题中标点符号、序号字符等影响第一步分类归集的质量,因此,本发明中,较佳的词片长度可以为1个字符,或2个字符,或3个字符。当然,词片长度为3个以上的字符也为本发明所允许。

本步骤中,将视频库中每个视频的标题分别按每个词片进行哈希运算,将输出值与该词片相同的标题所对应的视频作为该词片下的视频,从而得到每个词片下的视频集合。以两个分别以“射雕英雄传-8”、“射雕英雄传-9”为标题的视频为例,对其共同标题关键词“射雕英雄传”以2个字符为词片长度进行切片后,得到如上所述四个词片;再对这两个视频的标题分别按每个词片进行哈希运算,将输出值与该词片相同的标题所对应的视频作为该词片下的视频,就可以得到每个词片下的视频集合为:

词片“射雕”下的视频集合为:视频“射雕英雄传-8”、视频“射雕英雄传-9”;

词片“雕英”下的视频集合为:视频“射雕英雄传-8”、视频“射雕英雄传-9”;

词片“英雄”下的视频集合为:视频“射雕英雄传-8”、视频“射雕英雄传-9”;

词片“雄传”下的视频集合为:视频“射雕英雄传-8”、视频“射雕英雄传-9”。

S13步骤为:将所述视频集合中符合预置规则的等长视频进行排序,确定代表视频向用户进行推荐。

其中,S131选取第一个词片下的视频集合。步骤S131至S133为循环操作的步骤,而步骤S134为循环是否结束的判断步骤,如果步骤S134判断结果为“是”,则执行步骤S135,进而进入步骤S131至S133的下一次循环操作,只有当步骤S134的判断结果为“否”时,才执行步骤S136的结束步骤。

由于步骤S11并未对词片进行排序,因而步骤S12实际的执行情况为任选一个词片作为第一个词片,将其下的视频集合为第一个词片下的视频集合。针对第一个词片下的视频集合,依次执行步骤S131至S133。步骤S134的判断结果为“是”,意味着标题关键词切片后得到的词片中,除去步骤S12所选的词片作为第一个词片之外,还有其他词片尚未被选取,因而执行步骤S135,进而返回执行步骤S131至S133,重新执行一次循环操作。可见,步骤S12至S136中设置循环操作的目的,是将步骤S11切片得到的所有词片下的视频集合都进行分类归集。

S131:记录每个视频的标题中的每个数字;统计各数字在所有视频的标题中出现的次数;将每个视频的标题中出现次数最少的数字作为该视频的主序号;将每个视频的标题按该视频的主序号进行哈希运算,将输出值与该主序号相同的标题所对应的视频作为该主序号下的视频,从而得到每个主序号下的视频集合。

本步骤首先要做的是确定视频的主序号,即确定在向用户推荐该视频时的序号,较通俗地讲,该主序号指的是一个视频在其播放序列中位列第几集。例如,在“83版射雕英雄传-8”、“83版射雕英雄传-9”、“83版射雕英雄传第10集”、“94版射雕英雄传第25集”、“94射雕英雄传26”、“94射雕英雄传10”等六个标题中,经本步骤所做的数字记录和出现次数统计工作,可依次将各标题中的“8”、“9”、“10”、“25”、“26”和“10”作为相应视频的主序号。

本步骤所做哈希运算,是在同一词片下的视频集合中进行的,其目的是得到该词片下的视频集合中的每个主序号下的视频集合。以“83版射雕英雄传-8”、“83版射雕英雄传-9”、“83版射雕英雄传第10集”、“94版射雕英雄传第25集”、“94射雕英雄传26”、“94射雕英雄传10”为标题的六个视频为例,其均为同一词片(如词片“射雕”)下的视频集合,经确定各自主序号分别为“8”、“9”、“10”、“25”、“26”、“10”之后,进一步进行本步骤的哈希运算,得到各主序号下的视频集合分别为:

主序号“8”下的视频集合为:标题为“83版射雕英雄传-8”的视频;

主序号“9”下的视频集合为:标题为“83版射雕英雄传-9”的视频;

主序号“10”下的视频集合为:标题为“83版射雕英雄传第10集”的视频、标题为“94射雕英雄传10”的视频;

主序号“25”下的视频集合为:标题为“94版射雕英雄传第25集”的视频;

主序号“26”下的视频集合为:标题为“94射雕英雄传26”的视频。

很明显,该例中出现了将不同版本(83版和94版)的同一集(第10集)视频列入同一主序号(“10”)下的视频集合的情况,这一问题如不解决,将可能出现推荐错误的情况。该问题是在后续步骤中解决的。除此之外,还可能出现视频内容相同而视频的标题不同的情形,如果二者主序号相同,则本步骤也会将其列入同一主序号下的视频集合,即同一主序号下的视频集合中还可能含有多部具有相同的视频内容的视频。

S132:将每个主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合;从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合,以视频长度的均值与该代表等长视频集合的视频长度的均值相差不超过均值时差为选择依据,按照主序号从小到大的顺序,依次从各主序号下的视频集合中选取一个等长视频集合,作为该主序号的代表等长视频集合,从而得到代表等长视频集合序列。

本步骤对视频的分类归集操作是以视频长度为依据,在主序号下的视频集合中进行的。

本步骤将每个主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合,是对同一主序号下的视频集合中的视频进行进一步的分类归集,依据是视频长度。对于具有相同的视频内容的两个以上的视频而言,不论其标题是否完全相同,其视频长度是相同或者极其相近的,因而本步骤以视频长度为依据对每个主序号下的视频集合中的视频进行分类归集,可将视频内容相同的视频归集到同一等长视频集合中。由于视频内容相同的视频的视频长度的差异为0秒或者极其微小,因而该步骤中的标准时差可以设置为很小的时长,如可以设定标准时差为0.01秒,当然,标准时差也可以设定为其他时长,都在本发明的保护范围之内。

利用本步骤的分类归集操作,可在最大限度上将视频内容不同(如版本不同造成的视频内容不同)的视频归集到不同的等长视频集合中,从而克服现有技术不能避免的两类问题,实现本发明的发明目的。

利用本步骤的分类归集操作,可在每个主序号下的视频集合中得到一个以上的等长视频集合,其相互间的差异的实质为视频内容不同(如版本不同造成的视频内容不同),差异的表现则有视频长度不同等。这样,本步骤从最小的主序号开始,按主序号升序依次选取每个主序号的代表等长视频集合,就可以组成代表等长视频集合序列,而选择依据为视频长度的均值与最小的主序号的代表等长视频集合的视频长度的均值相差不超过均值时差。

本步骤组成的代表等长视频集合序列,是依主序号升序的方式排列起来的多个等长视频集合,其突出特征在于各等长视频集合的视频长度的均值相差不大,与最小的主序号的代表等长视频集合的视频长度的均值相差均不超过均值时差。通过这种选择方式,可将片头片尾的有无等因素对于视频长度造成的影响降到最低。其原因在于,对片头片尾进行了相同处理的各主序号的代表等长视频集合,其视频长度差异不大。以共59集的1983版电视连续剧“射雕英雄传”为例,每集视频长度约42分钟,片头和片尾总长约3.75分钟(约占视频长度的8.9%),正片长度即为余下的38.25分钟(约占视频长度的91.1%)。从最小的主序号(为1,即第1集)下的视频集合中,选取一视频长度的均值为42分钟的视频集合作为该主序号的代表等长视频集合,以视频长度的均值与42分钟相差不超过均值时差(如1.5分钟)为选择依据,按照主序号从小到大(即从1升序到59)的顺序,依次从各主序号下的视频集合中选取一等长视频集合,作为该主序号的代表等长视频集合,可以得到一个代表等长视频集合序列,在该代表等长视频集合序列中的每个代表等长视频集合,其视频长度的均值都在40.5分钟至43.5分钟之间,即均为包含片头和片尾的视频集合。而从最小的主序号(为1,即第1集)下的视频集合中,选取一视频长度的均值为38.25分钟的视频集合作为该主序号的代表等长视频集合,并以视频长度的均值与38.25分钟相差不超过均值时差(如1分钟)为选择依据,按照主序号从小到大(即从1升序到59)的顺序,依次从各主序号下的视频集合中选取一等长视频集合,作为该主序号的代表等长视频集合,可以得到另一个代表等长视频集合序列,在该代表等长视频集合序列中的每个代表等长视频集合,其视频长度的均值都在37.25分钟至39.25分钟之间,即均为删除了片头和片尾的视频集合。

本发明中,可将均值时差设定为从最小的主序号下的视频集合中选取的代表等长视频集合的视频长度的均值的40%。当然,均值误差的设定依照需要来定,将其设定为其他值的情形也在本发明的保护范围之内。

由此可见,从步骤S11至步骤S132,本发明将视频库中的视频按照词片、主序号和视频长度这三个层次进行了分类归集。按词片的分类归集操作是第一层次,在其基础上进行第二层次按主序号的分类归集,接下来在第二层次的基础上执行第三层次按视频长度的分类归集。

第一层次的分类归集是粗线条的,其依据是对标题关键词进行切分所得到的词片,也就是说,只要视频的标题关键词含有某个词片,即将该视频纳入该词片下的视频集合中,这可以保证视频库中的每个视频都能被分类归集到某个词片下的视频集合中,进而通过第二、三层次的分类归集,将其细分到某一个或多个等长视频集合中,从而在正确的时机被推荐给用户。可见,第一层次的分类归集是从总体上保证每个视频都能参与到分类归集中的,也就是保证本发明的完整性的。

第二层次的分类归集以主序号为依据,将第一层次的分类归集所得到的同一词片下的视频集合中,具有相同主序号的视频进一步分类归集到该主序号下的视频集合中,从而实现了视频的相对细化的分类和归集。经过第一、二层次的分类归集,得到的每个主序号下的视频集合中的视频,具有至少一个相同的词片以及相同的主序号。

第三层次的分类归集以视频长度为依据,将第一、二层次的分类归集所得到的各主序号下的视频集合中,视频长度相差不超过标准时差的视频归集到一个等长视频集合中,从而实现了视频的细化分类和归集。该分类归集工作可将视频内容不同而标题相同的视频分类归集到不同的等长视频集合中(因这两类视频的视频长度不同),也可将视频内容相同而标题不同的视频分类归集到同一等长视频集合中(因其视频长度相同),从而克服现有技术存在的两种表现的问题。

这里,具体说明一下将视频内容相同而标题不同的视频分类归集到同一等长视频集合中的问题。视频内容相同的视频,其视频的标题虽然可以不同,但视频关键词中必然包含至少一个相同的词片,否则,必然至少有一个视频的标题无法正确表征该视频的视频内容,也就无法作为该视频的标题。以“射雕英雄传”为例,如果将其中某一集视频的标题修改为不含“射雕”、“雕英”、“英雄”、“雄传”中的任一个词片,例如修改为“宋金蒙恩仇记”,则无论用户还是本发明都无法将其与“射雕英雄传”扯上关系,这也就失去了视频的标题的意义。因此,视频内容相同的视频,其标题中至少包含一个词片是相同的,利用该词片即可实现对该视频的正确分类归集,从而实现本发明的目的。

另外,步骤S132以视频长度的均值与最小的主序号的代表等长视频集合的视频长度的均值相差不超过均值时差为选择依据,从各主序号下的视频集合中选出代表等长视频集合,组成代表等长视频集合序列,可进一步在第三层次的分类归集工作克服了版本不同所造成的影响的基础上,清除了片头片尾等更小的因素对于分类归集的影响,提高了本发明推荐视频的精确程度。

S133:在每个代表等长视频集合序列中,按主序号从小到大的顺序,依次从每个代表等长视频集合中任选一个视频作为相应主序号的代表视频,向用户推荐。

本步骤实现的是向用户推荐可获得的视频,即将每个代表等长视频集合序列中,从每个代表等长视频集合中任选一个视频作为向用户推荐的代表视频。

S134:判断是否存在尚未选取的词片下的视频集合。

该步骤的判断结果为“是”,意味着尚未对所有词片下的视频集合都执行步骤S131至S133,因而下一步即执行S135:选取下一个词片下的视频集合,进而执行步骤S131至S133,接着再次执行步骤S134,进行再次的判断,只有当步骤S134的判断结果为“否”时,才执行步骤S136:结束。

由此可见,本发明中,以预定字符间隔为间隔对标题关键词进行切片,得到一个以上的词片,进而通过对视频的标题按词片进行哈希运算,得到各个词片下的视频集合,这样,每个视频按照其标题关键词所含的词片,可以被归类到一个以上的词片下的视频集合中,从而扩大了每个视频通过后续操作被找到并推荐的可能性。针对各词片下的视频集合,通过统计其标题中出现的数字的次数,可以确定出现次数最少的数字为表征视频内容所处集数的主序号,进而将每个视频的标题按该视频的主序号进行哈希运算,可以得到每个所述主序号下的视频集合,即将该词片下的视频集合中主序号相同的视频归集为主序号下的视频集合;再利用视频长度作为分类标准,将每个主序号下的视频集合中视频长度不超过标准时差的视频作为一个等长视频集合,可以将同一版本、同一主序号的视频(即完全相同的视频)归集为等长视频集合中,这样在推荐视频进行播放时,从等长视频集合中任选一个视频进行推荐即可。从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合,以视频长度的均值与该代表等长视频集合的视频长度的均值相差不超过均值时差为选择依据,按照主序号从小到大的顺序,依次从各主序号下的视频集合中选取一个等长视频集合,作为该主序号的代表等长视频集合,从而得到代表等长视频集合序列;在每个代表等长视频集合序列中,按主序号从小到大的顺序,依次从每个代表等长视频集合中任选一个视频作为相应主序号的代表视频,向用户推荐,即可实现下一集视频的自动寻找和推荐。由此可见,本发明通过从标题关键词中切分词片,得到若干个词片下的视频集合;对词片下的视频集合按主序号进行哈希运算,又得到若干个主序号下的视频集合;再按照相同版本的同一集视频应有相同的视频长度为准则,将同一主序号下的视频集合切分为若干个等长视频集合。对于视频标题相同而内容不同的视频,可利用视频长度的不同加以区分;对于视频内容相同而标题不同的视频,可依次利用词片、主序号及视频长度作为选择依据,而归集到同一个词片下、同一个主序号下、同一视频长度的同一等长视频集合中。这样就解决了现有技术推荐的视频不准确的两种表现,从而准确地找到和推荐正确的视频。

本发明步骤S132中,在将每个主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合之后,在从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合之前,还可以包括:将每个等长视频集合中所有视频的标题关键词统一化。通过实现标题关键词的统一化,可以实现等长视频集合内标题关键词的整齐划一,便于外界阅读。

而将每个等长视频集合中所有视频的标题关键词统一化的方法可以为:将每个等长视频集合中所有视频的标题关键词统一为该等长视频集合中所有视频的标题关键词中最短的任一个。该方法实现了标题关键词的最短化,从而起到了降低标题关键词的噪声的目的(将出现在视频的标题中但未出现在标题关键词中的字符都当作噪声)。

在某些情况下,如各等长视频集合中的视频属于同一版本,差别仅在于视频长度的较小差异,或者等长视频集合中视频的标题关键词的较小差异,则可以对等长视频集合进行合并,从而减少等长视频集合的数量,进而达到减少步骤S132和S133的执行次数、提高效率的目的。

为实现上述目的,本发明步骤S132中,在将每个主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合之后,在从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合之前,还可以包括:将每个主序号下的视频集合中符合合并条件的两个以上的等长视频集合合并。

这里的合并条件为实现等长视频集合合并的决定因素。本发明中,合并条件可以包括以下两个条件中的至少一个,即以下两个条件只有一个成立时,或者以下两个条件同时成立时,都执行“将每个主序号下的视频集合中符合合并条件的两个以上的等长视频集合合并”的合并操作。这两个条件分别为:

条件一:各等长视频集合的视频长度的均值与其中最小的均值之差都不超过最小的均值的临界比例;

条件二:将每个等长视频集合中所有视频的标题关键词的公共部分,作为该等长视频集合的代表标题关键词;任一等长视频集合的代表标题关键词,去掉其与其他任一等长视频集合的代表标题关键词的公共字串,剩余字串的长度不大于合并临界字符数。

条件一即为各等长视频集合中视频的视频长度存在较小差异的情形。具体可以理解为,各等长视频集合的视频长度的均值虽然不完全相同,但与各均值中最小值的差都不大,不会超过该最小值的临界比例。这里的临界比例为设定值,例如可以设定为5%,当然,也可以设定为其他比例值。

条件二即为等长视频集合中视频的标题关键词存在较小差异的情形,如同一视频的主副本之间仅在标题关键词存在较小差异的情形。具体可以理解为,每个等长视频集合的代表标题关键词,去掉其与其他任一等长视频集合的代表标题关键词的公共字串之后,剩余字串的长度很小,不会大于合并临界字符数。这里的合并临界字符数为设定值,如可以设定为2个字符,或为其他数量。

上述临界比例和合并临界字符数的设定工作是相互独立的。举例来说,临界比例为5%时,合并临界字符数可以为2个字符,也可以为其他数量;同样,在合并临界字符数为2个字符时,临界比例可以为5%,也可以为其他比例值。

同样,也可以将所含的视频的标题及标题关键词差异较大的等长视频集合分裂为两个以上的等长视频集合。为实现这一目的,本发明步骤S132中,在将每个主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合之后,在从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合之前,还可以包括:将每个主序号下的视频集合中符合分裂条件的等长视频集合分裂。这里的分裂条件是实现等长视频集合分裂的决定因素。

本发明中的分裂条件包括:将每个等长视频集合中所有视频的标题关键词的公共部分,作为该等长视频集合的代表标题关键词;等长视频集合中至少有一个视频的标题与标题关键词,去掉该等长视频集合的代表标题关键词,剩余字串的长度都大于分裂临界字符数。

该分裂条件意味着以下两个前提条件同时成立,第一个前提条件为等长视频集合中至少有一个视频的标题,在去掉该等长视频集合的代表标题关键词之后,剩余字串的长度要大于分裂临界字符数;第二个前提条件为等长视频集合中至少有一个视频的标题关键词,在去掉该等长视频集合的代表标题关键词之后,剩余字串的长度要大于分裂临界字符数。这里,分裂临界字符数是预设的,例如可以设定为2个字符,当然,也可以设为其他数量。

在满足分裂条件的情况下,等长视频集合分裂的分裂方法包括:将等长视频集合中,标题与标题关键词去掉该等长视频集合的代表标题关键词之后,剩余字串的长度都大于分裂临界字符数的视频的视频长度增加,并将其分组到一个新设立的等长视频集合中。

该分裂方法意味着,将等长视频集合中满足分裂条件的视频的视频长度进行人为增加,从而使其与该等长视频集合中不满足分裂条件的其他视频的视频长度的差别超过本发明中的标准时差,这样该视频就不符合步骤S132所要求的分类归集为同一等长视频集合的要求,本发明将其分组到一个新设立的等长视频集合中,实现分裂的目的。

由此可见,本发明具有以下优点:

(1)本发明中,以预定字符间隔为间隔对标题关键词进行切片,得到一个以上的词片,进而通过对视频的标题按词片进行哈希运算,得到各个词片下的视频集合,这样,每个视频按照其标题关键词所含的词片,可以被归类到一个以上的词片下的视频集合中,从而扩大了每个视频通过后续操作被找到并推荐的可能性。针对各词片下的视频集合,通过统计其标题中出现的数字的次数,可以确定出现次数最少的数字为表征视频内容所处集数的主序号,进而将每个视频的标题按该视频的主序号进行哈希运算,可以得到每个所述主序号下的视频集合,即将该词片下的视频集合中主序号相同的视频归集为主序号下的视频集合;再利用视频长度作为分类标准,将每个主序号下的视频集合中视频长度不超过标准时差的视频作为一个等长视频集合,可以将同一版本、同一主序号的视频(即完全相同的视频)归集为等长视频集合中,这样在推荐视频进行播放时,从等长视频集合中任选一个视频进行推荐即可。从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合,以视频长度的均值与该代表等长视频集合的视频长度的均值相差不超过均值时差为选择依据,按照主序号从小到大的顺序,依次从各主序号下的视频集合中选取一个等长视频集合,作为该主序号的代表等长视频集合,从而得到代表等长视频集合序列;在每个代表等长视频集合序列中,按主序号从小到大的顺序,依次从每个代表等长视频集合中任选一个视频作为相应主序号的代表视频,向用户推荐,即可实现下一集视频的自动寻找和推荐。由此可见,本发明通过从标题关键词中切分词片,得到若干个词片下的视频集合;对词片下的视频集合按主序号进行哈希运算,又得到若干个主序号下的视频集合;再按照相同版本的同一集视频应有相同的视频长度为准则,将同一主序号下的视频集合切分为若干个等长视频集合。对于视频标题相同而内容不同的视频,可利用视频长度的不同加以区分;对于视频内容相同而标题不同的视频,可依次利用词片、主序号及视频长度作为选择依据,而归集到同一个词片下、同一个主序号下、同一视频长度的同一等长视频集合中。这样就解决了现有技术推荐的视频不准确的两种表现,从而准确地找到和推荐正确的视频。

(2)本发明以视频长度的均值与最小的主序号的代表等长视频集合的视频长度的均值相差不超过均值时差为选择依据,从各主序号下的视频集合中选出代表等长视频集合,组成代表等长视频集合序列,可进一步在第三层次的分类归集工作克服了版本不同所造成的影响的基础上,清除了片头片尾等更小的因素对于分类归集的影响,提高了本发明推荐视频的精确程度。

(3)本发明将每个等长视频集合中所有视频的标题关键词统一为该等长视频集合中所有视频的标题关键词中最短的任一个,实现了标题关键词的最短化,从而起到了降低标题关键词的噪声的目的。

基于以上提供的一种按顺序推荐视频的方法,本发明还提出一种按顺序推荐视频的装置,具体如下:

参见图2,图2为本发明提出的按顺序推荐视频的装置的原理框图。

一种按顺序推荐视频的装置,该装置包括:关键词筛选单元10、视频集合生成单元20和代表视频推荐单元30。

所述关键词筛选单元10,用于获取所有视频的标题,根据所述字符筛选出标题关键词。具体为,将视频库中所有视频的标题中的多余字符去掉,将剩余字串作为该视频的标题关键词。

所述视频集合生成单元20,用于以标题关键词划分视频类型,生成视频集合。具体为:以预定字符间隔为间隔对标题关键词进行切片,得到一个以上的词片,每个词片的长度为设定的词片长度;将视频库中每个视频的标题分别按每个词片进行哈希运算,将输出值与该词片相同的标题所对应的视频作为该词片下的视频,从而得到每个词片下的视频集合。

本步骤中,视频库指的是所有视频组成的库,其组成元素为视频,每个视频具有由一个以上的字符组成的标题、视频长度、视频内容、存储地址等信息。本发明的目的正是要通过分析标题、视频长度等信息,将具有相同的视频内容的视频的存储地址归集到一起,从而实施自动的寻找和推荐。

每个视频的标题必须包含字符,如字母、数字、汉字、韩语字符、日语字符等,这是表征视频内容的部分。此外,视频的标题还可能含有标点符号、序号字符等其他符号。

常见的标点符号(两个'符号之间为一个标点符号)有:'[',']','{','}','(',')','(',')','【','】','{','}','《','》',',','。',':',':','、','<','>','’′,

';',':','·',′′,'?','<','>','『','』','@',';','◆','=','×','/','〔','〕','√','@','□','Π','§','№','☆','','○','●','◎','◇','◆','□′,

'■','△','▲','※','→','←','↑','↓','','#','&','@','\','^','_','ˉ','ˇ','¨','‘','’','々','~','‖','∶','”','’','‘','|','〃′,

'〔','〕','《','》','「','」','『','』','.','〖','〗','【','【','】','(',')','〔','〕','“','!','!','.','-','_','+','_',′-′,'-','@','#','$','%','^','&','*','`','/',',','.',′′,'《','》','[',']'等等。

常见的序号字符(两个'符号之间为一个标点符号)有:'1','2','3','4','5','6',

'7','8','9','0','1','2','3','4','5','6','7','8','9','0','一','二',

'三','四','五','六','七','八','九','零','十','百','千','拾','佰','仟','壹',

'贰','叁','肆','伍','陆','柒','捌','玖','①','②','③','④','⑤','⑥','⑦',

'⑧','⑨','㈠','㈡','㈢','㈣','㈤','㈥','㈦','㈧','㈨','⒈','⒉','⒊','⒋',

'⒌','⒍','⒎','⒏','⒐','Ⅰ','Ⅱ','Ⅲ','Ⅳ','Ⅴ','Ⅵ','Ⅶ','Ⅷ','Ⅸ','上',

'中','下','a','b','c','d','e','f','g','A','B','C','D','E','F','G','A','B',

'C','D','E','F','G','a','b','c','d','e','f','g'等等。特殊的序号字符有:'上','中','下'等等。

一个字串如果只包含标点符号、序号字符而不含有其他种类的字符,该字串不允许作为视频的标题。视频的标题中除去多余字符之外的部分,本发明称之为该视频的标题关键词。本发明中,多余字符可以为标点符号,也可以为序号字符,还可以为标点符号和序号字符。当然,多余字符还可以包括其他种类的可被本发明中的标题关键词所忽略的字符。

本步骤对标题关键词进行切片,切片的间隔为预定字符间隔,该预定字符间隔的一个较佳实施例为一个字符。在对标题关键词进行切片后,就可以得到一个以上的词片。以标题关键词“射雕英雄传”为例,对其以一个字符为间隔进行切片,如设定词片长度为两个字符,则得到的词片有四个:“射雕”、“雕英”、“英雄”、“雄传”;如设定词片长度为三个字符,则得到的词片有三个:“射雕英”、“雕英雄”、“英雄传”。

可见,词片长度能够决定词片的数量,同时,由于词片是本发明对视频进行第一步分类归集的依据,如果较长,易因视频的标题中标点符号、序号字符等影响第一步分类归集的质量,因此,本发明中,较佳的词片长度可以为1个字符,或2个字符,或3个字符。当然,词片长度为3个以上的字符也为本发明所允许。

本步骤中,将视频库中每个视频的标题分别按每个词片进行哈希运算,将输出值与该词片相同的标题所对应的视频作为该词片下的视频,从而得到每个词片下的视频集合。以两个分别以“射雕英雄传-8”、“射雕英雄传-9”为标题的视频为例,对其共同标题关键词“射雕英雄传”以2个字符为词片长度进行切片后,得到如上所述四个词片;再对这两个视频的标题分别按每个词片进行哈希运算,将输出值与该词片相同的标题所对应的视频作为该词片下的视频,就可以得到每个词片下的视频集合为:

词片“射雕”下的视频集合为:视频“射雕英雄传-8”、视频“射雕英雄传-9”;

词片“雕英”下的视频集合为:视频“射雕英雄传-8”、视频“射雕英雄传-9”;

词片“英雄”下的视频集合为:视频“射雕英雄传-8”、视频“射雕英雄传-9”;

词片“雄传”下的视频集合为:视频“射雕英雄传-8”、视频“射雕英雄传-9”。

代表视频推荐单元30,用于将所述视频集合中符合预置规则的等长视频进行排序,确定代表视频向用户进行推荐。

其中,包括若干操作步骤。具体为:S131选取第一个词片下的视频集合。步骤S131至S133为循环操作的步骤,而步骤S134为循环是否结束的判断步骤,如果步骤S134判断结果为“是”,则执行步骤S135,进而进入步骤S131至S133的下一次循环操作,只有当步骤S134的判断结果为“否”时,才执行步骤S136的结束步骤。

由于步骤S11并未对词片进行排序,因而步骤S12实际的执行情况为任选一个词片作为第一个词片,将其下的视频集合为第一个词片下的视频集合。针对第一个词片下的视频集合,依次执行步骤S131至S133。步骤S134的判断结果为“是”,意味着标题关键词切片后得到的词片中,除去步骤S12所选的词片作为第一个词片之外,还有其他词片尚未被选取,因而执行步骤S135,进而返回执行步骤S131至S133,重新执行一次循环操作。可见,步骤S12至S136中设置循环操作的目的,是将步骤S11切片得到的所有词片下的视频集合都进行分类归集。

S131:记录每个视频的标题中的每个数字;统计各数字在所有视频的标题中出现的次数;将每个视频的标题中出现次数最少的数字作为该视频的主序号;将每个视频的标题按该视频的主序号进行哈希运算,将输出值与该主序号相同的标题所对应的视频作为该主序号下的视频,从而得到每个主序号下的视频集合。

本步骤首先要做的是确定视频的主序号,即确定在向用户推荐该视频时的序号,较通俗地讲,该主序号指的是一个视频在其播放序列中位列第几集。例如,在“83版射雕英雄传-8”、“83版射雕英雄传-9”、“83版射雕英雄传第10集”、“94版射雕英雄传第25集”、“94射雕英雄传26”、“94射雕英雄传10”等六个标题中,经本步骤所做的数字记录和出现次数统计工作,可依次将各标题中的“8”、“9”、“10”、“25”、“26”和“10”作为相应视频的主序号。

本步骤所做哈希运算,是在同一词片下的视频集合中进行的,其目的是得到该词片下的视频集合中的每个主序号下的视频集合。以“83版射雕英雄传-8”、“83版射雕英雄传-9”、“83版射雕英雄传第10集”、“94版射雕英雄传第25集”、“94射雕英雄传26”、“94射雕英雄传10”为标题的六个视频为例,其均为同一词片(如词片“射雕”)下的视频集合,经确定各自主序号分别为“8”、“9”、“10”、“25”、“26”、“10”之后,进一步进行本步骤的哈希运算,得到各主序号下的视频集合分别为:

主序号“8”下的视频集合为:标题为“83版射雕英雄传-8”的视频;

主序号“9”下的视频集合为:标题为“83版射雕英雄传-9”的视频;

主序号“10”下的视频集合为:标题为“83版射雕英雄传第10集”的视频、标题为“94射雕英雄传10”的视频;

主序号“25”下的视频集合为:标题为“94版射雕英雄传第25集”的视频;

主序号“26”下的视频集合为:标题为“94射雕英雄传26”的视频。

很明显,该例中出现了将不同版本(83版和94版)的同一集(第10集)视频列入同一主序号(“10”)下的视频集合的情况,这一问题如不解决,将可能出现推荐错误的情况。该问题是在后续步骤中解决的。除此之外,还可能出现视频内容相同而视频的标题不同的情形,如果二者主序号相同,则本步骤也会将其列入同一主序号下的视频集合,即同一主序号下的视频集合中还可能含有多部具有相同的视频内容的视频。

S132:将每个主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合;从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合,以视频长度的均值与该代表等长视频集合的视频长度的均值相差不超过均值时差为选择依据,按照主序号从小到大的顺序,依次从各主序号下的视频集合中选取一个等长视频集合,作为该主序号的代表等长视频集合,从而得到代表等长视频集合序列。

本步骤对视频的分类归集操作是以视频长度为依据,在主序号下的视频集合中进行的。

本步骤将每个主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合,是对同一主序号下的视频集合中的视频进行进一步的分类归集,依据是视频长度。对于具有相同的视频内容的两个以上的视频而言,不论其标题是否完全相同,其视频长度是相同或者极其相近的,因而本步骤以视频长度为依据对每个主序号下的视频集合中的视频进行分类归集,可将视频内容相同的视频归集到同一等长视频集合中。由于视频内容相同的视频的视频长度的差异为0秒或者极其微小,因而该步骤中的标准时差可以设置为很小的时长,如可以设定标准时差为0.01秒,当然,标准时差也可以设定为其他时长,都在本发明的保护范围之内。

利用本步骤的分类归集操作,可在最大限度上将视频内容不同(如版本不同造成的视频内容不同)的视频归集到不同的等长视频集合中,从而克服现有技术不能避免的两类问题,实现本发明的发明目的。

利用本步骤的分类归集操作,可在每个主序号下的视频集合中得到一个以上的等长视频集合,其相互间的差异的实质为视频内容不同(如版本不同造成的视频内容不同),差异的表现则有视频长度不同等。这样,本步骤从最小的主序号开始,按主序号升序依次选取每个主序号的代表等长视频集合,就可以组成代表等长视频集合序列,而选择依据为视频长度的均值与最小的主序号的代表等长视频集合的视频长度的均值相差不超过均值时差。

本步骤组成的代表等长视频集合序列,是依主序号升序的方式排列起来的多个等长视频集合,其突出特征在于各等长视频集合的视频长度的均值相差不大,与最小的主序号的代表等长视频集合的视频长度的均值相差均不超过均值时差。通过这种选择方式,可将片头片尾的有无等因素对于视频长度造成的影响降到最低。其原因在于,对片头片尾进行了相同处理的各主序号的代表等长视频集合,其视频长度差异不大。以共59集的1983版电视连续剧“射雕英雄传”为例,每集视频长度约42分钟,片头和片尾总长约3.75分钟(约占视频长度的8.9%),正片长度即为余下的38.25分钟(约占视频长度的91.1%)。从最小的主序号(为1,即第1集)下的视频集合中,选取一视频长度的均值为42分钟的视频集合作为该主序号的代表等长视频集合,以视频长度的均值与42分钟相差不超过均值时差(如1.5分钟)为选择依据,按照主序号从小到大(即从1升序到59)的顺序,依次从各主序号下的视频集合中选取一等长视频集合,作为该主序号的代表等长视频集合,可以得到一个代表等长视频集合序列,在该代表等长视频集合序列中的每个代表等长视频集合,其视频长度的均值都在40.5分钟至43.5分钟之间,即均为包含片头和片尾的视频集合。而从最小的主序号(为1,即第1集)下的视频集合中,选取一视频长度的均值为38.25分钟的视频集合作为该主序号的代表等长视频集合,并以视频长度的均值与38.25分钟相差不超过均值时差(如1分钟)为选择依据,按照主序号从小到大(即从1升序到59)的顺序,依次从各主序号下的视频集合中选取一等长视频集合,作为该主序号的代表等长视频集合,可以得到另一个代表等长视频集合序列,在该代表等长视频集合序列中的每个代表等长视频集合,其视频长度的均值都在37.25分钟至39.25分钟之间,即均为删除了片头和片尾的视频集合。

本发明中,可将均值时差设定为从最小的主序号下的视频集合中选取的代表等长视频集合的视频长度的均值的40%。当然,均值误差的设定依照需要来定,将其设定为其他值的情形也在本发明的保护范围之内。

由此可见,从步骤S11至步骤S132,本发明将视频库中的视频按照词片、主序号和视频长度这三个层次进行了分类归集。按词片的分类归集操作是第一层次,在其基础上进行第二层次按主序号的分类归集,接下来在第二层次的基础上执行第三层次按视频长度的分类归集。

第一层次的分类归集是粗线条的,其依据是对标题关键词进行切分所得到的词片,也就是说,只要视频的标题关键词含有某个词片,即将该视频纳入该词片下的视频集合中,这可以保证视频库中的每个视频都能被分类归集到某个词片下的视频集合中,进而通过第二、三层次的分类归集,将其细分到某一个或多个等长视频集合中,从而在正确的时机被推荐给用户。可见,第一层次的分类归集是从总体上保证每个视频都能参与到分类归集中的,也就是保证本发明的完整性的。

第二层次的分类归集以主序号为依据,将第一层次的分类归集所得到的同一词片下的视频集合中,具有相同主序号的视频进一步分类归集到该主序号下的视频集合中,从而实现了视频的相对细化的分类和归集。经过第一、二层次的分类归集,得到的每个主序号下的视频集合中的视频,具有至少一个相同的词片以及相同的主序号。

第三层次的分类归集以视频长度为依据,将第一、二层次的分类归集所得到的各主序号下的视频集合中,视频长度相差不超过标准时差的视频归集到一个等长视频集合中,从而实现了视频的细化分类和归集。该分类归集工作可将视频内容不同而标题相同的视频分类归集到不同的等长视频集合中(因这两类视频的视频长度不同),也可将视频内容相同而标题不同的视频分类归集到同一等长视频集合中(因其视频长度相同),从而克服现有技术存在的两种表现的问题。

这里,具体说明一下将视频内容相同而标题不同的视频分类归集到同一等长视频集合中的问题。视频内容相同的视频,其视频的标题虽然可以不同,但视频关键词中必然包含至少一个相同的词片,否则,必然至少有一个视频的标题无法正确表征该视频的视频内容,也就无法作为该视频的标题。以“射雕英雄传”为例,如果将其中某一集视频的标题修改为不含“射雕”、“雕英”、“英雄”、“雄传”中的任一个词片,例如修改为“宋金蒙恩仇记”,则无论用户还是本发明都无法将其与“射雕英雄传”扯上关系,这也就失去了视频的标题的意义。因此,视频内容相同的视频,其标题中至少包含一个词片是相同的,利用该词片即可实现对该视频的正确分类归集,从而实现本发明的目的。

另外,步骤S132以视频长度的均值与最小的主序号的代表等长视频集合的视频长度的均值相差不超过均值时差为选择依据,从各主序号下的视频集合中选出代表等长视频集合,组成代表等长视频集合序列,可进一步在第三层次的分类归集工作克服了版本不同所造成的影响的基础上,清除了片头片尾等更小的因素对于分类归集的影响,提高了本发明推荐视频的精确程度。

S133:在每个代表等长视频集合序列中,按主序号从小到大的顺序,依次从每个代表等长视频集合中任选一个视频作为相应主序号的代表视频,向用户推荐。

本步骤实现的是向用户推荐可获得的视频,即将每个代表等长视频集合序列中,从每个代表等长视频集合中任选一个视频作为向用户推荐的代表视频。

S134:判断是否存在尚未选取的词片下的视频集合。

该步骤的判断结果为“是”,意味着尚未对所有词片下的视频集合都执行步骤S131至S133,因而下一步即执行S135:选取下一个词片下的视频集合,进而执行步骤S131至S133,接着再次执行步骤S134,进行再次的判断,只有当步骤S134的判断结果为“否”时,才执行步骤S136:结束。

由此可见,本发明中,以预定字符间隔为间隔对标题关键词进行切片,得到一个以上的词片,进而通过对视频的标题按词片进行哈希运算,得到各个词片下的视频集合,这样,每个视频按照其标题关键词所含的词片,可以被归类到一个以上的词片下的视频集合中,从而扩大了每个视频通过后续操作被找到并推荐的可能性。针对各词片下的视频集合,通过统计其标题中出现的数字的次数,可以确定出现次数最少的数字为表征视频内容所处集数的主序号,进而将每个视频的标题按该视频的主序号进行哈希运算,可以得到每个所述主序号下的视频集合,即将该词片下的视频集合中主序号相同的视频归集为主序号下的视频集合;再利用视频长度作为分类标准,将每个主序号下的视频集合中视频长度不超过标准时差的视频作为一个等长视频集合,可以将同一版本、同一主序号的视频(即完全相同的视频)归集为等长视频集合中,这样在推荐视频进行播放时,从等长视频集合中任选一个视频进行推荐即可。从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合,以视频长度的均值与该代表等长视频集合的视频长度的均值相差不超过均值时差为选择依据,按照主序号从小到大的顺序,依次从各主序号下的视频集合中选取一个等长视频集合,作为该主序号的代表等长视频集合,从而得到代表等长视频集合序列;在每个代表等长视频集合序列中,按主序号从小到大的顺序,依次从每个代表等长视频集合中任选一个视频作为相应主序号的代表视频,向用户推荐,即可实现下一集视频的自动寻找和推荐。由此可见,本发明通过从标题关键词中切分词片,得到若干个词片下的视频集合;对词片下的视频集合按主序号进行哈希运算,又得到若干个主序号下的视频集合;再按照相同版本的同一集视频应有相同的视频长度为准则,将同一主序号下的视频集合切分为若干个等长视频集合。对于视频标题相同而内容不同的视频,可利用视频长度的不同加以区分;对于视频内容相同而标题不同的视频,可依次利用词片、主序号及视频长度作为选择依据,而归集到同一个词片下、同一个主序号下、同一视频长度的同一等长视频集合中。这样就解决了现有技术推荐的视频不准确的两种表现,从而准确地找到和推荐正确的视频。

本发明步骤S132中,在将每个主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合之后,在从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合之前,还可以包括:将每个等长视频集合中所有视频的标题关键词统一化。通过实现标题关键词的统一化,可以实现等长视频集合内标题关键词的整齐划一,便于外界阅读。

而将每个等长视频集合中所有视频的标题关键词统一化的方法可以为:将每个等长视频集合中所有视频的标题关键词统一为该等长视频集合中所有视频的标题关键词中最短的任一个。该方法实现了标题关键词的最短化,从而起到了降低标题关键词的噪声的目的(将出现在视频的标题中但未出现在标题关键词中的字符都当作噪声)。

在某些情况下,如各等长视频集合中的视频属于同一版本,差别仅在于视频长度的较小差异,或者等长视频集合中视频的标题关键词的较小差异,则可以对等长视频集合进行合并,从而减少等长视频集合的数量,进而达到减少步骤S132和S133的执行次数、提高效率的目的。

为实现上述目的,本发明步骤S132中,在将每个主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合之后,在从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合之前,还可以包括:将每个主序号下的视频集合中符合合并条件的两个以上的等长视频集合合并。

这里的合并条件为实现等长视频集合合并的决定因素。本发明中,合并条件可以包括以下两个条件中的至少一个,即以下两个条件只有一个成立时,或者以下两个条件同时成立时,都执行“将每个主序号下的视频集合中符合合并条件的两个以上的等长视频集合合并”的合并操作。这两个条件分别为:

条件一:各等长视频集合的视频长度的均值与其中最小的均值之差都不超过最小的均值的临界比例;

条件二:将每个等长视频集合中所有视频的标题关键词的公共部分,作为该等长视频集合的代表标题关键词;任一等长视频集合的代表标题关键词,去掉其与其他任一等长视频集合的代表标题关键词的公共字串,剩余字串的长度不大于合并临界字符数。

条件一即为各等长视频集合中视频的视频长度存在较小差异的情形。具体可以理解为,各等长视频集合的视频长度的均值虽然不完全相同,但与各均值中最小值的差都不大,不会超过该最小值的临界比例。这里的临界比例为设定值,例如可以设定为5%,当然,也可以设定为其他比例值。

条件二即为等长视频集合中视频的标题关键词存在较小差异的情形,如同一视频的主副本之间仅在标题关键词存在较小差异的情形。具体可以理解为,每个等长视频集合的代表标题关键词,去掉其与其他任一等长视频集合的代表标题关键词的公共字串之后,剩余字串的长度很小,不会大于合并临界字符数。这里的合并临界字符数为设定值,如可以设定为2个字符,或为其他数量。

上述临界比例和合并临界字符数的设定工作是相互独立的。举例来说,临界比例为5%时,合并临界字符数可以为2个字符,也可以为其他数量;同样,在合并临界字符数为2个字符时,临界比例可以为5%,也可以为其他比例值。

同样,也可以将所含的视频的标题及标题关键词差异较大的等长视频集合分裂为两个以上的等长视频集合。为实现这一目的,本发明步骤S132中,在将每个主序号下的视频集合中视频长度彼此相差不超过标准时差的视频作为一个等长视频集合之后,在从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合之前,还可以包括:将每个主序号下的视频集合中符合分裂条件的等长视频集合分裂。这里的分裂条件是实现等长视频集合分裂的决定因素。

本发明中的分裂条件包括:将每个等长视频集合中所有视频的标题关键词的公共部分,作为该等长视频集合的代表标题关键词;等长视频集合中至少有一个视频的标题与标题关键词,去掉该等长视频集合的代表标题关键词,剩余字串的长度都大于分裂临界字符数。

该分裂条件意味着以下两个前提条件同时成立,第一个前提条件为等长视频集合中至少有一个视频的标题,在去掉该等长视频集合的代表标题关键词之后,剩余字串的长度要大于分裂临界字符数;第二个前提条件为等长视频集合中至少有一个视频的标题关键词,在去掉该等长视频集合的代表标题关键词之后,剩余字串的长度要大于分裂临界字符数。这里,分裂临界字符数是预设的,例如可以设定为2个字符,当然,也可以设为其他数量。

在满足分裂条件的情况下,等长视频集合分裂的分裂方法包括:将等长视频集合中,标题与标题关键词去掉该等长视频集合的代表标题关键词之后,剩余字串的长度都大于分裂临界字符数的视频的视频长度增加,并将其分组到一个新设立的等长视频集合中。

该分裂方法意味着,将等长视频集合中满足分裂条件的视频的视频长度进行人为增加,从而使其与该等长视频集合中不满足分裂条件的其他视频的视频长度的差别超过本发明中的标准时差,这样该视频就不符合步骤S132所要求的分类归集为同一等长视频集合的要求,本发明将其分组到一个新设立的等长视频集合中,实现分裂的目的。

由此可见,本发明具有以下优点:

(1)本发明中,以预定字符间隔为间隔对标题关键词进行切片,得到一个以上的词片,进而通过对视频的标题按词片进行哈希运算,得到各个词片下的视频集合,这样,每个视频按照其标题关键词所含的词片,可以被归类到一个以上的词片下的视频集合中,从而扩大了每个视频通过后续操作被找到并推荐的可能性。针对各词片下的视频集合,通过统计其标题中出现的数字的次数,可以确定出现次数最少的数字为表征视频内容所处集数的主序号,进而将每个视频的标题按该视频的主序号进行哈希运算,可以得到每个所述主序号下的视频集合,即将该词片下的视频集合中主序号相同的视频归集为主序号下的视频集合;再利用视频长度作为分类标准,将每个主序号下的视频集合中视频长度不超过标准时差的视频作为一个等长视频集合,可以将同一版本、同一主序号的视频(即完全相同的视频)归集为等长视频集合中,这样在推荐视频进行播放时,从等长视频集合中任选一个视频进行推荐即可。从最小的主序号下的视频集合中依次选取每一个等长视频集合作为该主序号的代表等长视频集合,以视频长度的均值与该代表等长视频集合的视频长度的均值相差不超过均值时差为选择依据,按照主序号从小到大的顺序,依次从各主序号下的视频集合中选取一个等长视频集合,作为该主序号的代表等长视频集合,从而得到代表等长视频集合序列;在每个代表等长视频集合序列中,按主序号从小到大的顺序,依次从每个代表等长视频集合中任选一个视频作为相应主序号的代表视频,向用户推荐,即可实现下一集视频的自动寻找和推荐。由此可见,本发明通过从标题关键词中切分词片,得到若干个词片下的视频集合;对词片下的视频集合按主序号进行哈希运算,又得到若干个主序号下的视频集合;再按照相同版本的同一集视频应有相同的视频长度为准则,将同一主序号下的视频集合切分为若干个等长视频集合。对于视频标题相同而内容不同的视频,可利用视频长度的不同加以区分;对于视频内容相同而标题不同的视频,可依次利用词片、主序号及视频长度作为选择依据,而归集到同一个词片下、同一个主序号下、同一视频长度的同一等长视频集合中。这样就解决了现有技术推荐的视频不准确的两种表现,从而准确地找到和推荐正确的视频。

(2)本发明以视频长度的均值与最小的主序号的代表等长视频集合的视频长度的均值相差不超过均值时差为选择依据,从各主序号下的视频集合中选出代表等长视频集合,组成代表等长视频集合序列,可进一步在第三层次的分类归集工作克服了版本不同所造成的影响的基础上,清除了片头片尾等更小的因素对于分类归集的影响,提高了本发明推荐视频的精确程度。

(3)本发明将每个等长视频集合中所有视频的标题关键词统一为该等长视频集合中所有视频的标题关键词中最短的任一个,实现了标题关键词的最短化,从而起到了降低标题关键词的噪声的目的。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1