视频资源的倒排索引文件建立方法及其系统的制作方法

文档序号:6526256阅读:327来源:国知局
视频资源的倒排索引文件建立方法及其系统的制作方法
【专利摘要】本发明公开了一种视频资源的倒排索引文件建立方法及其系统,其中该方法包括:通过预设的分词方式对视频文件信息进行分词处理得到关键词;建立所述关键词与具有所述关键词的视频文件信息之间的索引关系,从而建立视频文件的倒排索引文件。通过本发明能够提高对于海量视频数据的检索效率。
【专利说明】视频资源的倒排索引文件建立方法及其系统
【技术领域】
[0001]本发明涉及信息检索技术,具体地说涉及一种视频资源的倒排索引文件建立方法及其系统。
【背景技术】
[0002]随着科技的发展,越来越多的用户通过互联网搜索并观看各种视频。由于互联网提供的视频信息十分丰富,并具有不断变化及更新的特点,随之产生了多种搜索引擎进行视频信息检索。
[0003]在关系数据库系统中,索引是检索数据最有效率的方式。但对于全网的视频搜索引擎,并不能满足其特殊要求:
[0004](1)搜索引擎面对的是全网的海量视频数据,例如乐视网等大型的视频网站搜索引擎索引都是亿级甚至几千亿的网页数量,面对如此海量的视频数据,使得数据库系统很难有效的管理。
[0005](2)搜索引擎使用的数据操作简单,一般而言,只需要增、删、改、查等几个功能,而且数据都有特定的格式,可以针对这些应用设计出简单高效的应用程序。而一般的数据库系统则支持大而全的功能,同时损失了速度和空间。
[0006](3)搜索引擎面临大量的用户检索需求,这要求尽可能的将大运算量的工作在索引建立时完成,使检索运算量尽量少。一般的数据库系统很难承受如此大量的用户请求,而且在检索响应时间和检索并发度上不能满足需求。
[0007]综上所述可知,现有技术中存在对于海量视频信息的数据索引方案不能够满足数量、时间、效率等方面的需求的技术问题,因此有必要提出改进的技术方案解决上述问题。

【发明内容】

[0008]本发明的主要目的在于提供一种视频资源的倒排索引文件建立方法及其系统,以解决现有技术存在的对于海量数据检索速度慢、效率低的问题,其中:
[0009]根据本发明的一方面,提供了一种视频资源的倒排索引文件建立方法,其包括:通过预设的分词方式对视频文件信息进行分词处理得到关键词;建立所述关键词与具有所述关键词的视频文件信息之间的索引关系,从而建立视频文件的倒排索引文件。
[0010]其中,所述方法还包括:提供词库,所述词库的数据来源包括:基础词库、视频版权词库、用户生成内容;所述通过预设的分词方式对视频文件信息进行分词处理的步骤包括:根据所述词库并通过预设的分词方式对视频文件信息进行分词处理。
[0011]其中,所述分词方式包括:二元分词法、最大匹配法、统计方法。
[0012]其中,所述建立所述关键词与具有所述关键词的视频文件信息之间的索引关系的步骤包括:记录并存储所述关键词的索引信息,所述索引信息包括:包含关键词的视频文件的标识信息、关键词出现的位置信息、关键词出现的频率信息;建立关键词与其索引信息之间的关联关系。[0013]其中,所述方法还包括:统计基于倒排索引文件得到的检索结果,将搜索频率超过设定阈值的关键词调整到倒排索引文件的文件起始部分。
[0014]根据本发明的另一方面,还提供了一种倒排索引文件建立系统,其包括:关键词获取模块,用于通过预设的分词方式对视频文件信息进行分词处理得到关键词;倒排索引建立模块,用于建立所述关键词与具有所述关键词的视频文件信息之间的索引关系,从而建立倒排索引文件。
[0015]其中,所述系统还包括:词库维护模块,用于建立并维护词库,所述词库的数据来源包括:基础词库、视频版权库、用户生成内容;所述关键词获取模块根据所述词库并通过预设的分词方式对视频文件信息进行分词处理。
[0016]其中,所述分词方式包括:二元分词法、最大匹配法、统计方法。
[0017]其中,所述倒排索引建立模块包括:记录模块,用于记录并存储所述关键词的索引信息,所述索引信息包括:包含关键词的视频文件的标识信息、关键词出现的位置信息、关键词出现的频率信息;关联关系建立模块,用于建立关键词与其索引信息之间的关联关系。
[0018]其中,所述系统还包括:检索结果统计模块,用于统计基于倒排索引文件得到的检索结果;处理模块,用于将搜索频率超过设定阈值的关键词调整到倒排索引文件的文件起始部分。
[0019]根据本发明的技术方案,通过对视频文件信息进行分词处理得到关键词,建立关键词与具有关键词的视频文件信息之间的索引关系,从而建立倒排索引文件,当用户使用关键词搜索视频文件时,能够快速并准确地提供相应的信息。
【专利附图】

【附图说明】
[0020]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0021]图1是根据本发明实施例的倒排索引文件建立方法的流程图;
[0022]图2是根据本发明一个实施例的倒排索引文件建立系统的结构框图;
[0023]图3是根据本发明另一实施例的倒排索引文件建立系统的结构框图。
【具体实施方式】
[0024]一般的索引即正排索引,是由记录来确定属性值;倒排索引是根据属性值来确定记录的位置,因此称为倒排索引。本发明用于拥有海量视频资源的视频网站的视频资源的存储与检索,通过对全网的文档(互联网上的视频文件)建立由字(词)到文档的倒排索引,当用户使用关键词来对文档(网页)进行查询时,系统将给用户返回含有该关键词的文档(网页)。
[0025]为使本发明的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本发明作进一步地详细说明。
[0026]根据本发明实施例,提供了一种视频资源的倒排索引文件建立方法。参考图1,是根据本发明实施例的视频资源的倒排索引文件建立方法的流程图,包括以下步骤(步骤S102-S104):
[0027]步骤S102,通过预设的分词方式对视频文件信息进行分词处理得到关键词。[0028]视频文件信息指视频文件包含的名称、主题词、内容简介等一些文字信息,通过分词处理得到视频文件信息的关键词。一般地,分词处理就是将连续的字序列按照一定的规范重新组合成词序列。分词的目的就是对各文档进行分析以提取那些有可能成为用户查询对象的字(词)。
[0029]根据视频文件信息所使用语言种类的不同,分词处理可大体分为中文分词处理和外文(下面以英文为代表说明)分词处理。英文以空格作为天然的分隔符,通过空格就可以区分单词,再剔除其中一些冗余的字词(例如:a、the等),就可以完成分词处理,下面举例说明。
[0030]例如,有两篇文件1和2,文件1的内容为:“Tom lives in Guangzhou, I live inGuangzhou to0.”,经过分词处理后的文件1的所有关键词为:[tom] [live] [guangzhou][i][live][guangzhou]。
[0031]文件2的内容为:“He once lived in Shangha1.”,经过分词处理后的文件2的所有关键词为:[he] [live] [shanghai]。
[0032]而中文的分词比英文的分词复杂,中文词语之间没有明显的分界符。本发明通过引进词库进行分词处理。在实际应用中,词库的数据来源包括但不限于以下渠道:基础词库、视频版权库、用户生成内容(User-generated content,简称为UGC)。其中,基础词库包括各种字典和词典,但是视频文件并不严格与词典的名称一致,因此还需用到视频版权词库。视频版权词库为根据具有版权的视频资源信息得到的词库,该词库能够符合视频文件信息分词处理的需求。而UGC是由用户生成的或提供的或原创的内容,补充了网络中使用的一些新词。通过上述多种词库相互配合及补充,经过分词处理后能够得到较理想的关键
ο
[0033]另外,由于中文语言的复杂性,为了解决分词过程中产生的歧义,还需要使用一些分词算法,例如二元分词法、最大匹配法、统计方法等方式对视频文件信息进行分词处理。所谓二元分词法,即将名称按照步长为2进行切分,这样,长度为η (η个字)的名称被切分为η-l个二兀词,其前一个词和后一个词有一个公共字。最大匹配法包括最大向前匹配法、最大向后匹配法等,此处不再赘述。
[0034]优选的,在采用如二元分词法、最大匹配法、统计方法等方式对视频文件信息进行分词处理后,在词库中对分词操作得到的词进行验证,已确定分词操作得到的词是否准确。
[0035]步骤S104,建立所述关键词与具有所述关键词的视频文件信息之间的索引关系,从而建立视频文件的倒排索引文件。
[0036]经过分词处理得到关键词后,将关键词连同对应的文件的标识信息(ID) —起存储在倒排索引文件中,在对所有文件进行分析之后,按得到的关键词的顺序对关键词进行排序、合并等处理,统计各关键词在个文件中出现的概率,并且索引文件中还有可能包含其他索引信息。例如:文件数,用于表明关键词在多少个文件中出现;总频率,用于表明关键词在所有文件中出现的次数;频率,用于表明关键词在一个文件中出现的次数。从而,建立关键词与其索引信息之间的关联关系。
[0037]承上述例子,关键词与其对应的索引信息如表1所示,也就是说,关键词与其对应的“出现频率”和“出现位置”信息得到最终的索引结构。
[0038]表1[0039]
【权利要求】
1.一种视频资源的倒排索引文件建立方法,其特征在于,包括:通过预设的分词方式对视频文件信息进行分词处理得到关键词;建立所述关键词与具有所述关键词的视频文件信息之间的索引关系,从而建立视频文件的倒排索引文件。
2.根据权利要求1所述的方法,其特征在于,还包括:提供词库,所述词库的数据来源包括:基础词库、视频版权词库、用户生成内容;所述通过预设的分词方式对视频文件信息进行分词处理的步骤包括:根据所述词库并通过预设的分词方式对视频文件信息进行分词处理。
3.根据权利要求1或2所述的方法,其特征在于,所述分词方式包括:二元分词法、最大匹配法、统计方法。
4.根据权利要求1所述的方法,其特征在于,所述建立所述关键词与具有所述关键词的视频文件信息之间的索引关系的步骤包括:记录并存储所述关键词的索引信息,所述索引信息包括:包含关键词的视频文件的标识信息、关键词出现的位置信息、关键词出现的频率信息;建立关键词与其索引信息之间的关联关系。
5.根据权利要求1所述的方法,其特征在于,还包括:统计基于倒排索引文件得到的检索结果,将搜索频率超过设定阈值的关键词调整到倒排索引文件的文件起始部分。
6.一种倒排索引文件建立系统,其特征在于,包括:关键词获取模块,用于通过预设的分词方式对视频文件信息进行分词处理得到关键词;倒排索引建立模块,用于建立所述关键词与具有所述关键词的视频文件信息之间的索引关系,从而建立倒排索引文件。
7.根据权利要求6所述的系统,其特征在于,还包括:词库维护模块,用于建立并维护词库,所述词库的数据来源包括:基础词库、视频版权库、用户生成内容;所述关键词获取模块根据所述词库并通过预设的分词方式对视频文件信息进行分词处理。
8.根据权利要求6或7所述的系统,其特征在于,所述分词方式包括:二元分词法、最大匹配法、统计方法。
9.根据权利要求6所述的系统,其特征在于,所述倒排索引建立模块包括:记录模块,用于记录并存储所述关键词的索引信息,所述索引信息包括:包含关键词的视频文件的标识信息、关键词出现的位置信息、关键词出现的频率信息;关联关系建立模块,用于建立关键词与其索引信息之间的关联关系。
10.根据权利要求6所述的系统,其特征在于,还包括:检索结果统计模块,用于统计基于倒排索引文件得到的检索结果;处理模块,用于将搜索频率超过设定阈值的关键词调整到倒排索引文件的文件起始部分。
【文档编号】G06F17/30GK103678694SQ201310739955
【公开日】2014年3月26日 申请日期:2013年12月26日 优先权日:2013年12月26日
【发明者】曹坤波, 郑磊 申请人:乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1