视频资源数据源的处理方法及其系统的制作方法

文档序号:6525902阅读:924来源:国知局
视频资源数据源的处理方法及其系统的制作方法
【专利摘要】本发明公开了一种视频资源数据源的处理方法及其系统,其中该方法包括:获取多种维度的视频资源数据的数据源;将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图。通过本发明在建立倒排索引时只需面对统一的数据模型的物化视图,在执行查询时可以快速地得到处理结果,从而大大节约了建立倒排索引的时间。
【专利说明】视频资源数据源的处理方法及其系统
【技术领域】
[0001]本发明涉及信息检索技术,尤其涉及一种视频资源数据源的处理方法及其系统。【背景技术】
[0002]随着科技的发展,越来越多的用户通过互联网搜索并观看各种视频。由于互联网提供的视频信息十分丰富,并具有不断变化及更新的特点,随之产生了多种搜索引擎进行视频信息检索。
[0003]在关系数据库系统中,索引是检索数据最有效率的方式。但对于全网的视频搜索引擎,并不能满足其特殊要求。由于搜索引擎面对的是全网的海量视频数据,例如乐视网等大型的视频网站搜索引擎索引都是亿级甚至几千亿的网页数量,面对如此海量的视频数据,使得数据库系统很难有效的管理。
[0004]倒排索引是搜索引擎极为重要的索引方式,通过倒排索引解决海量的视频资源的存储与检索。在实际中,搜索引擎通常要面对不同的视频资源的数据源,这些数据源类型多样、来源复杂,如果不对这些各种维度的数据源进行处理则导致建立的倒排索引查询效率低下,不能够满足搜索引擎的需求。
[0005]综上所述可知,现有技术中对视频资源的数据源的处理不符合倒排索引需求的技术方案,因此有必要提出改进的技术手段解决上述问题。

【发明内容】

[0006]本发明的主要目的在于提供一种视频资源数据源的处理方法及其系统,以解决现有技术存在的对视频资源的数据源的处理不符合倒排索引需求的问题。
[0007]为了解决上述问题,根据本发明的一方面,提供了一种视频资源数据源的处理方法,其包括:获取多种维度的视频资源数据的数据源;将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图。
[0008]其中,所述数据模型包括:基础数据,其进一步包括以下信息:视频标题、视频简介、演员、导演。
[0009]其中,所述数据模型还包括:扩展数据,其进一步包括以下信息:平台属性、码流信息。
[0010]其中,所述将所述数据源转换为按照预定数据结构建立的数据模型的步骤,包括:对于所述数据模型的基础数据,其采用定长结构,并将所述基础数据按照横表的方式进行存储;对于所述数据模型的扩展数据,其采用不定长结构,并将所述扩展数据按照列表的方式进行存储。
[0011]其中,所述获取多种维度的视频资源数据的数据源包括:按照视频资源数据的来源划分所述数据源包括:文件系统、数据库;按照视频资源应用的终端渠道划分所述数据源包括:电视终端、移动终端;按照视频资源的文件格式划分所述数据源包括:可扩展标记语言文件、文本文件。[0012]根据本发明的另一方面,还提供了一种视频资源数据源的处理系统,其包括:获取模块,用于获取多种维度的视频资源数据的数据源;处理模块,用于将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图。
[0013]其中,所述数据模型包括:基础数据,其进一步包括以下信息:视频标题、视频简介、演员、导演。
[0014]其中,所述数据模型还包括:扩展数据,其进一步包括以下信息:平台属性、码流信息。
[0015]其中,所述处理模块进一步包括:第一处理模块,用于对于所述数据模型的基础数据,其采用定长结构,并将所述基础数据按照横表的方式进行存储;第二处理模块,用于对于所述数据模型的扩展数据,其采用不定长结构,并将所述扩展数据按照列表的方式进行存储。
[0016]其中,所述获取多种维度的视频资源数据的数据源包括:按照视频资源数据的来源划分所述数据源包括:文件系统、数据库;按照视频资源应用的终端渠道划分所述数据源包括:电视终端、移动终端;按照视频资源的文件格式划分所述数据源包括:可扩展标记语言文件、文本文件。
[0017]根据本发明的技术方案,通过将多种维度的视频资源数据的数据源转换为预定数据结构的数据模型,并将所述数据模型存储为物化视图,在建立倒排索引时只需面对统一的数据模型的物化视图,在执行查询时可以快速地得到处理结果,从而大大节约了建立倒排索引的时间。
【专利附图】

【附图说明】
[0018]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0019]图1是根据本发明实施例的视频资源数据源的处理方法的流程图;
[0020]图2是根据本发明实施例的视频资源数据源的处理系统的结构框图。
【具体实施方式】
[0021]为使本发明的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本发明作进一步地详细说明。
[0022]根据本发明的实施例,提供了一种视频资源数据源的处理方法。
[0023]图1是根据本发明实施例的视频资源数据源的处理方法的流程图,如图1所示,该方法包括:
[0024]步骤S102,获取多种维度的视频资源数据的数据源。
[0025]上述的数据源是指原始数据,当初次得到或接收到视频资源数据的数据源时,由于未经过处理,搜索引擎面对的是带有业务逻辑的数据源,这种带有业务逻辑的数据源不能够直接建立倒排索引的数据结构。
[0026]在实际应用中,获取到的视频资源数据的数据源是多种维度的,可以有多种划分方式,例如:按照视频资源数据的来源划分所述数据源包括:文件系统或数据库(DB);按照视频资源应用的终端渠道划分所述数据源包括:电视终端或移动终端;按照视频资源的文件格式划分所述数据源包括:可扩展标记语言(XML)文件、或文本文件(TXT)。当然,数据源的维度不仅限于上述划分方式,本发明对于其他维度的划分方式不进行限定。
[0027]步骤S104,将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图。
[0028]物化视图实际上就是物理表,数据模型是基于数据库的,存储为物化视图即把数据模型以物理表的形式进行存储,便于后续过程中搜索引擎查询的时候调用。
[0029]不同维度的数据源具有各自的特点,为了屏蔽多数据源的复杂的业务逻辑,需要将多维度的数据源转换为统一结构的数据模型。预定数据结构的数据模型包括基础数据和扩展数据。
[0030]其中,基础数据是搜索最关心的基本的维度数据,是展现视频(影视剧)所必不可少的数据。例如包括:视频标题、视频简介、演员(主演)、导演等信息。一般情况下,视频数据都带有离线的应用逻辑属性,例如扩展数据包括平台属性;另外,还有些视频数据带有自定义的功能属性,例如扩展数据包括平台价格、码流信息等。需要说明,上述举例仅为示例性说明,并不用于限制本发明。
[0031]数据模型是基于数据库的,将基础数据和扩展数据按照预定的数据结构存储起来。具体地,基础数据是定长的,基础数据按照水平扩展,每一个数据逐项存储;而扩展数据是不定长的,扩展数据以列的方式存储。这种基础数据采用横表方式、扩展数据以列表方式的存储方式具有较高的灵活性。
[0032]然后,将预定数据结构的数据模型存储为物化视图,在之后建立倒排索引时只需面对统一的数据模型的物化视图,通过物化视图在执行查询时,就可以避免进行耗时的操作,从而快速地得到处理结果,从而在建立倒排索引时大大节约了时间,例如面对上亿的数据只需花费1-2分钟就完成快速地处理完成。
[0033]在实际应用中,可将预定数据结构的数据模型存储的物化视图作为基本视图,根据该基本视图可建立与数据结构相关的多视图,并根据多个视图建立倒排索引。从而在执行查询时,通过查询的扩展参数执行查询,从而快速地得到处理结果。
[0034]根据本发明的实施例,还提供了一种视频资源数据源的处理系统。
[0035]图2是根据本发明实施例的视频资源数据源的处理系统的结构框图,如图2所示,所述系统至少包括:获取模块10和处理模块20,下面详细描述各模块的结构和连接关系。
[0036]获取模块10,用于获取多种维度的视频资源数据的数据源。
[0037]上述的数据源是指原始数据,当初次得到或接收到视频资源数据的数据源时,由于未经过处理,搜索引擎面对的是带有业务逻辑的数据源,这种带有业务逻辑的数据源不能够直接建立倒排索引的数据结构。
[0038]在实际应用中,获取到的视频资源数据的数据源是多种维度的,可以有多种划分方式,例如:按照视频资源数据的来源划分所述数据源包括:文件系统或数据库(DB);按照视频资源应用的终端渠道划分所述数据源包括:电视终端或移动终端;按照视频资源的文件格式划分所述数据源包括:可扩展标记语言(XML)文件、或文本文件(TXT)。当然,数据源的维度不仅限于上述划分方式,本发明对于其他维度的划分方式不进行限定。
[0039]处理模块20与获取模块10相耦接,用于将所述数据源转换为按照预定数据结构的数据模型,并将所述数据模型存储为物化视图。[0040]不同维度的数据源具有各自的特点,为了屏蔽多数据源的复杂的业务逻辑,需要将多维度的数据源转换为统一结构的数据模型。预定数据结构的数据模型包括基础数据和扩展数据。
[0041]其中,基础数据是搜索最关心的基本的维度数据,是展现视频(影视剧)所必不可少的数据。例如包括:视频标题、视频简介、演员(主演)、导演等信息。一般情况下,视频数据都带有离线的应用逻辑属性,例如扩展数据包括平台属性;另外,还有些视频数据带有自定义的功能属性,例如扩展数据包括平台价格、码流信息等。需要说明,上述举例仅为示例性说明,并不用于限制本发明。
[0042]数据模型是基于数据库的,将基础数据和扩展数据按照预定的数据结构存储起来。具体地,基础数据是定长的,基础数据按照水平扩展,每一个数据逐项存储;而扩展数据是不定长的,扩展数据以列的方式存储。这种基础数据采用横表方式、扩展数据以列表方式的存储方式具有较高的灵活性。
[0043]在本发明的一个实施例中,所述处理模块20进一步包括:第一处理模块(未不出),用于对于所述数据模型的基础数据,其采用定长结构,并将所述基础数据按照横表的方式进行存储;第二处理模块(未示出),用于对于所述数据模型的扩展数据,其采用不定长结构,并将所述扩展数据按照列表的方式进行存储。
[0044]然后,将预定数据结构的数据模型存储为物化视图,在之后建立倒排索引时只需面对统一的数据模型的物化视图,通过物化视图在执行查询时,就可以避免进行耗时的操作,从而快速地得到处理结果,从而在建立倒排索引时大大节约了时间,例如面对上亿的数据只需花费1-2分钟就完成快速地处理完成。
[0045]在实际应用中,可将预定数据结构的数据模型存储的物化视图作为基本视图,根据该基本视图可建立与数据结构相关的多视图,并根据多个视图建立倒排索引。从而在执行查询时,通过查询的扩展参数执行查询,从而快速地得到处理结果。
[0046]本发明的方法的操作步骤与系统的结构特征对应,可以相互参照,不再一一赘述。
[0047]综上所述,根据本发明的技术方案,通过将多种维度的视频资源数据的数据源转换为预定数据结构的数据模型,并将所述数据模型存储为物化视图,在建立倒排索引时只需面对统一的数据模型的物化视图,在执行查询时可以快速地得到处理结果,从而大大节约了建立倒排索引的时间。
[0048]以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
【权利要求】
1.一种视频资源数据源的处理方法,其特征在于,包括: 获取多种维度的视频资源数据的数据源; 将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图。
2.根据权利要求1所述的方法,其特征在于,所述数据模型包括:基础数据,其进一步包括以下信息:视频标题、视频简介、演员、导演。
3.根据权利要求2所述的方法,其特征在于,所述数据模型还包括:扩展数据,其进一步包括以下信息:平台属性、码流信息。
4.根据权利要求3所述的方法,其特征在于,所述将所述数据源转换为按照预定数据结构建立的数据模型的步骤,包括: 对于所述数据模型的基础数据,其采用定长结构,并将所述基础数据按照横表的方式进行存储; 对于所述数据模型的扩展数据,其采用不定长结构,并将所述扩展数据按照列表的方式进行存储。
5.根据权利要求1所述的方法,其特征在于,所述获取多种维度的视频资源数据的数据源包括: 按照视频资源数据的来源划分所述数据源包括:文件系统、数据库; 按照视频资源应用的终端渠道划分所述数据源包括:电视终端、移动终端; 按照视频资源的文件格式划分所述数据源包括:可扩展标记语言文件、文本文件。
6.一种视频资源数据源的处理系统,其特征在于,包括: 获取模块,用于获取多种维度的视频资源数据的数据源; 处理模块,用于将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图。
7.根据权利要求6所述的系统,其特征在于,所述数据模型包括:基础数据,其进一步包括以下信息:视频标题、视频简介、演员、导演。
8.根据权利要求7所述的系统,其特征在于,所述数据模型还包括:扩展数据,其进一步包括以下信息:平台属性、码流信息。
9.根据权利要求8所述的系统,其特征在于,所述处理模块进一步包括: 第一处理模块,用于对于所述数据模型的基础数据,其采用定长结构,并将所述基础数据按照横表的方式进行存储; 第二处理模块,用于对于所述数据模型的扩展数据,其采用不定长结构,并将所述扩展数据按照列表的方式进行存储。
10.根据权利要求5所述的系统,其特征在于,所述获取多种维度的视频资源数据的数据源包括: 按照视频资源数据的来源划分所述数据源包括:文件系统、数据库; 按照视频资源应用的终端渠道划分所述数据源包括:电视终端、移动终端; 按照视频资源的文件格式划分所述数据源包括:可扩展标记语言文件、文本文件。
【文档编号】G06F17/30GK103714147SQ201310733513
【公开日】2014年4月9日 申请日期:2013年12月26日 优先权日:2013年12月26日
【发明者】曹坤波, 郑磊 申请人:乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1