视频数据的分布式索引方法及分布式索引系统的制作方法

文档序号:6526268阅读:179来源:国知局
视频数据的分布式索引方法及分布式索引系统的制作方法
【专利摘要】本申请公开了一种视频数据的分布式索引方法,解决了现有技术中存在UGC视频数据量非常大、数据信息多,导致搜索引擎遇到性能瓶颈的问题。所述方法包括:设置一个控制节点和多个数据节点,其中,所述控制节点分别记录每个数据节点的性能信息;所述控制节点接收到用户端上传的视频数据;所述控制节点根据每个数据节点的性能信息选定一个数据节点,并控制该被选定的数据节点建立所述视频数据的倒排索引文件。本发明的技术方案,控制节点接收到用户端上传的视频数据后,根据每个数据节点的性能信息选定建立倒排索引文件的数据节点,多数据节点在控制节点的控制下实现了视频数据的分布式索引,从而提高了查询的准确率,和索引效率。
【专利说明】视频数据的分布式索弓I方法及分布式索弓I系统
【技术领域】
[0001]本发明涉及信息检索技术,尤其涉及一种视频数据的分布式索引方法及分布式索弓I系统。
【背景技术】
[0002]索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。
[0003]但在实际应用时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈。
[0004]目前,视频数据大致可以包括专辑(或称为长视频)和用户上传视频(UGC)。对于UGC视频来说,具有数据信息非常多的特点。因此,大量的UGC视频数据必然导致索引文件大量增多,由此导致增加索引时间,最终使得搜索引擎遇到性能瓶颈。
[0005]综上所述,现有技术中存在UGC视频数据量非常大、数据信息多,导致搜索引擎遇到性能瓶颈的问题,因此有必要提出改进的技术手段解决上述问题。

【发明内容】

[0006]本发明的主要目的在于提供一种视频数据的分布式索引方法及分布式索引系统,以解决现有技术存在的UGC视频数据量非常大、数据信息多,导致搜索引擎遇到性能瓶颈的问题。
[0007]为了解决上述问题,根据本发明的一方面提供了一种视频数据的分布式索引方法,其包括:设置一个控制节点和多个数据节点,其中,所述控制节点分别记录每个数据节点的性能信息;所述控制节点接收到用户端上传的视频数据;所述控制节点根据每个数据节点的性能信息选定一个数据节点,并控制该被选定的数据节点建立所述视频数据的倒排索引文件。
[0008]其中,所述控制节点定期采集每个数据节点的性能信息,所述性能信息包括以下至少之一:数据处理能力、数据存储量、负载信息。
[0009]其中,所述方法还包括:所述控制节点控制该被选定的数据节点存储所述倒排索引文件,并控制另一数据节点备份所述倒排索引文件。
[0010]其中,所述方法还包括:所述控制节点接收来自用户端的视频数据的查询信息;所述控制节点在所述多个数据节点中广播所述查询信息;所述控制节点接收存储有与该查询信息相对应的倒排索引文件的数据节点返回的查询结果;所述控制节点将所述查询结果返回至所述用户端。
[0011]其中,如果所述控制节点接收到多个数据节点返回的查询结果,则所述方法还包括:所述控制节点合并多个查询结果形成结果集返回至所述客户端。
[0012]根据本发明的另一方面,还提供了一种分布式索引系统,其包括:一个控制节点和多个数据节点,其中,所述控制节点包括:记录模块,用于分别记录每个数据节点的性能信息;第一接收模块,用于接收用户端上传的视频数据;第一控制模块,用于根据每个数据节点的性能信息选定一个数据节点,并控制该被选定的数据节点建立所述视频数据的倒排索引文件。
[0013]其中,所述控制节点还包括:采集模块,用于定期采集每个数据节点的性能信息,所述性能信息包括以下至少之一:数据处理能力、数据存储量、负载信息。
[0014]其中,所述控制节点还包括:第二控制模块,用于控制该被选定的数据节点存储所述倒排索引文件,并控制另一数据节点备份所述倒排索引文件。
[0015]其中,所述控制节点还包括:第二接收模块,用于接收来自用户端的查询视频数据的查询信息;交互模块,用于在所述多个数据节点中广播所述查询信息,并接收存储有与该查询信息相对应的倒排索引文件的数据节点返回查询结果;发送模块,用于将所述查询结果返回至所述用户端。
[0016]其中,所述控制节点还包括:合并模块,用于如果所述交互模块接收到多个数据节点返回的查询结果,则合并多个查询结果形成结果集;所述发送模块还用于将所述结果集返回至所述客户端。
[0017]根据本发明的技术方案,控制节点接收到用户端上传的视频数据后,根据每个数据节点的性能信息选定建立倒排索引文件的数据节点,多数据节点在控制节点的控制下实现了视频数据的分布式索引,从而提高了查询的准确率并提高了索引效率。
【专利附图】

【附图说明】
[0018]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0019]图1是根据本发明一个实施例的视频数据的分布式索引方法的流程图;
[0020]图2是根据本发明另一实施例的视频数据的分布式索引方法的流程图;
[0021]图3是根据本发明一个实施例的分布式索引系统的结构框图;
[0022]图4是根据本发明另一实施例的分布式索引系统的结构框图;
[0023]图5是根据本发明再一实施例的分布式索引系统的结构框图。
【具体实施方式】
[0024]为使本发明的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本发明作进一步地详细说明。
[0025]根据本发明的实施例,提供了 一种视频数据的分布式索引方法。
[0026]图1是根据本发明实施例的视频数据的分布式索引方法的流程图,如图1所示,该方法包括:
[0027]步骤S102,设置一个控制节点和多个数据节点,其中,控制节点分别记录每个数据节点的性能信息。
[0028]在服务器资源中设置控制节点和数据节点,控制节点和数据节点都具有搜索引擎的功能。其中,控制节点分别与每个数据节点连接,并记录有每个数据节点的各种信息,控制节点统一控制每个数据节点进行数据存储和数据搜索处理;每个数据节点在控制节点的控制下实现分布式索引功能。
[0029]在实际应用中,控制节点可以通过定期向每个数据节点发送心跳包的方式采集每个数据节点的性能信息,所述性能信息包括但不限于以下至少之一:数据处理能力、数据存
储量、负载信息。
[0030]步骤S104,控制节点接收到用户端上传的视频数据。
[0031]用户端上传的视频数据属于UGC (User Generated Content,用户生成内容)的内容。由于用户端上传的视频数据的数据量非常大,导致索引文件大量增加,对于该类型的视频数据采用分布式索引能够提高查询的准确率并加快用户响应速度。
[0032]步骤S106,控制节点根据每个数据节点的性能信息选定一个数据节点,并控制该被选定的数据节点建立所述视频数据的倒排索引文件。
[0033]当控制节点接收到用户端上传的视频数据后,控制节点根据记录的数据节点的性能指标选定其中的一个当前性能最佳的数据节点,并通知该被选定的数据节点,该被选定的数据节点直接与客户端建立关联,建立视频数据的倒排索引文件。
[0034]需要说明的是,控制节点可以根据数据节点的数据处理能力、数据存储量或负载信息的指标之一选定一个性能最佳的数据节点,也可以根据上述的指标的组合选定一个性能最佳的数据节点,本发明不进行限定。
[0035]然后,被选定的数据节点在本地存储建立的倒排索引文件,将倒排索引文件存储至该数据节点的索引库中。为了提高数据的安全性,在本发明的一个实施例中,对倒排索引文件执行备份处理,控制节点控制另外一个数据节点备份该倒排索引文件。这样,当本地存储的倒排索引文件损坏或丢失后,通过备份的倒排索引文件能够继续进行数据搜索。
[0036]通过上述实施例,实现了视频数据入库的操作。接下来,就可以进行视频数据查询的操作。
[0037]下面请参考图2,图2是根据本发明另一实施例的视频数据的分布式索引方法的流程图,包括以下步骤:
[0038]步骤S202,控制节点接收来自用户端的视频数据的查询信息。
[0039]步骤S204,控制节点在多个数据节点中广播所述查询信息。
[0040]控制节点是不知道哪个数据节点存储有与查询信息相对应的倒排索引文件的,因此控制节点通过广播的方式发布查询信息。每个数据节点接收到广播通知后,在本地查找与该查询信息相对应的倒排索引文件,查找到相对应的倒排索引文件的数据节点向控制节点返回查询结果。
[0041]步骤S206,控制节点接收存储有与该查询信息相对应的倒排索引文件的数据节点返回的查询结果。
[0042]步骤S208,控制节点将查询结果返回至用户端。
[0043]步骤S210-S212,在实际实施中,当控制节点在多个数据节点中广播所述查询信息时,由于视频数据的数据量非常大,控制节点往往会接收到多个数据节点返回的查询结果,在这种情况下控制节点合并该多个查询结果形成结果集,并返回至客户端。
[0044]根据本发明的实施例,还提供了一种分布式索引系统。
[0045]图3是根据本发明实施例的分布式索引系统的结构框图,如图3所示,所述系统包括:一个控制节点10和多个数据节点20 (为清楚图中仅示出一个数据节点),控制节点10分别和多个数据节点20相耦接。
[0046]其中,所述控制节点10至少包括:记录模块110、第一接收模块120和第一控制模块130,下面详细描述各模块的结构和连接关系。
[0047]记录模块110,用于分别记录每个数据节点的性能信息;
[0048]第一接收模块120,用于接收用户端上传的视频数据;
[0049]第一控制模块130分别与记录模块110和第一接收模块120相耦接,用于根据每个数据节点的性能信息选定一个数据节点,并控制该被选定的数据节点建立所述视频数据的倒排索引文件。
[0050]如图4所示,在图3的基础上,所述控制节点10还包括有:采集模块140,其与记录模块110相耦接,用于定期采集每个数据节点的性能信息,所述性能信息包括以下至少之一:数据处理信息、数据存储信息、负载信息。
[0051]从而,记录模块110记录下采集模块140采集到的数据节点的性能信息。
[0052]继续参考图3,所述控制节点10还包括:第二控制模块150,其与第一控制模块130相耦接,用于控制该被选定的数据节点存储所述倒排索引文件,并控制另一数据节点备份所述倒排索引文件。
[0053]参考图5,所述控制节点还包括有:第二接收模块160、交互模块170、发送模块180和合并模块190,(为了附图更简洁,前述模块没有在附图中示出)其中:
[0054]第二接收模块160,用于接收来自用户端的查询视频数据的查询信息;
[0055]交互模块170与第二接收模块160相耦接,用于在所述多个数据节点中广播所述查询信息,并接收存储有与该查询信息相对应的倒排索引文件的数据节点返回查询结果;
[0056]发送模块180与交互模块170相耦接,用于将交互模块170接收的所述查询结果返回至所述用户端。
[0057]合并模块190与交互模块170相耦接,用于如果所述交互模块170接收到多个数据节点返回的查询结果,则合并模块190合并多个查询结果形成结果集,基于此,所述发送模块180将所述结果集返回至所述客户端。
[0058]需要说明,在本发明的一个实施例中,上述的第一接收模块120和第二接收模块160、第一控制模块130和第二控制模块150可以合一设置。
[0059]本发明的方法的操作步骤与系统的结构特征对应,可以相互参照,不再一一赘述。
[0060]根据本发明的技术方案,控制节点接收到用户端上传的视频数据后,根据每个数据节点的性能信息选定建立倒排索引文件的数据节点,多数据节点在控制节点的控制下实现了视频数据的分布式索引,从而提高了查询的准确率,并提高了索引效率。
[0061]以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
【权利要求】
1.一种视频数据的分布式索引方法,其特征在于,包括: 设置一个控制节点和多个数据节点,其中,所述控制节点分别记录每个数据节点的性能信息; 所述控制节点接收到用户端上传的视频数据; 所述控制节点根据每个数据节点的性能信息选定一个数据节点,并控制该被选定的数据节点建立所述视频数据的倒排索引文件。
2.根据权利要求1所述的方法,其特征在于,所述控制节点定期采集每个数据节点的性能信息,所述性能信息包括以下至少之一: 数据处理能力、数据存储量、负载信息。
3.根据权利要求1所述的方法,其特征在于,还包括: 所述控制节点控制该被选定的数据节点存储所述倒排索引文件,并控制另一数据节点备份所述倒排索引文件。
4.根据权利要求3所述的方法,其特征在于,还包括: 所述控制节点接收来自用户端的视频数据的查询信息; 所述控制节点在所述多 个数据节点中广播所述查询信息; 所述控制节点接收存储有与该查询信息相对应的倒排索引文件的数据节点返回的查询结果; 所述控制节点将所述查询结果返回至所述用户端。
5.根据权利要求4所述的方法,其特征在于,如果所述控制节点接收到多个数据节点返回的查询结果,则所述方法还包括: 所述控制节点合并多个查询结果形成结果集返回至所述客户端。
6.一种分布式索引系统,其特征在于,包括:一个控制节点和多个数据节点,其中,所述控制节点包括: 记录模块,用于分别记录每个数据节点的性能信息; 第一接收模块,用于接收用户端上传的视频数据; 第一控制模块,用于根据每个数据节点的性能信息选定一个数据节点,并控制该被选定的数据节点建立所述视频数据的倒排索引文件。
7.根据权利要求6所述的系统,其特征在于,所述控制节点还包括: 采集模块,用于定期采集每个数据节点的性能信息,所述性能信息包括以下至少之一:数据处理能力、数据存储量、负载信息。
8.根据权利要求6所述的系统,其特征在于,所述控制节点还包括: 第二控制模块,用于控制该被选定的数据节点存储所述倒排索引文件,并控制另一数据节点备份所述倒排索引文件。
9.根据权利要求8所述的系统,其特征在于,所述控制节点还包括: 第二接收模块,用于接收来自用户端的查询视频数据的查询信息; 交互模块,用于在所述多个数据节点中广播所述查询信息,并接收存储有与该查询信息相对应的倒排索引文件的数据节点返回查询结果; 发送模块,用于将所述查询结果返回至所述用户端。
10.根据权利要求9所述的系统,其特征在于,所述控制节点还包括:合并模块,用于如果所述交互模块接收到多个数据节点返回的查询结果,则合并多个查询结果形成结果集; 所述发送模块还用 于将所述结果集返回至所述客户端。
【文档编号】G06F17/30GK103729434SQ201310740121
【公开日】2014年4月16日 申请日期:2013年12月26日 优先权日:2013年12月26日
【发明者】曹坤波, 郑磊 申请人:乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1