一种在大数据环境下的数据搜索方法与流程

文档序号:12122049阅读:159来源:国知局

本发明涉及一种电数字数据处理领域,更具体而言,涉及一种在大数据环境下的数据搜索方法。



背景技术:

随着社会工业化、信息化水平的不断提高,如今数据已取代计算成为信息计算的中心,云计算、大数据(Big Data)正在成为一种趋势和潮流。包括存储容量、可用性、I/O性能、数据安全性、可扩展性等诸多方面。大数据是规模非常巨大和复杂的数据集。大数据有4V:Volume(大量),数据量持续快速增加;Velocity(高速),数据I/O速度更快;Variety(多样),数据类型和来源多样化;Value(价值),其存在各方面的可用价值。另外,大数据除了表示海量的信息,同时还是人们获得新认知、创造新价值的源泉,其开启了一次重大的时代转型,随着大数据时代的到来,我们需要以全新的眼光去审视和搜索数据的潜在价值。

大数据的影响渗透到了各行业,对未来的科技和经济发展带来深远影响。然而,正可谓利弊相生。大数据带来便利的同时,越来越多的人类活动每个月都会产生PB级的数据,同时越来越多的需求也需要每天处理几十PB、几百PB甚至EB级的数据,由于其数据量极其巨大,通过搜索引擎能够搜索到的信息的数量越来越庞大,导致出现搜索效率变低,极大地影响搜索效率,增加了大数据中心的工作负荷(workload)和能源消耗。

虽然现在已经有各种各样的数据搜索方法,但是大多针对的是单个数据库或者有限数量的数据源,较少涉及针对大数据搜索的需求。针对这种情况,本发明提出了一种在大数据环境下的数据搜索方法。这种新的搜索方法能够有效地对现有技术进行改进,克服其不足。



技术实现要素:

本发明的目的之一是提供一种在大数据环境下的数据搜索方法,能够利用记录进行快速搜索,减少搜索时间,减少相同的搜索请求不必要地占用大数据中心的资源,进而增加大数据中心的工作负荷和能源消耗,并降低大数据中心的数据调度效率和速度,避免威胁整个大数据中心的安全,提高准确度和全面性。

本发明为解决上述技术问题而采取的技术方案为:一种在大数据环境下的数据搜索方法,包括:步骤S1,客户端向大数据中心发送搜索请求;步骤S2,大数据中心对接收的搜索请求进行安全认证;步骤S3,如果通过认证则将该搜索请求进行类型判定,之后进一步输入到搜索记录装置中,执行步骤S5;步骤S4,如果不通过则向客户端发送包含拒绝信息的搜索响应;以及步骤S5,大数据中心对此次搜索进行日志记录,并实现对搜索记录装置的更新。

根据本发明的另一个方面,在步骤S2中,大数据中心对接收的搜索请求进行安全认证进一步包括:认证向大数据中心发送搜索请求的客户端,可包括该客户端搜索请求的安全性、授权访问大数据中心的资格、以及搜索请求内容的合法性。

根据本发明的另一个方面,将该搜索请求进行类型判定进一步包括:将该搜索请求发送给类型判定装置,类型判定装置判定搜索请求的类型,所述的类型至少包括:文字和数字等字符、语音、静态图片、视频、代码段、应用程序。

根据本发明的另一个方面,在步骤S3中,之后进一步输入到搜索记录装置中进一步包括:在步骤S31中,搜索记录装置根据判定的搜索请求的类型,将搜索请求与存储在搜索记录装置上的搜索记录列表中的相同类型的搜索记录进行比较,判断二者的相关度;在步骤S32中,如果二者的相关度超过第一阈值COTH,则从存储在搜索记录装置上的搜索记录列表中调取相关度超过第一阈值COTH的搜索记录的目的地记录,并映射链接到该目的地记录所在的大数据环境中的位置,对该位置的关联内容进行调取,并返回给搜索记录装置;搜索记录装置根据需要进行数据加密,形成搜索包发送给大数据中心;在步骤S33中,如果二者的相关度不超过第一阈值COTH,则搜索记录装置将该搜索请求发送到搜索执行装置,以供后者执行搜索。

根据本发明的另一个方面,关于二者相关度的计算和判断,该相关度比较前的计算方法如下:在步骤S311中,将判定搜索请求类型之后的搜索请求S划分成一个或多个子请求si,i是正整数,其中当搜索请求为最小可搜索单元时(例如无法进一步拆分的单个搜索对象),si的数量为一个,否则为多个,其中S={s1,……,si,……,sP},P为子请求个数,是正整数;在步骤S312中,向每个子请求si添加可执行逻辑运算的标识符Isi;在步骤S313中,将存储在搜索记录装置上的搜索记录列表T划分成多个元素tj,j是正整数,其中T={t1,……,ti,……,tQ},Q为元素个数,是正整数;在步骤S314中,向每个元素tj添加可执行逻辑运算的标识符Itj;在步骤S315中,前述二者的相关度为

根据本发明的另一个方面,在步骤S3中,在搜索执行装置执行搜索之前,搜索预处理装置分别将大数据中心所连接的各个节点的所有数据进行索引对象分组,每个分组中包括同类型的源数据,之后搜索预处理装置将每个分组的源数据进一步分为索引对象的片段。

根据本发明的另一个方面,当搜索执行装置执行搜索时,在指定的多个索引对象的片段中并行执行搜索,从而极大地提高搜索速度。

根据本发明的另一个方面,在并行执行搜索的步骤之前还包括步骤:根据片段中的元素的出现频次形成矢量,将该矢量排列在一起形成元素阵列U,其中的阵列单元Uxy表示第y个元素在第x个片段中的出现频次;将阵列U进行截除处理,奇点分解,进而形成阵列E,E是a*b的阵列,然后获得DEF,D、F是单元数值均为1的3*a、b*3阵列。然后在执行搜索的过程中,直接调用判定搜索请求类型之后的搜索请求S划分成一个或多个子请求,将该矢量排列在一起形成元素阵列W,W是c*d的阵列,然后获得KWL,K是3*c的阵列,W是d*3的阵列。获得整列中DEF和KWL的中每个矢量之间的正弦值绝对值并求和,该正弦值的绝对值的和越小越好,当小于某一阈值TH2时将片段及其元素输出,作为搜索请求的响应信息。

附图说明

在附图中通过实例的方式而不是通过限制的方式来示出本发明的实施例,其中:

根据本发明的示范性实施例,图1图示一种在大数据环境下的数据搜索方法。

具体实施方式

在下面的描述中,参考附图并以图示的方式示出几个具体的实施例。将理解的是:可设想并且可做出其他实施例而不脱离本公开的范围或精神。因此,以下详细描述不应被认为具有限制意义。

根据本发明的示范性实施例,图1图示一种在大数据环境下的数据搜索方法。该方法包括:步骤S1,客户端向大数据中心发送搜索请求;步骤S2,大数据中心对接收的搜索请求进行安全认证;步骤S3,如果通过认证则将该搜索请求进行类型判定,之后进一步输入到搜索记录装置中,执行步骤S5;步骤S4,如果不通过则向客户端发送包含拒绝信息的搜索响应;步骤S5,大数据中心对此次搜索进行日志记录,并实现对搜索记录装置的更新。

在步骤S2中,大数据中心对接收的搜索请求进行安全认证进一步包括:认证向大数据中心发送搜索请求的客户端,例如可包括而不限于该客户端搜索请求的安全性、授权访问大数据中心的资格、以及搜索请求内容的合法性等。客户端搜索请求的安全性例如包括:由于搜索请求类型的多样性,目前不仅可以输入文字和数字等字符(即传统搜索),也可以输入语音(例如输入记录的鸟禽叫声以搜索对应的鸟禽的名称及关联信息)、图片(例如输入金龟子的照片,则可搜索出对应的一系列关联信息)、视频(包括用户通过即时通信工具下载的短片)以及应用程序(包括小程序,app,程序片段等)。然而如果输入的程序含有恶意软件或代码,则会对大数据中心安全造成影响,为避免威胁整个大数据中心的安全,必须认证客户端的客户端搜索请求的安全性。另外,有些时候,大数据中心的信息由于知识产权等原因可能会收费,所以认证须包括授权访问大数据中心的资格,如果未获得许可访问大数据中心,则直接驳回搜索请求,以提前排除以减少搜索时间,减少不必要地占用大数据中心的资源,进而增加大数据中心的工作负荷和能源消耗,并降低大数据中心的数据调度效率和速度。另外,有些时候,由于某些国家和地区的法律和道德要求不同,须对一些非法搜索请求进行过滤,所以认证还可包括搜索请求内容的合法性认证,以提前排除以减少搜索时间,减少不必要地占用大数据中心的资源,进而增加大数据中心的工作负荷和能源消耗,并降低大数据中心的数据调度效率和速度。

在步骤S3中,将该搜索请求进行类型判定进一步包括:将该搜索请求发送给类型判定装置,类型判定装置判定搜索请求的类型,本文所述的类型诸如而不限于文字和数字等字符、语音、静态图片、视频、代码段、应用程序或类似物。

在步骤S3中,之后进一步输入到搜索记录装置中进一步包括:在步骤S31中,搜索记录装置根据判定的搜索请求的类型,将搜索请求与存储在搜索记录装置上的搜索记录列表中的相同类型的搜索记录进行比较,判断二者的相关度;在步骤S32中,如果二者的相关度超过第一阈值COTH,则从存储在搜索记录装置上的搜索记录列表中调取相关度超过第一阈值COTH的搜索记录的目的地记录,并映射链接到该目的地记录所在的大数据环境中的位置,对该位置的关联内容进行调取,并返回给搜索记录装置;搜索记录装置根据需要进行数据加密,形成搜索包发送给大数据中心;在步骤S33中,如果二者的相关度不超过第一阈值COTH,则搜索记录装置将该搜索请求发送到搜索执行装置,以供后者执行搜索。

具体地,关于二者相关度的计算和判断,现有技术中存在多种方法,然而其计算速度相对较长,而本申请优选地采用能够有效缩短相关度计算时间的方法。优选地,该相关度比较前的计算方法如下:

在步骤S311中,将判定搜索请求类型之后的搜索请求S划分成一个或多个子请求si,i是正整数,其中当搜索请求为最小可搜索单元时(例如无法进一步拆分的单个搜索对象),si的数量为一个,否则为多个,其中S={s1,……,si,……,sP},P为子请求个数,是正整数;

在步骤S312中,向每个子请求si添加可执行逻辑运算的标识符Isi

在步骤S313中,将存储在搜索记录装置上的搜索记录列表T划分成多个元素tj,j是正整数,其中T={t1,……,ti,……,tQ},Q为元素个数,是正整数;

在步骤S314中,向每个元素tj添加可执行逻辑运算的标识符Itj

在步骤S315中,前述二者的相关度

经过以上操作的执行,可以有效地缩短相关度计算时间,提高搜索效率。

在步骤S3中,可选地,在搜索执行装置执行搜索之前,搜索预处理装置分别将大数据中心所连接的各个节点的所有数据进行索引对象分组,每个分组中包括同类型的源数据,之后搜索预处理装置将每个分组的源数据进一步分为索引对象的片段。当搜索执行装置执行搜索时,在指定的多个索引对象的片段中并行执行搜索,从而极大地提高搜索速度。

优选地,为了进一步加快并行搜索速度,提高准确度和全面性。在并行执行搜索的步骤之前包括步骤:根据片段中的元素的出现频次形成矢量,将该矢量排列在一起形成元素阵列U,其中的阵列单元Uxy表示第y个元素在第x个片段中的出现频次;将阵列U进行截除处理,奇点分解,进而形成阵列E,E是a*b的阵列,然后获得DEF,D、F是单元数值均为1的3*a、b*3阵列。然后在执行搜索的过程中,直接调用判定搜索请求类型之后的搜索请求S划分成一个或多个子请求,将该矢量排列在一起形成元素阵列W,W是c*d的阵列,然后获得KWL,K是3*c的阵列,W是d*3的阵列。获得整列中DEF和KWL的中每个矢量之间的正弦值绝对值并求和,该正弦值的绝对值的和越小越好,当小于某一阈值TH2时将片段及其元素输出,作为搜索请求的响应信息。从而进一步加快并行搜索速度,提高准确度和全面性。

综上,在本发明的技术方案中,通过采用了一种在大数据环境下的数据搜索方法,能够利用记录进行快速搜索,减少搜索时间,减少相同的搜索请求不必要地占用大数据中心的资源,进而增加大数据中心的工作负荷和能源消耗,并降低大数据中心的数据调度效率和速度,避免威胁整个大数据中心的安全,提高准确度和全面性。

将理解的是:可以硬件、软件或硬件和软件的组合的形式实现本发明的示例和实施例。如上所述,可存储任何执行这种方法的主体,以易失性或非易失性存储的形式,例如存储设备,像ROM,无论可擦除或可重写与否,或者以存储器的形式,诸如例如RAM、存储器芯片、设备或集成电路或在光或磁可读的介质上,诸如例如CD、DVD、磁盘或磁带。将理解的是:存储设备和存储介质是适合于存储一个或多个程序的机器可读存储的示例,当被执行时,所述一个或多个程序实现本发明的示例。经由任何介质,诸如通过有线或无线连接载有的通信信号,可以电子地传递本发明的示例,并且示例适当地包含相同内容。

应当注意的是:因为本发明解决了利用记录进行快速搜索,减少搜索时间,减少相同的搜索请求不必要地占用大数据中心的资源,进而增加大数据中心的工作负荷和能源消耗,并降低大数据中心的数据调度效率和速度,避免威胁整个大数据中心的安全,提高准确度和全面性的技术问题,采用了计算机技术领域中技术人员在阅读本说明书之后根据其教导所能理解的技术手段,并获得了利用记录进行快速搜索,减少搜索时间,减少相同的搜索请求不必要地占用大数据中心的资源,进而增加大数据中心的工作负荷和能源消耗,并降低大数据中心的数据调度效率和速度,避免威胁整个大数据中心的安全,提高准确度和全面性的有益技术效果,所以在所附权利要求中要求保护的方案属于专利法意义上的技术方案。另外,因为所附权利要求要求保护的技术方案可以在工业中制造或使用,因此该方案具备实用性。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应包涵在本发明的保护范围之内。除非以其他方式明确陈述,否则公开的每个特征仅是一般系列的等效或类似特征的一个示例。因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1