一种在大数据环境下的数据搜索方法与流程

文档序号:12122049阅读:来源:国知局

技术特征:

1.一种在大数据环境下的数据搜索方法,包括:

步骤S1,客户端向大数据中心发送搜索请求;

步骤S2,大数据中心对接收的搜索请求进行安全认证;

步骤S3,如果通过认证则将该搜索请求进行类型判定,之后进一步输入到搜索记录装置中,执行步骤S5;

步骤S4,如果不通过则向客户端发送包含拒绝信息的搜索响应;以及

步骤S5,大数据中心对此次搜索进行日志记录,并实现对搜索记录装置的更新。

2.如权利要求1所述的数据搜索方法,其中:

在步骤S2中,大数据中心对接收的搜索请求进行安全认证进一步包括:认证向大数据中心发送搜索请求的客户端,可包括该客户端搜索请求的安全性、授权访问大数据中心的资格、以及搜索请求内容的合法性。

3.如权利要求2所述的数据搜索方法,其中将该搜索请求进行类型判定进一步包括:将该搜索请求发送给类型判定装置,类型判定装置判定搜索请求的类型,所述的类型至少包括:文字和数字等字符、语音、静态图片、视频、代码段、应用程序。

4.如权利要求3所述的数据搜索方法,其中在步骤S3中,之后进一步输入到搜索记录装置中进一步包括:在步骤S31中,搜索记录装置根据判定的搜索请求的类型,将搜索请求与存储在搜索记录装置上的搜索记录列表中的相同类型的搜索记录进行比较,判断二者的相关度;在步骤S32中,如果二者的相关度超过第一阈值COTH,则从存储在搜索记录装置上的搜索记录列表中调取相关度超过第一阈值COTH的搜索记录的目的地记录,并映射链接到该目的地记录所在的大数据环境中的位置,对该位置的关联内容进行调取,并返回给搜索记录装置;搜索记录装置根据需要进行数据加密,形成搜索包发送给大数据中心;在步骤S33中,如果二者的相关度不超过第一阈值COTH,则搜索记录装置将该搜索请求发送到搜索执行装置,以供后者执行搜索。

5.如权利要求4所述的数据搜索方法,其中关于二者相关度的计算和判断,该相关度比较前的计算方法如下:

在步骤S311中,将判定搜索请求类型之后的搜索请求S划分成一个或多个子请求si,i是正整数,其中当搜索请求为最小可搜索单元时(例如无法进一步拆分的单个搜索对象),si的数量为一个,否则为多个,其中S={s1,……,si,……,sP},P为子请求个数,是正整数;

在步骤S312中,向每个子请求si添加可执行逻辑运算的标识符Isi

在步骤S313中,将存储在搜索记录装置上的搜索记录列表T划分成多个元素tj,j是正整数,其中T={t1,……,ti,……,tQ},Q为元素个数,是正整数;

在步骤S314中,向每个元素tj添加可执行逻辑运算的标识符Itj

在步骤S315中,前述二者的相关度为

6.如权利要求5所述的数据搜索方法,其中在步骤S3中,在搜索执行装置执行搜索之前,搜索预处理装置分别将大数据中心所连接的各个节点的所有数据进行索引对象分组,每个分组中包括同类型的源数据,之后搜索预处理装置将每个分组的源数据进一步分为索引对象的片段。

7.如权利要求6所述的数据搜索方法,其中进一步包括:当搜索执行装置执行搜索时,在指定的多个索引对象的片段中并行执行搜索,从而极大地提高搜索速度。

8.如权利要求7所述的数据搜索方法,其中在并行执行搜索的步骤之前还包括步骤:根据片段中的元素的出现频次形成矢量,将该矢量排列在一起形成元素阵列U,其中的阵列单元Uxy表示第y个元素在第x个片段中的出现频次;将阵列U进行截除处理,奇点分解,进而形成阵列E,E是a*b的阵列,然后获得DEF,D、F是单元数值均为1的3*a、b*3阵列。

9.如权利要求8所述的数据搜索方法,其中进一步包括:然后在执行搜索的过程中,直接调用判定搜索请求类型之后的搜索请求S划分成一个或多个子请求,将该矢量排列在一起形成元素阵列W,W是c*d的阵列,然后获得KWL,K是3*c的阵列,W是d*3的阵列。

10.如权利要求9所述的数据搜索方法,其中进一步包括:获得整列中DEF和KWL的中每个矢量之间的正弦值绝对值并求和,该正弦值的绝对值的和越小越好,当小于某一阈值TH2时将片段及其元素输出,作为搜索请求的响应信息。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1