一种基于向量模型的海量时空数据检索方法及系统与流程

文档序号:11155416阅读:327来源:国知局
一种基于向量模型的海量时空数据检索方法及系统与制造工艺

本发明涉及数据处理技术领域,尤其涉及一种基于向量模型的海量时空数据检索方法及系统。



背景技术:

在现今的大数据时代,面对如此众多的数据,在合理的时间内返回查询结果,从而帮助决策成为了一个迫切需要解决的问题。比如公安干警在刑侦破案的时候,定位到了犯罪嫌疑人,那么就可以通过旅业、航班、铁路等海量的数据,根据和犯罪嫌疑人可能的潜在关联关系,查找出该犯罪嫌疑人的嫌疑团伙成员。在该场景中,挖掘潜在的关联关系大多是在时间或空间上和犯罪嫌疑人有关系的,公安部门拥有的数据数以百亿计,数据格式涉及表格、文本等多种多样,在如此海量形式各样的数据中,在合理可接受的时间范围内发掘出潜在的关联关系,给公安部门提供了不小的挑战。如若不能在合理可接受的时间内返回查询结果,错过了最佳抓捕时机,给予嫌疑人的逃窜隐藏的时间,会给后续破案带来不可预估的影响,为社会安全带来潜在的危害。如此看来,在海量数据中进行高速有效的时空查询是极具价值的。但是虽然有迫切的需求,现在关系型数据库(RDBMS)对时空数据的支持却是有限和不充分的,现有的时空数据目录也不能很好的整合到RDBMS中。在对时空数据的研究中,对时间性数据的研究更多,而对时间和空间数据的研究并不足够。

目前对时空数据的查询大多使用的是关系型数据库,处理的多是结构化数据,对文本、图表、图片等形式的半结构化或非结构化数据处理效果并不十分理想。其以时空为查询条件的模型表达能力有限,在待处理的数据量很大时,又面临查询时间过长的问题。近年来,针对大数据的处理框架趋于成熟,比如MapReduce,在处理海量数据时有较为良好的性能。但如若直接处理,不采用优化缓存等措施,效果会比传统数据库好,但某些数据会被反复处理,中间结果存储于磁盘时,由于磁盘寻道时间长等导致的IO瓶颈,浪费了运算资源,降低了处理速度。



技术实现要素:

为了解决上述技术问题,本发明的目的是提供一种能提高检索速度的一种基于向量模型的海量时空数据检索方法及系统。

本发明所采取的技术方案是:

一种基于向量模型的海量时空数据检索方法,包括以下步骤:

将事件空间和问题空间的数据进行向量化处理,得到时空数据向量;

根据需检索的目标条件向量,将时空数据向量进行降维处理;

将降维处理后的时空数据向量与目标条件向量的每一个维度进行向量运算;

对向量运算结果进行判断,筛选出满足预设条件的向量运算结果,得出对应的检索结果。

作为所述的一种基于向量模型的海量时空数据检索方法的进一步改进,所述时空数据向量包括时间点属性维度、时间段属性维度、基本空间属性维度和衍生空间属性维度。

作为所述的一种基于向量模型的海量时空数据检索方法的进一步改进,所述的根据需检索的目标条件向量,将时空数据向量进行降维处理,这一步骤具体为:

根据需检索的目标条件向量的各个维度,将时空数据向量从高维属性空间映射到对应的低维属性空间,得到降维处理后的时空数据向量。

作为所述的一种基于向量模型的海量时空数据检索方法的进一步改进,所述向量运算包括时间点维度运算、时间段维度运算、欧几里得运算、曼哈顿运算、衍生空间属性运算和关系运算。

作为所述的一种基于向量模型的海量时空数据检索方法的进一步改进,所述的将事件空间和问题空间的数据进行向量化处理,得到时空数据向量,这一步骤之后还包括有:

将时空数据向量根据设定的层级索引,对设定的维度进行多层函数映射,划分得到多个数据集。

本发明所采用的另一技术方案是:

一种基于向量模型的海量时空数据检索系统,包括:

时空数据向量表示模块,用于将事件空间和问题空间的数据进行向量化处理,得到时空数据向量;

时空数据向量降维模块,用于根据需检索的目标条件向量,将时空数据向量进行降维处理;

时空数据向量运算模块,用于将降维处理后的时空数据向量与目标条件向量的每一个维度进行向量运算;

检索结果判断模块,用于对向量运算结果进行判断,筛选出满足预设条件的向量运算结果,得出对应的检索结果。

作为所述的一种基于向量模型的海量时空数据检索系统的进一步改进,所述时空数据向量包括时间点属性维度、时间段属性维度、基本空间属性维度和衍生空间属性维度。

作为所述的一种基于向量模型的海量时空数据检索系统的进一步改进,所述时空数据向量降维模块具体为:

根据需检索的目标条件向量的各个维度,将时空数据向量从高维属性空间映射到对应的低维属性空间,得到降维处理后的时空数据向量。

作为所述的一种基于向量模型的海量时空数据检索系统的进一步改进,所述时空数据向量运算模块包括时间点维度运算模块、时间段维度运算模块、欧几里得运算模块、曼哈顿运算模块、衍生空间属性运算模块和关系运算模块。

作为所述的一种基于向量模型的海量时空数据检索系统的进一步改进,所述时空数据向量表示模块之后还包括有:

时空数据层级索引构建模块,用于将时空数据向量根据设定的层级索引,对设定的维度进行多层函数映射,划分得到多个数据集。

本发明的有益效果是:

本发明一种基于向量模型的海量时空数据检索方法及系统根据时空数据的各个属性维度特点,建立通用的向量表示,然后通过将得到时空数据向量降维处理,并通过该向量与目标条件向量进行运算,结合向量检索模型从而得到满足条件的数据结果,这样能减少要查询的数据量,大大减少计算复杂度,有效提到检索效率。而且,本发明还构建了垂直层级索引,大大提高了检索速度。

附图说明

下面结合附图对本发明的具体实施方式作进一步说明:

图1是本发明一种基于向量模型的海量时空数据检索方法的步骤流程图;

图2是本发明一种基于向量模型的海量时空数据检索系统的模块方框图。

具体实施方式

参考图1,本发明一种基于向量模型的海量时空数据检索方法,包括以下步骤:

将事件空间和问题空间的数据进行向量化处理,得到时空数据向量;

根据需检索的目标条件向量,将时空数据向量进行降维处理;

将降维处理后的时空数据向量与目标条件向量的每一个维度进行向量运算;

对向量运算结果进行判断,筛选出满足预设条件的向量运算结果,得出对应的检索结果。

进一步作为优选的实施方式,所述时空数据向量包括时间点属性维度、时间段属性维度、基本空间属性维度和衍生空间属性维度。其中,基本空间属性维度为基本的位置信息如GPS,衍生空间属性维度为如车次、身份证号、籍贯等信息。

进一步作为优选的实施方式,所述的根据需检索的目标条件向量,将时空数据向量进行降维处理,这一步骤具体为:

根据需检索的目标条件向量的各个维度,将时空数据向量从高维属性空间映射到对应的低维属性空间,得到降维处理后的时空数据向量。

进一步作为优选的实施方式,所述向量运算包括时间点维度运算、时间段维度运算、欧几里得运算、曼哈顿运算、衍生空间属性运算和关系运算。

进一步作为优选的实施方式,所述的将事件空间和问题空间的数据进行向量化处理,得到时空数据向量,这一步骤之后还包括有:

将时空数据向量根据设定的层级索引,对设定的维度进行多层函数映射,划分得到多个数据集。

优选的,所述层级索引通过对时间和基本空间属性进行哈希映射,将较大数据集的检索拆分成了较小数据集的检索,使得对数据的检索效率得以提高。而且,将数据进行切分为多个数据集,从而可以并行处理,进一步提高检索速度。

所述层级索引采用了多层映射。当数据经过第一层级时,通过函数将数据映射到多个Bucket中,实现了将大数据划分为较小的数据集。如此类似,当数据经过第二层级时,通过函数将数据映射到多个Region中,将较小的数据集更加细分。当数据经过最终层映射时,将数据映射到Block中,从而实现了将大数据集映射到多个小的数据集中的结果。需要注意的是,中间经过的层级数据映射,并不存储数据,只起到了类似于转发的作用,通过层层转发,最后映射到最底层的Block中,并实现了持久化存储。

参考图2,本发明一种基于向量模型的海量时空数据检索系统,包括:

时空数据向量表示模块,用于将事件空间和问题空间的数据进行向量化处理,得到时空数据向量;

时空数据向量降维模块,用于根据需检索的目标条件向量,将时空数据向量进行降维处理;

时空数据向量运算模块,用于将降维处理后的时空数据向量与目标条件向量的每一个维度进行向量运算;

检索结果判断模块,用于对向量运算结果进行判断,筛选出满足预设条件的向量运算结果,得出对应的检索结果。

进一步作为优选的实施方式,所述时空数据向量包括时间点属性维度、时间段属性维度、基本空间属性维度和衍生空间属性维度。

进一步作为优选的实施方式,所述时空数据向量降维模块具体为:

根据需检索的目标条件向量的各个维度,将时空数据向量从高维属性空间映射到对应的低维属性空间,得到降维处理后的时空数据向量。

进一步作为优选的实施方式,所述时空数据向量运算模块包括时间点维度运算模块、时间段维度运算模块、欧几里得运算模块、曼哈顿运算模块、衍生空间属性运算模块和关系运算模块。

进一步作为优选的实施方式,所述时空数据向量表示模块之后还包括有:

时空数据层级索引构建模块,用于将时空数据向量根据设定的层级索引,对设定的维度进行多层函数映射,划分得到多个数据集。

本发明实施例中,对数据的向量表示,举例说明,对于一条记录,其中该数据包含身份标识、位置、车次、时间点、时间段等信息,那该记录可以表示成R=(ID,(X,Y),N,T,(S,E),D)。其中ID表示记录对应的身份标识,该ID在数据集中可唯一标识该数据,(X,Y)为该数据中的位置属性,一般用经度、维度表示,N表示铁路数据中的车次属性,T为时间点数据属性,(S,E)表示数据的时间段属性,其中S代表事件的起始时间,E代表了事件的终止时间,D则代表了其它的数据属性,这些属性也可抽象为某种空间属性,如身份证号、车牌、居住地址等。

对数据A在2015年11月30日14:00在广州东站乘坐火车G123到深圳站,该人的身份证号是ID,户籍是广州市,性别是男,购票窗口是3,车厢号是13车,座位号是4A。在使用时空数据向量表示该事件记录时,可以表示为,事件记录(A,201511301400,广州东,G123,深圳,ID,广州,男,3,13,4A)。其中各分向量维度分别表示原事件记录中对应的某一属性值。通过该时空数据向量将该事件中的元素均进行了表示。

当要查询与A在同一天乘坐相同车次均从广州东站出发的人员。需要注意:

在A数据记录中,A包含了发车时间、始发站、终点站、车次、身份证号、户籍、性别、购票窗口、车厢号、座位号,总共十个属性,对应的时空数据向量,则共有十个分向量维度。而在数据检索条件中“同一天”、“相同车次”、“广州东站出发”,我们关注的其实是与A的“发车时间”、“车次”、“始发站”三个分向量维度,即对于A的所有分向量维度,我们只关心其中的一部分。

由于我们的数据记录中包括了航班号、航班日期、始发港、终到港、始发时间、到达时间、座位号、仓位、国籍、性别等信息。假如现在我需要检索2013年7月1日乘坐ZH9912从SZX始发的所有男性人员。在该场景中,我们关心的航班日期、航班号、始发港、性别,而对于数据中的其他属性,如国籍、户籍地址、订票号等,对于检索条件是无关的,那么我们就可以将数据的全维度空间映射到该四维空间中,目标条件向量表示为R=(20130701,ZH991,SZX,1),对所有数据映射到该四维空间中,即R'=(DATE,FLIGHT,FROM,MALE),然后再对时空数据的进行向量运算。

此时,会对原始数据的事件空间,每条数据都是用向量表示,并于目标条件向量R的每一个维度进行运算,其中分别为时间点属性运算、衍生空间属性运算、衍生空间属性运算、衍生空间属性运算。当结果满足预定义的要求时,即各维度均与目标向量相等时满足要去。

又举例为,当要检索所有2015年5月2日14:00到16:00在某七天(GPS为(TX,TY))住过或在附近距离d内的旅店住过的人员。先将目标条件向量表示Rt=((TX,TY),(201505021400,201505021600)),对于全数据集,映射到二维向量空间表示为R((X,Y),(S,E)),对于计算f(Rt,R)=(d1,d2),当d1<d且d2>0时该记录为符合要求的目标人员,其中由于旅店为一范围位置数据,当d1<d即人员与目标条件相距不超过d时,即为此人员住的是该七天,而d2>0则表明所有人员的住宿时间与目标时间有重合时间,当两个条件同时满足时,意味着这些记录在时间和空间上与目标向量距离在合理范围内,即为满足检索条件的数据记录。

从上述内容可知,本发明一种基于向量模型的海量时空数据检索方法及系统根据时空数据的各个属性维度特点,建立通用的向量表示,然后通过将得到时空数据向量降维处理,并通过该向量与目标条件向量进行运算,结合向量检索模型从而得到满足条件的数据结果,这样能减少要查询的数据量,大大减少计算复杂度,有效提到检索效率。而且,本发明还构建了层级索引,大大提高了检索速度。

以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1