一种城市数据的跨域查询分析方法与流程

文档序号:12063869阅读:257来源:国知局
一种城市数据的跨域查询分析方法与流程

本发明涉及时空数据数据分析领域,尤其涉及一种城市数据的跨域查询分析方法。



背景技术:

传感器技术,社会媒体,大规模计算等产生了大量的城市数据,涉及人类运动轨迹,社交网络,POI等多个领域。城市数据在给人类带来巨大信息量的同时,也带来了巨大的挑战。如何完成数量庞大的,多源异构的城市时空数据的跨域过滤查询越来越成为城市管理和城市建设的热门课题。

数据查询是数据处理的基础,查询能够达到数据基本的调查功能,使得数据或者数据某些特征能够直接被提取出来。现有的城市数据查询大都是针对单一数据源的。同样的,基于查询的城市数据推理探索过程也大都是针对单一数据源的。这些查询探索分析方法不能够融合多源异构的城市数据,很多跨域的信息就不能被提取出来。

由于之前的数据查询和推理探索大都是针对单一数据源的。因为跨域的城市数据具有异构性和数据粒度不一的特点,不适用针对单一数据源的方法。故本发明提供了能够针对跨域异构数据的查询分析方法。



技术实现要素:

本发明提供了一种城市数据的跨域查询分析方法,可以对跨域数据进行选择,过滤和分析,从而实现城市数据的信息的有效查询。

一种城市数据的跨域查询分析方法,包括以下步骤:

(1)将跨域的城市数据的属性分为至少四类:时间属性、空间属性、身份属性以及描述信息,并将分类后的数据建立成数据库;

(2)建立基于原子查询和信息抽取的跨域查询模型,原子查询的查询条件是步骤(1)中四种属性的布尔组合,信息抽取是指在步骤(1)的数据库中抽取出所需属性的信息,原子查询的结果可以作为信息抽取的对象,信息抽取出的信息可以作为原子查询的查询条件;

布尔组合的定义:布尔组合包括对条件进行的“并”“交”“补”三种操作。“并”操作要求只要满足两者之一,“交”操作要求同时满足两种条件,“补”操作则要求满足前一条件而不满足后一条件。

原子查询是对一种数据源数据进行的查询操作,一次原子查询包括三个部分,查询条件,查询动作和查询结果。在原子查询中用户需要指定查询条件和查询数据源,查询条件是四种属性(时间,空间,身份和描述)的布尔组合。当查询动作实施时,查询结果会根据查询条件在指定数据源中的数据进行过滤得到。

信息抽取是指在数据中抽取出一种属性的信息(例如抽取某条微博的发布时间)。一次信息抽取也包括三个部分,抽取对象,抽取动作和抽取出的信息。

(3)组合步骤(2)中的原子查询和信息抽取形成查询序列来完成跨域查询目标。

本发明方法的流程可以分为3大步骤,跨域城市数据的整理与属性分类,建立查询模型和形成查询序列进行分析。本发明方法将不同领域的城市数据进行统一的分类,分类包括:时间属性、空间属性、身份属性以及描述信息,可以完整的表达每个领域的信息,并且使这些数据具有相互关联性,进而可以通过关联的信息来满足不同的查询要求。

时间属性:记录了对象的时间属性信息;

空间属性:记录了对象在地理空间中的位置信息信息;

身份属性:记录了对象的身份信息;

描述信息:记录了对象的其他信息(例如速度)。

优选的,所述跨域的城市数据包括至少包括出租车轨迹数据、手机轨迹数据、房地产房价数据、社交平台数据、手机通话数据、城市建筑信息数据以及街景数据中的两种。所述社交平台数据种类较多,例如微博、微信等。

本发明方法可以快速完成以下四类查询目的:

第一类,优选的,步骤(3)中,组合步骤(2)中的原子查询和信息抽取形成查询序列完成经过“目标地点”的目标物的跨域查询的具体步骤如下:

3-1、指定身份属性为“目标地址”的查询条件,得到查询结果;

3-2、对步骤3-1得到查询结果进行信息抽取,得到“目标地址”的空间属性;

3-3、将步骤3-2得到的“目标地址”的空间属性作为查询条件,完成经过“目标地点”的目标物的查询。

第二类,优选的,步骤(3)中,组合步骤(2)中的原子查询和信息抽取形成查询序列完成社交平台上发布“物品”丢失在出租车上的寻找的具体步骤如下:

3-1、指定描述信息为“丢失”的查询条件进行原子查询,得到查询结果;

3-2、对步骤3-1得到查询结果进行信息抽取,得到需要寻找的丢失物的丢失时间以及出租车的起始位置的信息;

3-3、根据步骤3-2得到的出租车的起始位置的信息作为“身份属性”的查询条件进行原子查询,得到具体的起始位置的经纬度;

3-4、对步骤3-3得到起始位置的经纬度进行信息抽取;

3-5、根据步骤3-2得到的丢失时间以及步骤3-4得到起始位置的经纬度作为“空间属性”的查询条件进行原子查询,得到条件匹配的出租车;

3-6、对步骤3-5得到的出租车进行信息抽取,得到指定时间的行驶轨迹;

3-7、根据步骤3-6得到的指定时间的行驶轨迹作为查询条件进行原子查询,得到移动轨迹匹配的手机,拨打该手机的号码找到丢失“物品”。

第三类,优选的,步骤(3)中,组合步骤(2)中的原子查询和信息抽取形成查询序列完成选定街区的交通拥堵状况查询的具体步骤如下:

3-1、指定描述信息为“速度0~20km/h”、时间属性为中午0点到晚上12点、空间属性为街区A为查询条件,查询符合条件的出租车数据;

3-2、通过步骤3-1的查询结果的热力图得出多条拥堵的街道,对拥堵的街道进行信息抽取,得到拥堵的街道的经纬度;

3-3、根据步骤3-3得到的拥堵的街道的经纬度为查询条件进行原子查询,得到所有拥堵的街道的环境信息,从而判断呈现拥堵的原因,进而确定是否为真实的拥堵。

第四类,优选的,步骤(3)中,组合步骤(2)中的原子查询和信息抽取形成查询序列完成不同房价区域人群的行为差异查询的具体步骤如下:

3-1、以房价为“描述属性”的查询条件进行原子查询,得到高房价小区和低房价小区,并查看两个小区的街景数据;

3-2、根据步骤3-1的查询结果进行信息抽取,得到两个小区的经纬度范围;

3-3、以凌晨0~6点之间的任一时间点为查询条件,查询半夜在步骤3-2得到的两个小区经纬度范围内逗留的手机轨迹,查询得到两个小区的居民,根据居民手机轨迹得到两个小区居民的移动状况的差异;并对居民手机轨迹进行分析得到人群的行为差异。可以发现低房价小区居民的活动范围比较大,大部分人群的工作地点离家比较远或者在城郊,而高房价小区居民的活动范围比较小,工作地点基本在市中心。

3-4、对步骤3-3得到居民的手机号码进行信息收取;

3-5、根据步骤3-4得到的手机号码为查询条件进行原子查询,得到两个小区居民的社交网络状况的差异。可以分析得知高房价的居民联系的人相对较多,社交网络往往比低房价居民的更加复杂。

本发明的有益效果:

本发明方法通过建立跨域城市数据的四种类型的属性分类,并通过原子查询和信息抽取的组合,形成查询序列来探索分析复杂的跨域查询目标,实现了跨域城市数据的查询、分析、推理和探索,实现了跨域数据的融合。

附图说明

图1是本发明方法的线框流程示意图。

图2是本发明方法建立的基于原子查询的查询模型示意图。

图3是本发明方法建立的基于信息抽取的查询模型示意图。

图4是本发明方法的原子查询和信息抽取组成的查询序列完成跨域查询任务的流程图。

具体实施方式

本实施例的城市数据的跨域查询分析方法,包括以下步骤:

(1)收集多源异构的城市时空数据,并对数据属性进行分类,将跨域的城市数据的属性分为四类:

时间属性:记录了对象的时间属性信息;

空间属性:记录了对象在地理空间中的位置信息信息;

身份属性:记录了对象的身份信息;

描述信息:记录了对象的其他信息(例如速度)。

(2)建立基于原子查询和信息抽取的跨域查询模型。

2-1、原子查询是对一种数据源数据进行的查询操作。一次原子查询包括三个部分,查询条件,查询动作和查询结果。在原子查询中用户需要指定查询条件和查询数据源,查询条件是四种属性(时间,空间,身份和描述)的布尔组合,如图1所示。当查询动作实施时,查询结果会根据查询条件在指定数据源中的数据进行过滤得到。

2-2、信息抽取是指在数据中抽取出一种属性的信息(例如抽取某条微博的发布时间)。一次信息抽取也包括三个部分,抽取对象,抽取动作和抽取出的信息,如图2所示。

(3)组合原子查询和信息抽取形成查询序列来完成复杂的跨域查询目标。原子查询的结果可以作为信息抽取的对象,信息抽取出的信息可以作为原子查询的查询条件。任何复杂的跨域查询目标都可以拆分成原子查询和信息抽取的组合。

例如我们要查找经过中心公园的出租车,如图3所示,具体包括以下步骤:

3-1、指定身份属性为“中心公园”的查询条件,并选择POI数据作为查询数据源进行查询;

3-2、对于查询结果,用户使用信息抽取取得中心公园的空间属性;

3-3、将步骤3-2得到的空间属性作为新的查询条件,并输入了一个时间段,指定出租车为数据源,并查询出经过该地点的出租车。

又例如寻找丢失物,具体包括以下步骤:

3-1、用户关注于哪些微博用户丢失了东西,所以用户以关键词“丢失”为条件查询微博数据源的数据。(原子查询)

3-2、用户通过查看查询到的微博发现一个微博用户在凌晨1点左右从地点A到地点B的出租车上丢失了一部手机。为了找到这部丢失的手机,我们需要拨打出租车司机的手机。为了找到用户丢失手机的具体位置,用户选取了地点A和地点B的名称作为新的查询条件。(信息抽取)

3-3、用户通过地点名在建筑物信息数据中查询到了丢手机地点,从而找到了地点A和B的地理位置。(原子查询)

3-4、然后用户选取了地点A和B的经纬度为新查询条件的地理条件,以凌晨1点前后为时间条件(信息抽取)

3-5、用户在出租车轨迹数据中查询丢失手机的出租车。通过分析查找结果,确定了用户丢失手机的那辆出租车。(原子查询)

3-6、然后用户选取了该出租车当天行驶轨迹上的3个坐标-时间点作为匹配查询条件,想要查找与出租车轨迹相匹配的手机轨迹数据。(信息抽取)

3-7、通过在手机轨迹中的查询操作,用户查找了哪些手机轨迹也在同一时间经过出租车经过的地点,从而寻找与其匹配的手机轨迹数据,找到了出租车司机的手机。(原子查询)

又例如想要分析街区A的交通拥堵状况,具体包括以下步骤:

3-1、用户想要分析街区A的交通拥堵状况。所以用户输入速度0-20km/h,中午0点到晚上12点和街区A为条件,查询符合条件的出租车数据。(原子查询)

3-2、用户通过分析查询结果的热力图得出两条拥堵的街道1和2。用户想要进一步分析街道1和2拥堵的原因。所以选择了他们的经纬度为新的查询条件。(信息抽取)

3-3、用户通过建筑物信息数据查询街道1和2。通过分析得出街道1周围是汽车服务业比较多,出租车可能去加油或者洗车。而街道2周围是商业区且有火车站,所以交通状况比较拥堵。(原子查询)

又例如用户想要分析不同房价人群之间有什么行为差异,具体包括以下步骤:

3-1、用户首先以低房价和高房价为查询条件查询房地产数据。用户选择了一个高房价的小区和一个低房价的小区。并查看了他们的街景数据,发现高房价小区位于市中心,并且周围有一条小河。而低房价的小区位于市郊,并且邻近一条高架桥。(原子查询)

3-2、用户选择这两个小区的经纬度范围为地理条件,(信息抽取)

3-3、以凌晨0点6点为时间条件,查询半夜在小区逗留的手机轨迹(原子查询),从而查找小区的居民。并对居民手机轨迹进行分析。发现低房价小区居民的活动范围比较大,大部分人群的工作地点离家比较远或者在城郊,而高房价小区居民的活动范围比较小,工作地点基本在市中心。

3-4、然后又选择了查询到的手机号码为新的查询条件(信息抽取),通过手机通话数据查询他们的社交网络(原子查询),分析得知高房价的居民联系的人相对较多,社交网络往往比低房价居民的更加复杂。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1