一种基于数据源服务的城市时空数据汇聚系统及方法与流程

文档序号:12719943阅读:227来源:国知局
一种基于数据源服务的城市时空数据汇聚系统及方法与流程
本发明涉及一种基于数据源服务的城市时空数据汇聚系统及方法,属于智慧城市
技术领域

背景技术
:随着智慧城市的建设以及智能管理系统的发展,城市中每时每刻都会通过大量传感装置产生大量的城市数据。并且随着城市规模的不断扩大以及各种智慧服务和应用的不断增加,数据的种类和规模会进一步地增加。例如地图与兴趣点数据、GPS(GlobalPositioningSystem,全球定位系统)数据、客流数据、手机数据、视频监控数据、环境与气象数据以及社会活动数据等等。这些数据不仅种类越来越多,数据量也越来越大,如何组织和管理这些数据,是智慧城市的一个研究重点。然而正是由于城市数据类型繁多、模式复杂,使得目前对于城市数据的利用存在一些问题。如果针对每个应用都要知道每种数据的存储及格式信息,都要编写相应的数据读取程序,无疑增加了应用开发人员的工作量。而且这种数据访问方式也会增加融合应用对数据存储方式和数据格式的依赖:一旦数据存储方式或者数据格式发生变化,就需要修改对应的数据融合应用。所以需要提出一种数据访问方式来消除城市应用对底层数据的依赖。目前城市数据管理系统的重点就是如何高效地整合不同城市及部门的系统和应用,对城市数据进行分析处理。对这些海量的异构数据建立统一的数据描述模型,并且为系统及应用提供统一的数据访问服务,实现不同数据的互联和共享,方便结合时空信息综合挖掘城市数据中的有效知识,为城市规划决策提供支持。但目前尚未有相关的文献报导。技术实现要素:本发明解决的技术问题:针对城市数据资源分散导致的数据访问不便、城市应用对底层数据存储方式和格式依赖较大的问题,提供一种基于数据源服务的城市时空数据汇聚系统及方法,为数据资源使用者提供了统一的数据访问方式,在一定程度上消除了城市应用对数据存储方式和格式的依赖,方便了城市数据应用对数据资源的使用。本发明的技术解决方案:一种基于数据源服务的城市时空数据汇聚系统,包括:数据接入层、数据源服务层和数据汇聚层。数据接入层包括数据资源的存储和访问功能以及数据资源描述模型,用与对存储与不同平台的数据进行存储和统一组织,并对数据进行描述,为上层提供数据的查询和访问接口。数据服务层包括数据源服务描述模型、数据源服务查询接口、数据时空筛选以及数据格式转换模块,通过数据源服务描述模型对数据源服务进行组织和管理,通过接收用户输入的主题、城市、语义标签等信息,找到所需数据源服务;之后按照数据资源请求者的输入信息获取满足时空筛选条件以及所需表现形式的数据并返回。数据汇聚层通过数据源服务为城市数据应用提供数据资源,提供数据源服务查询和请求功能,直接与上层的城市数据应用交互。城市数据资源描述模型,包含了数据服务的基本属性特征,其形式化定义为:<Identify,Semantic,Schema,StoreInfo>其中Identify是数据的标识,包含数据资源名。Semantic是数据的语义信息,包含数据的城市、主题、描述对象标签等信息。城市表示数据是在哪个城市运行过程中产生的。主题反映了数据的种类,目前的城市数据主题有交通、天气、民生、社区等。描述对象反映了城市数据更具体的种类,比如交通主题下面的描述对象有地铁、出租车、交通小区等。Schema是返回数据的字段描述信息,每个字段对应一个包含字段名、字段类型和字段说明的三元组。StoreInfo描述数据的存储信息,包括存储类型、访问方式、存储数据量、数据日期范围等信息。存储类型表明数据存储在什么地方,城市数据可存储在关系型数据库MySQL、分布式文件系统HDFS、分布式数据库HBase以及MongoDB数据库中。访问方式指明需要用何种方式来访问数据,针对不同的存储类型,需要有相应的数据访问方式,比如存储在MySQL数据库中的数据需要提供MySQL的主机地址、数据库连接端口、访问用户名以及访问密码。数据源服务描述模型,包含数据源服务的基本属性特征,其形式化定义为:<Identify,Semantic,Schema,RequestParam,ResponseParam,TransInfo,QoS>其中Identify是数据源服务的标识,包括数据源服务名、URI以及对应的数据资源名,不同的数据源服务都有的标识信息都不相同。Identify是在注册数据源服务时指定的,系统会对指定的值进行唯一性验证,验证通过才算合法。Semantic是数据源服务的语义信息,包含数据源服务本身的语义信息以及所返回数据的语义信息。数据源服务的语义信息包括服务的文字描述、服务类型以及备注信息。Schema是此数据源服务返回数据的字段描述信息,描述方式和数据描述的schema相同。不同之处在于数据源服务返回的数据字段数可能少于其对应数据的数据字段数,部分字段会被筛选掉。比如轨道交通一卡通刷卡原始数据包含42个字段,但在实际的应用中只会使用到10个左右的字段,为了减少数据的传输消耗,同时避免给之后的处理程序过大负担,会将一些没用的字段过滤掉。RequestParam服务请求参数,即此数据源服务可以接收的参数。数据源服务对应的是一种数据,一般数据量非常大。实际使用过程中会有一定的时间、空间或者其他字段范围的限定,这些限定就是通过服务参数传递给数据源服务的。ResponseParam是数据源服务的返回参数说明,即数据源服务接收到请求后返回的消息参数描述。此返回参数用于向服务请求者说明请求是否成功,并告知服务请求者做好后续数据接收。TransInfo是数据源服务的数据传输方式说明,告知服务请求者如何请求和获取结果数据,信息主要包括数据源服务结果数据的传输方式及相关信息。如使用socket方式传输数据时会附带服务的IP地址和端口号信息,使用Web服务方式传输数据时,会附带数据源服务的访问URL(UniformResourceLocator,统一资源定位符)。QoS表示数据源服务的服务质量,评判标准包括响应时间、数据质量、服务可靠性等。服务质量可以帮助服务使用者挑选符合需求的数据源服务。数据源服务查询接口对外提供基于主题、语义、城市等的查询功能,查询过程如下:1)接收外部输入的主题、语义、城市等的关键词;2)基于接收到的关键词,在数据源服务元数据信息表查找符合条件的数据源服务;3)没有找到,返回未找到信息,结束;否则执行下一步;4)对找到的数据源服务信息按照数据源服务质量进行排序,并返回,结束。数据时空筛选对外提供基于时间段、城市区域等属性的数据筛选功能。时间段是根据城市公共交通客流量划分的六个时间段:早低峰、早高峰、日平峰、晚高峰、晚低峰和夜间,空间范围是以交通小区划分为依据。数据源服务请求者在发送请求时需要将时间和空间的筛选要求作为参数和请求一起发送,数据源服务接收到请求后按照要求对数据进行筛选。数据格式转换在数据时空筛选和数据结果返回这两个阶段之间执行,将经过时空筛选的数据转换为数据源服务请求附带的请求参数所要求的格式(比如以逗号分隔的表示形式)。一种基于数据源服务的城市时空数据汇聚系统的城市时空数据汇聚方法,包括以下步骤:步骤1:用户通过输入的主题、城市和语义标签信息的关键词作为查询条件,调用数据源服务查询接口来查询数据源服务;系统接收到查询条件后,搜索数据源服务的元数据信息表,找到所有满足查询条件的数据源服务,然后根据数据源服务的服务质量评分将结果排序,最后返回给用户;步骤2:基于返回数据源服务描述信息以及服务质量信息选出最符合要求的数据源服务:用户接收到步骤1返回的数据源服务列表后,根据数据源服务描述信,用户基于服务质量和语义描述等信息进行综合判断息,找到最符合城市应用需求的数据源服务;步骤3:用户根据步骤2选出的数据源服务的描述信息,根据城市应用所需数据的时间、空间、格式等限制,将限制信息填进请求参数中,按照数据源服务的数据传输方式,发送包含请求参数的数据源服务请求;步骤4:数据源服务接收到请求后,首先调用数据接入层提供的数据资源查询接口,找到所请求数据资源的而存储位置,然后通过数据资源访问接口读取数据,并按照请求参数中包含的时间、空间限制将不满足要求的数据过滤掉,最后再按照请求参数中的格式要求将数据转换为对应的格式,返回给数据源服务请求者。本发明与现有技术相比的优点在于:本发明提出的基于数据源服务的城市时空数据汇聚系统,通过数据源服务将底层数据和上层应用隔离开,减少了应用对底层数据存储方式及数据格式的依赖;数据源服务还提供了针对数据的时间、空间以及主题信息的筛选功能,为应用城市数据应用的开发提供了统一的数据源访问接口,方便综合挖掘城市数据中的有效知识,为城市规划决策提供支持。附图说明图1为本发明的系统架构图;图2为本发明的工作流程图;图3为本发明所涉及到的北京市交通小区划分示意图;图4为本发明所涉及到的基于城市公共交通客流的时间段划分示意图。具体实施方式本发明系统架构图如图1所示,数据汇聚过程的工作流程图如图2所示。本发明首先根据数据资源描述模型将平台中接入的数据资源注册到数据元数据信息表中,然后再根据数据源服务描述模型将数据源服务注册到数据源服务元数据信息表中,之后由用户发送数据源服务查询请求,再从返回的数据源服务列表中挑选出最合适的数据源服务,最后再由用户向挑选出的数据源服务发送请求,获取所需数据资源。数据资源注册过程如下:用户通过Web界面,按照数据资源描述模式的形式化定义,将数据资源描述信息注册进数据元数据信息表,以北京市一卡通地铁刷卡数据为例,数据的描述如下所示:(1)数据标识:数据资源名为“beijing_afc”;(2)语义信息:数据资源描述信息为“北京市一卡通地铁刷卡数据”,城市为“北京”,主题对应“交通”,对象是“地铁”,标签包括“公共交通”、“地铁”、“一卡通”三个;(3)字段描述信息:每个字段的描述信息包括数据资源字段名、类型和语义信息。表1北京市一卡通地铁刷卡数据主要字段描述说明字段名类型说明AboardTimeDateTime进站时间AlightTimeDateTime出站时间CardIdString一卡通卡号AboardLineIdString进站线路AlightLineIdString出站线路AboardStationIdInt进站站点编号AlightStationIdInt出站站点编号(4)存储信息:存储主机地址为“10.2.4.60”,存储方式为“HDFS”,HDFS的访问端口号和访问路径分别为“9000”和“/Data/TransData/AFC”,存储的数据记录数为“495612536”,存储数据的起止日期分别为“2015-04-20”和“2015-05-20”;将数据资源描述信息注册进数据的元数据信息表之后,系统向用户返回数据注册成功的消息。数据源服务注册过程如下:用户通过Web界面,按照数据源服务描述模式的形式化定义,将数据源服务的描述信息注册到数据源服务的元数据信息表,以北京市一卡通地铁刷卡数据对应的数据源服务为例,描述信息如下所示:(其他城市相似,因此北京市可以采用城市一卡通代替或相似的表达代替)(1)数据标识:数据源服务名为“beijing_afc_dss”,数据资源名为“beijing_afc”;(2)语义信息:数据资源描述信息为“北京市一卡通地铁刷卡记录数据源服务”,城市为“北京”,主题对应“交通”,对象是“地铁”,标签包括“公共交通”、“地铁”、“一卡通”三个;(3)字段描述信息:每个字段的描述信息包括数据资源字段名、类型和语义信息,此处和表1相同,不再重复说明;(4)请求参数说明:每个请求参数描述信息包括参数名、参数数据类型、参数的语义描述和参数是否必须;表2北京市一卡通地铁刷卡记录数据源服务请求参数说明字段名类型语义描述是否必须timePeriodString交通时段否transZoneNoInt交通小区编号否gridNoInt网格编号否formatInt请求数据格式是dateRangeDate[]请求数据日期范围是(5)返回参数说明:每个返回参数的描述信息包括参数名、参数数据类型、参数的语义描述;表2北京市一卡通地铁刷卡记录数据源服务请求参数说明字段名类型语义描述stateInt请求状态,成功/失败recordsNumInt返回数据量dataString返回数据(6)数据传输方式说明:传输类型为“http”,传输对应的URL为http://10.2.4.60:9999/daas/dss/afc;(7)数据源服务质量:服务响应速度评分为“0.5”,服务可用性评分为“0.95”,服务可靠性评分为“0.95”,用户评分为“0.9”,其中评分以1.0为满分;将数据源服务的描述信息注册进数据源服务的元数据信息表之后,系统向用户返回注册成功的消息。数据源服务查询过程如下:1.用户通过Web界面输入的主题、语义、城市等的关键词,此处以城市“北京”和描述对象“地铁”为例;2.系统根据接收到的关键词,在数据源服务元数据信息表查找所有和“北京”、“地铁”有关的数据源服务;3.将所有找到的数据源服务按照数据源服务描述中的数据服务质量(QoS)进行排序,并返回到Web页面。数据汇聚过程如下:本发明提出的一种基于数据源服务的城市时空数据汇聚方法,包括以下几个步骤:1.以用户输入的主题、城市和语义标签信息的关键词为查询条件,通过数据源服务查询接口找到所有符合条件的数据源服务,这一步对应前述数据源服务查询过程。(1)本例中输入的查询信息为:Request={"city":"北京","object":"地铁"}(2)系统根据输入的Request信息,在数据源服务元数据信息表中查询所有满足条件的数据源服务:系统查找数据源服务信息表中所有城市标签为“北京”以及描述对象为“地铁”的数据源服务,这些满足条件的数据源服务集合为resultDssList;(3)将resultDssList中的数据源服务按照数据源服务描述信息中的数据服务质量排序,并返回到Web界面。此处以[DSS1,DSS2,…,DSSn]代表返回的数据源服务列表;2.根据返回的数据源服务描述信息以及服务质量信息选出最符合要求的数据源服务,此例中选中的数据源服务名为beijing_afc_dss(前面数据源服务注册的示例),将其作为要请求的数据源服务;3.根据上一步选出的数据源服务beijing_afc_dss的描述信息,确定请求参数,并发送数据源服务请求;(1)本例中要请求的是2015年4月20日早高峰时段、地点位于编号为42的交通小区、格式为csv的北京市一卡通地铁划卡数据:表1请求参数说明参数说明值DateRange日期范围["2015-04-20","2015-04-20"]TimePeriod交通时段早高峰TransZoneNo交通小区编号42Format请求的数据格式csv本发明将城市按照交通小区划分,将城市分为1911各区域,如划分情况图3所示;本发明根据交通客流分布将一天划分为六个交通时段,分别是:(a)早低峰:5:00–7:00(b)早高峰:7:00–10:00(c)日平峰:10:00–16:00(d)晚高峰:16:00–20:00(e)晚低峰:20:00–22:00(f)夜间:22:00–次日5:00交通时段的划分示意图如图4所示;(2)将RequestParam作为相求参数向http://10.2.4.60:9999/daas/dss/afc发送数据源服务请求。4.数据源服务接收到请求后,按照请求参数执行时空数据筛选以及数据格式转换操作,并将得到的结果返回给数据源服务请求者。(1)接收到请求后,数据源服务首先根据数据资源的注册信息找到数据标识为“beijing_afc”的数据信息,通过数据接入层提供的数据资源访问接口读取beijing_afc对应的数据资源;(2)数据源服务在读取数据的过程中,通过筛选只保留2015年4月20日早高峰时段且地点属于编号为42的交通小区的数据;(3)将上一步筛选得到的数据以csv(以逗号分隔的文本格式)格式表示并返回。总之,本发明在一定程度上消除了城市数据的异构性,为数据资源使用者提供了统一的访方法,方便了城市数据应用对数据资源的使用。提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1