一种泛在时空信息关联与聚合方法与流程

文档序号:14249480阅读:1661来源:国知局
一种泛在时空信息关联与聚合方法与流程

本发明属于地理空间数据关联处理领域,具体涉及一种泛在时空信息关联与聚合的方法。



背景技术:

在大数据时代的大背景下,数据的互操作以及相互共享具有重大意义和非常大的应用价值以及研究价值。然而,由于移动互联数据存在着不完全结构的特点,使得数据与数据间的关联以及共享受到了阻力。面对互联网上日益增多的大量异类、异构、分布、多源的数据信息,如何依据信息资源中的知识关系以及对象来融合相互之间存在关联关系的内容,从而达到知识的高效发现与组织,是当前移动互联网络下急需解决的问题。国内外对地理空间关联数据的研究取得丰硕的成果,其中地理链接数据(geolinkeddata)已经成为地理空间数据共享与集成领域的重要研究和实践内容,如openstreetmap等都在将自己拥有的海量地理空间数据根据linkeddata原则来添加新的语义维度。



技术实现要素:

为了解决上述技术问题,本发明提供了一种泛在时空信息关联与聚合的方法,通过使用一种结构化的描述模型对泛在时空信息进行表达,对泛在时空数据中人、活动、对象的信息解析和解读,建立它们与地理位置之间的关联模式,实现泛在信息的位置聚合。

本发明所采用的技术方案是:一种泛在时空信息关联与聚合方法,其特征在于,包括以下步骤:

步骤1:对泛在时空信息进行清洗,筛选与整合;

步骤2:建立规范化、结构化的描述模型;

步骤3:将泛在时空信息同化成结构化的描述模型;

步骤4:建立模型元素之间的关联规则,根据规则对结构化的信息进行关联。

相对于现有技术,本发明的有益效果是:本发明能够有效解决泛在时空下海量空间数据存在的碎片化、多样性、离散化的问题,为将网络资源汇集成关联的数据网络提供了新的方法。

附图说明

图1为本发明实施例的泛在时空数据预处理模块图;

图2为本发明实施例的五元组模型示意图;

图3为本发明实施例的泛在时空信息同化成结构化的描述模型的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。

请见图1,本发明提供的一种泛在时空信息关联与聚合方法,包括以下步骤:

步骤1:对泛在时空信息进行清洗,筛选与整合;

对泛在时空信息进行查重检验和可用性检验,对泛在时空信息属性完整性相互补充。

在查重检验中,如果多条数据包含的对应的五元组元素信息完全相同,只保留其中一条数据。否则,全部保留。

在可用性检验中,判断数据是否含有地理位置信息和主体元(人、事件、对象)信息,若数据中包含位置信息和主体元信息,保留该数据,否则,去除该数据。

在属性完整性补充中,包含同源数据属性之间的补充和异源数据属性之间的补充。同源数据之间属性补充,即根据同源数据中的一些具有固定特征数据的属性对缺失属性的数据进行补充(如一个时间段内的出租车gps数据有部分缺失,可根据这一整段的数据特征进行补充);异源数据之间属性补充,即多种源数据之间属性的相互补充。

步骤2:建立规范化、结构化的描述模型;

首先建立以人、活动、对象、时间、位置为基本元素的五元组的描述模型。模型见附图2。采用两层嵌套的xml结构进行描述:第一层为二元结构,包括主体元与时空元。此二元都为必选项,即非空项。该层约束性较强。第二层为基于二元结构的五元结构,其中时空元扩展为时间、位置,主体元扩展为人、活动、对象,该层结构表示为{{人、活动、对象},{时间、位置}},即<<p,a,o>,<t,l>>。在该结构中,位置为必选项,人、活动、对象三者必须有其一。该层约束性较弱。xml结构描述为:

然后使用xmlschame对提出的xml数据格式进行规范。规范结构描述为:

步骤3:将泛在时空信息同化成结构化的描述模型;

操作流程如附图3所示,具体包括以下子步骤:

步骤3.1建立统一的空间基准和时间基准,建立位置、活动、对象的本体库。在建立统一的空间基准中,使用2000国家大地坐标系,在建立统一的时间基准中,时间格式定义为“日期+时间”的格式“yyyy-mm-ddhh:mm:ss”例如,“2017-01-0100:00:01”。

步骤3.2将泛在时空信息进行分解和解析,形成单个元素。即从预处理后的数据中抽取人、活动、对象、时间、位置信息,其中包括对文本信息的分词处理。例如表1所示,在带有位置信息的微博数据中,提取坐标和地址信息以及时间信息,可从微博文本中提取活动、对象、人物信息。

表1

步骤3.3将处理后的异构数据映射成五元组数据模型,如表2所示。

(a)在五元组的映射模块中,若存在坐标信息,判断获得的坐标信息是否为规定的坐标系下的坐标,若非规定坐标,则进行坐标转换。

(b)在五元组的映射模块中,若存在时间信息,判断获得的时间信息是否为规定的标准时间,若非规定时间格式,则进行时间转换。

表2

步骤4:建立模型元素之间的关联规则,根据规则对结构化的信息进行关联;

具体实现包括以下子步骤:

步骤4.1:建立五元组各个基本元素之间的关联规则,分别建立人与人、活动与活动、对象与对象、时间与时间、位置与位置的关联规则;

(1)人与人(person)的关系

根据id判断出p1与p2是同一人,或者不是同一人(即其他社会关系);

(2)对象与对象(object)的关系;

o1与o2之间、存在的关系为同一个、同一类、替代品或者互补品关系;

(3)活动与活动(activity)的关系;

a1与a2之间存在的关系为同一件、同一类、因果关系或者伴生关系;

(4)位置与位置(location)的关系;

l1与l2之间存在的关系为同位、邻近或者不同地关系;

(5)时间与时间(time)的关系;

t1与t2之间存在的关系为同时或者不同时关系;

步骤4.1中各个基本元素之间存在的关联规则为:

(1)人与人的关联规则

判断p1.id==p2.id是否为真,如果为真,则表明为同一人,否则,利用sp(p1.id,p2.id)计算两个人的关系相似度,判断是否属于其他社会关系。其中p1、p2指两条数据中的人,id指人的标识号,sp指人的相似度的计算方法。

(2)对象与对象的关联规则

判断obj1.name=obj2.name是否为真,如果为真,则表明为同一个对象,否则利用so(obj1.kind,obj2.kind)计算对象的相似度,判断是否为同一类、替代品或者互补品关系。其中obj1、obj2指两条数据中的对象,name指对象的名称,kind指对象的种类,so指对象的相似度的计算方法。

(3)活动与活动的关联规则

判断act1.name=act2.name是否为真,如果为真,则表明为同一个活动,否则利用sa(act1.kind,act1.kind)计算活动的相似度,判断是否为同一类、因果关系或者伴生关系。其中act1、act2指两条数据中的活动,name指活动的名称,kind指活动的种类,sa指对象的相似度的计算方法。

(4)时间与时间的关联规则

①判断时间粒度tlod1==tlod2,如果为真,则按照下面的公式计算,t=|tpoint1-tpoint2|,若t为0,表明为同一时间点,若t<εt,表明为同一时间段,否则为其它时间关系。tpoint1、tpoint2指两条数据中的具体时间;εt指某一特定的时间阈值,根据需求具体设定;tlod1、tlod2分别表示的是两条数据中时间的粒度值。

②判断时间粒度tlod1==tlod2,如果为假,使用lt(tlod1,tlod2)进行时间粒度转换,转换成相同时间粒度之后,使用步骤①的规则。其中,lt为时间粒度转换方法。

(5)位置与位置的关联规则

①判断位置粒度loclod1==loclod2,如果为假,使用ll(loclod1,loclod2)进行位置粒度转换,如果为真,进行下一步。其中,ll为位置粒度转换方法,loclod1、loclod2分别表示的是两条数据中位置的粒度值。

②判断位置类型是否相同,如果不同,使用cl(locvalue1,locvalue2)进行位置类型转换,如果相同,进行下一步。其中,cl为位置类型转换方法。其中locvalue1,locvalue2为两个位置数据。

③在相同位置类型、相同位置粒度的情况下,使用sl(locvalue,locvalue2)计算两位置的相似度,在设定的阈值内,根据相似度判断得到两个位置是否表示为同一位置、相邻或者不同地关系;其中,sl为计算位置相似度的方法。

具体以位置关联为例,地理位置的描述常见的位置类型有:标准地址、经纬度、邮政编码、电话号码、ip地址、自我中心位置、线性参考位置、三维位置、动态位置等。泛在信息在位置的关联过程中,尺度、粒度(表示描述空间范围的详细程度和能力)不一定一致,需要建立不同位置类型和不同粒度之间的映射图,每一种位置类型可以表达空间范围的精细程度和能力如表3所示。

表3

根据上述情况位置关联分为相同粒度信息的关联和不同粒度信息的关联。其中相同粒度的信息关联具体可分为相同粒度相同类型、相同粒度不同类型两部分。与相同粒度类似,不同粒度信息间的关联也可以分为不同粒度相同类型、不同粒度不同类型两分。

(a)判断两种位置的粒度大小的关系;如果相同,则进行下一步;如果不同,则将较小粒度的信息转换为较大粒度的位置表示;

(b)判断两种位置的类型是否相同;如果相同,则进行下一步;如果不同,则进行类型转换,转换成同一种类型表示;

根据选定转换的位置类型选择特定的相似度计算方法,并计算位置的相似度;在设定的阈值内,根据相似度,确定两位置是否同位;若同位,则进行同位关联,否则作其他处理。

步骤4.2:基于单个元素关联的原理扩展成多级关联,建立多条记录间元组多层次关联规则。

应当理解的是,本说明书未详细阐述的部分均属于现有技术。

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1