时空地理空间可视化的分析方法与流程

文档序号:11545221阅读:2669来源:国知局
时空地理空间可视化的分析方法与流程

本发明涉及时空数据处理领域,特别涉及一种时空地理空间可视化的分析方法,其主要用于面向开放事件。



背景技术:

随着大数据时代的到来,每天都有大量的文本时空数据产生,数据量大,杂乱零散、且多数为非结构化数据,人们淹没在数据的海洋之中。如何从这些文本数据中提取出用户感兴趣的信息,并充分利用其时空属性,对事件进行分析是急需解决的问题。

事件抽取是从非结构化文本中抽取出事件信息,以结构化的形式呈现,是一种有效的数据组织方式。传统的事件抽取采用两步策略,包括事件类别的识别与分类以及事件元素的识别,但其往往局限于特定领域,且依赖于已标注文本。随着twitter和微博等开放领域文本的异军突起,ritter等人提出了开放领域的事件抽取方法,采用链式结构,容易产生层叠错误的问题。weifeng等在twitter数据流中,采用hashtag聚类的方法,从不用的时空粒度抽取出事件信息,这种方法考虑了事件的时间属性和空间属性,但未综合考虑事件的时空属性,且依赖于监督学习框架,难以应用到大规模未标注的文本中。



技术实现要素:

鉴于现有方案存在的问题,为了克服上述现有技术方案的不足,本发明提出了一种时空地理空间可视化分析方法。

根据本发明的一个方面,提供了一种时空地理空间可视化的分析方法,包括以下步骤:对未标注的源数据进行预处理,获得时间实体、地点实体及事件词;将时间、地理经度、地理纬度作为三个维度构建数据立方体;将选定时空粒度下的事件词聚类为至少一个事件;以及构建时空地理信息可视化系统。

从上述技术方案可以看出,本发明具有以下有益效果:

本发明针对非结构化未标注大规模文本,不局限于专门领域,不依赖于监督学习框架,能够高效率地提取出高质量的某一时间某一地点事件聚类结果,可以提取不同时、空粒度下的事件,建立交互性良好的时空地理信息可视化系统;

对文本数据进行预处理,获得事件词,用于表征描述事件;

建立数据立方体,用于方便提取不同时空粒度下的事件词,充分利用事件的时空属性;

对事件词进行近邻聚类,分成多个事件,提高事件抽取的效率及准确性;

构建可视化系统,实现了事件可视化在时空粒度上的可视化。

附图说明

图1是本发明实施例时空地理空间可视化分析方法的流程图;

图2是图1中源数据预处理的流程图;

图3是图1中构建数据立方体的流程图;

图4是图3中数据立方体构建的示意图;

图5是图3中数据立方体时空纬度上的处理示意图;

图6是是图1中对事件词进行聚类的流程图;

图7为可视化事件抽取结构的示例图。

具体实施方式

本发明某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本发明的各种实施例可以许多不同形式实现,而不应被解释为限于此数所阐述的实施例;相对地,提供这些实施例使得本发明满足适用的法律要求。

在本说明书中,下述用于描述本发明原理的各种实施例只是说明,不应该以任何方式解释为限制发明的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。下述描述包括多种具体细节来帮助理解,但这些细节应认为仅仅是示例性的。因此,本领域普通技术人员应认识到,在不悖离本发明的范围和精神的情况下,可以对本文中描述的实施例进行多种改变和修改。此外,为了清楚和简洁起见,省略了公知功能和结构的描述。此外,贯穿附图,相同附图标记用于相似功能和操作。

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

本发明实施例提供了一种时空地理空间可视化分析方法,其主要用于面向开放事件,充分利用事件的时空属性,提高事件抽取的效率和准确性,进而能够进行更为有效的可视分析。

图1示出了本发明实施例时空地理空间可视化分析方法的流程图,请参照图1,本方法实施例中的时空地理空间可视化分析方法具体包括:

s1、获取源数据;

具体的,本实例针对开放事件数据,采用网络爬虫在网络上抓取开放领域的文件,例如选取了6个月,12万条的文本数据,每个文件中包含大量数据,形成未标注的文件集;

s2、对未标注的源数据进行预处理,具体包括以下步骤,如图2所示:

s21、对未标注文件中的数据进行分词;

具体的,对未标注的文件中的数据进行分词,例如,采用自然语言处理工具ictclas对未标注的文件进行中文分词。

s22、对分词结果进行词性标注;

具体地,对各个分词进行词性标注,区分名词、动词、形容词等;

s23、命名实体识别;

具体地,针对名词进行命名实体识别,获得时间实体、地点实体及人名实体;

s24、获取事件词。

具体的,将人名实体和事件触发词作为事件词,其中事件触发词包括动词和/或动名词,本实施例中,根据timebank数据集的标注指南对n篇新闻文本的事件触发词进行标注,将其作为训练集训练条件随机场模型,用于提取事件触发词,n大于等于500。

s3、构建数据立方体,在不同时、空层级下储存事件词,对数据立方体进行上卷、下钻、分块、切片操作,可以提取不同时、空粒度下的事件词;具体包括以下步骤,如图3所示:

s31、构建数据立方体的坐标系;

具体地,数据立方体具有三个纬度,包括与时间对应的时间轴,以及与地理位置对应的地点的经纬度对应的经度轴和纬度轴;

s32、将事件词置入数据立方体中;

具体地,如图4所示,取事件词所在文件日期作为事件词对应的时间,对事件词所在文件中多个地点实体进行消歧、合并,例如采用最近邻的方法,取与事件词最相近的地名作为事件词的发生位置,将其映射到地理数据库,得到地点对应的经纬度,将某一时间,某一地点的事件词储存在数据立方体对应的位置。

图5示出了数据立方体时空纬度上的处理示意图,如图5所示,可以对数据立方体进行上卷、下钻、分块、切片操作,可以提取不同时、空粒度下的事件词。

s4、对选定时空粒度下的事件词进行聚类;具体包括以下步骤,如图6所示:

s41、获取事件词的词向量;

首先,统计数据立方体中所有事件词的共现信息,生成共现矩阵;

具体地,事件词之间的关联度可由词语之间共现概率表示,如果事件词i和事件词j共同出现于同一文件,则称事件词i和事件词j共现,两事件词之间的共现概率反比于出现距离,根据如下公式计算事件词i和事件词j的共现概率:

其中ldi表示事件词i在文件d中的出现位置,ldj表示事件词j在文件d中的出现位置,d表示整个源数据的文件数量。根据如下公式计算事件词j出现于事件词i的上下文的频率:

其中,k表示事件词i上下文中出现的事件词。

所有事件词之间的频率pij组成共现矩阵。

然后,将共现矩阵放入glove模型中训练,采用梯度下降法,得到每个事件词的词向量w,每一事件词与其词向量一一对应,事件词可以用其词向量来表征。

s42:从数据立方体中在选定的时空粒度下提取事件词;

对数据立方体进行上卷、下钻、分块、切片操作,可以提取不同时、空粒度下的事件词,例如提取某日某省or某月某市or某年某国的事件词;其中,上卷为沿着维的层次向上聚集汇总数据,例如沿着时间维上卷,求出月度、季度、年度的数据,下钻为上卷的逆操作,即沿着维的层次向下,获得更详细的数据,分块为选择维中特定区间的数据,比如选择2015年第一季度到2016年第二季度的数据,切片为选择维中特定的值进行分析,比如只选择2016年第二季度的数据。上述上卷、下钻、分块、切片操作操作都是改变维的层次,变换分析粒度的操作。

s43、对提取的事件词进行实时聚类;

具体地,对于事件集e={e1,e2,…,ek},根据如下公式计算事件ei={w1,w2,…wn,…wn}的均值向量作为每个事件ei的聚类中心:

其中,wn表示事件ei中包含的第n个事件词的词向量,用于表征n个事件词,n表示事件ei包含的总事件词数目。

对于新出现的事件词w’,根据如下公式计算事件词w’与事件集中每一事件ei的余弦相似度si:

获得最大余弦相似度的smax,若smax大于等于阈值,则将事件词w’归为事件emax类;否则将事件词w’单独聚为一个事件类。

其中,阈值s为选定时空粒度下所有事件词的平均余弦相似度,由下式获得:

其中n为选定时空粒度下事件词的个数,wi为选定时空粒度下第i个事件词的词向量,wj为选定时空粒度下第j个事件词的词向量。

步骤5、构建时空地理信息可视化系统。

具体地,利用d3.js将空间可视化模型与时间概念相结合,实现时空可视化模型,基于不同的时间粒度和空间粒度,展现出事件抽取结果,d3.js是一个javascript库,它利用现有的web标准,让使用者以更简单的方式(数据驱动)制作炫目的可视化效果,把数据更鲜活形象地展示出来。

以2015年4月上海市的事件抽取结果为例,如图7所示,清晰明了的展示了2015年4月上海市的经过聚类的事件抽取结果。

前面的附图中所描绘的进程或方法可通过包括硬件(例如,电路、专用逻辑等)、固件、软件(例如,被承载在非瞬态计算机可读介质上的软件),或两者的组合的处理逻辑来执行。虽然上文按照某些顺序操作描述了进程或方法,但是,应该理解,所描述的某些操作能以不同顺序来执行。此外,可并行地而非顺序地执行一些操作。

需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1