一种面向公共安全事件信息获取的时空聚类方法与流程

文档序号:11177344阅读:458来源:国知局
一种面向公共安全事件信息获取的时空聚类方法与流程

本发明属于众源网络数据应用于公共安全事件管理、监控、预警、应急响应领域,特别涉及一种面向公共安全事件信息获取的时空聚类方法。



背景技术:

随着全国经济的高速发展以及全国城镇化的不断推进,越来越多的人口集中到城市中来。城市人口数据量的急剧增长为城市公共管理造成了一定的麻烦。目前,城市各类公共事件的管理主要有政府部门负责,包括有城管部门、警察机关、消防机关、医疗部门、防灾减灾中心、灾难应变指挥中心等(朱武雄,2010;徐志胜等,2005;),这些政府机构为城市公民的生活以及生命财产提供了一道有效的安全屏障。然而,由于城市每天发生公共事件数量庞大,政府相关部门人力物力资源缺少,再加之各部门之间协调存在一定困难,导致部分公共事件得不到有效的处理。

近年来,随着互联网和移动便携技术的发展,使越来越多的城市公民能随手分享身边的事情,这为普通大众参与到公共安全事件的管理提供了可能。事实上,根据相关研究学者的调查显示,正处于转型期的中国社会也迫切渴望普通群众能够参与到公共安全事件的管理(王莹等,2015;徐琳,2014;锁利銘,2014;),一方面,公众参与能体现出普通公民在城市日常事物管理中的参与、决策作用,发挥出公民的主体性,另一方面,城市公共管理需要公众的积极参与,以弥补当前信息、资源的不足。总而言之,公众参与既是城市公共管理的发展趋势,又是当前情势下的迫切需要。目前,公众参与到公共安全事件管理的方式主要是通过网络社交媒体发表身边的一些事件信息或者对某些事件的看法,收集这些数据并加以提取分析,可以获取大量事件相关信息,进而应用于公共安全事件的管理,提高事件处理效率,使事件管理走向智慧化(张娅楠,2014;rossc等,2011;)。

以新浪微博为例,新浪微博作为中国最大的网络社交平台,日平均活跃用户上亿,已成为公众参与公共安全管理的一个重要平台,每天都有众多的用户通过微博平台上传有关公共安全事件管理的微博数据,例如,2015年5月中旬长沙市连续下降暴雨,在政府相关机构快速发布暴雨预警并开展其他防洪防涝工作的同时,新浪微博平台上已有1840000多条相关数据,其内容中包括救援信息、灾情信息、灾情预警信息等,收集整理这些数据,挖掘出其中有用的信息,将辅助工作人员进行决策,并帮助减灾工作的快速、有效进行;又如,2014年浙江奉化塌楼事件,公众纷纷在互联网上对政府处理结果发表意见,人民网的舆情分析师提取了这些数据并分析,将公众意见数据进行处理,得到公众这对此次公共安全事件处理结果倾向态度,为后续的事件处理提供了参考,避免事件处理不当引起民愤;又如,2014年云南鲁甸发生地震,互联网上不断有公众上传灾区情况,包括救援物资发放情况,重点受灾区域情况等,一些救灾工作人员搜集网上的救灾数据,并整理分析后提取出数据中的救助信息,这些信息不仅帮助受灾人员及时了解救援情况,而且有利于灾区施救人员全面了解灾情情况,推动了救灾的快速进行。

然而,根据调查研究显示,目前公众在网络平台中产生的数据主要被应用于公共事件发生后的舆情监控与分析领域,在公共安全事件管理、监控、预警以及应急响应等领域相应的理论和方法较少,并鲜有应用。



技术实现要素:

针对当前公共安全事件处置过程中,存在数据获取不及时、信息源较少等问题,本发明结合网络众源数据的特点,提出了一种面向公共安全事件信息获取的时空聚类方法,并将其应用于公共安全事件管理中,旨在充分发挥网络众源数据的作用,提高公共安全事件处置效率。

为了实现上述技术目的,本发明的技术方案是,一种面向公共安全事件信息获取的时空聚类方法,包括以下步骤:

步骤1:获取与突发公共安全事件有关的社交媒体数据,并将数据存入数据缓存区a中;

步骤2:遍历数据缓存区a中的每条数据,利用基于条件随机场模型的中文切词算法,将每条数据切成若干词汇的集合;再从中抽取数据的时间、位置、事件类型和事件等级属性,并将数据规则化为<时间,位置,事件类型,事件等级>4元组;将规则化数据存入数据缓存区b;

步骤3:根据该突发公共安全事件的自身信息,提取该突发公共安全事件的发生时间、发生位置和事件类型以建立公共安全事件的时空聚类的核信息,并以<时间,位置,事件类型>3元组作为时空聚类的核信息;

步骤4:遍历缓存区b中的数据,分别计算每条数据到核信息的时间距离、空间距离和文本距离,将3种距离均小于给定阈值的数据,归入候选结果数据集合c;然后根据集合c中的事件等级属性,将数据分成若干簇,完成时空聚类;

步骤5:根据聚类结果的时空特征,将其叠加到地图上,展现事件在时间、空间上的发展过程。

所述的方法,步骤1中获得与突发公共安全事件有关的社交媒体数据,包括以下步骤:根据该突发的公共安全事件分类,利用社交网站提供的api函数,输入事件关键词、时间范围和事件发生的地点,获取与该事件有关的社交媒体数据。

所述的方法,步骤2所述的数据规则化包括以下步骤:

(1)遍历缓存区a中的每条数据,利用基于条件随机场模型的切词算法,对该条数据进行分词处理,将每条数据切成若干词汇的集合;

(2)遍历每条数据的词汇集合,利用时间抽取算法,确定每条数据的时间属性;

(3)遍历每条数据的词汇集合,利用位置抽取算法,确定每条数据的位置属性;

(4)遍历每条数据的词汇集合,利用规则归并算法,确定每条数据的事件类型和等级;

(5)根据(2)~(4)过程确定的属性信息,将每条数据规则化为<时间,地点,事件类型,事件等级>4元组,即使用该4元组概化每条数据;

(6)将规则化的数据条目存入数据缓存区b。

所述的一种面向公共安全事件信息获取的时空聚类方法,所述的步骤4包括以下处理步骤:

(1)设定聚类的时间距离、空间距离和文本距离3个距离阈值;

(2)遍历缓存区b的数据,剔除所有与核信息事件类型不相同的数据;

(3)遍历清理后的缓存区b,计算该条数据与核信息的时间距离、空间距离和文本距离,当三种距离均小于给定的对应距离阈值时,该条数据归入事件数据集合c;

(4)遍历集合c,依据每条数据元组的事件等级,将集合c划分成不同等级的数据簇,完成时空聚类。

所述的一种面向公共安全事件信息获取的时空聚类方法,步骤1中所述的公共安全事件是指突发的自然灾害、重特大事故、环境公害和人为破坏。

所述的一种面向公共安全事件信息获取的时空聚类方法,所述的api函数是指网络社交网站发布的用于获取网络社交数据的应用开发接口函数,用于依据关键词、时间范围、地理范围获取实时的网络社交数据。

中所述的一种面向公共安全事件信息获取的时空聚类方法,步骤2中所述的中文切词方法是指基于条件随机场模型的中文分词算法,利用条件随机场模型将句子、段落切分成若干词汇的集合后并标注每个词汇的词性,以提取文本中的关键信息。

中所述的一种面向公共安全事件信息获取的时空聚类方法,步骤3和4中所述的时空聚类核信息是指数据聚类的基准信息,用于通过计算数据与核信息的距离,确定是否归入聚类结果集;

所述的时间距离是指发表数据包含的时间与核信息设定时间的时间差;

所述的空间距离是指数据描述的空间位置与核信息设定位置的空间平面距离;

所述的文本距离是指文本的内容相似程度,通过主题模型计算得到0~1之间的相似度数值,数值越靠近1,表示文本越相似,文本距离越近,否则本距离越远。

中所述的一种面向公共安全事件信息获取的时空聚类方法,所述的步骤2中,所述的时间抽取算法是指根据文本切分词条的词性标注,提取出被标注为时间词性的词条;然后根据时间词条的词意,将文本时间转换为标准时间的格式;

所述的位置抽取算法是指根据文本切分词条的词性标注,抽取出被标注为地名的词条;然后利用公知的地理编码服务将地名转换为经纬度的数据格式;

所述的规则归并算法是指利用语法分析算法,分析文本数据的成分构成,并根据依存关系,提取核心谓语后面的数据作为事件描述内容;然后建立事件类型词典,根据词典匹配算法,判断事件描述中所属的类型;最后建立语气助词的字典和事件等级分类规则,根据词典匹配算法,判断数据中的事件类型和分级。

本发明的技术效果在于,城市公共管理涉及范围广,事件类型繁多,处理过程复杂,人力物力耗费巨大。本发明结合互联网社交平台发展和应用的特点,提出了从网络社交数据中抽取与公共安全事件有关信息的方法,具有以下几个优点:

(1)利用网络社交数据,实现了面向公共安全事件的数据获取与分析方法,能使普通公民发布的信息用于公共安全事件的管理和处置,提高公共安全事件的处置效率。

(2)利用文本处理方法,提取出数据中的时间、空间和事件描述信息;进而,利用时间提取算法,确定数据包含的时空信息;然后,利用基于三重距离的时空聚类算法,实现了信息的提取/聚类,能有效提高信息获取和分类效率。

(3)根据时空聚类结果的时空、空间和事件等级信息,将结果叠加到地图上,从空间、时间维度上展现事件的发展变化过程。

采用本发明,能够实现公共安全事件的智慧化管理,能实时地从网络社交媒体数据中获取事件有关的动态和舆论走向,有效提高公共安全事件的管理效率和民众满意度。

附图说明

图1为本发明的流程示意图;

图2为本发明的原理结构图;

图3为网络文本数据获取流程图;

图4为文本数据中的时空、事件信息提取流程;

图5为三重距离聚类算法流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。

本发明的简要步骤参见图1,包括:

(1)根据公共安全事件特征,确定要搜索数据的关键词、时间范围和地理空间范围,利用网络社交平台提供的api函数,获取实时数据。

(2)利用中文切词算法,将获取的数据逐条进行分词;根据分词结果,抽取数据的时间、位置、事件类型、事件等级等属性信息,进而将数据规则化为<时间,地点,事件类型,事件等级>的4元组。

(3)根据选择的事件类型以及输入的事件发生时间、位置,确定时空聚类的初始信息,记作核信息。

(4)计算规则化数据与核信息之间的时间、空间、文本距离,将三种距离均小于给定阈值的数据归入结果集;进而根据结果集中每条数据的事件等级,划分为若干簇,完成时空聚类。

(5)结合地理信息的可视化功能,将时空聚类结果展示在地图上。

本发明的处理过程包括网络文本数据获取、数据中时空信息提取、事件类型及分级信息抽取取,以及基于三重距离的文本聚类、聚类结果可视化等过程,原理如图2所示。具体处理过程包括以下几个步骤:

步骤1:根据突发的公共安全事件分类,输入事件关键词、时间范围和事件发生的地点,利用网络社交平台提供的api函数,获取与该事件有关的网络社交众源数据,并将数据存入数据缓存区a中。

步骤2:规则化缓存区a中的数据,以下从6个方面阐述规则化过程:

(1)遍历缓存区a中的每条数据,利用基于条件随机场的切词算法对该条数据进行分词处理,将每条数据切成若干词汇的集合。

(2)遍历每条数据的词汇集合,利用时间抽取算法,确定每条数据的时间属性。

(3)遍历每条数据的词汇集合,利用地点抽取算法,确定每条数据的位置属性。

(4)遍历每条数据的词汇集合,利用规则归并算法,确定每条数据的事件类型和等级。

(5)根据(2)~(4)过程确定的属性信息,将每条数据规则化为<时间,地点,事件类型,事件等级>4元组,即使用该4元组概化每条数据。

(6)将规则化的数据条目存入数据缓存区b。

步骤3:建立公共安全事件的时空聚类的核信息,该信息包括公共安全事件的类型、发生时间、发生位置,从而将核信息表述为<时间,地点,事件类型>3元组。

步骤4:依据时空聚类规则,利用三重距离聚类算法,完成面向公共安全事件的时空聚类。以下从4方面描述该步骤:

(1)设定聚类的时间距离、空间距离、文本距离等3个距离阈值。

(2)遍历缓存区b的数据,剔除所有与核信息事件类型不相同的数据。

(3)遍历清理后的缓存区b,计算该条数据与核信息的时间距离、空间距离和文本距离,当且仅当三种距离均小于给定的对应距离阈值时,该条数据归入候选结果集合c。

(4)遍历集合c,依据每条数据元组的事件等级,将集合c划分成不同等级的数据簇,完成时空聚类。

步骤5:根据聚类结果的时空特征,将其叠加到地图上,展现事件在时间、空间上的发展过程。

如图2所示,本发明主要包括三个环节:(1)获取公共安全事件相关的网络数据;(2)提取数据中的时空及事件信息;(3)建立公共事件的核信息,利用三重距离聚类算法,完成面向公共安全事件的时空聚类,并将聚类结果可视化。

下面按三个环节分别阐述实施过程,下列环节中a表示网络文本数据存储数据库,b表示提取后的信息存储数据库:

公共安全事件相关的网络社交数据获取:

在公共安全事件发生后,利用本发明软件提供的数据下载程序,结合事件的关键词、时间范围和地理范围,可以快速下载与事件相关的网络社交数据。首先,输入事件关键词、发生的时间范围和地点,系统自动生成数据搜索参数;然后,选择网络社交平台,系统调用网络社交平台提供的api函数,自动将下载数据并存入数据库a。实现流程如图3所示。

本实施例中利用html5+javascript程序语言,结合第三方网络社交平台提供的数据访问api函数,可实现基于web的数据下载。

数据中时空及事件信息的提取:

利用基于条件随机场的中文分词算法,将文本数据切分成若干词组,并标注每个词汇的词性。根据词性标注结果,提取被标注为时间类型的词词,根据时间词典和转换规则,将其转换成标准的“yyyy-mm-ddhh:mm:ss”的时间格式;提取被标注为地名/位置类型的词组,利用地理编码算法,将地名/位置转换成地理坐标;利用依存句法分析算法,提取出文本数据中的事件描述信息,根据事件类型词典和事件等级划分规则,确定事件类型和事件的等级;最后,将提取出来的时间、空间以、事件类型和分级存入数据库b。实现流程如图4所示。

本实施例基于开源的中文分词程序hanlp,使用eclipse和tomcat集成开发环境,能够基于网络社交文本数据对时空及事件信息进行提取,实现了文本数据的切分、信息的自动提取、信息存储等功能。

利用三重距离实现信息聚类和结果可视化:

首先,给定公共安全事件的核信息,包括事件的时间、地点和事件类型,选择聚类的时间距、空间和文本距离阈值;然后,计算数据库b的每条记录与核信息的时间距离、空间距离和文本距离;最后,将三个距离都小于给定阈值的信息放入到一个候选结果中;最后,根据候选结果的事件分级,将候选结果划分成若干簇,完成时空聚类。

聚类结束后,利用网络地图,将聚类结果分时间维度,利用热力图、密度图等形式展示在地图上。实现流程如图5所示。

本实施例使用javascript开发语言,实现了基于三重距离的时空聚类算法,进而利用百度地图javascriptapi,实现了文本信息聚类结果的可视化。

应该说明的是,以上实施方法仅用来说明本发明的技术方案而非限制。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1