基于网格化管理的气象与城市运行体征关联规则挖掘方法与流程

文档序号:33712996发布日期:2023-04-01 00:54阅读:104来源:国知局
基于网格化管理的气象与城市运行体征关联规则挖掘方法与流程

1.本发明涉及气象分析技术领域,尤其涉及一种基于网格化管理的气象与城市运行体征关联规则挖掘方法。


背景技术:

2.精细化治理代表着城市未来的治理方向,也是城市建设卓越全球城市面临的重要挑战。当前城市网格化管理通过细分城市管理单元、设立专门机构、统一工作标准、委派网格巡查员等,对责任网格内的事项进行巡查,将发现的问题通过特定的信息系统传送至处置部门予以处置,已成为强化基层建设、完善社区治理、实现社会治理“社会化、法治化、智能化、专业化”的重要实践手段。这种新型的城市管理模式,将社会治理的重心真正下移到基层社区,以“管理下沉、资源整合、块状细分”的方式大大提升了治理的精细化程度和及时响应程度。虽然当前网格化管理具备实时监控的机制优势,侧重于城市管理中社会治安突发事件的预置与处理,但其使用效率与事后管理效用还存在一定的不足,而网格巡查数据作为城市运行和城市精细化治理的重要支撑数据,有必要对其进行充分利用,进一步提取数据价值。
3.目前已有一些学者开展了气象与城市运行相关数据的分析研究,其中杨辰等人采用自然语言处理方法提取了110报警灾情信息,并分析了致灾的气象条件;任永建等人开展了气象因子对夏季最大电力负荷的敏感性分析,建立了武汉夏季最大电力负荷的预测模型;bi等人采用数据驱动方法开展了气象对城市交通状况的影响分析;park等人分析了气温与交通事故之间的关系。另外还有不少学者也开展了针对城市网格化管理创新模式和管理机制的学术研究,以及基于数据科学方法的网格热线数据分析。在现有研究中,常燕军等人利用arima模型,对网格化管理数据进行了趋势预测;彭晓等人基于“12345”市民服务热线开展了市民来电的时间、空间和类型特征分析,并分析了各类问题的时间变化特征和空间分布模式;王杰艺通过对城市管理事件的汇聚抽取,进一步实现了特定类别事件的模式挖掘和预测。
4.网格化管理数据对于城市运行体征有较好的指示意义,但现有研究对于揭示精细尺度上城市管理事件的时空规律性还存在较大不足,并且气象条件往往会对事件的发生发展产生影响,但现有研究尚缺乏气象条件对事件发生的规律分析。


技术实现要素:

5.为克服现有技术中存在的缺陷,本发明提出了一种基于网格化管理大数据的气象与城市运行体征关联规则挖掘方法,可以实现城市运行大数据与气象大数据的深度融合,通过开展气象条件与网格事件发生的关联规则挖掘,识别气象与事件数据的关联特征,并构建涵盖气象条件的典型事件知识图谱,为城市精准治理提供技术支撑和决策参考。
6.本发明通过以下技术方案来实现:
7.一种基于网格化管理的气象与城市运行体征关联规则挖掘方法,其特征在于,包
括:
8.步骤1、数据选取及来源
9.数据资料包括城市网格巡查数据及同期气象观测数据,网格巡查数据通过住建部门提供的数据接口实时获取,气象观测数据来源于气象局布设在全市范围的自动气象观测站,选取降水量、气温、风向、风速四种气象要素参与分析;
10.步骤2、数据处理
11.在python环境下,采用大地坐标系统下的通用横轴墨卡托投影将经纬度转换为平面坐标,并提取自动气象站周边一定范围缓冲区内的事件作为分析目标,并对其进行气象要素赋值;
12.步骤3、数据研究
13.基于网格巡查数据及气象观测数据,在r和python语言环境下,进行事件的时空特征分析和类型特征分析,并且通过事件描述信息,采用中文分词和关键词提取方法,构建关键词词云和共现词项网络;
14.通过将事件和气象信息的时间和位置匹配,利用fp-growth算法进行气象条件与典型事件发生的关联规则挖掘,得到相应的匹配规则,并通过知识图谱进行图形化表达。
15.本发明进一步的改进在于,所述中文分词的方法包括:选用r语言环境下的jiebar分词包进行网格描述文本的分词处理,并采用混合分词引擎,结合最大概率法和隐式马尔科夫模型的方式进行。
16.本发明进一步的改进在于,关键词提取的方法包括:在对网格描述信息进行分词的基础上,采用tf-idf算法提取事件对应的关键词。
17.本发明进一步的改进在于,利用fp-growth算法进行气象条件与典型事件发生的关联规则挖掘的步骤包括:选取6小时、12小时和24小时的累积降水、最高气温、平均气温、最低气温、最大风速和平均风速的统计值构建气象特征,并将气象特征划分为不同的区间,同时还引入非气象特征进行特征构造,通过fp-growth算法挖掘气象条件与所发生事件之间的频繁模式,分析出与气象条件相关度较高、发生数量较多以及增量较明显的事件类型,根据频繁模式挖掘气象条件和事件数据中存在的潜在规则,并对规则的可信度进行量化。
18.本发明进一步的改进在于,通过知识图谱进行图形化表达的步骤包括:基于fp-growth频繁模式挖掘结果,并通过对子集超集进行处理,完成知识图谱规则库,呈现气象与事件之间的链接关系。
19.由于采用上述技术方案,使得本发明取得的有益效果是:
20.本发明首先采用时空分析和自然语言处理方法对网格化事件数据进行特征挖掘,在此基础上,重点结合气象观测资料,开展气象条件对城市网格化管理事件发生的影响分析研究。此外,本发明还引入频繁模式挖掘算法fp-growth,进一步开展气象条件与事件发生的关联规则挖掘,构建涵盖气象条件的典型事件知识图谱。通过识别气象与事件数据的关联特征,可以实现城市运行大数据与气象大数据的深度融合,为城市精准治理提供技术支撑和决策参考。
附图说明
21.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使
用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1为事件数全年分布图。
23.图2为事件逐日分布图。
24.图3为事件逐时分布图。
25.图4为事件的共现词项网络。
26.图5为以“交通立杆”为例的气象条件与典型事件发生的知识图谱。
27.图6为以“河道污染”为例的气象条件与典型事件发生的知识图谱。
具体实施方式
28.精细化治理是城市未来的治理方向,也是城市建设卓越全球城市面临的重要挑战。现有研究大多立足于城市网格化管理创新模式和管理机制,但对于网格巡查事件数据的分析挖掘还存在较大不足,且缺乏气象条件对事件发生的规律分析。本发明基于时空特征分析、词云及共现词项特征分析、相关性分析及频繁模式挖掘方法对城市运行管理大数据进行了分析研究,以得到触发网格化管理事件发生的典型气象条件,并构建涵盖气象条件的典型事件知识图谱。结果表明,事件发生时间与工作时间高度吻合,发生区域也与城市人员密集区相重合,类别上存在“头部集中、长尾分布”的现象,事件分词上可以形成较为清晰的聚类结构,形成以市民活动为主体的共现词项关系网络。结合气象资料分析,市政设施、环卫等小类与气温相关性较为明显,风易损结构受风力影响较大,并且在降水、低温、高温和大风等特定天气情况下基坑、纠纷类、高空抛物和河道绿化等事件将呈现高发趋势。此外,本发明通过采用知识图谱技术归纳和表达气象与城市运行之间的关联,从而有利于城市运行管理人员在特定天气条件的提前应对和处置。
29.下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
30.本发明基于网格化管理的气象与城市运行体征关联规则挖掘方法,其主要包括以下步骤:
31.步骤1、数据选取及来源
32.数据资料主要包括城市网格巡查数据及同期气象观测数据,网格巡查数据通过住建部门提供的数据接口实时获取,数据字段包括事件id、发现日期时间、事件描述、事件大类、小类、子类、所属区及街道、地址和经纬度等信息。气象观测数据来源于气象局布设在全市范围的自动气象观测站,要素包含时间、站号、降水量、气温、气压、相对湿度、风向、风速、能见度等信息,时间分辨率为1小时。由于相对湿度与气温和降水的相关性较强,并且能见度观测站点数量较为有限,无法满足研究需要,因此本发明主要选取了降水量、气温、风向、风速四种气象要素参与分析。
33.步骤2、数据处理
34.本发明以城市各个自动气象站的为基准,在python环境下,采用wgs84大地坐标系统下的通用横轴墨卡托投影(utm51n)将经纬度转换为平面坐标,并提取自动气象站周边
3km缓冲区内的事件作为分析目标,并对其进行气象要素赋值,选取的气象要素包括6小时、12小时和24小时的累积降水、最高气温、平均气温、最低气温、最大风速和平均风速,从而得到融合事件类型与各气象条件组合的分析数据集。
35.步骤3、数据研究
36.由于网格巡查数据具备较为完整的信息描述和位置记录,因此本发明基于网格巡查及气象观测数据,在r和python语言环境下,进行了事件的时空特征分析和类型特征分析,并且通过事件描述信息,采用jieba中文分词引擎和tf-idf关键词提取方法,构建关键词词云和共现词项网络。在此基础上,通过将事件和气象信息的时间和位置匹配,进一步利用fp-growth算法进行气象条件与典型事件发生的关联规则挖掘,得到相应的匹配规则,并通过知识图谱进行图形化表达。
37.其中,中文分词就是将中文语料按照一定规则重新组合成词序列的过程。目前常用的中文分词工具有ictclas、segmentcn、jieba等,本发明选用r语言环境下的jiebar分词包进行网格描述文本的分词处理,并采用混合分词引擎,即结合最大概率法和隐式马尔科夫模型的方式进行。由于该分词方法的效果与分词词典、停用词处理有很大关系,因此本发明以jiebar自带的分词词典为基础,针对网格描述信息的特点进行了停用词的添加,并基于该停用词词典进行分词处理。
38.在对网格描述信息进行分词的基础上,采用词频-逆文档频率(term frequency-inverse document frequency,tf-idf)算法提取事件对应的关键词,tf-idf可以识别在网格描述信息中出现次数较多并且很少出现在其他文本语料中的词项,从而突出事件所对应的关键词信息。任何给定词项的逆文档频率定义为:
[0039][0040]
其中,n
documents
为语料库中的文档总数,n
documents containing term
为包含该词项的文档数。
[0041]
频繁模式增长(frequent pattern growth,fp-growth)算法是数据挖掘技术在关联规则发现领域的重要应用,其通过采用分治策略,将项集满足最小支持度的数据库事务压缩到一棵频繁模式树(fp-tree),相同事务间保留关联联系,根据项头表中的每一个频繁1项集来找出对应的条件fp-tree,并挖掘出频繁项集,直到把所有的条件fp-tree挖掘完毕。相比于其他关联规则挖掘算法,fp-growth算法的显著特征是高效性能,可以高效发现数据集合中的频繁项集以及数据间隐藏的关联规则。由于该算法旨在挖掘特定气象条件与特定事件中频繁出现的一种模式,可以一定程度上消除随机发生的非气象因素造成的干扰。因此本发明在挖掘气象条件与事件相关规则时,采用该算法对气象和事件进行分析。
[0042]
研究中选取6小时、12小时和24小时的累积降水、最高气温、平均气温、最低气温、最大风速和平均风速等统计值构建气象特征,并将气象特征划分为不同的区间(表1),同时还引入是否节假日(周末)、季节、时间段等非气象特征进行特征构造,通过fp-growth算法挖掘气象条件与所发生事件之间的频繁模式,分析出与某些气象条件相关度较高、发生数量较多以及增量较明显的事件类型,根据频繁模式挖掘气象条件和这些事件数据中存在的潜在规则,并对规则的可信度进行量化。
[0043]
表1自动气象观测站气象特征区间
[0044][0045][0046]
知识图谱通过采用图形结构来描述知识和事物及事物间的关系,可将信息表达成更接近人类认知的形式,提供了一种组织、管理和认识理解海量信息的能力,现已被应用于多个行业领域。本发明通过引入知识图谱技术,基于fp-growth频繁模式挖掘结果,并通过对子集超集进行处理,完成知识图谱规则库,从而可以更好地呈现气象与事件之间的链接关系。
[0047]
本发明方法的结果与分析如下:
[0048]
1.事件基本特征分析
[0049]
全市网格化管理事件时间序列总体呈现稳定波动的趋势(图1),月事件数量在60000至95000之间,其中以1月、2月和10月为最低,以8月为最高。日事件数大多位于15000至35000区间,其中部分日期由于数据缺失,事件数量异常偏低。通过拟合趋势线可以看到,事件数量总体在4-10月较高,在1-3月及11-12月较低。
[0050]
事件在一周中的数量分布如图2所示,以一个星期为周期,从周一至周日,呈现出明显的周期分布,且工作日和非工作日差异明显,周末的日均事件数仅为工作日的65%。以一天为周期时,事件主要分布在7:00-17:00,这一时间段的事件数占到事件总量的95%,同时可见事件在9时和14时形成两个明显的高峰,在11时前后存在低谷(图3),这与日常工作时段高度吻合。
[0051]
2.事件空间特征分析
[0052]
空间分布上,事件密度以中心城区为最高,其事件密度超过20000个/km2,其次为紧邻中心城区的内中环区域以及各区的城市副中心,并且可以看到事件密度从中心城区向
郊区呈现出逐步降低的趋势。总体上,事件高度集中的区域都与城市人员密集区相重合。
[0053]
3.事件类别特征分析
[0054]
城市网格数据在类别上呈现出“头部集中、长尾分布”的特点,在去除了各区自设的部分事件类型以及数量小于1000的子类后,共包含31个大类和108个小类。结论:事件大类中市容环卫类占比超过50%,其中以“暴露垃圾”和“乱涂写、乱张贴、乱刻画”数量为最多,分别达到筛选后全部事件数量的32.0%和17.1%;大类中“街面秩序”、“垃圾分类”和“路面文明监督”数量上分列第二至第四,占比分别为18.8%、5.1%和4.8%,对应的主要小类类别为“机动车乱停放、非机动车乱停放”、“居住区分类实效不到位”和“非机动车不文明交通行为”。
[0055]
本发明方法中的事件关键词及共现词项分析的具体内容如下:
[0056]
1.网格巡查事件关键词及词云分析
[0057]
采用jiebar中文分词引擎进行分词处理,并基于tf-idf算法提取的事件关键词进行词云分析。可以看到事件关键词中“垃圾”、“暴露”、“张贴”和“停放”的占比最高,其次为“单车”、“非机动车”等事件描述,通过词云分析可知事件描述中涉及暴露垃圾、车辆乱停放以及广告张贴等类别占比较大。同样,本发明依次对“街面秩序”、“路面文明监督”、“公共设施”等事件大类进行了词云分析,以“公用设施”为例,“井盖”、“立杆”、“缺失”等词占比较高,词云描述与该类别归属均高度吻合。
[0058]
2.事件共现词项分析
[0059]
词项网络图(图4)可以分析事件描述中成对出现的词项频率,并对该关系网络进行绘图。从事件的词项网络图中可以看到一些清晰的聚类,如乱停车问题(涉及词项为“机动车”、“非机动车”、“共享”、“单车”、“停放”等)、交通不文明行为(涉及词项为“骑”、“佩戴”、“顺路”、“头盔”、“路口”等)、市容问题(涉及词项为“市容”、“乱涂”、“广告”、“张贴”、“晾晒”等)、垃圾投放问题(涉及词项为“垃圾”、“暴露”、“生活”、“建筑”、“街头”、“混投”、“外溢”、“平方”等)、市政设施损坏问题(如“市政”、“立杆”、“分隔”、“设施”、“损坏”、“护栏”等)、雨水井盖缺失移位问题(涉及词项为“雨水”、“井盖”、“篦子”、“缺失”、“移位”、“侧石”等),此外具有明显聚类特征的事件还包括消防栓设施、行道树及盖板损坏、广告牌乱设、毁绿占绿等城市治理问题。分析表明事件描述中的关键词均存在较强的共现情况,可以形成较为清晰的聚类结构,同时以上聚类均集中于道路和小区楼道等词项周边,形成以市民活动为主体的共现词项关系网络。
[0060]
本发明方法中的气象与事件的规则挖掘的具体内容如下:
[0061]
1.气象条件与事件的相关性分析
[0062]
在事件分析的基础上,本发明基于同期自动气象观测数据,开展了气象条件与事件的相关性分析。研究中根据气象观测数据分别加工得到事件发生前6小时、12小时和24小时的累积降水、最高气温、平均气温、最低气温、最大风速和平均风速,并将其作为特征量分段统计落入不同区间的平均事件数量,在此基础上,分别计算网格小类与不同气象特征的皮尔逊相关系数。结果表明,部分事件与气象条件存在一定的关联,事件中市政设施相关小类(包括“雨水井盖”、“污水井盖”、“消火栓”、“绿地护栏”、“电力设施(设备)”等)与气温相关性较为明显,表明夏季相关设施设备的使用维护更为频繁,设施损坏或未归位的情况更为高发;同时绿化环卫类(包括“道路保洁”、“沿街店铺分类实效不到位”、“河道污染”、“小
区绿化”等)事件同样随着气温升高而呈现出高发的趋势,表明随着气温升高,更容易出现绿化保洁和垃圾分类等问题。与风相关的事件主要集中在立杆、花架、行道树树穴盖板等风易损结构上(包括“交通立杆”、“电力杆”、“花架花钵”和“树穴盖板损坏”),同时“河道污染”、“河道绿化”、“小区环境”、“农业垃圾乱处置”等环境类事件也随着风力增大有所增多。此外,一些违法违规行为(例如“违规处置渣土”、“行人不文明交通行为”、“乱涂写、乱张贴、乱刻画”、“共享单车不在规定区域停放”、“高空抛物”等)也与气象条件存在较高的相关性,表明在温度较高、下雨、大风等天气条件下,相关事件发生的可能性更高。
[0063]
在某些气象条件下,部分事件数量呈现出比较明显的下降趋势,如“乱涂写、乱张贴、乱刻画”在雨天发生数量较少,同时“消防栓”、“污水井盖”、“道路保洁”、“乱涂写、乱张贴、乱刻画”等事件也会随着风速增大数量趋于减少。
[0064]
2.气象条件与典型事件的频繁模式挖掘
[0065]
频繁模式(frequent pattern)是频繁地出现在数据集中的模式(如项集、子序列或子结构)。本发明通过将气象条件划分不同的区间,并与该区间下发生的事件类型进行组合,采用fp-growth算法对气象和事件进行频繁模式挖掘,并构建典型事件的知识图谱(图5和图6)。结果表明以上事件发生的气象条件大多为无降水、平均风速2-3级的静稳天气。此外,“交通立杆”、“电力杆”、“河道污染”、“河道绿化”、“树穴盖板损坏”、“农业垃圾乱处置”和“高空抛物”等事件类型同样多发于最大风速4-5级的大风天气下;“小区绿化”、“河道污染”、“河道绿化”、“沿街商铺分类实效不到位”、“树穴盖板损坏”、“高空抛物”等事件类型多发于的20-30℃的气温区间中。总体上,通过fp-growth进行频繁模式挖掘的结果与相关性分析结论较为一致。
[0066]
相较于相关性分析方法,fp-growth还可用于特定天气条件下的易发事件分析和挖掘,有利于针对特定天气条件的提前应对和处置。根据fp-growth挖掘结果,在降水条件下,可以得到“基坑”、“违规占用地下公共人行通道”、“路面积水、污水冒溢、粪便冒溢”等事件(发生的置信度和支持度分别为1.00、0.41;0.94、0.33和1.00、0.32);温度较低时,可以得到“纠纷类”、“公共场所消防安全隐患”和“市场经营”等事件(发生的置信度和支持度分别为0.71、0.42;0.93、0.40和0.92、0.40);温度较高时,可以得到“高空抛物”和“小区内垃圾”等事件(发生的置信度和支持度分别为0.96、0.41;0.90、0.32和0.86、0.31);风速较大时,可以得到“河道绿化”、“河道污染”和“公益广告损坏”等事件类型(发生的置信度和支持度为0.85、0.44;0.88、0.42和0.92、0.41)。
[0067]
基于以上分析,本发明以“交通立杆”和“河道污染”为例,构建涵盖气象条件和城市运行态势的典型事件知识图谱,通过归纳和表达气象与城市运行之间的关联,形成气象条件触发城市运行体征的知识框架,从而有助于不同气象条件下城市运行态势的提前预判和预先处置。
[0068]
本发明基于r和python语言环境,以2021年网格化管理数据作为研究资料,采用时空特征分析、词云及共现词项特征分析、相关性分析及频繁模式挖掘方法对城市运行管理大数据进行了分析研究,并构建了涵盖气象条件的典型事件知识图谱,进一步揭示了气象条件对城市运行的影响规律。主要结论如下:
[0069]
(1)网格化管理事件与居民活动特征高度相关。事件发生时间与工作时间高度吻合,发生区域也与城市人员密集区相重合,类别上存在“头部集中、长尾分布”的现象,事件
分词上可以形成较为清晰的聚类结构,形成以市民活动为主体的共现词项关系网络。
[0070]
(2)气象条件与部分类型事件存在较强的相关性,并且在特定天气条件下,部分事件呈现出明显的高发态势。事件中市政设施、绿化环卫等小类与气温相关性较为明显,立杆等风易损结构受风力影响较大,一些违法违规行为也与气象条件存在较高的相关性。此外,特定天气条件下部分事件会呈现出明显的易发态势。降水、低温、高温和大风等天气条件分别可以挖掘得到“基坑”、“纠纷类”、“河道绿化”等事件类型。
[0071]
(3)本发明还进一步引入知识图谱技术,构建涵盖气象条件和城市运行态势的典型事件知识图谱,通过归纳和表达气象与城市运行之间的关联,形成气象条件触发城市运行体征的知识框架,从而有助于不同气象条件下城市运行态势的提前预判和预先处置,可以为城市提升精细化管理举措,优化城市治理体系提供一定的决策参考。
[0072]
网格化管理数据对于城市运行体征有较好的指示意义,但现有研究对于揭示精细尺度上城市管理事件的时空规律性还存在较大不足,并且气象条件往往会对事件的发生发展产生影响,但现有研究尚缺乏气象条件对事件发生的规律分析。因此本发明首先采用时空分析和自然语言处理方法对网格化事件数据进行特征挖掘,在此基础上,重点结合气象观测资料,开展气象条件对城市网格化管理事件发生的影响分析研究。此外,本发明还引入频繁模式挖掘算法fp-growth,进一步开展气象条件与事件发生的关联规则挖掘,构建涵盖气象条件的典型事件知识图谱。通过识别气象与事件数据的关联特征,可以实现城市运行大数据与气象大数据的深度融合,为城市精准治理提供技术支撑和决策参考。
[0073]
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1