一种基于迁移学习的城市内涝分析方法与流程

文档序号:11590614阅读:576来源:国知局

本发明属于数据挖掘与城市计算领域,具体涉及一种基于迁移学习的城市内涝分析方法。



背景技术:

随着城市规模的逐渐扩大,强对流天气等因素形成的城市内涝是近年来中国最严重的隐患之一。据统计,过去的两年中有超过100个城市发生严重内涝。发生在北京和武汉的内涝甚至造成了严重的人员伤亡、交通瘫痪,导致严重的经济损失。当前的城市检测内涝多采用水位计、摄像头等传感器,覆盖面较小,成本较高。

随着社交媒体和移动互联网的发展,在突发事件发生时,用户发送的相关文本如城市内涝等信息,可以有效描绘当前内涝发生的情况。此外,城市内涝的发生主要还受道路路网、单位时间降水量、地势等因素影响。随着智慧城市建设的逐步推广,目前在大城市,利用社交媒体数据或者传感器数据进行内涝严重程度分析可以取得相对较好效果。然而,对于一些小城市,由于数据缺乏和样本数据的稀疏,模型的训练相对困难。因此,利用大城市的内涝数据进行迁移学习,来训练其他小城市的内涝严重程度模型是相当可行的。



技术实现要素:

本发明提供了一种基于迁移学习的城市内涝分析的方法。相比其他方法,本发明实现了大城市和小城市的内涝严重程度分析,而且成本较为低廉。

一种基于迁移学习的城市内涝分析的方法,包括以下步骤:

(1)对所有城市根据城市本身的规模、地势以及人口分布划分成多个相邻的矩形区域;

(2)采集每个区域的社交媒体数据和物理传感器数据组成样本数据,并利用样本数据构造每个区域内与内涝相关的社交媒体特征和物理传感器特征组成特征数据;

(3)将社交媒体数据和物理传感器数据视作不同视图的数据,并利用多视图算法对每个区域内同一时间段内的社交媒体特征和物理传感器特征进行融合,得到融合特征;

(4)选择分析内涝严重的城市作为目标城市,选取相对于目标城市样本数据和特征数据更多的城市构造来源城市,

若目标城市与来源城市的特征相对熵小于阈值,则将来源城市中的每个区域的融合特征数据与目标城市中每个区域的融合特征数据合并组成样本集,将来源城市与目标城市中每个区域的内涝情况组成真值集,并将样本集作为分类器的输入,将真值集作为分类器的输出,训练分类器,得到内涝严重程度模型;

否则,利用自编码器将目标城市中每个区域的融合特征与来源城市中每个区域的融合特征合并到一个中间公共特征空间,以中间公共特征空间的向量作为分类器的输入,以向量对应的真实内涝情况作为分类器的真值标签,对分类器进行训练,得到内涝严重程度模型;

(5)利用内涝严重程度模型对目标城市中的每个区域进行测试,根据模型输出概率值的大小确定每个区域的内涝程度。

步骤(1)中,每个城市的规模、地势以及人口分布密集程度是不一样的,本发明根据以上因素灵活地确定每个区域的大小,例如:城市规模比较小、地势比较陡峭、人口比较密集,这时候可以将该城市划分成多个较小的区域。

步骤(2)中,所述的社交媒体数据指的是从微博、大众点评以及其他社交媒体获得的社交媒体文本。获得社交媒体特征的过程为:首先,过滤掉社交媒体文本中与内涝不相关的数据,得到预处理后的社交媒体文本;然后,计算预处理后的社交媒体文本的词向量与词频率;并将该词向量与词频率作为社交媒体特征。

步骤(2)中,所述的物理传感器数据为每个区域的地势、降水量以及路网数据,比如每个区域的每小时实时累积每小时降水量“9016:3107/12/2016”(降水量,时间),每个区域地势状况“1125”(区域绝对海拔,误差),路网数据情况“15,6,5”(区域内高架路段长度,桥梁个数,涵洞个数)(高架桥下、涵洞下、桥梁两边易引起积水);以计算得到的每个区域在不同时间段内(0.5小时内、1小时内、2小时内、12小时内、24小时内)的降水量等数据作为降水量特征;以每个区域相对于周边区域的相对海拔作为地势特征;以每个区域内高架的长度、桥梁的个数、涵洞的个数作为路网特征。

步骤(4)中,相对熵又称kl散度,衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布p(x)的事件空间,若用概率分布q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特。用d(p||q)表示kl距离,计算公式如下:

当两个概率分布完全相同时,即p(x)=q(x),其相对熵为0,x为基本事件集,本发明中,相对熵阈值的取值范围为0~0.2。

对于来源城市和目标城市,分别可以获得来源和目标城市的样本数据和特征数据如(sourcecity_regionid,features)、(targetcity_regionid,features),单独利用来源和目标城市的数据特征是无法训练内涝模型的,因为来源城市数据和目标城市数据由分布差异,目标城市数据本身又量太小。通过自编码器的方式将目标城市与来源城市的特征数据分别映射到中间公共特征空间如z=h(w*features+b),得到的中间公共特征空间满足分布接近目标城市数据的分布如(middle_regionid,z),z是特征向量。以中间公共特征空间的训练样本(middle_regionid,z)作为分类器的输入,以训练样本对应的真实内涝情况作为分类器的真值标签,对分类器进行训练,得到内涝严重程度模型。

所述的分类器可以为softmax回归分类器。

传统的对城市内涝严重程度分析,面对较小的样本或者较少的特征数据具有重大缺陷;而本发明基于迁移学习,可以利用大城市的内涝数据对小城市的内涝进行建模。具体的优势体现如下:

(1)本发明利用了多视图算法对不用来源的数据进行特征融合,提高了算法的可扩展性,可以扩充新的数据。

(2)本发明利用大城市的内涝数据,小城市本很只需要获取较少的数据,

附图说明

图1是本发明基于迁移学习的城市内涝分析方法流程示意图。

具体实施方式

为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

参见图1,本发明基于迁移学习的城市内涝分析方法,包括:

s01,对所有城市根据城市本身的规模、地势以及人口分布划分成多个相邻的矩形区域。

s02,采集每个区域的社交媒体数据和物理传感器数据组成样本数据,并利用样本数据构造每个区域内与内涝相关的社交媒体特征和物理传感器特征组成特征数据。

社交媒体数据指的是从微博、大众点评以及其他社交媒体获得的社交媒体文本。获得社交媒体特征的过程为:首先,过滤掉社交媒体文本中与内涝不相关的数据,得到预处理后的社交媒体文本;然后,计算预处理后的社交媒体文本的词向量与词频率;并将该词向量与词频率作为社交媒体特征。

所述的物理传感器数据为每个区域的地势、降水量以及路网数据;以计算得到的每个区域在不同时间段内(0.5小时内、1小时内、2小时内、12小时内、24小时内)的降水量等数据作为降水量特征;以每个区域相对于周边区域的相对海拔作为地势特征;以每个区域内高架的长度、桥梁的个数、涵洞的个数作为路网特征。

s03,将社交媒体数据和物理传感器数据视作不同视图的数据,并利用多视图算法对每个区域内同一时间段内的社交媒体特征和物理传感器特征进行融合,得到融合特征。

s04,选择分析内涝严重的城市作为目标城市,选取相对于目标城市样本数据和特征数据更多的城市构造来源城市。

s05,判断目标城市与来源城市的特征相对熵是否小于阈值,若是,执行s06,若否,执行s07。

s06,将来源城市中的每个区域的融合特征数据与目标城市中每个区域的融合特征数据合并组成样本集,将来源城市与目标城市中每个区域的内涝情况组成真值集,并将样本集作为分类器的输入,将真值集作为分类器的输出,训练分类器,得到内涝严重程度模型。

s07,用自编码器将目标城市中每个区域的融合特征与来源城市中每个区域的融合特征合并到一个中间公共特征空间,以中间公共特征空间的向量作为分类器的输入,以向量对应的真实内涝情况作为分类器的真值标签,对分类器进行训练,得到内涝严重程度模型。

s08,利用内涝严重程度模型对目标城市中的每个区域进行测试,根据模型输出概率值的大小确定每个区域的内涝程度。

实施例1

选取北京、上海、广州、武汉、深圳为来源城市,杭州为内涝分析的目标城市。根据杭州城市的大小和人口分布,将杭州市分成多个宽500米、长度为600米的矩形区域,并获取一系列矩形区域的中心经纬度坐标,得到中心坐标点后调用api获取相应的区域内的社交媒体数据和物理传感器数据。

然后分别构造社交媒体特征和物理传感器特征,对每一个区域每一个时间段内的特征利用多视图算法进行特征融合,分析可知这几个城市的特征和杭州的数据特征服从不同分布,也就是这5个城市与杭州特征相对熵大于阈值0.1,所以将来源城市和目标城市数据映射到共同空间,然后训练一个内涝严重程度分类器。

最后利用得到的内涝严重程度分类器对杭州市每个区域进行内涝程度(轻微、严重、无内涝)分析,分析结果为(300个区域表格呈现较为混乱,仅统计其所在行政区的内涝严重程度):

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1