耦合街区时空特征和集成学习的城市功能区精细化识别方法

文档序号:32654100发布日期:2022-12-23 20:47阅读:85来源:国知局
1.本发明属于地理信息时空大数据领域,特别是耦合街区时空特征和集成学习的城市功能区精细化识别方法。
背景技术
::2.随着城市化的快速发展,城市土地利用的类型变得更加的复杂多样。精细化的城市土地利用信息为掌握城市结构和辅助政府决策提供了重要的数据支撑。传统的土地利用信息的收集方法主要由政府机构主导,进行实地走访和问卷调查,耗时、耗力而且公众开放程度较低。3.现有的城市土地利用分类方法,主要以遥感影像作为数据源,利用地物的光谱、纹理等信息进行用地类型的划分,对森林、湖泊、海洋等光谱特征突出的自然类别有较好的识别效果,但是难以进一步区分建成区内的功能用途,无法满足城市用地的精细化识别需求。众源地理信息的出现,引入蕴含人类活动和社会经济特征的海量数据,极大的丰富了城市土地利用识别的数据来源。pointofinterest(poi)是一种典型的众源地理数据,具有丰富的属性信息,适用于城市功能区制图。姚尧等以珠江三角洲为研究区,使用poi识别了城市功能区类别;窦旺胜等基于poi实现了济南市五区内用地功能的识别和可视化;silva等则利用poi绘制了伦敦城市功能区分布图。随着众源地理信息的发展,更多带有时间属性,包含用户位置的数据如gps轨迹、腾讯位置数据进入大众视野。将遥感影像和众源地理信息结合已经成为表征城市功能区的新趋势。胡忠文等通过整合遥感影像和手机定位数据提取城市景观和人类活动信息,聚类生成了深圳市的功能区类别。邱国平等基于深度学习方法,融合遥感影像和社会感知数据,揭示了研究区城市功能区类型。钟燕飞等使用poi、osm路网和遥感影像构建点-线-面语义对象制图框架,实现了北京、武汉中心区域、武汉汉阳区、武汉汉南区、澳门和香港湾仔区共计6个区域的城市功能区制图。4.以上研究表明,遥感和众源数据在土地信息提取方面都有其独特优势,融合多源时空大数据是识别城市功能区的一种新趋势。然而,现有相关研究缺乏对城市功能区特征的深入探究和全面挖掘。例如,建筑物作为城市功能的基本单元,其几何特征在一定程度上可以反映城市功能区的详细信息;人口分布的动态变化折射出城市用地的职-住格局,挖掘人类活动在不同时间段下的变化特征,在解析城市功能结构上可以发挥巨大潜力。5.融合多源时空大数据提取的城市功能区特征,难免会产生数据维数高、信息冗余等问题。进行有效的特征降维处理,对揭示隐含的核心特征和提高城市功能区识别效率具有积极作用。主成分分析作为经典的数据降维方法,已经广泛应用于各类数据分析问题中。这种方法在处理线性关系强、类别间样本数量均衡的特征数据时,效果较好。然而,城市功能区特征来自不同的数据源,特征间存在复杂的非线性关系,在处理这种高维度且线性关系弱的数据时,有必要利用神经网络模型学习复杂数据结构并提取核心特征。6.构建智能化的分类模型是城市功能区识别的另一个核心问题。现有的功能区分类方法主要包含非监督分类和监督分类两种。其中,k均值、模糊c均值和自组织映射网络(som)是城市功能区划分常用的非监督分类方法。许珺等使用k均值方法,将城市功能区聚成了5类,进而使用poi标签去推断聚类簇的类别。裴韬等使用模糊c均值将新加坡划分为居住区、商务区、商业区、开放空间和其他5种类型。王红等则使用som将功能区聚合为居住、商业、商业/社会、购物商场/居住区等9类。由以上研究可知,非监督分类方法在聚类数量上存在较大的不确定性,同时,由于没有预先设定分类体系,导致分类结果与国家标准(如gb/t21010-2017,gb50137-2011)存在差异,不利于为城市规划服务。相比之下,监督分类可以建立特征和城市预设类别之间的关系模型,应用更为广泛。宫鹏等使用随机森林方法,按照中国土地利用标准(gb/t21010-2017)对中国重要城市进行功能区识别。明冬萍等使用卷积神经网络按照城乡土地利用分类和开发用地规划标准揭示了杭州主要区域的功能区类别。然而,利用单一的机器学习方法进行城市功能区识别,在模型泛化能力和分类精度方面存在明显局限性,由多个弱分类器组合而成的集成学习方法能够很好的弥补单一学习器的不足。7.本发明提出了耦合街区时空特征和集成学习的城市功能区精细化识别方法,该方法以街区作为城市功能区的基本单元,进一步加强了遥感影像和众源地理信息的结合,提出salt街区时空特征体系,更加全面深入的提取了城市功能区的特征;引入深度学习自编码器autoencoder模型消除salt特征冗余,相较于经典的主成分分析模型,该模型能处理复杂的非线性结构且在挖掘城市功能区的核心语义信息时更有效;构建基于adaboost集成学习的城市功能区分类模型,不仅能提高模型的泛化能力,也有利于提高功能区分类的精度。综上,该方法从多源时空大数据特征提取、城市功能区核心语义挖掘到机器学习模型的集成应用,保障了识别效果的鲁棒性和准确性,大幅度提升了城市功能区的分类精度。技术实现要素:8.本发明需要解决的技术问题是:针对面向城市功能区精细化分类需求,提出了耦合街区时空特征和集成学习的城市功能区精细化识别方法。该方法以街区作为城市功能区的基本单元,从建筑物形状、poi标签属性、手机用户位置和高分辨率谷歌影像纹理四方面深入挖掘多源时空大数据的信息,构建了salt街区时空特征体系,引入深度学习自编码器autoencoder模型消除salt特征冗余,使用adaboost集成学习对城市功能区分类。从多源时空大数据特征提取、城市功能区核心语义挖掘到机器学习模型的集成应用,保障了识别效果的鲁棒性和准确性,大幅度提升了城市功能区的分类精度。9.本发明解决其技术问题采用以下的技术方案:10.本发明提供的耦合街区时空特征和集成学习的城市功能区精细化识别方法,具体是:首先,对osm路网进行预处理,生成研究区内街区划分结果,即为城市功能区的基本单元;然后,提取各街区单元的纹理和语义特征,其包括利用建筑物轮廓、poi、位置数据和高分辨率影像多源时空大数据,构建由“形状-属性-位置-纹理”组成的salt街区时空特征体系;接着,使用深度学习自编码器autoencoder,对salt特征进行降维,以消除特征间的信息冗余;最后,使用降维后的salt特征和功能区标签训练adaboost集成学习模型,将训练好的模型用于城市功能区分类,识别出各街区的精细化功能类别。11.本发明可以使用以下方法生成城市功能区的基本单元,简称街区单元:对osm路网依次进行投影变换、缓冲区分析、中心线提取、要素转面和消除处理,再以高分辨率谷歌影像为底图,对生成的面要素进行核查,使其与底图完全匹配,得到街区单元。12.本发明可以使用以下方法,构建salt街区时空特征体系:对于形状特征,从公开平台获取天地图影像,使用基于阈值的影像分割算法提取研究区建筑物,计算建筑物形状特征指标,并统计得到每个街区内建筑物形状特征指标的均值、标准差和总和值;对于属性特征,将poi数据按其标签分类,再对各类别poi进行核密度分析,统计各街区内各类poi核密度的均值,以及核密度最大值所对应的poi类别;对于位置特征,根据时间字段,将手机用户腾讯位置数据分割为节假日、工作日和双休日三种时间属性,统计每个街区内各时间属性下人数总和、每小时人数平均值及单位面积人数值,同时创建不同时间类型下时空立方体,进行新兴时空热点分析,统计时空热点的众数,得到每个街区工作日、节假日、双休日的时空模式;对于纹理特征,构建遥感影像第一主成分波段的灰度共生矩阵,提取影像的纹理特征,统计每个街区内纹理特征的平均值。13.本发明可以使用基于阈值的影像分割算法提取了研究区建筑物,计算了每个街区单元的建筑物形状特征,其过程包括:14.(1)从开放平台获取18级天地图rgb影像,采用按掩膜提取、投影栅格和波段提取得到研究区内天地图单波段影像;15.(2)通过灰度直方图确定提取建筑物的灰度阈值,如果像素的灰度值在阈值范围内,则值被设置为1,即为建筑物,否则值被设置为0;16.(3)采用众数滤波将灰度值小于阈值的像元移除,随后使用栅格转面将建筑物转为矢量格式,再对矢量建筑物进行消除面部分和简化建筑物处理;17.(4)将处理后的建筑物与高分辨率谷歌影像叠加,核查提取建筑物的完整性和准确性;18.(5)计算建筑物的形状特征,提取每个建筑物的面积、周长、圆形度、节点数、矩形度、长宽比、半径形状指数和方向,进而使用空间连接统计每个街区各形状指数的总和值、平均值和标准差。19.本发明可以使用核密度估计方法提取了研究区内各类poi的属性特征,其过程包括:20.(1)根据poi的标签,将其分为14个类别:“政府机构及社会团体、医疗服务、体育休闲服务、生活服务、商务住宅、汽车服务、科教文化服务、居民住宅、金融保险服务、交通设施服务、购物服务、公园绿地、公司企业和餐饮服务”;21.(2)使用核密度估计方法,将研究区内poi点数据转换为连续的表面,以得到14类poi的密度分布,并使用区域统计至表得到各街区各类poi核密度的均值;其中,核密度计算公式如下:[0022][0023]式中,f(x)是位置x处的密度估计函数;d是空间维度;h代表带宽;n是与位置x的距离小于h的点数;k是空间权重函数;[0024](3)将属性表导出至excel表,根据excel的数据透视和公式计算功能,得到各街区核密度最大值所对应的poi类别。[0025]本发明可以使用新兴时空热点分析方法提取了手机用户在节假日、工作日、双休日的位置特征,其过程包括:[0026](1)通过腾讯宜出行平台提供的api接口收集到2018.06.18-2018.06.24,7:00-21:00,时间分辨率为1小时,空间分辨率为1.5千米的腾讯位置数据,并采用python语言,对数据进行清洗、去重处理;最终得到11297374条记录,每条记录包含人数、经度、纬度和时间四个字段;[0027](2)根据时间属性,对处理后的数据进行分割,将数据分为节假日、工作日和双休日三个图层;统计每个街区每种时间类型的人数总和、每小时人数平均值及单位面积人数值;[0028](3)以经度为x轴,纬度为y轴,时间为z轴,分别创建腾讯位置数据节假日、工作日和双休日的时空立方体;再以时空立方体为基础,对数据进行新兴时空热点分析,用以识别时空立方体中人数字段聚类中的趋势;[0029](4)使用空间连接方法统计每个街区在节假日、工作日和双休日下时空热点的众数,以表征居民的位置特征。[0030]本发明可以创建高分辨率谷歌影像的灰度共生矩阵,提取各街区不透水面区域的纹理特征,其过程包括:[0031](1)从开放平台下载18级rgb谷歌影像,先后采用影像拼接、按掩膜提取和投影栅格对影像进行预处理;[0032](2)使用主成分分析工具,提取谷歌影像的第一主成分波段。再创建灰度共生矩阵,提取得到8个经典的纹理特征:均值、方差、同质性、对比度、相异度、熵、二阶矩和相关性;[0033](3)将研究区内不透水面数据与街区单元相交,按区域统计得到每个街区不透水面的纹理特征均值。[0034]本发明可以使用以下方法,消除特征冗余:以salt街区时空特征体系为原始输入,构建深度学习自编码器autoencoder模型对原始特征进行降维,其过程包括:[0035](1)利用极差标准化方法对salt特征进行标准化,将特征值统一在0到1的区间内,以消除数据量纲;[0036](2)基于神经网络,构建由编码器和解码器两部分组成的深度学习自编码器autoencoder模型,其中:编码器通过逐层减少神经元实现原始特征salt的压缩,解码器基于压缩后的数据逐层增加神经元的数量,得到重构特征salt’。在训练过程中,通过最小化原始特征salt和重构特征salt’之间的误差,来调整每层神经网络的权重和偏置。编码器和解码器的过程如下:[0037]g(salt)=w(salt)+b[0038]f(salt’)=f(g(salt))=wt(salt)+b’[0039]式中,salt表示输入特征,salt’表示重构特征;g(*)和f(*)是多层网络;w和b分别表示编码器的权重和偏置矩阵;wt和b’分别表示解码器的权重和偏置矩阵;[0040](3)利用标准化后的salt特征进行autoencoder模型训练,采用均方误差指标计算原始特征和重构特征之间的损失,使用梯度下降法更新误差,当误差收敛时,则停止训练。均方误差的表达式如下:[0041][0042]式中:loss(f,g)表示原始特征和重构特征之间的均方误差;n表示样本数量;salti和salt′i分别表示第i个样本的输入特征和重构特征。[0043]本发明可以采用以下方法,识别城市功能区的具体类别:基于salt降维后特征和目视解译的功能区类别标签构建测试集和验证集,训练adaboost集成学习模型对城市功能区分类,其过程包括:[0044](1)参照“国家城市土地利用和规划标准(gb50137-2011)”,将研究区的功能划分为7类:行政和公共服务;商业设施;住宅;工业、制造和仓库;商业设施和住宅混合;绿地和广场;道路、街道和交通;再借助在线高清谷歌地图,目视解译得到30%-50%街区地块的类别;[0045](2)初始化训练样本权重,即给每一个样本赋予相同的权重;[0046](3)将降维后的salt街区时空特征体系作为输入特征,功能区样本的类别作为标签,设置弱分类器决策树的数量,训练adaboost模型学习salt特征和功能区标签之间的映射关系,输出每一轮的误差;在训练的过程中,这一轮被弱分类器决策树正确分类的样本,在下一轮训练时权重将会减少,相反,被错误分类的样本在下一轮迭代时权重将增加;[0047](4)当所有弱分类器完成评估时,形成一个强分类器,用于所有城市功能区的分类。[0048]本发明提供的耦合街区时空特征和集成学习的城市功能区精细化识别方法,用于优化传统的城市功能区识别方法,实现功能区的高精度分类。[0049]本发明与现有技术相比具有以下主要的技术效果:[0050](1)在构建城市功能区特征体系时,传统的方法常将遥感影像光谱特征和poi属性特征相结合,虽然poi标签可以弥补遥感影像的语义缺失,但不均匀的空间分布和不确定的数据质量可能导致城市功能识别的偏差。本发明进一步引入了能反映功能区内部信息的建筑物形状特征和揭示城市功能主体活动的位置特征,构建了由“建筑物形状(shape)、poi属性(attribute)、手机用户位置(location)和遥感影像纹理(texture)”组成的salt街区时空特征体系,有利于加强遥感影像和众源地理信息的结合,更加深入、全面的反映城市功能区的类别。[0051](2)在消除特征之间的信息冗余时,经典的降维方法如主成分分析,仅适用于提取线性特征的核心信息。在处理来自不同数据源的功能区非线性特征时,降维效果往往不佳。本发明使用深度学习自编码器autoencoder模型对特征进行降维,采用非线性激活函数处理复杂的非线性关系,能够更有效的揭示原始特征潜在的数据结构,有助于提高城市功能区识别的效率和精度。当使用主成分分析降维、autoencoder模型降维后特征及原始特征对城市功能区分类时,autoencoder模型表现出明显的优势,总体精度较主成分分析和原始特征提高了4.8%和5.9%。[0052](3)在预测城市功能区类别时,单一的机器学习方法在泛化能力和分类精度方面存在明显的局限性。本发明使用由多个弱分类器组成的adaboost集成学习模型对城市功能区进行划分,克服了单一学习器敏感性强、误差大等缺点,有更强的泛化能力,同时在处理高维、多类别、不均衡数据时表现出优越的性能。附图说明[0053]图1是本发明的方法流程图。[0054]图2是城市功能区精细化识别结果图。具体实施方式[0055]下面结合应用实例及附图对本发明做进一步说明,但并不局限于下面所述内容。[0056]本发明提供的耦合街区时空特征和集成学习的城市功能区精细化识别方法,具体是:首先,对osm路网进行预处理,生成研究区内街区划分结果,即为城市功能区的基本单元;然后,提取各街区单元的纹理和语义特征,即利用建筑物轮廓、poi、腾讯位置数据和高分辨率谷歌影像等多源时空大数据,构建由“形状(shape)-属性(attribute)-位置(location)-纹理(texture)”组成的salt街区时空特征体系;接着,使用深度学习自编码器autoencoder,对salt特征进行降维,以消除特征间的信息冗余;最后,使用降维后的salt特征和功能区标签训练adaboost集成学习模型,将训练好的模型用于城市功能区分类,识别出各街区的精细化功能类别。[0057]上述的耦合街区时空特征体系和集成学习的城市功能区精细化识别方法包括以下步骤:[0058]1.生成街区单元:[0059]首先,对osm路网进行投影变换处理,将osm路网的坐标系转换为投影坐标系,并根据双线(多线)道路宽度,使用缓冲区分析对道路进行膨胀,生成30-50米的缓冲区;再基于中心线提取方法,提取缓冲区的中心线,完成道路双线(多线)转单线处理;随后使用要素转面和消除处理,将道路线要素转换为面图层,并将面积小于阈值的面要素与相邻要素合并。将生成的面图层的填充颜色设置为无颜色,以高分辨率谷歌影像为底图,对生成的面要素进行核查,使其与底图完全匹配,得到研究区内街区划分结果,作为城市功能区的基本单元。[0060]2.构建salt街区时空特征体系:[0061]salt街区时空特征体系包括形状(shape)、属性(attribute)、位置(location)、标签(tag)四种特征,用于刻画城市功能区的功能。[0062]对于形状特征,从公开平台获取天地图影像,使用基于阈值的影像分割算法提取研究区建筑物,计算周长、面积、圆形度、节点数等建筑物形状特征指标,并统计得到每个街区内建筑物形状特征指标的均值、标准差和总和值;[0063]对于属性特征,将poi数据按其标签分为政府机构及社会团体、医疗服务、体育休闲服务、生活服务、商务住宅等14类,再对各类别poi进行核密度分析,统计各街区内14类poi核密度的均值,以及核密度最大值所对应的poi类别;[0064]对于位置特征,根据时间字段,将手机用户腾讯位置数据分割为节假日、工作日和双休日三种时间属性,统计每个街区内各时间属性下人数总和、每小时人数平均值及单位面积人数值,同时创建不同时间类型下时空立方体,进行新兴时空热点分析,统计时空热点的众数,得到每个街区工作日、节假日、双休日的时空模式;[0065]对于纹理特征,构建遥感影像第一主成分波段的灰度共生矩阵,提取影像的纹理特征,统计每个街区内纹理特征的平均值。[0066]步骤2中,使用基于阈值的影像分割算法提取研究区建筑物,计算每个街区单元的建筑物形状特征。其过程主要包括:[0067](1)从开放平台获取18级天地图rgb影像,采用按掩膜提取得到研究区内天地图影像;通过投影栅格,将数据的坐标系转换为投影坐标;再利用波段提取功能,得到研究区内天地图单波段影像。[0068](2)通过灰度直方图确定提取建筑物的灰度阈值,如果像素的灰度值在阈值范围内,则值被设置为1,即为建筑物,否则值被设置为0。[0069](3)采用众数滤波将灰度值小于阈值的像元移除,随后使用栅格转面将建筑物转为矢量格式,再对矢量建筑物进行消除面部分和简化建筑物处理。[0070](4)将处理后的建筑物与高分辨率谷歌影像叠加,核查提取建筑物的完整性和准确性。[0071](5)计算建筑物的形状特征,提取每个建筑物的面积、周长、圆形度、节点数、矩形度、长宽比、半径形状指数和方向,进而使用空间连接统计每个街区各形状指数的总和值、平均值和标准差。[0072]步骤2中,使用核密度估计方法提取研究区内14类poi的属性特征。其过程主要包括:[0073](1)根据poi的标签,将其分为14个类别:“政府机构及社会团体、医疗服务、体育休闲服务、生活服务、商务住宅、汽车服务、科教文化服务、居民住宅、金融保险服务、交通设施服务、购物服务、公园绿地、公司企业和餐饮服务”。[0074](2)使用核密度估计方法,将研究区内poi点数据转换为连续的表面,以得到14类poi的密度分布,并使用区域统计至表得到各街区各类poi核密度的均值。其中,核密度计算公式如下:[0075][0076]式中,f(x)是位置x处的密度估计函数;d是空间维度;h代表带宽;n是与位置x的距离小于h的点数,k是空间权重函数。[0077](3)将属性表导出至excel表,根据excel的数据透视和公式计算功能,得到各街区核密度最大值所对应的poi类别。[0078]步骤2中,使用新兴时空热点分析方法提取手机用户在节假日、工作日、双休日的位置特征。其过程主要包括:[0079](1)通过腾讯宜出行平台提供的api接口收集到2018.06.18-2018.06.24,7:00-21:00,时间分辨率为1小时,空间分辨率为1.5千米的腾讯位置数据,并采用python语言,对数据进行清洗、去重处理。最终得到11297374条记录,每条记录包含人数、经度、纬度和时间四个字段。[0080](2)根据时间属性,对处理后的数据进行分割,将数据分为节假日、工作日和双休日三个图层。统计每个街区每种时间类型的人数总和、每小时人数平均值及单位面积人数值。[0081](3)以经度为x轴,纬度为y轴,时间为z轴,分别创建腾讯位置数据节假日、工作日和双休日的时空立方体。再以时空立方体为基础,对数据进行新兴时空热点分析,用以识别时空立方体中人数字段聚类中的趋势。[0082](4)使用空间连接方法统计每个街区在节假日、工作日和双休日下时空热点的众数,以表征居民的位置特征。[0083]步骤2中,创建高分辨率谷歌影像的灰度共生矩阵,提取各街区不透水面区域的纹理特征,其过程主要包括:[0084](1)从开放平台下载18级rgb谷歌影像,先后采用影像拼接、按掩膜提取和投影栅格对影像进行预处理。[0085](2)使用主成分分析工具,提取遥感影像的第一主成分波段。再创建灰度共生矩阵,提取得到8个经典的纹理特征:均值、方差、同质性、对比度、相异度、熵、二阶矩和相关性。[0086](3)将研究区内不透水面数据与街区单元相交,按区域统计得到每个街区不透水面的纹理特征均值。[0087]3.消除salt街区时空特征体系的信息冗余:[0088]以salt街区时空特征体系为原始输入,构建深度学习自编码器autoencoder模型,对原始特征进行降维,用于消除salt时空特征。[0089]步骤3中,构建深度学习自编码器autoencoder模型进行特征降维,其过程主要包括:[0090](1)利用极差标准化方法对salt特征进行标准化,将特征值统一在0到1的区间内,以消除数据量纲。[0091](2)基于神经网络,构建由编码器和解码器两部分组成的深度学习自编码器autoencoder模型。其中,编码器通过逐层减少神经元实现原始特征salt的压缩,解码器基于压缩后的数据逐层增加神经元的数量,得到重构特征salt’。在训练过程中,通过最小化原始特征salt和重构特征salt’之间的误差,来调整每层神经网络的权重和偏置。[0092]编码器和解码器的过程如下:[0093]g(salt)=w(salt)+bꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(2)[0094]f(salt’)=f(g(salt))=wt(salt)+b’ꢀꢀꢀꢀꢀꢀ(3)[0095]其中:salt表示输入特征,salt’表示重构特征;g(*)和f(*)是多层网络;w和b分别表示编码器的权重和偏置矩阵;wt和b’分别表示解码器的权重和偏置矩阵。[0096](3)利用标准化后的salt特征进行autoencoder模型训练,采用均方误差指标计算原始特征和重构特征之间的损失,使用梯度下降法更新误差,当误差收敛时,则停止训练。均方误差的表达式如下:[0097][0098]式中:loss(f,g)表示原始特征和重构特征之间的均方误差结果;n表示样本数量;salti和salt′i分别表示第i个样本的输入特征和重构特征。[0099]4.识别城市功能区的具体类别:[0100]基于salt降维后特征和目视解译的功能区类别标签构建测试集和验证集,训练adaboost集成学习模型,用于城市功能区的精细化分类。[0101]步骤4中,训练adaboost集成学习模型对城市功能区进行分类。其过程主要包括:[0102](1)参照“国家城市土地利用和规划标准(gb50137-2011)”,将研究区的功能划分为7类:行政和公共服务;商业设施;住宅;工业、制造和仓库;商业设施和住宅混合;绿地和广场;道路、街道和交通。再借助在线高清谷歌地图,目视解译得到30%-50%街区地块的类别。[0103](2)初始化训练样本权重,即给每一个样本赋予相同的权重。[0104](3)将降维后的salt特征作为输入特征,功能区样本的类别作为标签,设置弱分类器决策树的数量,训练adaboost模型学习salt特征和功能区标签之间的映射关系,输出每一轮的误差。在训练的过程中,这一轮被弱分类器决策树正确分类的样本,在下一轮训练时权重将会减少,相反,被错误分类的样本在下一轮迭代时权重将增加。[0105](4)当所有弱分类器完成评估时,形成一个强分类器,用于所有城市功能区的分类。[0106]经过上述步骤,用于优化传统的城市功能区识别流程,实现功能区的高精度分类。[0107]本发明提供的耦合街区时空特征和集成学习的城市功能区精细化识别方法,进一步加强了遥感影像和社会感知大数据的结合,更加全面深入的挖掘城市功能区的特征。引入深度学习自编码器autoencoder模型,有效的提取特征的核心信息,进而构建adaboost集成学习模型对功能区分类。该方法从多源时空大数据特征提取、城市功能区核心语义挖掘到机器学习模型的集成应用,保障了识别效果的鲁棒性和准确性,大幅度提升了城市功能区的分类精度。[0108]应用案例:[0109]本案例以南昌市三环线内城市化最高的区域为研究区,使用提出的耦合街区时空特征和集成学习的城市功能区精细化识别方法区分研究区的功能类型,并结合附图对本发明作进一步的说明。[0110]具体处理步骤(图1)如下:[0111]步骤1,对研究区内osm路网依次进行投影变换、缓冲区分析、中心线提取、要素转面和消除处理,再以谷歌影像为底图,对生成的面要素进行核查,使其与底图完全匹配,得到研究区内街区划分结果,即为识别城市功能区的基本单元。具体包括:[0112](1)从openstreetmap开源平台下载研究区osm路网,gggis平台下载18级谷歌rgb影像。将osm路网和谷歌影像导入arcgispro2.5软件,使用tool中的project工具,将osm路网和谷歌影像的坐标转换为一致的投影坐标:wgs1984utmzone50n。[0113](2)使用tool中的buffer工具,以投影后路网为输入,在道路的两侧生成30米缓冲区,并将所有输出要素融合为一个要素。[0114](3)使用tool中的polygontocenterline工具,以道路缓冲区为输入要素,提取缓冲区中心线,得到单线道路。[0115](4)使用tool中的featuretopolygon工具,将单线道路为输入,将道路线图层转换为矢量面图层,并添加area字段,使用属性表中calculategeometryattributes,生成各面要素的面积属性。[0116](5)使用tool中的eliminate工具,以面图层为输入,勾选按边界消除,设置sql排除表达式:area》200,将面积小于200m2的面要素合并消除。[0117](6)以谷歌影像为底图,开启编辑,对消除后的面图层进行合并和分割处理,使图层与底图完全匹配,最终得到1944个街区单元。[0118]步骤2,提取各街区单元的“建筑物形状(shape)、poi属性(attribute)、手机用户位置(location)和遥感影像纹理(texture)”特征,即构建salt特征体系。[0119]步骤2.1,从公开平台获取天地图影像,使用基于阈值的影像分割算法提取研究区建筑物,采用8个指标计算建筑物形状特征,统计得到每个街区建筑物形状的均值、标准差和总和值,具体包括:[0120](1)从gggis公开平台下载18级天地图rgb影像,将遥感影像的第一波段加载至arcgispro2.5中,使用tool中的extractbymask工具,将研究区街区作为掩膜图层,提取出研究区内天地图影像。再使用tool中的project工具,将影像的坐标转换为:wgs1984utmzone50n。[0121](2)使用tool中reclassify工具,以投影后单波段影像作为输入,将value在246-252之间的灰度值重分类为1,其他值均重分类为nodata,初步提取得到建筑物图层。[0122](3)使用tool中majorityfilter工具,将重分类后的影像作为输入,滤波器内核中与当前像元直接相邻的像元数设置为4,阈值替换方式选择众数,得到移除道路等细碎单元后建筑图层。[0123](4)使用tool中featuretopolygon工具,以众数滤波后建筑物为输入要素,生成建筑物矢量图层。并添加area字段,使用属性表中calculategeometryattributes,生成各建筑物的面积属性。[0124](5)使用tool中featureclasstofeatureclass工具,以矢量建筑物为输入要素,添加sql表达式为:area》50,去除小面积要素,将面积大于50m2的建筑导出。[0125](6)使用tool中eliminatepolygonpart工具,将导出后建筑物作为输入,并保证输入图层的所有要素为选中状态,设置消除条件为面积小于50m2,取消选中仅消除包含的部件,将存在孔洞的建筑物进行填补。[0126](7)使用tool中simplifybuilding工具,以消除面部分后建筑物图层作为输入,将简化容差设置为5meters,最小面积设置为10squaremeters,去除多余节点,生成简化后建筑物图层。[0127](8)添加谷歌影像为参照,开启编辑,检查并调整建筑物图层,最终得到85093栋建筑物。[0128](9)打开建筑物图层属性表,添加area和perimeter字段,使用calculategeometryattributes,生成各建筑物的面积和周长。进一步添加roundness字段,使用calculatefield,根据以下公式,计算得到各建筑物的圆形度指标:[0129][0130]式中:area表示建筑物的面积;perimeter表示建筑物的周长。[0131](10)使用featureverticestopoints工具,以建筑物面要素为输入,输出点的创建位置选择all,即得到建筑物id和所有顶点的映射关系,其中,每个建筑物的起点和终点被重复计算。再使用spatialjoin工具,以建筑物为目标图层,折点为连接要素,根据建筑物id,进行count统计,得到每个建筑物起点终点被重复计算后的节点数量。接着添加nodes字段,使用calculatefield,将原统计的节点数减1即可得到各建筑物节点数。[0132](11)使用minimumboundinggeometry工具,以建筑物为输入,最小边界几何输出类型选择convex_hull,勾选mbg_fields,在输出要素类中添加几何属性。在输出结果中,最小边界几何的方向即为建筑物的形状,添加regularity和lwratio字段,使用calculatefield,通过以下公式计算得到建筑物矩形度和长宽比:[0133]regularity=area/areambgꢀꢀꢀꢀꢀꢀꢀ(2)[0134]lwratio=l/wꢀꢀꢀꢀꢀꢀꢀꢀ(3)[0135]式中,area表示建筑物的面积,areambg表示建筑物最小边界几何的面积,l和w分别表示最小边界几何的长和宽。[0136](12)基于python语言,导入arcpy包,根据以下公式,计算每个建筑物的半径形状指数:[0137][0138]式中:n是建筑物中心向外辐射的半径的数量,ri是建筑物从中心点向外辐射的第i条半径。[0139](13)使用tool中的joinfield工具,根据各建筑物的id,将8个形状指标连接至建筑物图层。[0140](14)使用tool中的spatialjoin工具,以街区为目标要素,各形状指标结果为连接要素,依次统计各指标的总和值、均值和标准差。[0141]步骤2.2,将poi数据分为14类,再对各类别poi进行核密度分析,提取得到各街区内14类poi核密度的均值,以及核密度最大值所对应的poi的类别,具体包括:[0142](1)根据poi的标签,将其分为14个类别:“政府机构及社会团体、医疗服务、体育休闲服务、生活服务、商务住宅、汽车服务、科教文化服务、居民住宅、金融保险服务、交通设施服务、购物服务、公园绿地、公司企业和餐饮服务”,并将poi按类别导出为14个图层。[0143](2)使用tool中kerneldensity工具,将poi数据作为输入要素,依次将各类poi点数据转换为连续的表面,得到各类poi的密度分布。其中,核密度计算公式如下:[0144][0145]式中,f(x)是位置x处的密度估计函数;d是空间维度;h代表带宽;n是与位置x的距离小于h的点数,k是空间权重函数。[0146](3)使用tool中zonalstatisticsastable工具,根据研究区划分街区的id字段,统计各类poi核密度均值。随后通过tabletoexcel将各统计结果导出为excel表。[0147](4)以各街区的id作为第一列,将各类poi均值按对应街区编号复制至同一表格,使用max函数计算出各街区核密度均值的最大值,再使用if函数,得到各街区核密度最大值所对应的类别,再将类别格式转化为数值型。[0148]步骤2.3,根据时间字段,将手机用户腾讯位置数据分割为节假日、工作日和双休日三种时间类型,统计每个街区内3种类型时间的人数总和、每小时人数平均值及单位面积人数值,分别创建时空立方体,进行新兴时空热点分析,统计时空热点的众数,得到每个街区工作日、节假日、双休日的时空模式,具体包括:[0149](1)通过腾讯宜出行平台提供的api接口收集到2018.06.18-2018.06.24,7:00-21:00,时间分辨率为1小时,空间分辨率为1.5千米的腾讯位置数据,并采用python语言,对数据进行清洗、去重处理。最终得到11297374条记录,每条记录包含人口、经度、纬度和时间四个字段。[0150](2)根据时间属性,对清洗处理后的数据进行分割,将数据分为节假日(2018.06.18)、工作日(2018.06.19-2018.06.22)和双休日(2018.06.23-2018.06.24)三种类型。接着,加载数据至arcgispro2.5,使用tool中的project工具,将数据的坐标转换为:wgs1984utmzone50n。[0151](3)使用tool中spatialjoin工具,以街区为目标要素,依次连接节假日、工作日和双休日数据,统计每个街区的人数总和、每小时人数平均值及单位面积人数值。[0152](4)使用tool中createspacetimecubebyaggregatingpoints工具,以经度为x轴,纬度为y轴,时间为z轴,创建三种时间类型下出行数据的时空立方体。将地图模式切换至3d模式,即可查看时空立方体结果。[0153](5)使用tool中emerginghotspotanalysis工具,以时空立方体为基础,用以识别时空立方体中计数字段聚类中的趋势,最终得到新增、连续、加强的、持续的、逐渐减少的、分散、振荡的、历史的热点和冷点及未检测到的模式,共计17种聚类结果。[0154](6)使用tool中intersect工具,将目标要素和街区相交,再采用tabletoexcel工具,将相交结果导出为excel表。根据数据透视功能,以街区的id为行,时空模式的类别为列,统计得到各街区内各种时空模式的计数,再使用max函数,得到各街区时空模式的众数,进而使用if函数,返回各众数对应的时空模式类别,最后将每个街区的热点模式进行匹配并转化为数值类型。[0155]步骤2.4,创建灰度共生矩阵提取各街区不透水面区域遥感影像的纹理特征,具体包括:[0156](1)使用envi5.3软件中forwardpcarotationnewstatisticsandrotate工具,以18级研究区内rgb遥感影像为输入,输出波段数选择为1,提取到影像的第一主成分波段。[0157](2)使用envi5.3软件中co-occurrencemeasures工具,以影像的第一主成分波段为输入,基于灰度共生矩阵,提取得到8个最经典的纹理特征:均值、方差、同质性、对比度、相异度、熵、二阶矩和相关性。[0158](3)使用arcgispro2.5软件中的extractbymask工具,提取出研究区内不透水面,使用rastertopolygon将不透水面转换为矢量格式,以谷歌地图为底图,开启编辑,根据底图调整矢量图层。[0159](4)使用tool中intersect工具,将不透水面矢量数据与街区单元相交,得到含有街区id字段的不透水面区域。[0160](5)使用tool中zonalstatisticsastable工具,根据街区赋予不透水面的id字段,按区域统计各街区内不透水面范围内各纹理的均值,并将均值结果导出为excel表。[0161]步骤2.5,根据街区单元的id字段,将以上提取到的共计65个特征连接至同一个表格。[0162]步骤3,以salt特征体系为原始输入,构建深度学习自编码器autoencoder模型,对特征进行降维。具体包括:[0163](1)对每个街区内65维特征进行极差标准化,去除数据量纲。[0164](2)基于神经网络,构建包含encoder和decoder的深度学习自编码器autoencoder模型,其中,encoder模型由一层输入层、一层隐藏层和一层输出层组成,输入层包含65个神经元,隐藏层和输出层分别由45个神经元和30个神经元组成,激活函数均为relu函数。decoder模型与encoder模型对称,输入层为30个隐藏神经元的全连接层,激活函数为relu函数,隐藏层则为45个神经元,激活函数为sigmoid函数,重构输出65维变量。其中,编码器和解码器的过程如下:[0165]g(salt)=w(salt)+bꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(6)[0166]f(salt’)=f(g(salt))=wt(salt)+b’ꢀꢀꢀꢀꢀꢀꢀꢀꢀ(7)[0167]其中:salt表示输入特征,salt’表示重构特征;g(*)和f(*)是多层网络;w和b分别表示编码器的权重和偏置矩阵;wt和b’分别表示解码器的权重和偏置矩阵。[0168](3)将所有街区单元特征以7:3的比例划分为训练样本和测试样本,对构建的autoencoder模型进行迭代训练,使用adam优化器和采用均方误差评估原始数据和重构数据之间的损失,设置迭代参数。均方误差的表达式如下:[0169][0170]式中:loss(f,g)表示原始特征和重构特征之间的均方误差;n表示样本数量;salti和salt′i分别表示第i个样本的输入特征和重构特征。[0171](4)将所有街区特征输入训练好的模型,导出中间层30维编码结果,即得到原始数据的压缩表示。[0172](5)为验证autoencoder降维方法的有效性,对比原始数据、主成分降维和autoencoder降维后特征的城市功能区分类精度,结果如表1所示。由结果可知,autoencoder模型在分类中表现出明显的优势,总体精度较主成分分析和原始特征提高了4.8%和5.9%。[0173]表1[0174][0175]步骤4:基于降维后的特征和目视解译的标签构建测试集和验证集,训练集成学习adaboost模型,划分研究区各街区功能。具体包括:[0176](1)参照“国家城市土地利用和规划标准(gb50137-2011)”,将研究区的功能划分为7类:行政和公共服务(a);商业设施(b);住宅(r);工业、制造和仓库(mw);商业设施和住宅混合(br);绿地和广场(g);道路、街道和交通(s)。再借助在线高清谷歌地图,目视解译得到30%-50%街区地块的类别。[0177](2)初始化测试样本权重,即给每一个样本赋予相同的权重。[0178](3)将压缩后的数据作为输入特征,样本的类别作为标签,设置弱分类器数量,训练adaboost模型学习输入特征和标签之间的映射关系,输出每一轮的误差。在训练的过程中,这一轮被弱分类器正确分类的样本,在下一轮训练时权重将会减少,相反,被错误分类的样本在下一轮迭代时权重将增加。[0179](4)当所有弱分类器完成评估时,形成一个强分类器,用于所有城市功能区的预测,完成研究区功能区分类(图2)。[0180]本发明提供的耦合街区时空特征和集成学习的城市功能区精细化识别方法,具有以下特点:进一步加强了遥感影像和众源地理信息的结合,提出了salt街区时空特征体系;引入深度学习自编码器autoencoder模型,有效的提取了salt特征的核心信息;构建adaboost集成学习模型,实现了城市功能区的高精度分类。该方法从多源时空大数据特征提取、城市功能区核心语义挖掘到机器学习模型的集成应用,保障了识别效果的鲁棒性和准确性,大幅度提升了城市功能区的分类精度。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1