一种基于协同训练的城市区域空气质量估计方法_2

文档序号：8512796阅读：来源：国知局

域空气质量估计方法流程图；
[0028] 图2是本发明城市的网格划分示意图；
[0029] 图3是本发明训练阶段的流程图；
[0030] 图4是本发明的组合分类器最优子集搜索过程示意图；
[0031] 图5是本发明估计阶段的流程图。
【具体实施方式】
[0032] 下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：
[0033] 实施例：如图1所示，一种基于协同训练的城市区域空气质量估计方法，包括预处理阶段、训练阶段、估计阶段；
[0034] 预处理阶段包括：
[0035] 1)把城市划分成不相交的网格，每个网格g具有相同的长和宽，g. A表示g的影响区域，由g及其周围的八个网格组成。如图2所示，每个小正方形是一个网格，带阴影的小正方形网格的影响区域为大黑框正方形区域。每个网格区域g的空气质量视为一样，所以 g的大小不能太大，如可设为IkmX Ikm ;
[0036] 2)找到含有空气监测站点的网格并抽取这些网格对应的每小时的空气质量和空间特征，包括交通相关特征F t、POI相关特征Fp、路网结构相关特征F1^签到特征F。等。F t 包含网格影响区域范围内所有路段过去1小时的平均车速和车速方差大小；Fp包含网格影响区域范围内所有POI在各个类别下的数目；^包含网格影响区域范围内高速公路路段长度和非高速公路路段长度；F。包含过去1小时在网格影响区域范围内用新浪微博签到的人数；
[0037] 3)基于式子（1)所示的欧式距离度量函数，查找与网格g相近的k个最近的含空气监测站的网格G，d( Xi，Xj)表示两个特征向量Xi、Xj之间的距离，特征向量为网格的POI相关特征和路网结构特征，即X = [Fp, Fj ;
[0038] d (xi； Xj) = (Xi-Xj)T (Xi-Xj) (1)
[0039] 4)根据g和网格集合G生成训练样本，建有空气监测点的网格生成有标记训练样本，其余的网格生成未标记的训练样本。设某网格为^，则^和步骤3)查找的近邻网格之一 gj可生成如式子（2)所示的特征向量。其中F/表示gi的交通相关特征，f表示gi的签到特征，分别表示 gi、g，J个网格POI相关特征的皮尔森相关系数和路网结构特征的皮尔森相关系数，diSt( gi，gj)表示两个网格的物理距离，P表示含空气监测站的网格&监测的空气质量值。然后，g和网格集合G生成如式子（3)所示的特征向量，其中gi，g 2,…，gk表示g的k个近邻网格。
【主权项】
1. 一种基于协同训练的城市区域空气质量估计方法，其特征在于，包括预处理阶段、训练阶段、估计阶段；预处理阶段包括： 1) 把城市划分成不相交的网格，每个网格g内的空气质量相同； 2) 抽取含有空气监测站点的网格对应的每小时的空气质量和空间特征； 3) 基于欧式距离查找与网格g相近的k个最近的含空气监测站点的网格G ; 4) 根据网格g和网格集合G生成有标记和无标记的样本；训练阶段： I) 半监督学习：通过对有标记样本进行可重复性取样获得η个有标记训练集，并对有标记训练集训练得到η个分类器；η个分类器分别对未标记的样本进行标记得到高置信度的未标记样本，从中挑选样本加入训练集直到挑选的新标记样本数目不为0,输出分类器模型； II) 组合分类器剪枝：设置组合分类器的剪枝度量标准；采用基于Pareto算法在输出的分类器模型中搜索最优的分类器组合，输出剪枝后的组合分类器；估计阶段： i) 输入待估计空气质量的位置的经炜度信息，并根据经炜度信息获取所属的网格g，抽取网格g的空间特征Fg;抽取网格g所在城市的所有空气质量监测站点所属网格的空间特征，得到特征向量Fe; ii) 基于欧式距离从Fe中查找到与F g相近的k个最近的特征向量，k个最近的特征向量对应k个网格，由k个网格得到网格集合G ; iii) 网格g和网格集合G生成一个向量； iv) 根据训练阶段输出的组合分类器对步骤iii)得到的特征向量进行投票，得到并输出投票结果，投票结果为估计的空气质量值。
2. 根据权利要求1所述的一种基于协同训练的城市区域空气质量估计方法，其特征在于，所述的空间特征包括：交通相关特征Ft、路网结构相关特征POI相关特征Fp、签到特征Fc。
3. 根据权利要求1所述的一种基于协同训练的城市区域空气质量估计方法，其特征在于，所述预处理阶段通过如下式所示的欧氏距离度量函数查找与网格g相近的k个最近的含空气监测站点的网格G : d (xj, Xj) 一 (Xj-Xj) (xj-Xj) 其中，(Kxi, Xj)表示两个特征向量Xp Xj之间的距离，特征向量为网格的POI相关特征和路网结构特征，即X = [Fp, Fj。
4. 根据权利要求1所述的一种基于协同训练的城市区域空气质量估计方法，其特征在于，所述预处理阶段的步骤4)具体为建有空气监测点的网格生成有标记训练样本，集合内其余的网格生成未标记的训练样本。
5. 根据权利要求1所述的一种基于协同训练的城市区域空气质量估计方法，其特征在于：所述训练阶段半监督学习的从高置信度的未标记样本挑选样本加入训练集的挑选标准为样本的conf值的高低，从conf值高的样本进行挑选。
【专利摘要】本发明涉及一种基于协同训练的城市区域空气质量估计方法，本发明充分利用区域的空间特征，如该区域的交通状况、路网结构等特征，基于多分类器的协同训练的半监督学习方法对区域的特征向量进行建模，学习得到多个分类器；然后对这些分类器进行剪枝，形成最终的组合分类器；用剪枝后的组合分类器模型对无空气监测站的区域进行空气质量等级估计。该方法可以在空气监测站有限的情况下如何根据带空气监测站的区域和无空气监测站的区域在空间上的各种区别估计出空气质量等级，且估计结果准确。
【IPC分类】G06K9-62
【公开号】CN104834944
【申请号】CN201510274239
【发明人】陈岭, 王敬昌, 赵江奇, 赵丽娜, 蔡雅雅
【申请人】杭州尚青科技有限公司
【公开日】2015年8月12日
【申请日】2015年5月26日

完整全部详细技术资料下载

当前第2页1 2