1.一种利用微博关键词和位置信息模拟空气质量的方法,其特征在于,包括以下步骤:
S1、获取微博数据,包括带有空气质量关键词的微博数据和无空气质量关键词的微博数据,并对其进行预处理;
S2、以某个监测站点为中心,建立不同大小的缓冲区,对各个缓冲区内带有空气质量关键词的微博数量进行标准化,并计算标准化的微博数量与监测站点月均AQI之间的相关系数,比较不同半径缓冲区的相关系数,得到相关性最强的缓冲区大小;
S3、根据相关性最强的缓冲区大小对研究区域进行格网划分,提取监测站点所在格网中带有空气质量关键词的相对微博数量,对相对微博数量与月均AQI之间的函数关系进行拟合,并对拟合后的函数进行精度验证,得到验证通过后的拟合函数;
S4、计算研究区域中所有格网的相对微博数量,通过拟合函数与改进的反距离加权插值得出所有格网的模拟AQI;
S5、根据所有格网的模拟AQI,对所有格网应用克里格插值,得出空气质量趋势面模型,根据空气质量趋势面模型得到研究区域内任意位置的模拟空气质量。
2.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S3中计算相对微博数量的方法为:
以监测站点所在格网为中心,以其它格网到中心的距离倒数为权重,计算影响范围内所有格网的带有空气质量关键词的微博数,将其与对应权重相乘后求和,并对结果进行标准化;
以监测站点所在格网为中心,以其它格网到中心的距离倒数为权重,计算每个月影响范围内所有格网的无空气质量关键词的微博数,将其与对应权重相乘后求和,并计算每个月的平均数;
根据每个月的平均数作为人口密度,结合标准化的结果,得到该格网的相对微博数。
3.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S1中获取微博数据的方法为:
通过微博开放平台API和网页爬虫,获取带有空气质量关键词的微博数据;通过微博开放平台API,获取无空气质量关键词的微博数据。
4.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S1中对微博数据进行预处理的方法为:
对带有空气质量关键词的微博数据,去除转发微博,去除广告应用发出的微博,保留其中带有地理位置信息的微博;并对其进行情感分类,提取出讲空气质量差的微博;
对无空气质量关键词的微博数据,去除重复微博,每个用户每天每个位置仅保留一条微博记录。
5.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S2中对带有空气质量关键词的微博数量进行标准化的方法为:
从微博数据中提取出各缓冲区内带有空气质量关键词的微博数据量,并利用相同范围内的无空气质量关键词的微博数量进行标准化。
6.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S3中对相对微博数量与月均AQI之间的函数关系进行拟合的方法为:
在软件1stOpt中,选择拟合算法为麦夸特算法,使用监测站点对应的月均AQI与其所在格网的相对微博数量数据迭代至收敛时,得到拟合出的拟合函数,y=a+bx+cx2+dx3;其中,y表示监测站点对应的月均AQI,x表示格网的相对微博数量。
7.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S3中进行精度验证的方法包括:
通过拟合函数时得到的各项指标进行精度验证,指标包括:拟合函数能解释因变量变化的百分数R2、标准差以及方差齐性检验F值;
通过N折交叉验证法,将微博数据随机分为N组,利用其中的N-1组进行拟合,根据剩余的一组做误差分析。
8.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S4中得出所有格网的模拟AQI的方法为:
设待插值格网周围影响范围内的空气质量指数是均匀减少的,将设置有监测站点的格网作为初始参考点;
若待插值格网周围设置有不少于三个参考点,按照改进的反距离加权插值,赋予格网模拟AQI,并将该格网设置为参考点;
若待插值格网周围的参考点数量小于三个,则该格网在此轮插值中不参与运算;
待该轮插值结束后,若还有待插值的格网,继续新一轮的插值过程,循环迭代直到所有格网全部完成插值,得到所有格网的模拟AQI;具体插值方法见公式:
其中其中AQIinterp为待插值格网AQI,di为参考点与待插值格网地理距离,k为距离倒数的次数,此处选为2;n为待插值格网影响范围内参考点总个数,AQImax为影响范围内参考点AQI最大值,AQImin为影响范围内参考点AQI最小值;S为AQImax格网所在AQImin格网的地理距离。
9.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S5中根据空气质量趋势面模型还包括找出影响空气质量因素,并验证模拟的空气质量的方法,具体为:
对空气质量趋势面模型上的所有格网按照月均AQI大小利用自然断点法分为5类区域,5类区域空气质量逐渐变差;
计算各区域的交通相关属性与空气质量的相关性,找出影响空气质量的因素;
计算各区域的兴趣点相对密度与空气质量的相关性,找出影响空气质量的因素;
利用梯度提升决策树分析不同种类的兴趣点对空气质量的影响程度,找出影响最大的兴趣点种类。
10.一种利用微博关键词和位置信息模拟空气质量的系统,其特征在于,包括:
微博数据获取单元,用于获取微博数据,包括带有空气质量关键词的微博数据和无空气质量关键词的微博数据,并对其进行预处理;
缓冲区大小计算单元,用于以某个监测站点为中心,建立不同大小的缓冲区,对各个缓冲区内带有空气质量关键词的微博数量进行标准化,并计算标准化的微博数量与监测站点月均AQI之间的相关系数,比较不同半径缓冲区的相关系数,得到相关性最强的缓冲区大小;
拟合函数计算单元,用于根据相关性最强的缓冲区大小对研究区域进行格网划分,提取监测站点所在格网中带有空气质量关键词的相对微博数量,对相对微博数量与月均AQI之间的函数关系进行拟合,并对拟合后的函数进行精度验证,得到验证通过后的拟合函数;
模拟AQI计算单元,用于计算研究区域中所有格网的相对微博数量,通过拟合函数与改进的反距离加权插值得出所有格网的模拟AQI;
空气质量趋势面模型建立单元,用于根据所有格网的模拟AQI,对所有格网应用克里格插值,得出空气质量趋势面模型,根据空气质量趋势面模型得到研究区域内任意位置的模拟空气质量。