基于改进聚类算法优化随机森林的人口空间化方法及系统与流程

文档序号：31708820发布日期：2022-10-01 13:47阅读：来源：国知局

技术特征：
1.基于改进聚类算法优化随机森林的人口空间化方法，其特征是：包括s1、获取人口密度数据和影响人口空间分布的多个特征因子数据；s2、对所述多个特征因子数据和人口密度数据进行预处理，并对预处理后的多个特征因子数据和人口密度数据按区域进行统计，得到区域尺度下各特征因子数据的平均值和人口密度数据；s3、对所述区域尺度下各特征因子数据的平均值和人口密度数据进行筛选处理，构建模型特征库，对所述模型特征库内的数据进行归一化处理，并将所述模型特征库内的数据划分为训练集和测试集；s4、对所述训练集进行聚类处理，得到k类数据，通过所述k类数据构造训练子集，训练高精度随机森林模型；s5、将所述测试集输入所述高精度随机森林模型，得到预测的各区域的人口密度数据。2.根据权利要求1所述的基于改进聚类算法优化随机森林的人口空间化方法，其特征是：所述对所述多个特征因子数据和人口密度数据进行预处理，包括：对所述多个特征因子数据和人口密度数据进行投影、拼接裁剪和重采样，所述重采样的像元大小为网格尺度，所述网格尺度为最小乡镇面积/街道面积的10％的平方根。3.根据权利要求1所述的基于改进聚类算法优化随机森林的人口空间化方法，其特征是：所述对所述区域尺度下各特征因子数据的平均值和人口密度数据进行筛选处理，构建模型特征库，包括：计算各特征因子数据与人口密度数据的pearson相关性系数以及显著性检验值；提取显著性检验值小于0.05的特征因子数据，构建模型特征库。4.根据权利要求3所述的基于改进聚类算法优化随机森林的人口空间化方法，其特征是：所述计算各特征因子数据与人口密度数据的pearson相关性系数，通过如下公式进行：其中，r为pearson相关性系数，n为区域的个数，x
i
为第i个区域的特征因子数据，y
i
为第i个区域的人口密度数据，为n个区域的特征因子数据的平均值，为n个区域的人口密度数据的平均值。5.根据权利要求1所述的基于改进聚类算法优化随机森林的人口空间化方法，其特征是：所述对所述训练集进行聚类处理，得到k类数据，通过以下步骤得到：s411、通过elbow method计算所述训练集的最佳聚类数k；s412、从训练集中随机选择一个点作为聚类中心，计算训练集中各点与聚类中心的距离以及各点被选为下一个聚类中心的概率，采用轮盘法选出概率最大的点作为下一个聚类中心，直至选出k个聚类中心；s413、计算各点到各聚类中心的欧氏距离，将其划分给最近聚类中心所代表的簇中；计算各簇中所有点的均值作为新的聚类中心；s414、迭代步骤s413直至聚类中心不再变化，得到k类数据。6.根据权利要求5所述的基于改进聚类算法优化随机森林的人口空间化方法，其特征是：所述各点被选为下一个聚类中心的概率，通过以下公式计算：
其中，x为训练集，x为训练集中的一点，p为该点被选为下一个聚类中心的概率，d
(x)
为各点与聚类中心的距离中的最短距离。7.根据权利要求6所述的基于改进聚类算法优化随机森林的人口空间化方法，其特征是：通过所述k类数据构造训练子集，训练高精度随机森林模型，通过以下步骤得到：s421、通过bootstrap重抽样法从所述k类数据中随机抽取等量数据，构成包含n个样本数据和k个特征的训练子集；s422、按gini指标从所述k个特征中选择最佳分割属性特征作为分割节点，通过所述n个样本数据构建决策树；s423、将步骤s422重复t次，构建t棵决策树，形成随机森林分类模型，所述t棵决策树的算术平均值为所述随机森林分类模型的输出；s424、采用网格搜索法确定所述随机森林分类模型的最优参数，所述最优参数包括：决策树的棵数、决策树的最大深度以及决策树的最大特征数，得到高精度随机森林模型。8.根据权利要求1所述的基于改进聚类算法优化随机森林的人口空间化方法，其特征是：还包括计算所述高精度随机森林模型的评价指标，所述评价指标包括平均绝对误差mae、平均绝对误差百分比mape、均方根误差rmse和决定系数r2。9.根据权利要求1所述的基于改进聚类算法优化随机森林的人口空间化方法，其特征是：步骤s5中，还包括，对所述各区域的人口密度数据进行格网化，得到网格预测结果，并采用误差校正方法和无房屋无人口原则修所述正格网预测结果，得到修正后的人口空间分布图。10.基于改进聚类算法优化随机森林的人口空间化系统，其特征在于，包括：采集模块，用于获取人口密度数据和影响人口空间分布的多个特征因子数据；预处理模块，用于对所述多个特征因子数据和人口密度数据进行预处理，并对预处理后的多个特征因子数据和人口密度数据按区域进行统计，得到区域尺度下各特征因子数据的平均值和人口密度数据；模型特征库模块，用于对所述区域尺度下各特征因子数据的平均值和人口密度数据进行筛选处理，构建模型特征库，对所述模型特征库内的数据进行归一化处理，并将所述模型特征库内的数据划分为训练集和测试集；模型构建模块，用于对所述训练集进行聚类处理，得到k类数据，通过所述k类数据构造训练子集，训练高精度随机森林模型；预测模块，用于将所述测试集输入所述高精度随机森林模型，得到预测的各区域的人口密度数据。

技术总结
本发明公开了基于改进聚类算法优化随机森林的人口空间化方法及系统，涉及人口空间化技术领域，解决了现有训练集数据分布不均衡，影响模型预测精度的问题，其技术方案要点是：采集多个对人口空间分布有影响的特征因子数据，预处理后按区域进行统计，得到各区域中各个特征因子数据的平均值和人口密度数据，分析各个特征因子数据与人口密度数据的相关性，筛选相关性高的特征因子数据构建模型特征库，在模型特征库内划分训练集和测试集；模型构建时，先对训练集进行聚类处理，降低训练集的非均衡性，再构建随机森林模型，可以提高模型对大差异人口密度区域预测的准确性。大差异人口密度区域预测的准确性。大差异人口密度区域预测的准确性。

技术研发人员：赵真郭红梅张莹江雪梨鲁长江张威龙建宇何宗杭
受保护的技术使用者：四川省震灾风险防治中心
技术研发日：2022.06.29
技术公布日：2022/9/30

完整全部详细技术资料下载

当前第2页1 2