一种基于遗传算法的Logistic回归城市用地动态模拟方法与流程

文档序号:12825706阅读:1053来源:国知局

本发明属于数据挖掘技术领域,特别是地理信息的知识挖掘领域,涉及一种基于遗传算法的logistic回归城市用地动态模拟方法。



背景技术:

城市用地动态模拟是指利用数据挖掘等方法来定量模拟当前城市的各种用地类型之间的转化和分布等情况,以及预测未来城市的各种用地类型的转化、分布以及城市的形态格局。

在数据挖掘领域,尤其是在地理信息挖掘领域,如城市用地动态模拟应用中,目前为止,在构建模型的方法中主要有一些基于传统数理方法的层次分析、主成分分析以及马尔科夫链等;而当前使用更多的建模方法主要是基于机器学习和人工智能的一些算法,logistic回归便是机器学习中一种经典的分类方法。

logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。通常的问题是,研究某些因素条件下某个结果是否发生。利用logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集,而最佳拟合参数集的寻找需要通过最优化算法训练样本数据获得。logistic回归模型的sigmoid函数公式如下:

f(y)=1/(1+e^(-y))

其中y=w1x1+…+wnxn,x1,x2…,xn是每个样本的n个特征,w1,w2,…,wn是一组权值,即各个特征的回归系数。sigmoid函数的定义域为(-∞,+∞),值域为(0,1)。显而易见,logistic回归适合对两类目标进行分类,并且logistic回归最关键的问题就是求得w0,w1,…,wn这组权值。

基本的logistic回归的参数估计(求取回归系数)的方法一般为极大似然估计或最小二乘法等。在中小规模数据量和属性数较少的情况下,该方法能取到较好的分类效果和效率,但当数据量达到一定规模或属性数较多时,泛化误差上升明显,分类效果不佳,从而导致城市用地动态模拟应用中的模拟精度不佳。



技术实现要素:

有鉴于此,本发明的目的在于提供一种基于遗传算法的logistic回归城市用地动态模拟方法,该方法将基本的logistic回归与改进的遗传算法相结合,将改进的遗传算法作为基本的logistic回归的参数估计方法。

为达到上述目的,本发明提供如下技术方案:

一种基于遗传算法的logistic回归城市用地动态模拟方法,在该方法中,将遗传算法迭代得到的权重组合集(因为遗传算法产生了多个染色体,每个染色体解码后就得到一个权重组合,因此也就有多个权重组合)作为logistic回归的回归系数,分别将样本数据集应用到各组权重组合上,得到各个权重组合的分类精度,并以此作为遗传算法适应度函数的依据,进而通过遗传算法的不断迭代得到一个最佳的权重组合,即logistic回归的最终的回归系数,并用于对完整数据集进行分类。

进一步的,该方法具体包括以下步骤:

s1:读取样本数据,设置遗传算法的初始种群大小、迭代次数或迭代停止条件、自适应的交叉率以及变异率控制参数;

s2:对遗传算法的解进行实数编码,并通过随机方法生成初始种群;

s3:设计遗传算法的遗传算子,三个遗传算子分别设计为比例选择算子、两点交叉算子和单点变异算子;

s4:开始遗传算法的迭代,解码得到已经产生的所有地理驱动因子的权值组合集,即logistic回归的多组回归系数;

s5:在遗传算法的每次迭代结果中,将多组回归系数分别应用于logistic回归模型中并计算样本数据的分类精度,以此反馈遗传算法当代种群中的个体适应度;

s6:当遗传算法停止迭代条件得到满足时,输出logistic回归模型的最佳回归系数;至此,模型已经训练完成;

s7:最后,将该模型应用到完整数据集上,对目标年的城市用地动态变化进行模拟。

本发明的有益效果在于:本发明提供的方法比基本logistic回归的参数估计方法得到的回归系数更加接近“最佳拟合参数”,从而使得分类精度得到明显提高,使得其在城市用地动态模拟应用中的模拟精度得到明显提高。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:

图1为本发明所述方法的流程示意图。

具体实施方式

下面将结合附图,对本发明的优选实施例进行详细的描述。

本发明针对基本logistic回归中存在的问题,将遗传算法迭代得到的权重组合集(因为遗传算法产生了多个染色体,每个染色体解码后就得到一个权重组合,因此也就有多个权重组合)作为logistic回归的回归系数,分别将样本数据集应用到各组权重组合上,得到各个权重组合的分类精度,并以此作为遗传算法适应度函数的依据,进而通过遗传算法的不断迭代得到一个最佳的权重组合,即logistic回归的最终的回归系数,并用于对完整数据集进行分类。

图1为本发明所述的基于遗传算法的logistic回归城市用地动态模拟方法的流程示意图,如图所示,本发明所述的方法包括以下步骤:

s1:读取样本数据,设置遗传算法的初始种群大小、迭代次数或迭代停止条件、自适应的交叉率以及变异率控制参数;

s2:对遗传算法的解进行实数编码,并通过随机方法生成初始种群;

s3:设计遗传算法的遗传算子,三个遗传算子分别设计为比例选择算子、两点交叉算子和单点变异算子;

s4:开始遗传算法的迭代,解码得到已经产生的所有地理驱动因子的权值组合集,即logistic回归的多组回归系数;

s5:在遗传算法的每次迭代结果中,将多组回归系数分别应用于logistic回归模型中并计算样本数据的分类精度,以此反馈遗传算法当代种群中的个体适应度;

s6:当遗传算法停止迭代条件得到满足时,输出logistic回归模型的最佳回归系数;至此,模型已经训练完成;

s7:最后,将该模型应用到完整数据集上,对目标年的城市用地动态变化进行模拟。

本方法比基本logistic回归的参数估计方法得到的回归系数更加接近“最佳拟合参数”,从而使得分类精度得到明显提高,使得其在城市用地动态模拟应用中的模拟精度得到明显提高。

最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。



技术特征:

技术总结
本发明涉及一种基于遗传算法的Logistic回归城市用地动态模拟方法,属于数据挖掘技术领域。该方法将遗传算法迭代得到的权重组合集作为Logistic回归的回归系数,分别将样本数据集应用到各组权重组合上,得到各个权重组合的分类精度,并以此作为遗传算法适应度函数的依据,进而通过遗传算法的不断迭代得到一个最佳的权重组合,即Logistic回归的最终的回归系数,并用于对完整数据集进行分类。该方法比基本Logistic回归的参数估计方法得到的回归系数更加接近“最佳拟合参数”,从而使得分类精度得到明显提高,使得其在城市用地动态模拟应用中的模拟精度得到明显提高。

技术研发人员:刘明皓;尚尉
受保护的技术使用者:重庆邮电大学
技术研发日:2017.03.24
技术公布日:2017.07.07
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1