一种基于梯度提升树的蚊媒传染病疫情预测方法及系统与流程

文档序号:14716625发布日期:2018-06-16 01:29阅读:639来源:国知局
一种基于梯度提升树的蚊媒传染病疫情预测方法及系统与流程

本发明涉及一种基于梯度提升树的蚊媒传染病疫情预测方法及系统,属于计算机应用领域。



背景技术:

随着全球气候的变暖、城市化进程的加快、世界各国贸易往来的频繁以及国际间交通工具运输的快捷便利、生态环境的不断恶化,全球蚊媒传染病发病呈上升趋势,原有蚊媒传染病的流行区域不断扩展、疾病的流行频度不断增强。使得原本局限于某一地域或者国家内的疾病突破国境的界限,引起在世界范围内的广泛传播与流行,曾经或正在流行的蚊媒传染病给世界人民带来了巨大危害。因此,对蚊媒传染病的研究迫切需要。

蚊媒传染病是人—蚊—人的传播模式,其具有复杂的时空变异性,受多尺度、随机性、过程特征复性等多因素影响,因果关系之间具备强非线性相关性,预测存在难度。近年来,许多研究者致力于蚊媒传染病研究。大部分基于传统统计方法预测蚊媒传染病疫情态势,如基于时间序列的季节性自回归模型,ARIMA分析等。蚊媒传染病受多种因素影响,不同因素影响程度不同,预测时需综合考虑所有因素。但这些模型考虑因素单一,仅考虑一个或者二个,而且大部分基于经验确定影响因素,预测准确率低,不能较好的应用到实践。

部分研究者将简单的机器学习方法用到蚊媒传染病疫情态势预测中。例如,利用logistic回归基于气象信息来预测蚊媒传染病的出现与否,将月平均降水、最高最低以及平均温度,水汽压力作为模型参数。有研究者研究了温度对蚊媒传染病传播速度的影响,同时基于气象因素计算蚊媒传染病疫情预测参数,进而预测蚊媒传染病态势。但这些模型考虑的因素皆较少,大都基于气象因素,忽略了地理、人文等多方面因素。同时,已有研究都没进行充分的数据清洗与特征选择。原始数据存在很多缺失、重复、不规范的情况,直接建模会对模型预测精度产生较大影响。另一方面,有些因素对传染病影响较小,另外一些因素对其影响较大,当因素较多时,仅依靠经验、已有研究来选择因素,不能有效选出合适因素来建立蚊媒密度预测模型。此外,通过对蚊媒传染病发病态势情况分析,可利用符合态势分布的机器学习模型来预测蚊媒传染病爆发态势。



技术实现要素:

本发明技术解决问题:克服现有技术中存在的不足,提供一种基于梯度提升树的蚊媒传染病疫情预测方法及系统,具有科学可行、预测准确度高的优点,不仅综合考虑影响蚊媒传染病的因素,有效的选取特征,而且建立确切预测模型,极大提高蚊媒传染病疫情态势预测准确率。

本发明解决其技术问题所采用的技术方案是:一种基于梯度提升树的蚊媒传染病疫情预测方法,包括以下步骤:

第一步,收集影响蚊媒传染病疫情的多种因素数据并预处理;

第二步,对预处理后的所述多种因素数据采用梯度提升树方法,计算每个因素数据的重要度并排序,根据重要度顺序选取若干因素数据作为特征数据;

第三步,使用所述特征数据训练预测模型,确定所述预测模型的最优参数;

第四步,通过所述预测模型和最优参数,完成蚊媒传染病疫情预测;

第五步,可视化展示蚊媒传染病疫情预测态势。

所述步骤一中,所述因素数据包括蚊媒及传染病数据、地理数据、气象数据和社会人文数据;所述蚊媒及传染病数据包括历年蚊媒传染病病例数据、发热门诊数据和传染媒介密度数据;所述地理数据包括土地利用现状、陆地生态系统类型空间分布数据、植被类型空间分布数据、水域分布及面积、居民区分布及面积和森林分布及面积;所述气象数据包括平均、最高、最低气压,平均、最高、最低温度,平均、最小相对湿度,降水量,平均、最大风速,风向,日照时数;所述社会人文数据包括人口数据、交通数据和过境数据。

所述步骤一中,所述因素数据不少于10维。

对所述气象数据利用薄板样条插值法进行预处理,具体过程如下:针对气象监测站点收集到的气象数据存在时间间隔不均匀的现象,假设气象数据随时间的分布函数为y=f(x),在监测站点的某一监测时间窗口内收集到n+1组时间-气象数据对,记为(x1,y1),(x2,y2),…,(xn+1,yn+1);随后构造样条函数式中x,y为要被插入的时间-气象数据对,di为两组时间-气象数据对之间的欧式距离,Ai,a,b,c为相关待定系数,其具体数值需根据气象数据随时间的分布情况通过多次实验确定。

对所述历年蚊媒传染病病例数据利用正则匹配法进行预处理,具体过程如下:针对门诊病例信息中的问询备注构建关键词模板库,通过正则表达式限定符对备注信息中关键词匹配情况进行分类,以确定该病例来源。

所述步骤二中,梯度提升树方法具体如下:

(1)计算每个因素数据在单棵决策树中重要度

其中,j为第j个蚊媒传染病因素,L为单棵决策树的节点数量,t为单棵决策树第t个节点,vt为第t个节点所表示的因素值,是第t节点分裂之后平方损失的减少值。

(2)根据单棵决策树中重要度计算结果,计算每个因素数据在全部梯度提升树全局重要度其中,

为第j个因素数据在梯度提升树中重要度,Tm表示第m棵决策树,M是梯度提升树含有决策树的数量;

(3)依据(2)的重要度的计算结果,对影响蚊媒传染病全部因素数据依据重要度进行排序,选取若干的因素数据作为特征数据。

所述步骤三中,所述预测模型为泊松回归模型,其具体模型如下所示:

C表示蚊媒传染病疫情态势情况,d为日期,S(tempavgd-5,y),S(tempmaxd-5,y)分别定义了五天前平均、最高温度经过薄板样条插值后的数据y,S(importd-5,y)定义了五天前输入病例情况,S(rainfalld-5,y)为五天前累积降水量,S(watwed-5,y)为五天前的水域面积情况,为过去15天蚊媒传染病疫情态势情况;为了提高拟合的准确率,加入S(tempavgd-52,y)为五天前平均气温的平方值,使蚊媒传染病疫情态势情况与各因素数据不是单纯的线性关系。

所述步骤三中,预测模型参数利用S折交叉验证确定,其具体过程如下:首先利用每个因素与蚊媒传染病疫情相关性大小即相关系数初始化模型参数,之后利用S折交叉验证确定模型参数。

所述步骤四中,预测结果由基于时空结合的可视化展示方法显示,所述展示方法包括基于地理信息的疫情热点图和基于时间轴的疫情爆发图。

一种基于梯度提升树的蚊媒传染病疫情预测系统,包括数据收集模块、数据预处理模块、因素选择模块、模型建立模块、结果展示模块,其中:

数据收集模块:其功能为收集影响蚊媒传染病疫情的多种因素数据;

数据预处理模块:其功能为对影响蚊媒传染病疫情的因素数据进行预处理,对所述气象数据利用薄板样条插值法进行处理,对所述历年蚊媒传染病病例数据利用正则匹配法进行处理;

因素选择模块:对预处理后的所述多种因素数据采用梯度提升树方法计算每个因素数据的重要度并排序,根据重要度顺序选取若干因素数据作为特征数据;

模型建立模块:其功能为使用所述特征数据建立蚊媒传染病预测模型,利用S折交叉验证确定所述模型的最优参数;

结果展示模块:其功能为可视化展示模型预测结果。

与现有技术方案相比,本发明的有益效果是:

(1)本发明通过大范围收集影响蚊媒传染病疫情爆发因素,全面分析因素重要性,提高蚊媒传染病预测合理性与预测精度。

(2)本发明通过对训练数据存在缺失值时,对丢失值采用薄板样条插值法填补,对原始的非结构化数据的数据采用正则匹配进行处理,提升了数据质量。

(3)本发明设计了一种基于梯度提升树对蚊媒传染病因素进行排序,从而选择最主要因素的方法,使预测模型特征更加精确,提高了预测准确率。

(4)本发明基于泊松回归建立蚊媒传染病预测模型,模型采用的因素更加合理,同时基于S折交叉验证确定模型参数,提高模型精度。

(5)本发明提出了一种可视化展示方法,基于地理信息的疫情热点图与基于时间轴的疫情爆发图,直观展示蚊媒传染病疫情态势。

附图说明

图1为本发明方法流程示意图;

图2为数据流示意图;

图3为数据收集过程示意图;

图4为本发明实施例系统布局图;

图5基于地理信息的疫情热点图;

图6为梯度提升树方法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于,全面收集影响蚊媒传染病的因素,对缺失值、原始值分别采用薄板样条插值与正则匹配方式进行处理,根据梯度提升树对各因素重要度进行排序,基于泊松回归建立蚊媒传染病疫情态势预测模型,之后采用S折交叉验证确定模型参数,利用地理信息的疫情热点图、基于时间轴的疫情爆发图展示预测结果。

如图3所示,为了实现本发明的方法,实施使用了四核阿里云服务器,CPU主频是3.2GHz,内存是8G,操作系统为Windows Server 2008;本地服务器为华为RH2288v3,24核,服务器的CPU主频是2.4GHz,内存是32G,操作系统为Windows Server 2008R2Enterprise;用户设备端CPU主频是3.4GHz,内存是8G,操作系统为Microsoft Windows10。实施实例系统布局如图4所示,本实施实例效果是,用户(疾控相关人员)将现场调查数据通过相关设备如PC、平板利用蚊媒传染病防控平台系统上传到云服务器,本地服务器从云服务器得到所需数据,同时对数据进行清洗、扩展等,之后利用梯度提升树对因素进行选择,利用泊松回归建立预测模型,可视化展示预测结果,之后将系统部署到阿里云服务器,用户通过本地设备即可得到预测结果,其可辅助他们做相关决策。

本发明流程示意图如图1所示,数据流如图2所示,该方法具体步骤如下所示:

第一步,收集数据。

如图2所示,数据主要包括蚊媒及传染病数据、地理数据、气象数据、社会人文数据,共25维,包括历年蚊媒传染病病例数据、发热门诊数据和传染媒介密度数据、土地利用现状、陆地生态系统类型空间分布数据、植被类型空间分布数据、水域分布及面积、居民区分布及面积和森林分布及面积、平均、最高、最低气压,平均、最高、最低温度,平均、最小相对湿度,降水量,平均、最大风速,风向,日照时数、人口数据、交通数据和过境数据。蚊媒及传染病数据由疾控相关人员通过蚊媒传染病防控平台将现场流调数据上报;地理数据由分析遥感数据得到;气象数据由中国气象网以及现场建立监测点得到;社会人文数据通过政府相关资料得到。为了防止过拟合同时提高预测精度,所有数据时间段为2012.1.1~2017.1.1。

第二步,数据清洗。

如图2所述蚊媒及传染病数据由疾控相关人员将流调原始数据直接上传,存在数据缺失、数据杂乱、数据重复等情况。为解决上述问题,对单条记录缺失值采取周围平均化的方式填补数据,直至填补完所有缺失值;对部分区域或者站点缺失值,采用薄板样条插值法,其具体过程如下:针对气象监测站点收集到的气象数据存在时间间隔不均匀的现象,假设气象数据随时间的分布函数为y=f(x),在监测站点的某一监测时间窗口内已经收集到n+1组时间-气象数据对,记为(x1,y1),(x2,y2),…,(xn+1,yn+1)。随后构造样条函数式中x,y为要被插入的时间-气象数据对,di为两组时间-气象数据对之间的欧式距离,在此发明中,Ai,a,b,c分别为0.0316、0.1563、0.0075、1.06,此数值根据气象数据随时间的分布情况通过多次实验拟合近似确定,在本发明中采用拟合方法为最小二乘拟合法;对数据杂乱情况,采用正则匹配方式得到有效数据;对数据重复,采用过滤方法对其处理。

第三步,基于梯度提升树选取影响蚊媒传染病因素。

梯度提升树是一种由基函数组成的加法模型,其基函数为决策树,在本发明中其由M棵树组合而成,如图6所示。梯度提升树表示为决策树的加法模型为:

其中,fM(x)为梯度提升树函数,T(x;θm)表示单棵决策树函数,θm为第m棵决策树参数,M为决策树的个数。利用2012.1.1~2017.1.1收集的N组蚊媒传染病因素-虫媒传染病爆发态势对即(x1,y1),(x2,y2),….(xN,yN)构建梯度提升树模型,基于此模型选取影响登革热爆发态势的因素。具体过程如下所示:

(1)构建梯度提升树。

(1-1)确定初始梯度提升树f0(x)=0,第m步的提升树为fm(x)=fm-1(x)+T(x;θm);

(1-2)对于m=1,2,.....M

(a)确定参数,在本发明中采用平方误差损失函数即L(y,f(x))=(y-f(x))2,构建梯度提升树的损失为L(y,fm-1(xi)+Tx;θm=(y-fm-1xi-Tx;θm)2=(r-Tx;θm)2,其中r=y-fm-1xi,r为当前模型拟合数据的残差;

(b)计算残差,即计算当前模型预测值与真实蚊媒传染病值的差。rmi=yi-fm-1(xi),i=1,2,…,N。

(c)拟合残差rmi学习一棵决策树,得到T(x;θm)。

(d)更新fm(x)=fm-1(x)+T(x;θm)。

(2)计算单棵决策树经过节点t分裂后,平方损失减少值。

其中,为平方损失减少值即不同蚊媒传染病因素在节点t的重要度,T(x;θm)为单棵决策树函数,xi,yi为蚊媒传染病因素-虫媒传染病爆发态势对,Rw为所预测虫媒传染病爆发态势值。

(3)计算蚊媒传染病因素全局重要度排序。

(3-1)计算每个蚊媒传染病因素在单棵蚊媒梯度提升树中重要度,

其中,j为第j个蚊媒传染病因素,L为单棵决策树的节点数量,t为单棵决策树第t个节点,vt为第t个节点所表示的因素值,是第t节点分裂之后平方损失的减少值;

(3-2)根据单棵决策树中重要度计算结果,计算每个因素数据在全部梯度提升树全局重要度其中,

为第j个因素数据在梯度提升树中重要度,Tm表示第m棵决策树,M是梯度提升树含有决策树的数量。

(3-3)对影响蚊媒传染病全部因素依据重要度进行排序。

第四步,选取因素作为特征。

依据第三步对第一步收集的25维因素排序,从中选取重要度最大的5维因素构建蚊媒传染病预测模型。经大量反复实验验证,每天的平均气温、最高气温、输入病例人数,平均相对湿度,水域分布及面积被选取。

第五步,基于泊松回归建立预测模型。

泊松回归主要用于描述单位时间、面积、体积等单位内稀有事件个数的相对频率。蚊媒传染病疫情态势是单位时间内稀有事件,经验证其符合泊松分布。因此,基于泊松回归建立蚊媒传染病预测疫情态势预测模型。

(1)蚊媒传染病预测疫情态势预测模型

蚊媒传染病预测疫情态势预测模型基于泊松回归建立,具体公式如下所示:

C表示蚊媒传染病疫情态势情况,d为日期,S(tempavgd-5,y),S(tempmaxd-5,y)分别定义了五天前平均、最高温度经过薄板样条插值后的数据y,S(importd-5,y)定义了五天前输入病例情况,S(rainfalld-5,y)为五天前累积降水量,S(waterd-5,y)为五天前的水域面积情况,为过去15天蚊媒传染病疫情态势情况;为了提高拟合的准确率,加入S(tempavgd-52,y)为五天前平均气温的平方值,使蚊媒传染病疫情态势情况与各因素数据不是单纯的线性关系。

(2)蚊媒传染病疫情态势预测模型参数确定

首先,利用每个因素与蚊媒传染病疫情相关性大小即相关系数初始化模型参数。之后利用S折交叉验证确定模型参数。在本发明实施例中,收集的数据为2012.1.1~2017.1.1,共五年数据,因此采用十折交叉验证法来确定模型参数。具体如下所示:

(a)初始化蚊媒传染病疫情态势预测模型参数。分别计算基于梯度提升树选取的五维因素与蚊媒传染病疫情态势的相关系数。在本发明中,相关系数计算采用皮尔逊系数。将皮尔逊系数作为模型的初始化参数。

(b)调整蚊媒传染病疫情态势预测模型参数。将数据集按照时间顺序分为十份,每份数据量为180,进行多次实验。每次实验随机选取九份即1620组蚊媒传染病因素-虫媒传染病爆发态势对进行训练即构建基于泊松回归的蚊媒传染病预测模型,剩下的一份即180组蚊媒传染病因素-虫媒传染病爆发态势对进行测试,即评估预测模型准确率,依据模型预测准确率调整其参数。

第六步,可视化展示预测结果。

在此实例中,蚊媒传染病疫情预测模型准确率最终为85%,传统统计方法以及无特征选择的机器学习方法预测准确率最高为73%,由此可见,本发明提出的基于梯度提升树的蚊媒传染病疫情预测方法可提高预测准确率。为更大程度的辅助疾控相关人员,在此实例中,将预测结果进行可视化展示,具体展示如图5所示。图5中基于地理位置信息,对云南省各市县的蚊媒传染病爆发态势进行可视化展示,某市县的动态热点圈颜色越深,范围越大代表该地区的暴发态势越为严重。

以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1