一种登革热蚊媒适生区及主要影响因素的识别方法和系统

文档序号:30636614发布日期:2022-07-05 21:29阅读:265来源:国知局
1.本发明涉及数据识别和处理
技术领域
:,特别是涉及一种登革热蚊媒适生区及主要影响因素的识别方法和系统。
背景技术
::2.登革热是一种蚊媒传播病毒性疾病,主要发生在热带和亚热带区域,其发病率在过去的50年增加了30倍。据估算,世界范围内每年有3.9亿人感染登革热病毒。登革热的主要传播媒介是埃及伊蚊和白纹伊蚊,伊蚊的生长、繁殖等与其适生区有紧密的联系。白纹伊蚊的广泛分布导致登革热在全世界范围内发生,例如巴西、阿根廷等美洲国家,中国、印度尼西亚等亚洲国家,法国、葡萄牙等欧洲国家。登革热的快速传播归因于全球化、城市化和有效蚊虫控制措施缺乏。此外,缺乏有效疫苗或具体治疗方法也是登革热快速全球性传播的重要原因之一。3.在广州建立了主要媒介的常规监测点来记录白纹伊蚊。在媒介传播的疾病中,蚊媒疾病与环境因素的相关性最强,环境变化对蚊虫的生命周期、生长和分布有重要影响,蚊虫的生长取决于温度变化、地表水分等条件。雌性蚊虫通过吸食人体血液来获取营养,所以大多数蚊虫都与人类密切相关,而且白纹伊蚊是一种典型的容器蚊种,包括室内和室外的人造和自然静态水体,广州市居民区内的水生植物容器为白纹伊蚊提供了适宜的繁殖场所。4.中国的登革热疫情都由输入性病例引发,但降水、温度等气候和环境条件决定了登革热爆发的规模,同时,登革热疫情的地理分布也与人口规模,经济水平和公共交通等社会经济因素有关。虽然这些研究有助于了解中国较大尺度上登革热与环境要素的关系,证明了流行病的严重程度与不同影响因素之间的关系,并在适当的时空尺度上捕捉环境要素对蚊媒和登革热地理分布的影响,但是,精细尺度上中国登革热流行区的媒介空间分布研究鲜有涉及,识别并确定不同影响要素的水平非常有限。技术实现要素:5.为解决现有技术存在的上述问题,本发明提供了一种登革热蚊媒适生区及主要影响因素的识别方法和系统。6.为实现上述目的,本发明提供了如下方案:7.一种登革热蚊媒适生区及主要影响因素的识别方法,包括:8.获取研究数据;所述研究数据以预设分辨率的网格基于arcgis10.2软件计算生成;所述网格覆盖待研究区域;所述研究数据包括:气象数据、社会经济数据、环境数据和地理景观数据;9.采用相关性分析方法对所述研究数据进行相关性分析,得到相关变量数据;10.采用最大熵值生态位模型,根据所述相关变量数据生成蚊媒适生性空间分布图;所述蚊媒适生性空间分布图包括登革热蚊媒适生区;11.基于所述蚊媒适生性空间分布图,采用广义相加模型拟合登革热蚊媒适生区与所述相关变量数据之间的关系,得到拟合关系;12.根据所述拟合关系确定登革热蚊媒适生区的影响因素。13.优选地,所述采用最大熵值生态位模型,根据所述相关变量数据生成蚊媒适生性空间分布图,具体包括:14.采用biomapper4.0软件,基于最大熵值生态位模型根据所述相关变量数据确定特征矩阵,提取累积贡献率生成蚊媒适生性空间分布图。15.优选地,所述基于所述蚊媒适生性空间分布图,采用广义相加模型拟合登革热蚊媒适生区与所述相关变量数据之间的关系,得到拟合关系,具体包括:16.采用gcv准则作为拟合优度的评价标准,分析相关变量数据筛选得到偏差最小的变量;17.将所述偏差最小的变量加入所述广义相加模型,采用样条平滑函数拟合登革热蚊媒适生区与所述相关变量数据之间的关系。18.优选地,采用样条平滑函数拟合登革热蚊媒适生区与所述相关变量数据之间的关系的过程中,实时调整所述广义相加模型的参数,以满足残差独立的要求。19.优选地,拟合关系为log(dengue):20.log(dengue)21.=β0+β1(bio18)+s(bio2)+s(bio3)+s(bio4)+s(bio7)+s(bio10)+s(bio11)+s(bio14)+s(bio15)+s(bio16)+s(bio17)+s(bio20)+s(bio21)22.式中,s()为样条平滑函数,β0为初始值,β1为线性影响系数,bio2为干燥月降雨量,bio3为干季降雨量,bio4为热季降雨量,bio7为热月最高气温,bio10为昼夜温差月平均值,bio11为湿润月降雨,bio14为人口密度,bio15为人均gdp,bio16为道路密度,bio17为归一化植被指数,bio18为土地利用类型,bio20为待研究区的数字高程模型数据,bio21为待研究区的坡度。23.根据本发明提供的具体实施例,本发明公开了以下技术效果:24.本发明提供的登革热蚊媒适生区及主要影响因素的识别方法,在采用相关性分析方法对研究数据进行相关性分析,得到相关变量数据之后,采用最大熵值生态位模型,根据相关变量数据精确生成蚊媒适生性空间分布图,然后,基于蚊媒适生性空间分布图,采用广义相加模型拟合登革热蚊媒适生区与相关变量数据之间的关系,得到拟合关系,最后,根据拟合关系精确确定登革热蚊媒适生区的影响因素,进而解决现有技术存在的精细尺度上登革热流行区的媒介空间分布研究鲜有涉及,识别并确定不同影响要素水平非常有限的问题。25.对应于上述提供的登革热蚊媒适生区及主要影响因素的识别方法,本发明还提供了以下实施系统:26.其中,一种登革热蚊媒适生区及主要影响因素的识别系统,包括:27.研究数据获取模块,用于获取研究数据;所述研究数据以预设分辨率的网格基于arcgis10.2软件计算生成;所述网格覆盖待研究区域;所述研究数据包括:气象数据、社会经济数据、环境数据和地理景观数据;28.相关性分析模块,用于采用相关性分析方法对所述研究数据进行相关性分析,得到相关变量数据;29.蚊媒适生性空间分布图生成模块,用于采用最大熵值生态位模型,根据所述相关变量数据生成蚊媒适生性空间分布图;所述蚊媒适生性空间分布图包括登革热蚊媒适生区;30.拟合模块,用于基于所述蚊媒适生性空间分布图,采用广义相加模型拟合登革热蚊媒适生区与所述相关变量数据之间的关系,得到拟合关系;31.影响因素确定模块,用于根据所述拟合关系确定登革热蚊媒适生区的影响因素。32.优选地,所述蚊媒适生性空间分布图生成模块包括:33.蚊媒适生性空间分布图生成单元,用于采用biomapper4.0软件,基于最大熵值生态位模型根据所述相关变量数据确定特征矩阵,提取累积贡献率生成蚊媒适生性空间分布图。34.优选地,所述拟合模块包括:35.分析筛选单元,用于采用gcv准则作为拟合优度的评价标准,分析相关变量数据筛选得到偏差最小的变量;36.拟合单元,用于将所述偏差最小的变量加入所述广义相加模型,采用样条平滑函数拟合登革热蚊媒适生区与所述相关变量数据之间的关系。37.优选地,还包括:38.参数调整单元,用于采用样条平滑函数拟合登革热蚊媒适生区与所述相关变量数据之间的关系的过程中,实时调整所述广义相加模型的参数,以满足残差独立的要求。39.另一种登革热蚊媒适生区及主要影响因素的识别系统,包括存储器和处理器;40.所述存储器和所述处理器连接;所述存储器中存储有计算机软件程序;所述计算机软件程序用于实施上述提供的登革热蚊媒适生区及主要影响因素的识别方法;所述处理器用于执行所述计算机软件程序。41.因本发明提供的登革热蚊媒适生区及主要影响因素的识别系统与上述提供的登革热蚊媒适生区及主要影响因素的识别方法实现的技术效果相同,故在此不再进行赘述。附图说明42.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。43.图1为本发明提供的登革热蚊媒适生区及主要影响因素的识别方法的流程图;44.图2为本发明实施例提供的物种分布点在两个环境变量平面上的位置分布图;45.图3为本发明实施例提供的环境包络图;46.图4为本发明实施例提供的变量相关性指数示意图;47.图5为本发明实施例提供的广州市蚊媒适生性空间分布结果图;48.图6为本发明实施例提供的广州市各乡镇蚊媒适生性分布图;49.图7为本发明实施例提供的广州市蚊媒适生区分布图;50.图8为本发明实施例提供的蚊媒密度分级曲线图;51.图9为本发明实施例提供的蚊媒适生区曲线图;52.图10为本发明实施例提供的影响因素结果图;53.图11为本发明提供的登革热蚊媒适生区及主要影响因素的识别系统的结构示意图。具体实施方式54.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。55.本发明的目的是提供一种登革热蚊媒适生区及主要影响因素的识别方法和系统,以精确确定登革热蚊的媒介空间分布,精确识别并确定不同影响要素。56.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。57.如图1所示,本发明提供的登革热蚊媒适生区及主要影响因素的识别方法包括:58.步骤100:获取研究数据。研究数据以预设分辨率的网格基于arcgis10.2软件计算生成。网格覆盖待研究区域。研究数据包括:基础地理数据、气象数据、社会经济数据、环境数据和地理景观数据。其中,各数据包含的环境变量如下表1所示。59.表1环境变量含义表[0060][0061][0062]步骤101:采用相关性分析方法对研究数据进行相关性分析,得到相关变量数据。[0063]步骤102:采用最大熵值生态位模型,根据相关变量数据生成蚊媒适生性空间分布图。蚊媒适生性空间分布图包括登革热蚊媒适生区。例如,采用biomapper4.0软件,基于最大熵值生态位模型根据相关变量数据确定特征矩阵,提取累积贡献率生成蚊媒适生性空间分布图。[0064]步骤103:基于蚊媒适生性空间分布图,采用广义相加模型拟合登革热蚊媒适生区与相关变量数据之间的关系,得到拟合关系。[0065]例如,采用gcv准则作为拟合优度的评价标准,分析相关变量数据筛选得到偏差最小的变量。[0066]将偏差最小的变量加入广义相加模型,采用样条平滑函数拟合登革热蚊媒适生区与相关变量数据之间的关系。其中,拟合关系为log(dengue):[0067]log(dengue)[0068]=β0+β1(bio18)+s(bio2)+s(bio3)+s(bio4)+s(bio7)+s(bio10)+s(bio11)+s(bio14)+s(bio15)+s(bio16)+s(bio17)+s(bio20)+s(bio21)[0069]式中,s()为样条平滑函数,β0为初始值,β1为线性影响系数,bio2为干燥月降雨量,bio3为干季降雨量,bio4为热季降雨量,bio7为热月最高气温,bio10为昼夜温差月平均值,bio11为湿润月降雨,bio14为人口密度,bio15为人均gdp,bio16为道路密度,bio17为归一化植被指数,bio18为土地利用类型,bio20为待研究区的数字高程模型数据,bio21为待研究区的坡度。[0070]步骤104:根据拟合关系确定登革热蚊媒适生区的影响因素。[0071]下面以广州市为研究区对上述提供的登革热蚊媒适生区及主要影响因素的识别方法的实施过程和效果进行举例说明。[0072]广州市属典型的亚热带季风气候,温暖多雨、温差较小,年平均气温为22.8℃,年平均降水量在1800mm左右。气象条件适合于病毒的生存和繁殖。而且湿热气候又有利于伊蚊的孳生与生长。与其他城市不同,广州市登革热传播的主要媒介是白蚊伊蚊。[0073]广州市面积7434平方公里,人口约1449万,这个高度发达的城市有11个区县,包括越秀、荔湾、海珠和天河等老城区。广州市登革热发病高度活跃,防控形势严峻,很大程度上受气候特征、自然环境以及社会变化(外来人口多、人口流动大等)等因素的影响。广州市有较为完整的登革热媒介和疫情监测体系,具有较好的研究条件,因此将广州市作为精细尺度下蚊媒适生区和登革热疫情研究的对象(如图2所示)[0074]本实施例中研究区采用研究数据的数据来源为:[0075]研究区基础地理数据来源于中国科学院资源环境科学数据中心(resdc,http://www.resdc.cn),包括省、市、县和乡镇四个级别的数据,它们已经被广泛应用于科学研究中,建立研究区1km×1km的格网数据。[0076]研究区白纹伊蚊数据来源于广州市疾病预防控制中心,利用白纹伊蚊监测点的常规监测得到2014-2017年白蚊伊蚊分布点数据,数据包括监测时间(年/月/日)、地址和风险分级等信息。蚊虫点数据是通过地理编码转换和监测点地址获得。[0077]与年总降雨量、年平均气温等传统的气候因素相比,生物气候因素的生物性意义更强,能够很好地表现和描述物种生存环境的气候特征。研究区气象数据来源于中国科学院资源环境科学数据中心和中国气象数据共享网(http://data.cma.cn/),主要包括周最高温度、周最低温度、周降水量等。使用worldclim(http://www.worldclim.org/bioclim)提供的生物气候算法计算新的气候变量。利用投影变换、裁剪和分区统计等空间分析方法生成13个相关气象变量,数据处理在arcgis10.2软件中实现。[0078]社会经济数据中研究区gdp(grossdomesticproduct)、人口和道路数据均来源于中国科学院资源环境科学数据中心,人口密度和国内生产总值(gdp)反映了人口的分布情况及其整体经济健康状况。道路密度是由道路网络矢量数据产生的,包括广州市的所有道路(高速公路、国道、县道、城镇道路等)。数据分析处理均在arcgis10.2软件中实现。[0079]环境数据均通过高分辨率遥感卫星影像获取,归一化差异植被指数(ndvi)是评估植被分布和性能的重要指标。ndvi值在-1~+1的范围内,其中高值对应于茂密的植被,低值对应于没有植被。土地利用和土地覆盖变化(lucc)数据是分类变量,被重新分为七类(居住地、林地、水域、水田、湿地、耕地和草地),以代表广州市不同的土地利用。水体距离是评估水域影响程度的重要指标。数据分析处理在envi5.0和arcgis10.2软件中实现。[0080]研究区地理景观数据(digitalelevationmodel,dem)来源于中国科学院资源环境科学数据中心,坡度和坡向数据通过dem数据空间分析得到。坡向数据是分类变量,0-7对应于八个不同的方向。数据分析处理均在arcgis10.2软件中实现。[0081]基于上述内容,本实施例使用的所有22个变量(参见表1),包括13个气象变量、3个社会经济变量、3个环境变量和3个地理景观变量,所有变量均以1km分辨率的网格基于arcgis10.2软件进行计算生成,所有网格均匀覆盖研究区域。[0082]在进行研究区登革热蚊媒适生区及主要影响因素的识别过程中,首先利用所有变量分布建立白纹伊蚊的初步生态位模型,只考虑蚊媒风险点出现的位置。比较各单变量检验精度(auc)指标,初步选择具有更高auc的变量作为预测模型的候选变量(具体实施过程可以参考文献elith,j.;phillips,s.j.;hastie,t.;dud韐,m.;chee,y.e.;yates,c.j.astatisticalexplanationofmaxentforecologists.divers.distrib.2010,17,437.[crossref])。为了降低每个对象建模时的变量个数和避免建模时的过度拟合,对所有变量进行相关性分析并计算相关系数,认为相关系数∣r∣≥0.8且精度p≤0.01的一对变量存在多重共线性的问题,只选取对初步模型结果贡献大的变量。相关性分析利用统计软件r3.3.3和psych库。[0083]其中,多个变量同时与某个变量的相关关系不能直接测算,只能通过间接测算:[0084]第一步、设置一个因变量和多个自变量,再对于因变量和自变量构建线性模型,并进行一次线性回归得到自变量的系数。如下所示,b为自变量x的系数,y为因变量。[0085]y=b0+b1x1,+...+bpxp+ε。[0086]第二步、得到的系数去掉最后一项,有了新的y`,再对y与y`做简单相关分析:因为此处选用的相关性分析为现有技术,故不进行详细阐述。[0087]生态位模型是利用物种已知的分布数据和相关环境变量,根据一定的算法运算来构建模型,判断物种的生态需求,并将运算结果投射(project)至不同的时间和空间中以预测物种的实际分布(actualdistribution)和潜在分布(potentialdistribution)。[0088]设想在一个多维的自然空间环境中存在一个点,这个点关联着多个环境变量参数,那么就可以将一个物种所有分布点所关联的环境参数抽提出来,基于一定的算法来推算这个物种的生态需求,然后将其投射至不同时间和空间的地理空间中,以推测该物种在特定条件下潜在的分布范围。[0089]其中,广义生态位模型的构建与比较[0090]广义生态位模型的构建包含两种截然不同的思路:一种为直接的机理性方法(mechanisticapproach),另一种为间接的相关性方法(correlativeapproach),前者基于物种对环境耐受性的生理参数来判断物种的潜在分布,后者基于物种分布点所关联的环境参数来推算物种的分布。其中,由于直接构建方法数据繁杂,一般采用另一种间接相关性的方法。[0091]生态位模型通过目标物种的地理分布数据和物种所在地的环境数据,在物种已知的地理分布区域内进行测量或估算,进而预测该区域内哪些区域满足该物种生态位的要求,从而成为该物种潜在分布区的一部分。[0092]主流的生态位模型garp、enfa、domain、bioclim和maxent。其中最大熵值模型(themaximumentropymodelsoftware,maxent)预测的结果精确度更高,即使在目标物种分布点较少的情况下也能获得更为准确的效果。且通常研究中,会将maxent的结果导入进arcgis进行进一步分析和图像化展示,所以现在的研究中以最大熵值模型作为研究模型的较多。其中,maxent模型的一般形式为:[0093][0094]其中,[0095]式中,x∈rn,y∈{1,2,...,k},y为输出,w∈rn,w为权值向量,fi(x,y)为任意实值特征函数,i=1,2,...,n。[0096]bioclim模型是一种框架生态位模型,也是一种基于范围的预测模型。通过研究物种已知分布区的气候参数,将物种的各种生态特征归纳成矩形环境包络,最终众多单个包络将构成一组环境包络体系,然后将这一包络体系投射到预测目标区,将目标区的各个气候变量与环境包络体系进行对比。假如某点在包络体系空间中的位置正好处在环境包络内,该模型则认定该点是潜在分布点。可以通过一幅该模型的原理示意图形象的解释预测过程。如图2所示,图2中的小圆圈代表物种分布点在两个环境变量平面上的位置,超过百分之九十五的小圆圈落在矩形环境包络核心区,其它的也都落在了虚线以内。95%~5%之间是梯度预测值。[0097]domain模型是基于相似矩阵原理进行物种分布预测,其核心思想是点到点的gower距离,它是欧氏几何空间中两个点间的距离。后被引入到应用生态学上,用于判别目标区与物种明确分布区的近似程度。在维度为n的欧氏空间中,如果有点a和点b,那么他们之间的距离可以用下面的公式计算:[0098][0099]用方差标准化或范围标准化对gower距离进行处理,可保证此值在每维上的贡献相同。研究发现,在取样不同的情况下,方差标准化处理能更好的规避其所带来的误差。domain模型对a点和b点之间近似程度的判别,可以釆用互补相似性来辨识。可用rab来标记:[0100]rab=1-dab[0101]设sa是a点与已知分布系列点qm近似度最大的那个值:[0102][0103]通过上面的方法,先求出物种已知分布点的r值,然后便可求出s值,最后就可以算出每点的分布期望值。domain模型形成的环境包络,它所形成的环境包络突破了规则的矩形,而变成了不规则形状,如图3所示。[0104]garp模型[0105]garp是基于遗传算法的生态位模型,它所用到的规则是事先设定好的一个集合,可对局域自然环境空间进行建模预测物种分布。garp模型的规则集合中具体包括4种不同的规则。可以用一组条件语句来加以描述。[0106](1)原子规则[0107]ifx=xandy=y[0108]……[0109]then[0110]……[0111](2)范围规则[0112]ifx》xlandx《x2[0113]……[0114]then[0115]……[0116](3)逻辑规则[0117]ifp(x)》σ[0118]……[0119]then[0120]……[0121]enfa模型采用主成分分析方法,利用物种分布点的数据和生态地理变量(egv)数据,将物种的生态位和生态幅度与整个研究区的环境因子平均状态和标准差相比较,从egv中提取主要信息组合为互不相关的特征矩阵,特征矩阵和特征向量用来生成生境适宜性图。物种的分布与evg之间的相互关系通过计算边际性、特殊性和耐受性3个指标得到。[0122]边际性系数(m)为物种分布区egv平均值和整个研究区内egv平均值的差异。m>0时,表明该物种偏好egv平均水平以上的环境。m<0时,表明物种偏好egv平均水平以下的环境。m的绝对值越大,物种对egv的偏好程度越高,物种的分布也越不随机。[0123][0124]式中:mb表示物种分布区内某个egv的平均值。mg表示整个研究区内某个egv的平均值,σg表示mg的标准差。[0125]特殊性系数(s)为物种适宜分布区egv标准差与整个研究区内egv标准差的比率,是物种选择egv可用范围的度量指标。[0126][0127]式中:σb表示物种分布区内某个egv的标准差。[0128]耐受性系数(t)为s的倒数,t取值为0-1,t越小,表明物种在研究区内的特殊化程度越高,对环境因子有一定的选择性,其适生性受到一定环境条件的限制。t越大,则表明物种对环境的选择性不高,在研究区内分布广泛。在本研究中,t越大,说明松材线虫病的生存和传播对各种环境因子的选择不高,其分布也越随机。[0129][0130]enfa模型在biomapper4.0软件中运行,通过计算特征矩阵提取累积贡献率生成蚊媒适生性空间分布图,通过生境适宜性指数(ihs)划分蚊媒适生性空间分布图的等级,ihs为0-100,取值越大代表生境适宜性越高。[0131]最大熵值生态位模型(maxent)是一种基于最大熵原理的生态位模型(ecologicalnichemodels,enms),在满足已知信息的约束条件下,找到熵最大的概率分布作为最优解(参见文献:elith,j.;graham,c.h.;anderson,r.p.;dudík,m.;ferrier,s.;guisan,a.;hijmans,r.j.;huettmann,f.;leathwick,j.r.;lehmann,a.novelmethodsimprovepredictionofspecies’ꢀdistributionsfromoccurrencedata.ecography2006,29,129–151)。maxent提供了一些适合本研究的优点:它是非参数化的、仅需要对象存在的数据、可使用连续数据和分类数据、可合并变量之间的相互作用、并产生连续的适宜性图(具体实施过程可参见文献1:phillips,s.j.;anderson,r.p.;schapire,r.e.maximumentropymodelingofspeciesgeographicdistributions.ecol.model.2006,190,231–259,文献2:phillips,s.j.;miroslav,k.;schapire,r.e.amaximumentropyapproachtospeciesdistributionmodeling.inproceedingsofthetwenty-firstinternationalconferenceonmachinelearning,banff,ab,canada,4–8july2004;p.83.)。[0132]本发明将蚊媒风险点作为目标对象,与相关环境变量生成识别模型。为了评估模型结果,随机选取75%的对象数据作为训练样本,其余25%用于模型检验,模型采用自举重复方式独立重复运行10次,模型结果通过所有子模型的像元输出值加和平均得到。将目标对象与10000个随机背景点合并,并通过受试者工作特征曲线以计算其平均线下面积(参见文献:wang,y.s.;xie,b.y.;wan,f.h.;xiao,q.m.;dai,l.y.applicationofroccurveanalysisinevaluatingtheperformanceofalienspecies’potentialdistributionmodels.biodivers.sci.2007,15)。auc是将模型预测能力与随机预测进行比较的性能指标,使用auc的模型准确度表征如下:0.50-0.60,不足;0.60-0.70,差;0.70-0.80,中等;0.80-0.90,好;和0.90-1.00,优秀(可参见文献1:greiner,m.;pfeiffer,d.;smith,r.d.principlesandpracticalapplicationofthereceiver-operatingcharacteristicanalysisfordiagnostictests.prev.vet.med.2000,45,23–41,文献2:vanagas,g.receiveroperatingcharacteristiccurvesandcomparisonofcardiacsurgeryriskstratificationsystems.interact.cardiovasc.thorac.surg.2004,3,319–322)。本实施例还采用“10%训练存在逻辑阈值”将输出结果二值化处理并对比分析(参见文献1:jiménez-valverdea,lobojm(2007)thresholdcriteriaforconversionofprobabilityofspeciespresencetoeither-orpresence-absence.actaoecologica,31,361–369,文献2:liuc,berrypm,dawsontp,pearsonrg(2005)selectingthresholdsofoccurrenceinthepredictionofspeciesdistributions.ecography,28,385–393)。模型利用软件maxent3.4.1建立。[0133]下面具体接收每种模型的实施过程:[0134]a、最大熵值模型(maxent)的实施过程为:[0135]第一步将已知分布点数据文件格式在excel中转为.csv格式导出,通过browse加载到maxent软件。[0136]第二步将环境变量ascii文件的环境数据通过browse导入macent模型软件。[0137]第三步创建响应曲线并设置75%的分布点作为训练集,25%为随机测试集,重复多次(一般是10次)进行计算,获得结果。[0138]b、基于规则集的遗传算法模型(garp)的实施过程为:[0139]第一步将物种已知分布点数据转换成desktopgarp模型软件支持的格式。[0140]第二步通过模型软件中uploaddatapoints功能加载,选择70%的分布数据作为训练数据,其余数据作为检验数据。[0141]第三步环境数据.asc文件通过desktopgarp软件中的datasetmanager处理转换成desktopgarp可识别的格式.raw,以数据集的形式加载到软件中。[0142]c、bioclim和domain模型的实施过程为:[0143]第一步在diva-gis中首先添加.shp格式的训练数据集。[0144]第二步将10个环境变量文件ascⅱ转换成.grd格式,生成stack数据集。[0145]第三步在modeling-bioclim/domain模块中添加stack格式的环境数据集,依次进行bioclim和domain模型的预测。[0146]d、生态位因子分析模型(enfa)的实施过程为:[0147]第一步将arcgis栅格数据转换为enfa所能使用的栅格数据格式[0148]第二步把数据导入在biomapper4.0软件中运行,通过计算特征矩阵提取累积贡献率生成蚊媒适生性空间分布图。[0149]评估检验过程中,maxent模型和enfa一般多采用刀切法(dojackknife)来评价变量对模型的重要性,使用受试者工作特征曲线(roc,receiveroperatingcharacteristiccurve)与横坐标围成的面积即auc值(areaundercurve)来评价准确性。auc值在0-1之间,0.5-0.6表现为失败,0.6-0.7表现为一般,0.8-0.9表现为好,0.9-1表现为极好。[0150]其他模型(garp、bioclim、domain)预测软件不具备分析环境因子对预测分布贡献的功能,因此将garp、bioclim、domain等3种模型基于10个环境因子预测的适生区作为对照组,分别以“刀切法”分析影响较大的三个环境因子为单因子,或作为共同因子来预测生物物种的适生区,进行预测结果的比较。[0151]进一步,为了提高环境变量确定的精确性,本实施例采用的广义相加模型(generalizedadditivemodel,gam)能够实现参数函数和非参数函数拟合为响应和预测之间的关系。利用gam拟合登革热适生区与多个环境变量之间的关系。确定这一关系的主要目标是:(1)明确蚊媒适生区的关键影响变量。(2)确定两者之间的关系(正相关还是负相关,线性相关还是非线性相关)。采用gcv准则作为拟合优度的评价标准,分析相关的环境变量,包括气候、社会经济、环境和景观等方面,筛选偏差最小的变量(就是一个变量排序筛选的过程)加入模型中,最后采用样条平滑函数拟合非线性变量,并调整模型满足残差独立的要求(参见文献1:honoriona,nogueirarm,codecoct,carvalhoms,cruzog,magalhaesmdea,etal.spatialevaluationandmodelingofdengueseroprevalenceandvectordensityinriodejaneiro,brazil.plosnegltropdis.2009;3(11):e545,文献2:woodsn.faststabledirectfittingandsmoothnessselectionforgeneralizedadditivemodels.journaloftheroyalstatisticalsociety:seriesb(statisticalmethodology).2008;70(3):495–518)。指定登革热病例与适生区参数关系如下:[0152]log(dengue)=β0+β1(bio18)+s(bio2)+s(bio3)+s(bio4)+s(bio7)+s(bio10)+s(bio11)+s(bio14)+s(bio15)+s(bio16)+s(bio17)+s(bio20)+s(bio21)(2)[0153]其中s()是样条平滑函数,非参数函数,分析使用软件r3.3.3和mgcv库。[0154]在该实施例中采用广义交叉验证方式:[0155]第一步、按照一定比例选择一个子集作为测试数据集,剩下的子集作为验证集。[0156]第二步、按照广义交叉验证公式验证。[0157]第三步、重复验证对比结果。[0158]在有些情况下,广义交叉验证也可以被看作为交叉验证加权后的结果。[0159]交叉验证(cross-validation)主要用于建模应用中,例如pcr、pls回归建模中。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和,称为press(predictederrorsumofsquares)。[0160]基于上述公开的具体实施过程,本实施例采用22个变量分别建立的白纹伊蚊和登革热疫情地理分布预测模型,auc值表明各个变量对白纹伊蚊和登革热疫情的预测能力相近,尤其是冷季降雨量(bio1)、干燥月降雨量(bio2)、干季平均气温(bio6)、冷月最低气温(bio8)、人口密度(bio14)、道路密度(bio16)、ndvi(bio17)、土地利用类型(bio18)、dem(bio20)九个变量对白纹伊蚊和登革热疫情的预测能力相近,预测精度均达到0.7以上。综合考虑变量的auc值和相关性后,分别筛选得到用于蚊媒适生区和登革热疫情风险预测模型的15和16个影响变量,如表2所示,其中,生物变量(ae)是指蚊媒适生区预测结果。其中,变量相关性指数如图4所示。[0161]表2变量筛选结果表[0162][0163]本实施例构建的蚊媒适生区模型结果(如图5所示)显示,训练auc值为0.86,检验auc值为0.83,aucstddev为0.01,表明基于maxent的广州市蚊媒适生区模型预测精度较好,具有较高的可信度。结果表明,广州市蚊媒适生区呈现出“珠江带”模式,主要分布在珠江流经的城市中心区域,适宜性最高,蚊媒适生性呈现出从市区到郊区递减的趋势,在城郊区县中心也存在小面积高适生性区域。蚊媒适生区预测值分乡镇统计并分级展示(如图6所示),高适生性区域主要分布在城市中心区(老城区),包括76个街道,面积为242km2。较高适生性区域主要分布在白云区、荔湾区、天河区、黄埔区和番禺区,包括24个街道/乡镇,总面积为290km2。[0164]气候因素、社会经济因素、环境因素和地理景观因素对蚊媒适生区模型的贡献分别为12.2%、26.1%、42.6%和19.2%,社会经济因素和环境因素是主要的影响因素,在气象因素中,降雨量相关变量(8.7%)的贡献大于温度相关要素(5.5%)。贡献较大的变量分别为:土地利用类型(27.7%)、dem(17.4%)、人口密度(14.6%)、ndvi(14.1%)和道路密度(10.1%)。因此,湿地、水田、低地势区域、人口密集区域、低植被覆盖度区域和高可达性区域是蚊媒适生区最可能存在的区域。[0165]根据10%训练存在逻辑阈值将模型的结果分别划分为:适生区和非适生区、对比模型结果的影响范围和人口(如图7所示),适生区面积2683km2,暴露人口1097万。所采用的最小的阈值,确保最小的遗漏率和90%样点的准确性。[0166]为了深入了解登革热与蚊媒的关系,利用广义加性模型拟合登革热病例与蚊媒密度分级和蚊媒适生区两个变量的曲线,结果表明,蚊媒密度最高(三级)的区域的登革热病例数最多,较低蚊媒密度(一级和二级)区域病例数也较少(如图8所示)。登革热疫情与蚊媒适生性与成正相关关系,而且曲线斜率是不断增加的,表示蚊媒适生性越高的区域对登革热疫情越严重。广州市蚊媒适生性在0.6-0.85的区域的疫情风险最大(如图9所示)。[0167]在该实施例中,基于精细尺度的网格(1公里×1公里)利用生态位模型成功实现广州市登革热蚊媒适生区的精确预测,并利用广义加性模型完成环境因素对登革热疫情影响机制的探索。[0168]研究表明该实施例采用本发明提供的登革热蚊媒适生区及主要影响因素的识别方法能够识别出广州市蚊媒适生性最强的“珠江带”,蚊媒适生区呈聚集模式,城市中心大面积聚集、城郊区县小面积聚集。蚊媒适生区模型的结果作为媒介生物变量可以用于登革热疫情风险分布探测,媒介生物要素决定着登革热风险的变化。社会经济因素和环境因素是蚊媒适生区的主要影响因素,气象因素是次要影响因素,并且降雨量相关要素的影响大于温度相关要素。土地利用类型、人口密度和dem三个要素对于蚊媒适生区的精细空间格局至关重要。[0169]生态位模型结果表明,湿地、水田、低地势区域、人口密集区域、低植被覆盖度区域和高可达性区域是蚊媒适生区最可能存在的区域。[0170]基于本实施例上述研究结果,jackknife测试发现,ndvi、道路密度和lucc是限制白纹伊蚊分布和扩散的最重要因素(如图10所示)。本实施例提供的研究结果支持这样一种观点,即只研究温度和降水等气候因素或只研究社会经济和环境因素的模型不完整,缺少关于栖息地适宜性的重要信息来源。很多学者研究温度和降水等气候因素对蚊媒栖息地的影响,它们可能是主要的影响因素,但结果都是片面的。[0171]本发明遵循以下三个准则筛选变量:①在生物学和流行病学的角度,对蚊媒生存和df疫情发生非常重要。②在统计意义上,有利于拟合蚊媒数据和df疫情数据。③变量之间不存在强共线性。本实施例首先剔除相关性较强的变量,避免模型的过度拟合,同时减少每个对象建模时的要素个数。然后保留初步模型中高auc值和低p值的变量。这样既有利于突出社会经济、环境和地理景观等方面的主要变量对模型的贡献,又能综合分析各方面环境要素对蚊媒适生性的影响程度。蚊媒模型中,社会经济因素、环境因素对模型的贡献大于气候因素和地理景观因素,而主要要素的贡献从高到低依次为土地利用类型、dem、人口密度、ndv、道路密度,这一发现与多个地区相关研究结果一致。[0172]蚊媒的环境变量分析发现,蚊媒高适宜性区域的特点是:社会经济和环境因素是主要影响因素,较高的人口密度、道路密度和较低的人均gdp、ndvi、坡度的区域,该结果与较大范围上的研究一致。在快速发展的城市地区,发达的道路网络、高度的人口聚集以及两极化的人均gdp等特点符合广州市典型的“城中村”和“城乡结合部”区域,它们因城市人口的急剧增长与面积的扩张而形成,具有建筑密度高、卫生条件差、人口构成复杂等特点,对蚊虫的生长和繁殖有巨大的吸引力并且能够促进登革热病毒的传播,这一发现与多个登革热流行区的研究一致。[0173]气候因素是次要因素,原因可能是温度和降水等气候因素在小范围地区(城市)的空间异质性较低,而其在大范围地区(国家和省)的蚊虫研究中的影响较大。干燥月降雨量和湿润月降雨量两个变量是对蚊虫适生区影响最大的气象变量,分别在48mm和148mm时疫情风险达到最高。表明3月份和7月份降雨量对于蚊虫的生存、繁殖和病毒的传播影响较大,而且合适的降水有利于蚊虫的孳生和生长,过量的降水则会破坏蚊虫原有的生活环境,从而改变登革热疫情的传播途径。[0174]基于上述描述,本发明提供的登革热蚊媒适生区及主要影响因素的识别方法,能够表明使用精细尺度网格准确识别登革热媒介适生区的重要性,有利于指导地方卫生部门制定有效的公共卫生战略,启动早期预防措施和加强监测,从而降低登革热爆发的风险。[0175]此外,对应于上述提供的登革热蚊媒适生区及主要影响因素的识别方法,本发明还提供了以下实施系统:[0176]其中,一种登革热蚊媒适生区及主要影响因素的识别系统,如图11所示,包括:[0177]研究数据获取模块1,用于获取研究数据。研究数据以预设分辨率的网格基于arcgis10.2软件计算生成。网格覆盖待研究区域。研究数据包括:气象数据、社会经济数据、环境数据和地理景观数据。[0178]相关性分析模块2,用于采用相关性分析方法对研究数据进行相关性分析,得到相关变量数据。[0179]蚊媒适生性空间分布图生成模块3,用于采用最大熵值生态位模型,根据相关变量数据生成蚊媒适生性空间分布图。蚊媒适生性空间分布图包括登革热蚊媒适生区。[0180]拟合模块4,用于基于蚊媒适生性空间分布图,采用广义相加模型拟合登革热蚊媒适生区与相关变量数据之间的关系,得到拟合关系。[0181]影响因素确定模块5,用于根据拟合关系确定登革热蚊媒适生区的影响因素。[0182]作为一个优选实施例,上述采用的蚊媒适生性空间分布图生成模块3包括:[0183]蚊媒适生性空间分布图生成单元,用于采用biomapper4.0软件,基于最大熵值生态位模型根据相关变量数据确定特征矩阵,提取累积贡献率生成蚊媒适生性空间分布图。[0184]作为另一个优选实施例,上述采用的拟合模块4包括:[0185]分析筛选单元,用于采用gcv准则作为拟合优度的评价标准,分析相关变量数据筛选得到偏差最小的变量。[0186]拟合单元,用于将偏差最小的变量加入广义相加模型,采用样条平滑函数拟合登革热蚊媒适生区与相关变量数据之间的关系。[0187]作为又一个优选实施例,上述采用的拟合模块4还包括:[0188]参数调整单元,用于采用样条平滑函数拟合登革热蚊媒适生区与相关变量数据之间的关系的过程中,实时调整广义相加模型的参数,以满足残差独立的要求。[0189]另一种登革热蚊媒适生区及主要影响因素的识别系统,包括存储器和处理器。[0190]存储器和处理器连接。存储器中存储有计算机软件程序。计算机软件程序用于实施上述提供的登革热蚊媒适生区及主要影响因素的识别方法。处理器用于执行计算机软件程序。[0191]本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。[0192]本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1