本发明属于传染病预测技术领域,特别涉及一种融合气象因素和搜索指数的手足口病预测方法。
背景技术:
传染病是一个重要的全球性公共卫生问题,近十年的发病率呈现上升趋势,一直被政府机构、医疗单位和民众所密切关注。手足口病是发病率最高的传染病之一,也是传染病防治的重点,特别是发展中国家的婴幼儿发病率更为显著。
影响传染性疾病发病、流行和传播的因素主要分为:1)自然因素,如气象、空间环境、生态条件;2)社会因素,如社会制度、经济条件、文化水平、风俗习惯。
气象因素作为一种自然环境因素已被证实和传染病的发病率有联系,然而,社会因素却很少被考虑到传染病发病人数的预测和预报。
搜索引擎作为互联网的重要入口,和生活密切相关,通过给定词汇的搜索指数可以为社会因素的侧面或截面描述提供依据。
技术实现要素:
本发明的目的,在于提供一种融合气象因素和搜索指数的手足口病预测方法,通过统计历史发病情况、气象因素和搜索指数在不同时间段内的因素,并设计融合这三种不同数据的时序模型,以训练和预测短期内的手足口病发病人数,能够克服手足口病发病人数的不确定性问题,提高预测传染病发病人数的精准性。
为了达成上述目的,本发明的解决方案是:
一种融合气象因素和搜索指数的手足口病预测方法,包括如下步骤:
步骤1,收集气象数据、搜索指数和历史手足口病发病数据,并统计为固定时间间隔内的时序数据;
步骤2,从时间差分的角度计算各个具体因素和历史手足口病发病人数的相关系数,确定最大相关系数对应的时间间隔;
步骤3,根据确定的时间间隔,聚合当前所有的因素和对应若干时间间隔之后某一个时间段内的发病人数;
步骤4,根据差分时间聚合的多因素数据作为模型的样本,对应若干时间间隔之后某一时间段内的发病人数作为预测目标,训练手足口病预测模型;
步骤5,根据训练的模型,输入采集的实时病例数据、搜索数据和气象数据,得到短期内的发病情况。
上述步骤1的具体过程是:
步骤11,设置时间间隔数量为k,用{t1,t2,…,tk}表示连续且等间隔的一个时间段;
步骤12,在{t1,t2,…,tk}中统计气象数据和各个地区、平台的搜索指数,其中,vk={v1,v2,…,vk}表示变量vi在第i个时间间隔内的时序序列,i=1,2,…,k;变量v∈{m,b},其中m表示气象因素的集合,b表示搜索指数;用ck={c1,c2,…,ck}表示历史发病人数时序序列。
上述步骤2中,从时间差分的角度计算各个具体因素和历史手足口病发病人数的相关系数,其计算公式是:
其中,pvcd表示变量v和发病人数c相差d天的pearson相关系数,即v比c早d天;vi表示变量v在第i天的数值,
上述步骤2中,确定最大相关系数对应的时间间隔的具体方法是:根据变量v和发病人数c相差d天的pearson相关系数pvcd计算所有因素{m,b}和病例ck在最大相关系数下的时间差分,记为tvd,对于给定因素v*,其计算公式为:
其中,
上述步骤3的具体过程是:根据tvd聚合所有气象因素和搜索指数,提取所有聚合因素的均值和发病人数的均值增广特征,作为模型的输入xt,当前的发病人数ct作为模型的输出,其聚合公式:
yt←ct
其中,
上述步骤4中,手足口病预测模型包括输入层、表示层、合并层和输出层,其中,输入层用于输入xt数据,包括过去lag个时间间隔的病例数据、差分气象数据和差分搜索指数数据;表示层中,采用lstm处理输入的病例数据,采用全连接层处理输入的气象数据和搜索指数数据;在合并层中合并上一层所有数据,并将合并后的数据输出作为预测数据。
上述步骤4中,层与层之间采用线性整流函数作为激活函数。
上述步骤4中,手足口病预测模型采用均方误差作为目标函数。
上述步骤5中,根据训练好的手足口病预测模型,输入分析和聚合后的实时采集数据,预测下一个时间间隔内的发病人数,其计算公式是:
其中,x't表示分析和聚合后的实时采集数据,
采用上述方案后,本发明通过对气象数据、搜索指数和发病人数的时间差分聚合分析,得到在最大相关系数下的时间差分,利用时间差分聚合以上三类数据,输入到融合三种数据的时序神经网络中,使得在手足口病的潜伏期时预测短期内的手足口病感染人数更加精准。
与现有技术相比,本发明有以下优点:
(1)缓解发病人数不确定性的问题
本发明通过引入和聚合相关或弱相关的天气数据和百度搜索指数,并设计可以融合和利用三种数据的模型,在一定程度上缓解手足口病发病人数在各个时间间隔内不确定的问题,从而提高预测的准确性。
(2)实时预测的可行性
本发明所用到的天气数据、搜索指数和历史手足口病的发病数,均可实时获取。差分分析使得手足口病的潜伏期可以从数据分析的角度被估算出来,利用历史数据训练手足口病预测模型,输入实时数据后,实时预测短期内发病情况。
附图说明
图1是本发明的流程图;
图2是本发明实施例示意图。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
如图1所示,本发明提供一种融合气象因素和搜索指数的手足口病预测方法,包括如下步骤:
步骤1,收集气象数据、搜索指数(如通过百度搜索引擎)和历史手足口病发病数据,并统计为固定时间间隔内的时序数据;
该步骤的具体过程是:
11)设置时间间隔数量为k,用{t1,t2,…,tk}表示连续且等间隔的一个时间段,如天、周或月。k是可以调整的,时间间隔也是可变的,如两天为一个间隔;
12)在{t1,t2,…,tk}中统计气象数据和各个地区、平台的搜索指数,其中,气象数据如:平均温度、平均湿度、最高气压,用m表示气象因素的集合;搜索指数如:厦门地区pc、手机端手足口病的搜索人数,用b表示百度搜索指数。用vk={v1,v2,…,vk}表示变量vi在第i个时间间隔内的时序序列,i=1,2,…,k。用ck={c1,c2,…,ck}表示历史发病人数时序序列。
步骤2,从时间差分的角度计算各个具体因素和历史手足口病发病人数的相关系数,确定最大相关系数对应的时间间隔;
具体过程是:
21)从时间差分的角度计算各个具体因素和历史手足口病发病人数的相关系数,其计算公式:
其中,pvcd表示变量v和发病人数c相差d天的pearson相关性系数,即v比c早d天。vi表示变量v在第i天的数值,
22)根据公式pvcd计算所有因素{m,b}和病例ck在最大相关系数下的时间差分,记为tvd,对于给定因素v*,其计算公式:
步骤3,根据确定的时间间隔,聚合当前所有的因素和对应若干时间间隔之后某一个时间段内的发病人数;
根据tvd聚合所有气象因素和百度搜索指数,提取所有聚合因素的均值和发病人数的均值增广特征,作为模型的输入xt,当前的发病人数ct作为模型的输出,其聚合公式:
yt←ct
其中,
步骤4,根据所述数据,训练手足口病预测模型。其中,根据差分时间聚合的多因素数据作为模型的样本,对应若干时间间隔之后某一时间段内的发病人数作为预测目标;
具体包括:
41)根据所述数据,训练手足口病预测模型。其中,手足口病模型包括:输入层、表示层、合并层和输出层。输入层用于输入xt数据,包括过去lag个时间间隔的病例数据,差分气象数据和差分百度搜索指数数据。表示层中,设计了三个部分来处理之前的三种不同输出,第一步用longandshorttermmemory(lstm)处理时序数据,第二部分和第三部分分别用了全连接层来处理两种输入。在合并层中合并上一层所有数据,并输出作为预测数据;
42)设计的手足口病模型,用均方误差(mse)作为目标函数。层与层之间的激活函数使用线性整流函数(relu);
步骤5,根据所述训练的模型,输入采集的实时病例数据、搜索数据和气象数据,得到短期内的发病情况;
根据所述训练好的手足口病模型,输入分析和聚合后的实时采集数据,预测下一个时间间隔内的发病人数。其计算公式是:
其中,x't分析和聚合后的实时采集数据,
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。