基于图卷积的手足口病发病趋势预测系统

文档序号:24725718发布日期:2021-04-16 15:58阅读:125来源:国知局
基于图卷积的手足口病发病趋势预测系统

1.本发明涉及基于图卷积的时空序列预测方法,属于时间序列预测技术领域。


背景技术:

2.手足口病是由多种肠道病毒引起的一种常见传染病,具有散播快、流行性强的特点,发病主要集中于5岁以下婴幼儿,并可以在短时间内造成一定规模的流行。手足口病临床症状主要表现为发热和手、足、口或其他部位的皮疹、疱疹,有可能会出现口腔溃疡,大多数儿童有大约一周的自我修复能力,少数儿童可引起心肌炎、肺水肿、无菌性脑膜脑炎等致命性并发症,重症病例死亡率较高,危害严重。手足口病在我国流行日趋严重,许多地区先后出现大规模的暴发和流行,每年该病患病人数有两百多万,死亡多达数百例,已成为一个重要的公共卫生问题。气象因素对传染病的发生、传播起着至关重要的作用,其不仅影响个体的自身免疫能力,还会影响病原微生物的繁殖和传播能力。手足口病作为一种肠道病毒导致的传染病,适宜的温度和湿度必然会导致肠道病毒在外环境中大量繁殖并提高病毒的存活能力。大量研究表明,手足口病的季节性变化与风速、降雨量、平均相对湿度、平均温度、气压和日照等有关。手足口病还与地理区域及社会环境有的密切的联系,人口密度高、交通流量大的地区手足口病患病风险也会增加。结合这些影响因素建立相应的时间序列模型来预测手足口病的发病趋势,可以找出手足口病的传播规律,能够为卫生部门制定预防措施提供科学依据,对手足口病的早期预警具有重要意义。现有的传染病预测方法大多是基于统计学的方法和基于传统机器学习的方法,在短期预测上取得了较好的结果,但是由于这些方法没有充分利用到气象因素、地理因素等影响疾病传播的数据,在中长期预测方面效果较差。
3.因此有人于2020.03.01申请了专利名称为一种融合气象因素和搜索指数的手足口病预测方法,该发明公开一种融合气象因素和搜索指数的手足口病预测方法,步骤是:收集气象数据、搜索指数和历史手足口病发病数据,并统计为固定时间间隔内的时序数据;从时间差分的角度计算各个具体因素和历史手足口病发病人数的相关系数,确定最大相关系数对应的时间间隔;根据时间间隔聚合当前所有的因素和对应若干时间间隔之后某一个时间段内的发病人数;根据差分时间聚合的多因素数据作为模型的样本,对应若干时间间隔之后某一时间段内的发病人数作为预测目标,训练手足口病预测模型;输入采集的实时病例数据、搜索数据和气象数据,得到短期内的发病情况。此种预测方法能够克服手足口病发病人数的不确定性问题,提高预测传染病发病人数的精准性。
4.还有人于2020.03.03申请了专利名称为基于病例、气象和病原监测数据的手足口病疫情预测方法,该发明公开了基于病例、气象和病原监测数据的手足口病疫情预测方法,分析事先收集整理的手足口病病例与气象、病原学因素的相关关系以及滞后效应,筛选纳入模型的指标;基于手足口病病例、气象和病原学的多源数据,采用时间序列广义相加模型方法构建手足口病预测模型;将多源数据分为训练数据集和验证数据集,对手足口病疫情预测模型的拟合情况和预测效果进行评估;由于结合了病例气象、病原学和人口数据,并采
用时间序列的广义相加模型方法构建预测模型,且分数据集对模型的拟合情况和预测效果进行训练和验证,由此可对手足口病疫情流行趋势进行实时的前瞻性预测和风险预警,预测结果更为可靠,时效性和实用性也都更高。
5.由于手足口病与地理区域有着密切的关系,人口密度高、交通流量大的地方手足口病患病风险也会增加,城市之间因为人口流动会造成手足口病的扩散。而以上这两个方法没有考虑区域之间的流通关系,不能对城市之间手足口病的关联性建模,因此需要申请人通过图卷积使每个城市学习到其周围城市的发病特征,来解决以上问题。


技术实现要素:

6.本发明所要解决的技术问题在于克服现有技术的不足,提供一种基于图卷积的手足口病发病趋势预测系统,将气象数据、地理数据作为特征纳入模型,利用时间卷积学习数据的时间相关性;以地理位置为基础构造图,利用图卷积学习数据的空间相关性;本发明能够学习手足口病数据的时空特性并得到未来的发展趋势,实现手足口病的长期预测。
7.本发明具体采用以下技术方案解决上述技术问题:
8.基于图卷积的手足口病发病趋势预测系统,其特征在于,包括以下步骤:
9.步骤(1)、根据地理位置将一个省各城市的空间关系表示为一个无向带权重图g=(v,e,w);
10.步骤(2)、以周为时间单位统计一个省的各个市的手足口病周总病例数、周平均气温和平均降雨量,通过滑动窗口的方式获得固定时间步长的时间序列,构建数据集;
11.步骤(3)、将病例数据输进时空卷积网络,提取病例数据的时空特征;
12.步骤(4)、将气象数据输进气象数据编码器,得到气象数据编码特征;
13.步骤(5)、将病例数据时空特征和气象数据编码特征拼接并输进输出模块,得到模型的输出特征,将同期历史病例数据按比例与输出特征相加得到模型的单步预测结果;
14.步骤(6)、计算损失值并反向传播训练网络;
15.步骤(7)、使用迭代预测的方式,将单步预测结果作为真实病例数输入模型,得到多步预测结果。
16.进一步地,所述步骤(1)以一个省各市的空间关系表示为无向带权重图g=(v,e,w),v表示n个节点的集合{v1,v2,...,v
n
},每一个节点表示该省的一个市;e表示边的集合,若节点v
i
与节点v
j
表示的城市在地理上相邻则构成边e
ij
;w是大小为n
×
n空间权重矩阵,权重w
ij
表示城市i和城市j之间手足口病传播强度的大小,权重的计算公式为:
[0017][0018]
其中σ和∈是用来控制权重矩阵w稀疏性的阈值,分为设置为10和0.5,d
ij
是城市i和城市j的空间距离,距离的计算公式为:
[0019][0020]
其中r为地球半径,m
i
和n
i
是城市i的纬度和经度。
[0021]
进一步地,所述步骤(2)构建对数据进行预处理并构建数据集,具体包括步骤:
[0022]
步骤(201)、以周为时间单位统计一个省各市手足口病周总发病人数作为病例数据;以周为单位统计各市的周平均温度和周平均降雨量作为气象特征;
[0023]
步骤(202)、通过滑动窗口的方式将步骤(201)周总病例数据、周气象数据转化为固定时间步长的时间序列构造训练集,设滑动窗口大小为n,则窗口内时间长度为n的病例数据和气象特征作为训练集的输入向量x
t

n+1,...,t

1,t
,窗口右边时间长度为1的病例数据作为训练集标签y
t+1
,将前面一年同一周的病例数据作为同期历史病例数据s
t+1

[0024]
进一步地,所述步骤(3)的时空卷积网络由2个相同的时空卷积模块st1,st2组成,其中时空卷积模块st1由2个时间卷积层t1,t2、1个空间卷积层s1和1个规范化层bn构成,并且t1,s1,t2的通道数分别为1,4,8,时空卷积模块st2由2个时间卷积层t3,t4和1个空间卷积层s2构成,并且t3,s2,t4的通道数分别为8,4,1;时间卷积层的卷积核大小为kt=5,步长为1,不采用填充;空间卷积层的图卷积运算使用图拉普拉斯变换来实现,并使用切比雪夫多项式来拟合卷积核,拉普拉斯矩阵l的计算公式和图卷积θ*g计算公式为:
[0025][0026][0027][0028]
其中w是邻接矩阵,i是单位矩阵,d是度矩阵,z为空间卷积层的输入特征,t
k
(
·
)为切比雪夫多项式,θ
k
∈r
ks
是切比雪夫多项式的系数,ks是图卷积核的大小,决定了中心节点的最大卷积半径,设置为2,λ
max
是l的最大特征值。
[0029]
进一步地,所述步骤(3)中将病例数据输进时空卷积网络提取时空特征,具体包括步骤:
[0030]
步骤(301)将病例输入数据x
in
输进时间卷积层t1提取数据的时间相关性,得到特征f
t1

[0031]
步骤(302)将特征f
t1
输进空间卷积层s1提取数据的空间相关性,得到特征f
s1

[0032]
步骤(303)将特征f
s1
输进时间卷积层t2提取时间相关性得到特征f
t2

[0033]
步骤(304)将特征f
t2
输进规范化层bn,使其规范化到n(0,1)正态分布,得到时空卷积块st1的输出特征f1;
[0034]
步骤(305)将f1输进时间卷积层t3提取数据的时间相关性,得到特征f
t3

[0035]
步骤(306)将特征f
t3
输进空间卷积层s3提取数据的空间相关性,得到特征f
s2

[0036]
步骤(307)将特征f
s2
输进时间卷积层t4提取时间相关性,得到特征f
t4

[0037]
步骤(308)将特征f
t4
输进规范化层bn,使其规范化到n(0,1)正态分布,得到时空卷积块st2的输出特征f2。
[0038]
进一步地,所述步骤(4)的气象数据编码模块encoder由1个全连接层full构成,将气象数据t
in
,r
in
输进encoder得到气象编码特征f
w

[0039]
进一步地,所述步骤(5)的输出模块由两个时间卷积层t5,t6、1个规范化层bn构成和一个全连接层full构成。
[0040]
进一步地,所述步骤(5)将病例数据时空特征和气象数据编码特征拼接并输进输
出模块,得到模型的输出特征,将同期历史病例数据按比例与输出特征相加得到模型的单步预测结果,具体步骤如下:
[0041]
步骤(501)连接步骤(3)得到的特征f2和步骤(4)得到的特征f
w
得到特征f3;
[0042]
步骤(502)将特征f3输进时间卷积层t5,得到特征f
t5

[0043]
步骤(503)将特征f
t5
输进规范化层bn,得到特征f5;
[0044]
步骤(504)将特征f5输进时间卷积层t6,得到特征f
t6

[0045]
步骤(505)将特征f
t6
输进全连接层full,得到输出特征f
o

[0046]
步骤(506)将特征f
o
加上同期历史病例数据s
in
得到模型的单步结果其中同期历史病例数据比例分量为0.7。
[0047]
进一步地,所述步骤(6)的计算损失值并反向传播训练网络,采用动态学习率,初始学习率设为0.001,然后每5轮学习率降为原来的0.7倍,优化器采用adam;采用均方误差计算损失值,且进行反向传播训练模型,损失值的计算公式为:
[0048][0049]
其中,为城市c在t+1时刻的真实病例数,为城市c在t+1时刻的预测病例数。
[0050]
进一步地,所述步骤(7)用迭代预测的方式,将单步预测结果作为真实病例数输入模型,得到多步预测结果,具体包括步骤:
[0051]
步骤(701)输入测试集数据,每次预测单步然后将作为模型输入预测下一步;
[0052]
步骤(702)重复步骤(701)得到多步预测结果
[0053]
本发明采用上述技术方案,能产生如下技术效果:
[0054]
本发明将省作为整体,将市作为节点,以地理空间位置为基础构建无向图并表示为邻接矩阵,通过时间卷积方法提取数据的时间相关性,利用图卷积学习数据空间相关性,并且将周平均温度、平均降水、同期历史病例数据作为相关特征纳入模型来提高预测准确度。模型输出单步预测结果,通过迭代预测获得中长期预测结果。本发明能充分利用气象因素、地理因素挖掘手足口病发展与传播的时空特性,获得高准确率的中长期预测结果,在山东省手足口病趋势预测上,能够得到山东省各市未来三个月的发展趋势。
附图说明
[0055]
图1为本发明基于图卷积的手足口病发病趋势预测系统示意图;
[0056]
图2为本发明采用基于图卷积的时空序列预测网络架构示意图;
[0057]
图3为本发明对山东省各市2019年手足口病发病预测结果示意图。
具体实施方式
[0058]
下面结合说明书附图对本发明的实施方式进行描述。
[0059]
本发明提供一种基于图卷积的手足口病发病趋势预测系统,将气象数据、地理数
据作为特征纳入模型,利用时间卷积学习数据的时间相关性;以地理位置为基础构造图,利用图卷积学习数据的空间相关性;本发明能够学习手足口病数据的时空特性并得到未来的发展趋势,实现手足口病的长期预测。
[0060]
如图1所示,本发明设计了一种基于图卷积的手足口病发病趋势方法,以省为整体并以各个城市间的地理距离为基础构建图,利用时间卷积学习数据时间相关性,利用图卷积学习数据空间相关性,得到数据时空特征并进行手足口病发病趋势的中长期预测,本方法具体包括以下步骤:
[0061]
步骤(1)、以省为整体,以市为节点,并以地理距离为基础构建无向带权重图g=(v,e,w),其中v表示n个节点的集合{v1,v2,...,v
n
},每一个节点表示该省的一个市;e表示边的集合,若节点v
i
与节点v
j
表示的城市在地理上相邻则构成边e
ij
;w是大小为n
×
n空间权重矩阵,权重w
ij
表示城市i和城市j之间手足口病传播强度的大小,权重的计算公式为:
[0062][0063]
其中σ和∈是用来控制权重矩阵w稀疏性的阈值,分为设置为10和0.5,d
ij
是城市i和城市j的空间距离,距离的计算公式为:
[0064][0065]
其中r为地球半径,m
i
和n
i
是城市i的纬度和经度。
[0066]
步骤(2)、以周为时间单位统计一个省的各个市的手足口病周总病例数、周平均气温和平均降雨量,通过滑动窗口的方式获得固定时间步长的时间序列,构建数据集,具体过程如下;
[0067]
步骤(201)以周为时间单位统计一个省各市手足口病周总发病人数作为病例数据;以周为单位统计各市的周平均温度和周平均降雨量作为气象特征;
[0068]
步骤(202)通过滑动窗口的方式对步骤(201)周总病例数据切片得到病例输入数据x
in
和输出标签y,将时间前移一年的气象数据作为气象特征,并进行切片得到气象数据t
in
,r
in
,将时间前移一年的病例数据作为同期历史病例数据s
in

[0069]
步骤(3)、将病例数据输进时空卷积网络,提取病例数据的时空特征,其网络架构如图2所示。
[0070]
为了充分到学习数据的时空特性,由2个相同的时空卷积模块st1,st2组成,其中时空卷积模块st1由2个时间卷积层t1,t2、1个空间卷积层s1和1个规范化层bn构成,并且t1,s1,t2的通道数分别为1,4,8,时空卷积模块st2由2个时间卷积层t3,t4和1个空间卷积层s2构成,并且t3,s2,t4的通道数分别为8,4,1;时间卷积层的卷积核大小为kt=5,步长为1,不采用填充;空间卷积层的图卷积运算使用图拉普拉斯变换来实现,并使用切比雪夫多项式来拟合卷积核,拉普拉斯矩阵l的计算公式和图卷积θ*g计算公式为:
[0071][0072]
[0073][0074]
其中w是邻接矩阵,i是单位矩阵,d是度矩阵,z为空间卷积层的输入特征,t
k
(
·
)为切比雪夫多项式,θ
k
∈r
ks
是切比雪夫多项式的系数,ks是图卷积核的大小,决定了中心节点的最大卷积半径,设置为2,λ
max
是l的最大特征值。
[0075]
将手足口病病例数据输进时空卷积网络,提取数据的时空特征,时空卷积网络的数据输入、特征提取步骤如图2所示,具体过程如下:
[0076]
步骤(301)将病例输入数据x
in
输进时间卷积层t1提取数据的时间相关性,得到特征f
t1

[0077]
步骤(302)将特征f
t1
输进空间卷积层s1提取数据的空间相关性,得到特征f
s1

[0078]
步骤(303)将特征f
s1
输进时间卷积层t2提取时间相关性得到特征f
t2

[0079]
步骤(304)将特征f
t2
输进规范化层bn,使其规范化到n(0,1)正态分布,得到时空卷积块st1的输出特征f1;
[0080]
步骤(305)将f1输进时间卷积层t3提取数据的时间相关性,得到特征f
t3

[0081]
步骤(306)将特征f
t3
输进空间卷积层s3提取数据的空间相关性,得到特征f
s2

[0082]
步骤(307)将特征f
s2
输进时间卷积层t4提取时间相关性,得到特征f
t4

[0083]
步骤(308)将特征f
t4
输进规范化层bn,使其规范化到n(0,1)正态分布,得到时空卷积块st2的输出特征f2;
[0084]
步骤(4)、将气象数据输进气象数据编码器,得到气象数据编码特征。
[0085]
为了将气象特征加入到模型中,使用气象数据编码器对气象数据进行处理,气象数据编码模块encoder由1个全连接层full构成,气象数据t
in
,r
in
通过encoder得到气象编码特征f
w

[0086]
步骤(5)、将病例数据时空特征和气象数据编码特征拼接并输进输出模块,得到模型的输出特征,将同期历史病例数据按比例与输出特征相加得到模型的单步预测结果,具体过程如下:
[0087]
步骤(501)连接步骤(3)得到的特征f2和步骤(4)得到的特征f
w
得到特征f3;
[0088]
步骤(502)将特征f3输进时间卷积层t5,得到特征f
t5

[0089]
步骤(503)将特征f
t5
输进规范化层bn,得到特征f5;
[0090]
步骤(504)将特征f5输进时间卷积层t6,得到特征f
t6

[0091]
步骤(505)将特征f
t6
输进全连接层full,得到输出特征f
o

[0092]
步骤(506)将特征f
o
加上同期历史病例数据s
in
得到模型的单步结果其中同期历史病例数据比例分量为0.7。
[0093]
步骤(6)、计算损失值并反向传播训练网络。
[0094]
模型的训练过程中,使用动态学习率,初始学习率设为0.001,然后每5轮学习率降为原来的0.7倍,优化器采用adam,采用均方误差计算损失值,且进行反向传播训练模型,损失值的计算公式为:
[0095]
[0096]
其中,为城市c在t+1时刻的真实病例数,为城市c在t+1时刻的预测病例数。
[0097]
步骤(7)、使用迭代预测的方式,将单步预测结果作为真实病例数输入模型,得到多步预测结果,具体过程如下:
[0098]
步骤(701)输入测试集数据,每次预测单步然后将作为模型输入预测下一步;
[0099]
步骤(702)重复步骤(701)得到多步预测结果
[0100]
基于本发明的方法,在山东省17个市的手足口病数据上进行了实验,通过迭代预测的方式得到第12周的发病人数,图3是基于本发明的方法对山东省各市2019年手足口病的预测结果。通过评价指标mae和rmse展示本发明采用的基于图卷积的手足口病发病趋势预测系统的优势,山东省2019年周病例数的预测结果与真实值的mae、rmse分别为35.244和62.254。
[0101]
综上,本发明设计了一种基于图卷积的手足口病发病趋势预测系统,组合时间卷积和图卷积来学习手足口病发病数据的时空特性。利用时间卷积学习数据的时间相关性,以地理位置为基础构造图,利用图卷积学习数据的空间相关性,将平均温度和平均降水量作为手足口病的相关影响特征纳入模型,并引入同期历史病例数据来提高预测精度。本发明能够捕获手足口病传播的时空关系和发展趋势,实现手足口病的长期预测。
[0102]
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1