一种基于空间聚合的蚊媒传染病发热人群范围标记方法与流程

文档序号:17491297发布日期:2019-04-23 20:34阅读:183来源:国知局
一种基于空间聚合的蚊媒传染病发热人群范围标记方法与流程

本发明涉及一种基于空间聚合的蚊媒传染病发热人群范围标记方法,属于计算机应用领域。



背景技术:

随着全球气候的变暖、城市化进程的加快、世界各国贸易往来的频繁以及国际间交通工具运输的快捷便利、生态环境的不断恶化,全球蚊媒传染病发病呈上升趋势,原有蚊媒传染病的流行区域不断扩展、疾病的流行频度不断增强。使得原本局限于某一地域或者国家内的疾病突破国境的界限,引起在世界范围内的广泛传播与流行,曾经或正在流行的蚊媒传染病给世界人民带来了巨大危害。因此,对蚊媒传染病的研究迫切需要。

蚊媒传染病是人—蚊—人的传播模式,其具有复杂的时空变异性,受多尺度、随机性、过程特征复性等多因素影响,因果关系之间具备强非线性相关性,同时虫媒传染病暴发周期短、传播速度快,人员流动量大的地区更加剧了疫情暴发的风险,传统方法难以及时发现和捕获疾病发生与发展态势。近年来,大部分研究都致力于直接利用蚊媒传染病的病例来描述传染病的趋势,如基于地理侧写的疫点反算分析方法,基于空间距离的病例插值呈现技术等。但这些方法仅考虑已确诊病例的分布情况,而忽视潜在病例和可能的感染人群,而且大部分基于空间的分析方法无法直接描述疾病态势,不能很好地支持疾病暴发时的疫情处置工作。

一部分研究者利用海量数据点标注的方式标注人群,例如汇总长期居住在某一特定区域的人群信息,通过经纬度将每个人视为一个点标记在地图上进行分析处理。一方面,这种方案对数据采集的工作量过大,而且对于人员流动较大的地区,数据更新频繁,容易出现脏数据的问题,影响对疫情态势的整体把握。另一方面,基于海量点的呈现方式不利于观测,无法直接从中获取疫情的发展趋势,而仅仅凭借专家经验很难从中发现潜在的易感人群和暴发疫点,无形中给疫情处置和后期的蚊媒消杀工作增加了负担。



技术实现要素:

本发明技术解决问题:克服现有技术中存在的不足,提供一种基于空间聚合的蚊媒传染病发热人群范围标记方法,具有科学可行、易于观察的优点,从发热人群的角度出发,对发热症状人群的地理位置信息进行空间聚合,标记可能暴发疫情的地域范围,配合区域空间描述进行可视化呈现,实现对虫媒传染病态势的早期观测和预警,极大程度地辅助疫情处置和蚊虫消杀工作。

本发明解决其技术问题所采用的技术方案是:一种基于空间聚合的蚊媒传染病发热人群范围标记方法,包括以下步骤:

第一步,收集蚊媒传染病发热人群的详细资料并对个体的坐标数据进行预处理;

第二步,对处理后的数据采用无监督聚类方法,得到每一类内部的个体坐标数据,删除孤类;

第三步,使用最小覆盖圆算法依次对所述每一类内部的个体坐标数据进行处理,得到若干最小覆盖圆;

第四步,可视化展示发热人群空间聚合的最小覆盖圆。

所述步骤一中,所述发热人群的详细资料包括编号、姓名、民族、性别、年龄、住址、登记时间、体温、居住地横坐标、居住地纵坐标,去掉居住地横坐标或者居住地纵坐标为空的数据,同时去掉重复数据。

所述步骤二中,无监督聚类方法具体如下:

(1)将每个发热个体作为一个样本,选取个体的居住地横坐标和居住地纵坐标作为样本信息x,初始化nc个类,记为对应聚类中心分别为sj的聚类中心zj满足其中numj表示sj包含的样本数,设置阈值:k是预期聚类中心数,θn是每一类的样本数目下限,θs是类中样本的标准差上限,θc是聚类中心间的最小距离,l是迭代中合并操作的最大次数;

(2)对每个样本,计算该样本到各聚类中心的欧氏距离,找到距离样本最近的类,假设x到sj的距离满足dx=min{||x-zj||,j=1,2,…nc},其中||x-zj||表示x与zj的欧氏距离,则x∈sj;

(3)如果sj中的样本数numj<θn,则删除该类,nc减1;

(4)更新各聚类中心,

(5)计算每个类中样本与聚类中心的平均距离

(6)计算全部样本的总平均距离此时若合并次数超过l,令θc=0,转至(10),若转至(7),若迭代次数为偶数或者nc>2k,转至(10),否则转至(7);

(7)计算每个类中样本在各分量上的标准差,σxj表示第j类的横坐标标准差,σyj表示第j类的纵坐标标准差,记σj=(σxj,σyj)t,j=1,2,…nc;

(8)记录每个标准差中的最大分量σjmax=max{σj,j=1,2,…nc};

(9)对任一最大分量集合中,若同时满足:

σjmax>θs,nj>2(θn+1)

则随机选取该类中的两个样本作为聚类中心,将该类分解为两个类,nc加1,转至(2),否则转至(10);

(10)计算全部聚类中心的距离,dij=||zi-zj||,i=1,2,…nc-1,j=1,2,…nc,i≠j。将dij按距离递增排列;

(11)将距离为dij且dij<θc的聚类中心zi和zj合并,得到新的聚类中心,标记为第i类,nc减1,同时更新样本分类,

(12)若为最后一次迭代,转至(13),否则转至(2);

(13)得到每一类所包含的样本信息,删除所有只包含一个点的类,对这些点不做后续处理。

所述步骤三中,最小覆盖圆算法具体如下:

(1)假设共有n个点,依次编号为p1,p2…pi,…pn,1≤i≤n,以p1和p2为直径作圆,设为cx;

(2)按顺序依次扫描所有点,若所有点均在cx内,返回cx为最终结果,并退出程序,否则找到一点不在cx内,设为pi,进入步骤(3);

(3)执行至此,说明cx不包含pi,以p1和pi为直径作圆,设为cy,cy不一定包含p1~pi的所有点,按顺序依次扫描所有点,若所有点均在cy内,令cx=cy返回(2)执行,否则找到一点不在cy内,设为pj,此时一定有j<i,进入步骤(4);

(4)以p1和pj为直径作圆,设为cz,cz不一定包含p1~pj的所有点,按顺序依次扫描所有点,若所有点均在cz内,则更新圆cx=cz返回(2)执行,否则找到一点pk不在此圆内,此时pi,pj,pk一定在更新圆的边界上,过pi,pj,pk三点作圆并更新cx,返回(2)执行。

所述步骤四中,所述可视化展示结果包括平面直角坐标系中的散点和最小覆盖圆。

与现有技术方案相比,本发明的有益效果是:

(1)本发明通过收集发热人群的详细信息,提取疫情期间易感人群的居住地位置信息,实现对潜在病例的空间描述;

(2)本发明设计了一种基于发热人群地理位置信息的空间聚合自适应算法,增强对海量数据点的描述能力,缩小疾病控制范围,更精准地描述症状人群区域分布情况;

(3)本发明基于最小覆盖圆算法呈现空间聚合结果,易于观测发热人群的扩散态势和潜在的疫情发展趋势,提升对虫媒疾病早期预防和后期疫情处置能力。

附图说明

图1为本发明方法流程示意图;

图2为系统布局示意图;

图3为可视化结果呈现示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于,全面收集虫媒传染病发热人群的信息,根据发热人群的空间位置信息对个体进行非参数聚类,在类内基于最小覆盖圆算法实现发热人群的区域标定,结合坐标系对结果进行可视化呈现。

为了实现本发明的方法,使用四核阿里云服务器,cpu主频是3.2ghz,内存是8g,操作系统为windowsserver2008;本地设备cpu主频是3.4ghz,内存是8g,操作系统为microsoftwindows10。系统布局如图2所示,疾控人员将卫生院和医院的调查数据通过本地设备上传到云服务器,本地服务器从云服务器得到所需数据,同时对数据进行预处理,之后利用非参数聚类方法对发热人群进行空间聚合,对聚合结果中的每个类使用最小覆盖圆算法标注区域范围,用户通过本地设备查看结果,精准描述发热人群空间分布,为疫情处置和蚊虫消杀决策提供有力依据。

本发明流程示意图如图1所示,该方法具体步骤如下所示:

第一步,收集数据及预处理。

收集蚊媒传染病发热人群的详细资料,包括编号、姓名、民族、性别、年龄、住址、登记时间、体温、居住地横坐标、居住地纵坐标,去掉居住地横坐标或者居住地纵坐标为空的数据,同时去掉重复数据。

第二步,无监督聚类方法。

(1)将每个发热个体作为一个样本,选取个体的居住地横坐标和居住地纵坐标作为样本信息x,初始化nc个类,记为对应聚类中心分别为sj的聚类中心zj满足其中numj表示sj包含的样本数,设置阈值:k是预期聚类中心数,θn是每一类的样本数目下限,θs是类中样本的标准差上限,θc是聚类中心间的最小距离,l是迭代中合并操作的最大次数;

(2)对每个样本,计算该样本到各聚类中心的欧氏距离,找到距离样本最近的类,假设x到sj的距离满足dx=min{||x-zj||,j=1,2,…nc},其中||x-zj||表示x与zj的欧氏距离,则x∈sj;

(3)如果sj中的样本数numj<θn,则删除该类,nc减1;

(4)更新各聚类中心,

(5)计算每个类中样本与聚类中心的平均距离

(6)计算全部样本的总平均距离此时若合并次数超过l,令θc=0,转至(10),若转至(7),若迭代次数为偶数或者nc>2k,转至(10),否则转至(7);

(7)计算每个类中样本在各分量上的标准差,σxj表示第j类的横坐标标准差,σyj表示第j类的纵坐标标准差,记σj=(σxj,σyj)t,j=1,2,…nc;

(8)记录每个标准差中的最大分量σjmax=max{σj,j=1,2,…nc};

(9)对任一最大分量集合中,若同时满足:

σjmax>θs,nj>2(θn+1)

则随机选取该类中的两个样本作为聚类中心,将该类分解为两个类,nc加1,转至(2),否则转至(10);

(10)计算全部聚类中心的距离,dij=||zi-zj||,i=1,2,…nc-1,j=1,2,…nc,i≠j。将dij按距离递增排列;

(11)将距离为dij且dij<θc的聚类中心zi和zj合并,得到新的聚类中心,标记为第i类,nc减1,同时更新样本分类,

(12)若为最后一次迭代,转至(13),否则转至(2);

(13)得到每一类所包含的样本信息,删除所有只包含一个点的类,对这些点不做后续处理。

第三步,类内运行最小覆盖圆算法。

基于增量的最小覆盖圆算法可以在线性时间复杂度内找到覆盖若干点的面积最小的圆,求出圆心坐标及半径。

(1)假设共有n个点,依次编号为p1,p2…pi,…pn,1≤i≤n,以p1和p2为直径作圆,设为cx;

(2)按顺序依次扫描所有点,若所有点均在cx内,返回cx为最终结果,并退出程序,否则找到一点不在cx内,设为pi,进入步骤(3);

(3)执行至此,说明cx不包含pi,以p1和pi为直径作圆,设为cy,cy不一定包含p1~pi的所有点,按顺序依次扫描所有点,若所有点均在cy内,令cx=cy返回(2)执行,否则找到一点不在cy内,设为pj,此时一定有j<i,进入步骤(4);

(4)以p1和pj为直径作圆,设为cz,cz不一定包含p1~pj的所有点,按顺序依次扫描所有点,若所有点均在cz内,则更新圆cx=cz返回(2)执行,否则找到一点pk不在此圆内,此时pi,pj,pk一定在更新圆的边界上,过pi,pj,pk三点作圆并更新cx,返回(2)执行。

a.求两点距离的方法:

设平面上两点a和b的坐标分别为(x1,y1)和(x2,y2),a和b的距离定义为

b.过两点作圆的方法:

设平面上两点a和b的坐标分别为(x1,y1)和(x2,y2),以a、b连线为直径的圆的圆心坐标为((x1+x2)/2,(y1+y2)/2),半径为

c.求两点中垂线的方法:

设平面上两点a和b的坐标分别为(x1,y1)和(x2,y2),ab两点的中垂线方程为(x1-x2)x+(y1-y2)y=((x12-x22)+(y12-y22))/2。

d.求两直线交点的方法:

设两条直线为a1x+b1y=c1和a2x+b2y=c2,交点坐标:

x=(b2*c1-b1*c2)/(a1*b2-a2*b1)

y=(a1*c2-a2*c1)/(a1*b2-a2*b1)

e.过三点作圆的方法:

设平面上三点a、b和c的坐标分别为(x1,y1)、(x2,y2)和(x3,y3):

若(x2-x1)(y3-y1)=(x3-x1)(y2-x1),即三点共线,利用a方法计算a、b两点的距离,设为lab,取三点中距离最大的两点,满足l=max(lab,lac,lbc),利用b方法过此两点作圆并返回结果;

若(x2-x1)(y3-y1)≠(x3-x1)(y2-x1),即三点不共线,利用c求两点中垂线的方法分别得到ab两点的中垂线方程记为a1x+b1y=c1,bc两点的中垂线方程记为a2x+b2y=c2,利用求两直线交点的方法d得到两条中垂线的交点即为圆心,圆心到a点的距离即为半径。

第四步,结果可视化呈现。

将发热个体以点的形式绘制在平面直角坐标系中,同时绘制最小覆盖圆,具体展示如图3所示。图3中覆盖圆的位置和大小反映发热人群的聚集区域,可视为潜在疫情暴发区,用户通过观察区域的变化过程,更准确地分析疫情扩散趋势,从而辅助疾控人员进行早期疫情处置和预警。

以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1