一种基于症状相关性对症状降维的分析方法与流程

文档序号:15853164发布日期:2018-11-07 10:29阅读:281来源:国知局
一种基于症状相关性对症状降维的分析方法与流程

本发明涉及一种基于症状相关性对症状降维的分析方法,属于大数据分析技术领域。

背景技术

随着社会的发展,各种传染病肆虐着人类的身体,给无数的家庭带来了极大痛苦,并且随着社会的进步,人员流动水平和速度逐渐提升,也使得传染病在人们之间的扩散得以加剧,因此有很多部门做出传染病疫情预警的实施方案,但是由于症状的繁多,数据处理起来极为麻烦,因此本基于症状相关性对症状降维的一种分析方法,以提高疫情预警的效果和效率为目的产生。



技术实现要素:

本发明提供了一种基于症状相关性对症状降维的分析方法,本发明通过对未知确切疾病的情况下采集症状分析时对冗余的症状进行降维处理,有些不需要采集的症状可以剔除,大大的降低了采集过程中的工作量,从而在一定程度上达到减少信息冗余的效果,为后期医学上的复杂分析降低维度。

本发明的技术方案是:一种基于症状相关性对症状降维的分析方法,首先建立症状发病量数据库;对采集到的症状信息进行筛选处理,即根据所需求的症状信息剔除不在其中的症状信息;对症状信息进行一系列相关性分析;对相关性分析的结果进行判断,比较其与阈值的大小,进行判断是否可以对该症状进行降维。

所述方法的具体步骤如下:

step1、建立症状发病量的数据库:收集某地区某段时间内疾病的症状发病量情况建立一个时间轴上的症状发病量信息表;症状发病量信息表包括:症状种类、编号、时间、症状对应的发病数量;

step2、症状数据预处理:对采集到的疾病症状信息字段,根据所需求的症状信息和收集到的症状信息进行对比,剔除掉无需进行相关性分析的无用症状信息;

step3、对症状信息进行相关性分析:根据step2筛选好的症状对应的发病数量,采集到的数据为一段时间内每天各个症对应的数量依次为其中第一个症状x的样本设为第二个症状y的样本设为第三个症状z的样本设为……以此类推;当进行分析两种症状的相关性的时候,计算两种症状数据之间的协方差,其计算任意两种症状数据样本协方差的方式一样;当进行多种症状之间的相关性的时候计算多种症状中任意两种症状数据的协方差;计算好的协方差cov(x,y),如果cov(x,y)>0则说明此两种症状正相关,如果cov(x,y)<0则说明此两种症状负相关;然后需要衡量正相关症状的相关性的密切程度,通过计算两种症状之间的相关系数rxy,任意两种症状之间的相关系数的计算方式均相同;

step4、判断是否可以降维:设定一个阈值h,当症状相关系数rxy>h,则判定此两种症状相关性极高,可以对症状进行降维,否则不进行降维。

所述步骤step3中,对step3中两种症状样本x、y进行协方差计算公式为:

其中分别为样本x,y的均值。

所述具体步骤step3中,对step3中两种症状进行相关系数的计算公式为:

其中cov(x,y)为样本x,y的协方差,计算公式为:

其中sx为样本x的标准差,计算公式为:

其中sy为样本y的标准差,计算公式为:

其中两种症状进行相关系数rxy>h时,则判定此两种症状相关性高,可以对症状进行降维,否则不进行降维,其中h=0.8。

本发明的有益效果是:本发明是通过对未知确切疾病的情况下采集症状分析时对冗余的症状进行一个降维处理,有些不需要采集的症状可以剔除,大大的降低了采集过程中的工作量,从而在一定程度上达到减少信息冗余的效果,为后期医学上的复杂分析降低维度。

附图说明

图1是本发明总流程图;

图2是step3中的详细流程图。

具体实施方式

实施例1:如图1-2所示,一种基于症状相关性对症状降维的分析方法,首先建立症状发病量数据库;对采集到的症状信息进行筛选处理,即根据所需求的症状剔除不在其中的症状;对症状进行一系列相关性分析;对相关性分析的结果进行判断,比较其与阈值的大小,进行判断是否可以对该症状进行降维。

所述方法的具体步骤如下:

step1、建立症状发病量的数据库:收集某地区某段时间内疾病的症状发病量情况建立一个时间轴上的症状发病量信息表;症状发病量信息表包括:症状种类、编号、时间、症状对应的发病数量;症状发病量的数据如表1所示,原始数据为一个月的发热,头痛,咳嗽,咽痛,腹痛和腹泻五种症状的每天发病人数:

表1

step2、症状数据预处理:对采集到的疾病症状信息字段,根据所需求的症状和收集到的症状进行对比,剔除掉无需进行相关性分析的无用症状信息;

step3、对症状信息进行相关性分析:根据step2筛选好的症状对应的发病数量,采集到的数据为一段时间内每天各个症对应的数量依次为其中第一个症状x的样本设为第二个症状y的样本设为第三个症状z的样本设为……以此类推;当进行分析两种症状的相关性的时候,计算两种症状数据之间的协方差,其计算任意两种症状数据样本协方差的方式一样;当进行多种症状之间的相关性的时候计算多种症状中任意两种症状数据的协方差;计算好的协方差cov(x,y),如果cov(x,y)>0则说明此两种症状正相关,如果cov(x,y)<0则说明此两种症状负相关;然后需要衡量正相关症状的相关性的密切程度,通过计算两种症状之间的相关系数rxy,任意两种症状之间的相关系数的计算方式均相同;

所述步骤step3中,对step3中两种症状样本x、y进行协方差计算公式为:

其中分别为样本x,y的均值。

所述具体步骤step3中,对step3中两种症状进行相关系数的计算公式为:

其中cov(x,y)为样本x,y的协方差,计算公式为:

其中sx为样本x的标准差,计算公式为:

其中sy为样本y的标准差,计算公式为:

其中两种症状进行相关系数rxy>h时,则判定此两种症状相关性高,可以对症状进行降维,否则不进行降维,其中症状协方差结果和症状相关性系数结果分别如表2和表3。

表2

表3

step4、判断是否可以降维:设定一个阈值h,h=0.8,当症状相关系数rxy>h,则判定此两种症状相关性极高,可以对症状进行降维,否则不进行降维。

根据表3:症状相关性系数计算结果,可以看出咽痛和咳嗽的相关性系数rxy=0.838,大于设定的阈值h=0.8。这就在一定程度上表明咽痛发生的同时,伴随着咳嗽发生的概率就非常大,从信息论的角度分析可以得出咽痛和咳嗽之间存在的信息量非常少,因此可以对二者进行降维处理,有些不需要采集的症状可以剔除,大大的降低了采集过程中的工作量,在一定程度上减少信息的冗余,为后期医学上的复杂分析降低维度。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1