一种疾病因素数据处理方法和系统与流程

文档序号:11973039阅读:148来源:国知局
一种疾病因素数据处理方法和系统与流程
本申请涉及医学数据挖掘领域,更具体地涉及基于典型相关分析的对象因素关系挖掘方法和系统。

背景技术:
在疾病发现、治疗的过程中,通常是根据病人的不同信息进行相应的诊断,因此不同信息以及其相关性的准确性对疾病诊断是非常重要的。现有的对病人信息的相关分析方法将病人的疾病因素分割来看,只进行简单的检验。因此,期望有一种新能够将病人的不同疾病因素作为整体进行分析的新方法。

技术实现要素:
为解决现有技术中存在的上述问题,本发明的一个方面提出了用于疾病因素数据处理的方法,该方法包括:步骤S1:将至少一个病人的疾病因素数据通过归一化转化为疾病因素矩阵;步骤S2:将该疾病因素数据划分为不同的疾病因素集合并得到该不同的疾病因素集合的不同的疾病因素集合矩阵;步骤S3:针对所述不同的疾病因素集合矩阵,利用典型相关分析获得该不同的疾病因素集合之间的相关系数,并获得该不同的疾病因素集合之间的相关因素子集;步骤S4:使用所述疾病因素矩阵、获得的所述疾病因素集合之间的相关性和获得的所述相关因素子集进行显著性计算,以得到所述不同的疾病因素集合矩阵中每两个疾病因素集合矩阵的显著性;以及步骤S5:利用该显著性和该相关系数,获得相关的因素集合和该因素集合间的相关因素。本发明的另一个方面提出了一种疾病因素数据处理系统,该系统可以包括:第一模块,被配置成将至少一个病人的疾病因素数据通过归一化转化为疾病因素矩阵;第二模块,被配置成将该疾病因素数据划分为不同的疾病因素集合并得到该不同的疾病因素集合的不同的疾病因素集合矩阵;第三模块,被配置成针对所述不同的疾病因素集合矩阵,利用典型相关分析获得该不同的疾病因素集合之间的相关系数,并获得该不同的疾病因素集合之间的相关因素子集;第四模块,被配置成使用所述疾病因素矩阵、获得的所述疾病因素集合之间的相关性和获得的所述相关因素子集进行显著性计算,以得到所述不同的疾病因素集合矩阵中每两个疾病因素集合矩阵的显著性;以及第五模块,被配置成利用该显著性和该相关系数,获得相关的因素集合和该因素集合间的相关因素。附图说明图1是根据本发明的实施方式的用于疾病因素数据处理的方法的示意图;图2是根据本发明的实施方式的用于实施根据本发明的实施方式的疾病因素数据处理方法中的步骤S1的示意图;图3是根据本发明的实施方式的用于实施根据本发明的实施方式的疾病因素数据处理方法中的步骤S3的示意图;图4是根据本发明的实施方式的用于实施根据本发明的实施方式的疾病因素数据处理方法中的步骤S4的示意图;图5是根据本发明的实施方式的用于实施根据本发明的实施方式的疾病因素数据处理方法中的步骤S5的示意图;以及图6是根据本发明的实施方式的用于实施根据本发明的实施方式的疾病因素数据处理方法中的步骤S6的示意图。具体实施方式下面结合附图对本发明的实施方式进行更详细的描述。本发明的实施方式是基于典型相关分析(canonicalcorrelationanalysis)进行的。在详细介绍本发明的实施方式的细节之前,先简单描述典型相关分析的一些概念和步骤。典型相关分析(canonicalcorrelationanalysis)就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。假设有p+q个变量,n个样本,X是第一组变量,其形式是n×p的矩阵,Y是第二组变量,其形式是n×q的矩阵,并且X和Y的列已经中心化和归一化。经典的典型相关分析(简称CCA)方法解决的是一个优化问题:找到向量u和v,使得cor(Xu,Yv)最大,如下式所示:maximizeu,vuTXTYvsubjecttouTXTXu≤1,vTYTYv≤1.u和v可以从X和Y的协方差矩阵求解得到,称向量u和v为典型变量。但是当p或q大于n时,得不到u和v的唯一解,于是想到对u和v加入惩罚。sCCA(稀疏典型相关分析)就是对CCA加入L1范数使其典型变量稀疏化,其形式如下式所示:以往的研究证明,在高维空间里,将协方差矩阵视为对角阵处理可以得到比较好的结果。所以将上式中的XTX和YTY用单位矩阵I代替,得到下式:其中s.t.是“subjectto(约束于)”的缩写。图1是根据本发明的实施方式的用于疾病因素数据处理的方法的示意图。参考图1,在本发明的一个实施方式中,提供了一种基于典型相关分析的疾病因素数据处理方法,该方法可以包括:步骤S1:因素矩阵取值归一化。这里因素矩阵取值归一化是指将医学数据(例如病人疾病因素数据)通过归一化转化为矩阵。例如,因素“性别”可根据男、女分别取值为-1、1(或者,反之依然);因素“阳性”可以根据值转为0、1;保留取值信息的因素可根据值归一化为-1到1之间的值。对输入的至少一个病人的疾病因素数据进行离散化、数值化,而后进行疾病因素数据归一化;本步骤的输入可以为收集的病人疾病数据,行为因素,列为病人,每一个值为病人的原始记录。原始记录可以为一个数,比如病人的年龄,汉字比如“男”,符号比如“+”等。图2示出了根据本发明的实施方式的用于实施步骤S1的示意图。参考图2,步骤S1可以包括:步骤S1-1:将至少一个病人的疾病因素数据离散化、数值化:收集至少部分病人的疾病因素,将这些疾病因素分为离散型、连续型。对于离散型取值的因素,可以将数值转化为离散值例如1、2…。对于连续型取值的因素,可以保留原数值。步骤S1-2:将病人的疾病因素数据归一化:将病人的疾病因素数据按照公式(1)归一化。该公式(1)中,x为病人的疾病因素数据,xi表示第i个疾病因素值,xmax表示疾病因素值的最大值,xmin表示疾病因素值的最小值。公式(1)本步骤的输出为数值化后的矩阵,如式(2)所示,行为因素,列为病人,每一个值是一个数值。式(2)中,X表示疾病因素矩阵,factor表示疾病因素,矩阵中的每一列对应一个病人,矩阵共有m个疾病因素,总共n个病人。xij表示第j个病人的第i个疾病因素的取值。式(2)步骤S2:因素集合划分。因素集合划分是指对病人的疾病因素按照分析需求划分为不同的疾病因素集合。例如,对研究对象为糖尿病患者集合,每个病人对应多维因素。可以将这些因素分为例如患者基本信息、费用信息、临床检查信息、尿常规信息、生化信息、生命体征、随访信息、糖化信息、医嘱信息、诊断信息、用药信息、并发症信息等。本步骤输入可以是根据步骤S1得到的病人的疾病因素,记为Cset={factor1,factor2,…,factorm}。将病人的疾病因素按照分析需求划分为不同的疾病因素集合。分析需求可以例如是研究糖尿病病人诊断信息和诊断前其它信息的关系,可以将病人疾病因素划分为患者基本信息、尿常规信息、生化信息、诊断信息等因素集合。划分后的每一个因素集合Seti是Cset的一个子集,因素集合之间可以有因素的交叉。本步骤输出可以为p个因素的集合Set1,Set2,…,Setp,特别地,对于因素集合Seti而言,其对应的因素矩阵如下式所示。该式中,Xi为Seti对应的因素矩阵,Seti为包含n个因素o个病人的因素集合。该式中,n≤式(2)中的m,o≤式(2)中的n。步骤S3:典型相关分析。典型相关分析是指对不同的疾病因素集合矩阵,利用典型相关分析获得疾病因素集合之间的相关性,同时获得集合之间相关的疾病因素子集。本步骤输入可以为上述病人疾病因素矩阵X,共有m个因素,n个病人;p个疾病因素集合Set1,Set2,…,Setp。图3示出根据本发明的实施方式的用于实施该步骤S3的示意图。参考图3。参考图3,步骤S3可以包括:步骤S3-1:按照下式获得疾病因素集合矩阵的两两组合。式中,Xi表示疾病因素集合矩阵i,Xj表示疾病因素集合矩阵j,p为疾病因素集合个数。(Xi,Xj)i≠j,i,j=1,...p步骤S3-2:获得每两个疾病因素集合的因素交集。将疾病因素集合矩阵Xi和疾病因素集合矩阵Xj中的重复因素去掉,分别得到疾病集合矩阵Xi特有的疾病因素矩阵和疾病集合矩阵Xj特有的疾病因素矩阵,分别记为和步骤S3-3:按照公式(3)计算疾病因素集合间的相关系数,同时获得疾病因素集合间相关的疾病因素。公式(3)中,sCCA表示上述的稀疏典型相关分析;CCi,j表示疾病因素集合矩阵Xi和疾病因素集合矩阵Xj的相关性(相关系数);u和v为典型变量,c1和c2分别为u和v的惩罚项,factoria表示疾病因素集合矩阵Xi对应的疾病因素a,factoria,…,factorib为疾病因素集合矩阵Xi中对应u权重不为零的疾病因素集合,factorjc,L,factorjd为疾病因素集合矩阵Xj中对应v权重不为零的疾病因素集合。公式(3){factoria,L,factoribfactorjc,L,factorjd}其中,sCCA(X,Y)=maximizeu,vuTXYTv本步骤输出为针对p个疾病因素集合矩阵中的每两个疾病因素集合矩阵Xi和Xj,获得相关系数CCi,j,相关因素{factoria,L,factoribfactorjc,L,factorjd}。步骤S4:显著性计算。显著性计算是指多次打乱病人疾病因素并采用相同步骤分析,获得背景分布,从而获得具有统计显著性的病人疾病因素子集。本步骤输入可以为上述的病人疾病因素矩阵X,其共有m个疾病因素,n个病人;p个疾病因素集合Set1,Set2,…,Setp;该p个疾病因素集合矩阵的两两相关系数CCi,j。图4示出了根据本发明的实施方式的用于实施该步骤S4的示意图。参考图4。参考图4,该步骤S4可以包括:步骤S4-1:随机打乱疾病因素集合和因素对应关系,按照原疾病因素集合对应数量随机生成疾病因素集合与因素对应关系,也即生成新的疾病因素集合。例如,假设有三个疾病因素集合分别包含20、10、20个疾病因素,共50个疾病因素,将50个疾病因素随机选取20个作为新生成的第一个疾病因素集合,随机选取10个作为新生成的第二个疾病因素集合,其余的疾病因素作为新生成的第三个疾病因素集合。步骤S4-2:对新生成的疾病因素集合按照步骤S3计算相关系数。步骤S4-3:重复步骤S4-1和S4-2n次。对每一个CCi,j,按公式(4)计算统计显著性pij。公式(4)中,表示第k(k≤n)次随机试验得到的疾病因素集合矩阵和的相关性(相关系数),pij表示原始疾病因素集合矩阵Xi和Xj的相关的统计显著性。公式(4)步骤S5:利用计算出的统计显著性和相关系数,获得相关的疾病因素集合和集合间相关因素。本步骤输入为根据步骤S3得到的p个因素集合矩阵的两两相关系数CCi,j,相关因素{factoria,L,factoribfactorjc,L,factorjd},根据步骤S4得到的统计显著性pij。图5示出了根据本发明的实施方式的用于实施该步骤S5的示意图。参考图5,该步骤S5可以包括:步骤S5-1:为相关系数和统计显著性设置阈值,例如设置相关系数阈值Tcc=0.8,设置统计显著性阈值Tp=0.05。步骤S5-2:本步骤输出可以例如为满足条件CCi,j>Tcc或者CCi,j<-Tcc,并且pij<Tp的对应的疾病因素集合和疾病因素集合间相关因素。步骤S5-3:如果没有满足条件的疾病因素集合和疾病因素集合间相关因素,则调整相关系数阈值和统计显著性阈值,例如可以降低Tcc或者升高Tp,例如Tcc=0.6或者Tp=0.01,并重复步骤S5-2。可选地,还可以包括步骤S5-4:使用计算机显示相关的因素集合和集合间相关因素。可以重复步骤S1到S5,获得相关的疾病因素集合和疾病因素集合间相关因素。在本发明的一个实施方式中,该方法还可以包括步骤S6:调整因素。通过迭代获得相关的疾病因素集合和疾病因素集合间相关因素。该迭代计算是指如果没有满足条件的疾病因素集合和疾病因素,计算相关系数来删除相关水平低的因素,重复计算来获得相关的因素集合和因素。进行了步骤S5-3之后,如果没有满足条件的因素集合和集合间相关因素,可采用此步骤来获得疾病因素集合和集合间相关因素。图6示出了根据本发明的实施方式的用于实施该步骤S6的示意图。参考图6,步骤S6可以包括:步骤S6-1:对疾病因素矩阵X,计算疾病因素Cset={factor1,factor2,…,factorm}两两之间的皮尔森相关系数pccij,得到如下矩阵。其中,PCC表示皮尔森相关系数矩阵,矩阵中的皮尔森相关系数的通式由pccij来表示,其表示疾病因素i和疾病因素j的皮尔森相关系数。步骤S6-2:按公式(5)计算每一个因素与其它因素的相关值RE。在公式(5)中,REi表示第i个因素与其它因素的相关值REi=|pcci1|+|pcci2|+...+|pccim|公式(5)步骤S6-3:对所有疾病因素的相关值RE求平均值,删除相关值REi小于该平均值的疾病因素。在本发明的另一个实施方式中,提供了一种疾病因素数据处理系统,该系统可以包括:第一模块,被配置成将至少一个病人的疾病因素数据通过归一化转化为疾病因素矩阵;第二模块,被配置成将该疾病因素数据划分为不同的疾病因素集合并得到该不同的疾病因素集合的不同的疾病因素集合矩阵;第三模块,被配置成针对所述不同的疾病因素集合矩阵,利用典型相关分析获得该不同的疾病因素集合之间的相关系数,并获得该不同的疾病因素集合之间的相关因素子集;第四模块,被配置成使用所述疾病因素矩阵、获得的所述疾病因素集合之间的相关性和获得的所述相关因素子集进行显著性计算,以得到所述不同的疾病因素集合矩阵中每两个疾病因素集合矩阵的显著性;以及第五模块,被配置成利用该显著性和该相关系数,获得相关的因素集合和该因素集合间的相关因素。在本发明的一个实施方式中,该系统还可以包括第六模块,被配置成:在第五模块不能获得相关的因素集合和该因素集合间的相关因素的情况下,对第一模块得到的所述疾病因素矩阵,计算任意两个因素之间的皮尔森相关系数pccij,以得到矩阵:其中,PCC表示皮尔森相关系数矩阵,矩阵中的皮尔森相关系数的通式由pccij来表示,其表示疾病因素i和疾病因素j的皮尔森相关系数。根据公式(5)计算每一个因素与其他因素的相关值:REi=|pcci1|+|pcci2|+...+|pccim|公式(5)其中,REi表示第i个因素与其他因素的相关值;对计算出的相关值求平均以得到平均相关值;以及删除相关值小于平均水平的因素。在本发明的实施方式中,第一模块可以执行上述方法的步骤S1,第二模块可以执行上述方法的步骤S2,第三模块可以执行上述方法的步骤S3,第四模块可以执行上述方法的步骤S4,第五模块可以执行上述方法的步骤S5,以及第六模块可以执行上述方法的步骤S6。在本发明的实施方式中,第二模块可以接收第一模块的输出。第三模块可以直接和/或间接接收第二模块的输出和第一模块的输出(例如通过第二模块接收第一模块的输出)。第四模块可以直接和/或间接接收第三模块的输出、第二模块的输出(通过第三模块)和第一模块的输出(通过第三模块或第二模块)。第五模块可以直接和/或间接接收第四模块输出和第三模块的输出。第六模块可以直接和/或间接接收第一模块的输出。本发明的实施方式的疾病因素数据处理系统可以通过硬件、软件或硬件和软件的结合来实施。本申请提出的方法和系统相对现有技术有以下至少一个优点和进步:1.现有的相关分析方法通常将病人的因素分割来看,进行简单的检验来获得因素间的相关性。实际上,病人的因素之间存在着联系,本发明的实施方式的步骤S2将病人因素划分为不同的集合,就是将有联系信息的病人因素对待为一个整体。2.在分析病人因素集合之间的关系时,现有的相关分析方法通常只获得集合相关性。本发明的实施方式的步骤S3不仅得到了因素集合之间的相关性,同时获得集合之间的相关因素,即本发明的实施方式在粗细粒度上都进行了分析。3.现有的相关分析方法通常只是得到反映相关情况的数值,而本发明的实施方式在步骤S3给出相关系数的基础上,采用步骤S4进一步给出统计显著性,多方面检验结果的可靠性。4.现有的相关分析方法通常执行步骤较为单一,假设分析结果与预期不符,缺乏反馈过程。本发明的实施方式步骤S6提出了基于相关性计算的反馈过程,来得到符合实际情况的结果。虽然本申请是通过描述具体实施方式的方式来描述本发明,但本领域技术人员可以理解这些具体的实施方式是示意性而非限制性的。本领域技术人员通过在阅读本申请的实施方式了解本申请的构思的情况下可以对实施方式进行各种修改、变形和替换。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1