一种基于多组学的复杂性疾病预测及诊断方法与流程

文档序号:11155989阅读:641来源:国知局
一种基于多组学的复杂性疾病预测及诊断方法与制造工艺

本发明涉及医学领域,尤其涉及一种基于多组学的复杂性疾病预测及诊断方法。



背景技术:

人类的疾病按照与遗传的关系分为两大类,孟德尔遗传性疾病和非孟德尔遗传性疾病,即:简单性疾病和复杂性疾病。前者更多属于少见病,且多数可以找到明确的遗传相关致病基因,并且发病情况符合孟德尔遗传规律,可以根据经典的基因遗传规律对疾病的发生进行较为准确的预测及诊断。而后者更多属于常见病,没有明显的孟德尔遗传现象,但有一定的遗传易感性,往往存在较多的疾病易感基因,无法通过经典的基因遗传规律对疾病的发生进行预测及诊断,如:肿瘤、糖尿病、结核病等。本申请专利主要针对复杂性疾病的预测和诊断提出可行的技术解决方案。



技术实现要素:

本发明所要解决的技术问题是针对现有技术的不足,提供一种基于多组学的复杂性疾病预测及诊断方法。

本发明解决上述技术问题的技术方案如下:一种基于多组学的复杂性疾病预测及诊断方法,其特征在于,包括以下步骤:

步骤1、获取被试者的第一基因组信息;

步骤2、将所述第一基因组信息与已获得的基因组变异位点与复杂性疾病的关联性信息进行匹配,计算所述第一基因组信息对应的复杂性疾病判别评分CDDS值;

步骤3、比较所述CDDS值与预存的CDDS基准值的大小关系,得到比较结果;

步骤4、根据所述比较结果,确定所述被试者患所检测复杂性疾病的概率。

本发明的有益效果是:通过将被试者的基因组信息与已获得的基因组变异位点与复杂性疾病的关联性信息进行匹配,计算该基因组信息对应的CDDS值,并比较CDDS值与预存的CDDS基准值的大小关系确定被试者患所检测复杂性疾病的概率,从而可以对被试者是否患有所检测复杂性疾病进行预防和早期诊断,提高人群的健康水平,推进了从治病到防病的进程。

在上述技术方案的基础上,本发明还可以做如下改进。

进一步地,步骤4包括:当所述比较结果为所述CDDS值大于所述CDDS基准值时,确定所述被试者患所检测复杂性疾病的概率超过85%;或者,

当所述比较结果为所述CDDS值小于所述CDDS基准值时,确定所述被试者患所检测复杂性疾病的概率低于15%。

进一步地,在步骤1之前,还包括:

步骤5、根据获取的健康人群基因组信息和目标疾病人群基因组信息,获得基因组变异位点与复杂性疾病关联性信息。

进一步地,步骤5包括:

步骤5.1、获取所述健康人群基因组信息和所述目标疾病人群基因组信息;

步骤5.2、基于多组学构建目标疾病对应的多个模型;

步骤5.3、分别将所述健康人群基因组信息和所述目标疾病人群基因组信息与所述多个模型进行映射,得到健康人群模型集合与目标疾病人群基模型集合;

步骤5.4、对于所述多个模块中的每个模型,分别计算所述健康人群模型集合与所述目标疾病人群基模型集合中属于同一模型的第二基因组信息对应的CDDS值,得到多个所述第二基因组信息分别对应的多个CDDS值;

步骤5.5、将多个所述第二基因组信息和多个所述CDDS值一一对应的存储,形成基因组变异位点与复杂性疾病的关联性信息,所述关联性信息为所述基因组信息与CDDS值的对应关系。

进一步地,所述第一基因组信息、所述健康人群基因组信息和所述目标疾病人群基因组信息均通过芯片技术和/或测序技术获取。

进一步地,步骤5还包括:

步骤5.6、利用模型预测评价方法,计算多个所述CDDS值对应的多个受试者工作特征ROC曲线,以及与多个所述ROC曲线分别对应的多个AUC;

步骤5.7、将多个所述ROC曲线中的第一ROC曲线所对应的模型确定为最优模型,所述最优模型对应的CDDS值为所述CDDS基准值,其中,所述第一ROC曲线的敏感性和特异性均大于85%,且所述第一ROC曲线对应的AUC大于90%。

采用上述进一步方案的有益效果是:通过从利用模型预测评价方法计算得到的多个CDDS值对应的多个ROC曲线中的第一ROC曲线所对应的模型确定CDDS基准值,从而可以有效的提高复杂性疾病诊断的准确性。

进一步地,利用朴素贝叶斯算法计算所述CDDS值。

进一步地,利用朴素贝叶斯算法计算所述CDDS值,包括:

计算所述被试者患所述复杂性疾病时第一基因变异的概率P1、所述被试者不患所述复杂性疾病时所述第一基因变异的概率P2,以及所述复杂性疾病的发病概率P3和不发病概率P4;

根据所述P1、P2、P3和P4,计算所述CDDS值。

进一步地,根据以下公式计算所述CDDS值:

其中,Nυ为所述模块模型所包含的全部基因变异的数量。

本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于多组学的复杂性疾病预测及诊断方法的示意性流程图;

图2为本发明另一实施例提供的一种基于多组学的复杂性疾病预测及诊断方法的示意性流程图;

图3为本发明另一实施例提供的一种基于多组学的复杂性疾病预测及诊断方法的示意性流程图;

图4为本发明实施例提供的第一ROC曲线示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。如图1所示的一种基于多组学的复杂性疾病预测及诊断方法100包括:

110、获取被试者的第一基因组信息。

具体的,在该实施例中,可以通过芯片技术和/或测序技术获取第一基因组信息,但本发明实施例并不局限于此。

120、将第一基因组信息与已获得的基因组变异位点与复杂性疾病的关联性信息进行匹配,计算第一基因组信息对应的复杂性疾病判别评分CDDS值。

具体的,在实施例中,复杂性疾病判别评分(Complex Disease Discrimination Score,CDDS)可以利用朴素贝叶斯算法计算,用来衡量被试者患所检测复杂性疾病的概率大小。

130、比较CDDS值与预存的CDDS基准值的大小关系,得到比较结果。

140、根据比较结果,确定被试者患所检测复杂性疾病的概率。

上述实施例中提供的一种基于多组学的复杂性疾病预测及诊断方法,通过将被试者的基因组信息与已获得的基因组变异位点与复杂性疾病的关联性信息进行匹配,计算该基因组信息对应的CDDS值,并比较CDDS值与预存的CDDS基准值的大小关系确定被试者患所检测复杂性疾病的概率,从而可以对被试者是否患有所检测复杂性疾病进行预防和早期诊断,提高人群的健康水平,推进了从治病到防病的进程。

具体的,在该实施例中,步骤140中,当比较结果为CDDS值大于CDDS基准值时,确定被试者患所检测复杂性疾病的概率超过85%。

或者,当比较结果为CDDS值小于CDDS基准值时,确定被试者患所检测复杂性疾病的概率低于15%。

需要说明的是,在该实施例中,利用朴素贝叶斯算法计算CDDS值的具体过程如下:

计算被试者患复杂性疾病时第一基因变异的概率P1、被试者不患复杂性疾病时第一基因变异的概率P2,以及复杂性疾病的发病概率P3和不发病概率P4。再根据以下公式计算CDDS值:

其中,Nυ为模块模型所包含的全部基因变异的数量。被试者患复杂性疾病时第一基因变异的概率N(A)1为第一个A型变异的患病情况下总数,N(B)1为第一个变异的患病情况下全部类型总数。

被试者不患复杂性疾病时第一基因变异的概率N(A)1为第一个A型变异的非患病情况下总数,N(NB)1为第一个变异的非患病情况下全部类型总数。

复杂性疾病的发病概率NB为目标疾病发病人数,N为人群总数。复杂性疾病的不发病概率P4=1-P3。

可选地,在一个实施例中,如图2所示,在步骤110之前,方法100还包括:

150、根据获取的健康人群基因组信息和目标疾病人群基因组信息,获得基因组变异位点与复杂性疾病关联性信息。

具体的,如图3所示,步骤150可以包括:

151、获取健康人群基因组信息和目标疾病人群基因组信息。

具体的,在该实施例中,可以通过芯片技术和/或测序技术获取健康人群基因组信息和目标疾病人群基因组信息,但本发明实施例并不局限于此。

152、基于多组学构建目标疾病对应的多个模型。

153、分别将健康人群基因组信息和目标疾病人群基因组信息与多个模型进行映射,得到健康人群模型集合与目标疾病人群基模型集合。

154、对于多个模块中的每个模型,分别计算健康人群模型集合与目标疾病人群基模型集合中属于同一模型的第二基因组信息对应的CDDS值,得到多个第二基因组信息分别对应的多个CDDS值。

155、将多个第二基因组信息和多个CDDS值一一对应的存储,形成基因组变异位点与复杂性疾病的关联性信息,关联性信息为基因组信息与CDDS值的对应关系。

需要说明的是,在该实施例中,步骤154中计算第二基因组信息对应的CDDS值的方法和过程与上述步骤120中描述的相同,为了描述的简洁,在此不再赘述。

可选地,在另一个实施例中,如图3所示,步骤150还包括:

156、利用模型预测评价方法,计算多个CDDS值对应的多个受试者工作特征ROC曲线,以及与多个ROC曲线分别对应的多个AUC。

157、将多个ROC曲线中的第一ROC曲线所对应的模型确定为最优模型,最优模型对应的CDDS值为CDDS基准值。

具体的,在实施例中,如图4所示,第一ROC曲线的敏感性和特异性均大于85%,且第一ROC曲线对应的AUC大于90%。其中,ROC曲线指受试者工作特征曲线(receiver operating characteristic curve),反映敏感性和特异性连续变量的综合指标,用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、特异性为横坐标绘制成曲线。曲线下面积AUC(area under roc curve)越大,诊断准确性越高。

需要说明的是,在该实施例中,第一ROC曲线对应的所测复杂性疾病为结核病,这里仅仅是为了说明本发明的技术方案而举的例子,并不对本发明的技术方案构成任何限定。

上述实施例提供的一种基于多组学的复杂性疾病预测及诊断方法,通过从利用模型预测评价方法计算得到的多个CDDS值对应的多个ROC曲线中的第一ROC曲线所对应的模型确定CDDS基准值,从而可以有效的提高复杂性疾病诊断的准确性。

另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1