本发明涉及生物信息分析,尤其是涉及一种基于表型术语和变异基因的数据分析装置、介质和设备。
背景技术:
1、人类遗传病是指由于遗传物质的改变(包括染色体数目变化和结构畸形、单个基因突变等)而造成的疾病,目前已知的遗传病数量已经超过8千种,且每年都有新发现的疾病种类。大多数遗传病起病早、影响部位多、症状严重、且具有家族性,是危害人类健康的重要因素。对于遗传病进行及时和正确的诊断,不仅可以对患者的预后和治疗方案做出合理的判断和选择,也可以对其后代及亲属的遗传风险进行准确的评估,在临床上具有重要的意义。由于人类基因组的高度复杂性,对于遗传病的临床诊断通常需要运用多种技术和检测方法。随着近年来技术水平的不断发展,基于高通量测序(ngs)技术的检测方法在遗传病的分子诊断中已得到广泛应用,并成为最主要的分子诊断方法之一。
2、人类基因组具有高度复杂性,虽然高通量测序技术可同时检测出目标对象近2万个基因上几万至几十万个变异基因,但如何有效结合目标对象临床症状,从海量变异基因变异中筛选分析出与遗传病相关的变异基因,仍然充满挑战。对于该问题,现有检索分析方法需涉及多步骤地信息检索、匹配及核对,整个过程耗时长,易错漏。
技术实现思路
1、基于此,有必要提供一种基于表型术语和变异基因的数据分析装置、介质和设备,以解决无法从海量变异基因变异中筛选分析出与遗传病相关的变异基因的问题。
2、一种基于表型术语和变异基因的数据分析装置,所述基于表型术语和变异基因的数据分析装置包括:
3、表型术语初筛选模块,用于获取目标对象的临床描述信息,根据所述临床描述信息筛选与所述目标对象相关的至少一个初始表型术语;
4、关联疾病筛选模块,用于在预设的人类表型术语集中根据层级关系搜寻与所述至少一个初始表型术语关联的至少一个关联疾病;
5、表型术语优化模块,用于基于所述关联疾病的数量优化所述至少一个初始表型术语,以得到优化后的至少一个优化表型术语;
6、疾病表型似然比计算模块,用于根据每个优化表型术语的患病情况计算所述目标对象的疾病表型似然比;
7、变异基因获取模块,用于获取所述目标对象基因序列中的至少一个变异基因;
8、疾病基因型似然比计算模块,用于根据所述至少一个变异基因的致病情况计算所述目标对象的疾病基因型似然比;
9、表型基因型复合似然比计算模块,用于根据所述疾病表型似然比和所述疾病基因型似然比计算所述目标对象的表型基因型复合似然比;
10、分析输出模块,用于基于所述表型基因型复合似然比进行变异排序,并输出符合所述目标对象的变异基因排序及所述变异基因排序的关联疾病。
11、在其中一个实施例中,所述人类表型术语集中包括多个术语单元,每个术语单元由多个层级关系递进的表型术语组成,第i层级表型术语为第i+1层级表型术语的父术语,第i+1层级表型术语为第i层级表型术语的子术语,每个表型术语直接关联至少一个疾病,所述关联疾病筛选模块,具体用于:
12、获取目标初始术语直接关联的所有疾病作为所述关联疾病;其中,所述目标初始术语为所述至少一个初始表型术语中的任意一个;
13、遍历所述目标初始术语的所有子术语,并将遍历到的所有子术语直接关联的所有疾病作为所述关联疾病。
14、在其中一个实施例中,所述表型术语优化模块,具体用于:
15、当所述关联疾病的数量大于预设的数量上限时,保留所有初始表型术语关联的子术语作为所述优化表型术语;
16、当所述关联疾病的数量小于预设的数量下限时,将所有初始表型术语、所有初始表型术语关联的子术语、所有初始表型术语的父术语作为所述优化表型术语,或基于更改指令将更改后的初始表型术语作为所述优化表型术语。
17、在其中一个实施例中,所述疾病表型似然比计算模块,具体用于:
18、计算目标优化术语在患有预设疾病的个体中的第一概率,及计算所述目标优化术语在未患有预设疾病的个体中的第二概率;其中,所述目标优化术语为所述至少一个优化表型术语中的任意一个;
19、将所述第一概率与所述第二概率的比值作为所述目标优化术语的疾病表型术语似然比,将所有优化表型术语的疾病表型术语似然比的乘积作为所述疾病表型似然比。
20、在其中一个实施例中,所述疾病表型似然比计算模块,具体用于:
21、在所述人类表型术语集中,若所述目标优化术语与所述预设疾病直接关联,则将获取的所述目标优化术语在患有所述预设疾病的个体中的频率作为所述第一概率;
22、若所述目标优化术语的子术语与所述预设疾病直接关联,则将第一目标频率与所述目标优化术语的子术语的数量的比值作为所述第一概率;其中,所述第一目标频率为所述目标优化术语的子术语在患有所述预设疾病的个体中的最大频率;
23、若所述目标优化术语的父术语与所述预设疾病直接关联,则将第二目标频率作为所述第一概率;其中,所述第二目标频率为所述目标优化术语的父术语在患有所述预设疾病的个体中的最大频率;
24、在所述人类表型术语集内,计算所述目标优化术语与疾病的频率总和;其中,所述频率总和为所述目标优化术语与每一所述所述人类表型术语集内疾病直接关联的频率的总和;
25、将所述频率总和与所述人类表型术语集内所有疾病的数量的比值作为所述第二概率。
26、在其中一个实施例中,所述疾病表型似然比计算模块,还用于:
27、将全局最小似然比及所有优化表型术语的疾病表型术语似然比进行对数转换,以得到所述全局最小似然的校正分数和每个优化表型术语的基础分数;其中,所述全局最小似然为所有优化表型术语的疾病表型术语似然的最小值;
28、根据每个优化表型术语的基础分数和所述校正分数计算每个优化表型术语的相关性分数;其中,所述相关性分数用于指示优化表型术语与所述预设疾病之间的相关性强度。
29、在其中一个实施例中,所述疾病基因型似然比计算模块,具体用于:
30、计算所述目标对象的至少一个变异基因所组成的基因型具有致病性的第三概率,及计算所述目标对象的至少一个变异基因所组成的基因型具有非致病性的第四概率;
31、将所述第三概率与所述第四概率的比值作为所述目标对象的疾病基因型似然比。
32、在其中一个实施例中,所述疾病基因型似然比计算模块,还具体用于:
33、基于第一泊松分布模型计算所述第三概率;其中,泊松分布模型为指示所述基因型上存在k个致病变异基因的概率分布模型,所述第一泊松分布模型的事件发生比率为基因在预设疾病中致病的预期变异数和所述基因型中所包含的变异基因是致病基因的概率之间的比值;
34、基于第二泊松分布模型计算所述第四概率;其中,所述第二泊松分布模型的事件发生比率为基因在健康人群中发生变异的预期变异数和所述基因型中所包含的变异基因是致病基因的概率之间的比值。
35、在其中一个实施例中,所述疾病基因型似然比计算模块,还具体用于:
36、根据所述基因型中所包含的变异基因的数量、预设的权重,及个体变异基因的致病性概率确定所述基因型中所包含的变异基因是致病基因的概率;其中,所述个体变异基因的致病性概率通过预设的评级情况确定。
37、在其中一个实施例中,表型基因型复合似然比计算模块,具体用于:
38、将所述疾病表型似然比和所述疾病基因型似然比的乘积所述目标对象的表型基因型复合似然比。
39、在其中一个实施例中,分析输出模块,具体用于:
40、当目标变异基因存在多个表型基因型复合似然比时,将所述目标变异基因的所有表型基因型复合似然比的最大值作为代表复合似然比,当目标变异基因存在一个表型基因型复合似然比时,将所述目标变异基因的表型基因型复合似然比作为所述代表复合似然比;其中,所述目标变异基因为所述至少一个变异基因中的任意一个;
41、基于每个变异基因的代表复合似然比的大小对所有变异基因进行排序,并输出代表复合似然比大于预设的疾病表型相符阈值,且对应的预设基因加权致病性大于预设的致病阈值的变异基因,以得到所述变异基因排序;
42、基于所述变异基因排序的顺序依次输出,与所述变异基因排序中的变异基因关联的且表型基因型复合似然比大于预设的似然比阈值的关联疾病。
43、一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行:
44、获取目标对象的临床描述信息,根据所述临床描述信息筛选与所述目标对象相关的至少一个初始表型术语;
45、在预设的人类表型术语集中根据层级关系搜寻与所述至少一个初始表型术语关联的至少一个关联疾病;
46、基于所述关联疾病的数量优化所述至少一个初始表型术语,以得到优化后的至少一个优化表型术语;
47、根据每个优化表型术语的患病情况计算所述目标对象的疾病表型似然比;
48、获取所述目标对象基因序列中的至少一个变异基因;
49、根据所述至少一个变异基因的致病情况计算所述目标对象的疾病基因型似然比;
50、根据所述疾病表型似然比和所述疾病基因型似然比计算所述目标对象的表型基因型复合似然比;
51、基于所述表型基因型复合似然比进行变异排序,并输出符合所述目标对象的变异基因排序及所述变异基因排序的关联疾病。
52、一种基于表型术语和变异基因的数据分析设备,包括处理器和上述计算机可读存储介质。
53、本发明提供了基于表型术语和变异基因的数据分析装置、介质和设备,通过计算疾病表型似然比、疾病基因型似然比和表型基因型复合似然比并进行分析,输出目标对象的变异基因排序及变异基因排序的关联疾病,能有效量化基因和疾病的关联性,给分析人员评估受检者表型和变异关系提供了更丰富、更多元、更准确的信息,提供可解释性高的推荐理由。