生物基因多位点性状的遗传关联度因素检测方法及系统与流程

文档序号:13755149阅读:416来源:国知局

本发明涉及基因检测的遗传相关性检测技术,具体涉及一种生物基因多位点性状的遗传关联度因素检测方法及系统。



背景技术:

随着基因检测技术的发展,检测价格呈指数下降,基因数据也越来越多,速度甚至超过摩尔定律。个体基因数据中的单核苷酸多态性位点(SNP),常常与个体性状(疾病易感性、药物敏感性、个体特征、其他生理生化能力)相关联。目前已有大量科学研究证明了“位点和性状的相关性”,报道了大量的SNP遗传位点。

单个基因位点和性状的相关性可以通过比值比(OR,odds ratio)的计算获得,而比值比的大小也反应了该位点的不同分型对性状的影响,单个基因位点和性状的相关性在相关科研文献中有很多报道,这些数据可以通过查阅文献和公共数据库的方式获得。但是,对于多位点性状而言,不同性状与基因的关联性强弱程度不一样,某些性状(如情绪控制能力)可能和基因关系不强,而某些遗传疾病(如镰刀型贫血)的发生只需要一个基因位点发生突变。更多的情况下,同一遗传性状或疾病受多个位点的影响(简称“多位点性状”)。因此对于多位点性状,如何实现多位点性状的遗传关联度因素检测,以准确有效的定量性状受位点的影响程度,或者比较多个性状各自的遗传因素大小,已经成为一项亟待解决的关键技术问题。



技术实现要素:

本发明要解决的技术问题:针对现有技术的上述问题,提供一种能够方便地对多位点性状进行比较和排序,定量直观确定各性状受遗传位点影响的程度,能动态适应各个性状的基因型的比值比变化,检测准确度高的生物基因多位点性状的遗传关联度因素检测方法及系统。

为了解决上述技术问题,本发明采用的技术方案为:

本发明提供一种生物基因多位点性状的遗传关联度因素检测方法,步骤包括:

1)选择一种性状作为当前性状;

2)确定当前性状的各个相关位点及其基因型,分别计算每一个相关位点下各个基因型的比值比OR;

3)将比值比OR以自然对数e为底求对数得到每一个相关位点下各个基因型的对数b;

4)将对数b按照绝对值排序并取最大值,得到每一个相关位点的比值比最大值|b|max;

5)将当前性状的所有相关位点的比值比最大值|b|max求和,得到当前性状的比值比最大值总和|b|sum;

6)判断是否所有性状已经处理完毕,如果尚未处理完毕,则选择下一种性状作为当前性状跳转执行步骤2);否则,跳转执行步骤7);

7)针对所有性状的比值比最大值总和|b|sum取参考值;

8)将各个性状的比值比最大值总和|b|sum除以参考值得到各个性状的遗传关联度因素。

优选地,所述步骤7)中针对所有性状的比值比最大值总和|b|sum取参考值时,具体是指将所有性状的比值比最大值总和|b|sum的中位数|b|sum-median作为参考值。

优选地,所述步骤8)还包括根据得到的各个性状的遗传关联度因素的大小对各个性状进行排序。

本发明还提供一种生物基因多位点性状的遗传关联度因素检测系统,包括:

性状选择单元,用于选择一种性状作为当前性状;

比值比计算单元,用于确定当前性状的各个相关位点及其基因型,分别计算每一个相关位点下各个基因型的比值比OR;

对数计算单元,用于将比值比OR以自然对数e为底求对数得到每一个相关位点下各个基因型的对数b;

最大值计算单元,用于将对数b按照绝对值排序并取最大值,得到每一个相关位点的比值比最大值|b|max;

性状最大值求和单元,用于将当前性状的所有相关位点的比值比最大值|b|max求和,得到当前性状的比值比最大值总和|b|sum;

性状遍历判断单元,用于判断是否所有性状已经处理完毕,如果尚未处理完毕,则选择下一种性状作为当前性状跳转执行比值比计算单元;否则,跳转执行参考值检测单元;

参考值检测单元,用于针对所有性状的比值比最大值总和|b|sum取参考值;

遗传关联度因素检测单元,用于将各个性状的比值比最大值总和|b|sum除以参考值得到各个性状的遗传关联度因素。

优选地,所述参考值检测单元针对所有性状的比值比最大值总和|b|sum取参考值时,具体是指将所有性状的比值比最大值总和|b|sum的中位数|b|sum-median作为参考值。

优选地,所述遗传关联度因素检测单元还包括根据得到的各个性状的遗传关联度因素的大小对各个性状进行排序。

本发明生物基因多位点性状的遗传关联度因素检测方法具有下述优点:

1、本发明首先针对每一种当前性状,计算当前性状位点各个基因型的比值比并求对数,将位点所有对数取最大值,将位点的最大值求和得到最大值总和;然后针对所有性状的最大值总和取参考值,将各个性状的最大值总和除以参考值得到各个性状的遗传关联度因素,能够方便地对多位点性状进行比较和排序,定量直观确定各性状受遗传位点影响的程度,具有检测准确度高的优点,对于在基因体检策略中的多个性状如何选择某个组合的时候有指导意义,即:对于可以用易感基因稳点检测的性状中,如果想选择某类和基因关联性高的性状,根据性状的遗传关联度因素的选择,可以达到直观、量化的效果。

2、本发明将性状的遗传关联度因素,作为定量化的参数,也是一个动态化的参数,是根据世界上相关研究的推进实时变化的,因为当一个性状的比值比变化或者更新了,ESSI也会发生变化,这种变化可以更好的反应目前状况下,能动态适应性状的基因型的比值比变化。

本发明生物基因多位点性状的遗传关联度因素检测系统为本发明生物基因多位点性状的遗传关联度因素检测方法完全对应的装置,因此同样也具有本发明生物基因多位点性状的遗传关联度因素检测方法的前述优点,故在此不再赘述。

附图说明

图1为本发明实施例方法的基本流程示意图。

具体实施方式

下文将以冠心病、脑卒中、胃癌、2型糖尿病和肺癌五种性状(疾病)为例,对本发明生物基因多位点性状的遗传关联度因素检测方法进行进一步的详细说明。

如图1所示,本实施例生物基因多位点性状的遗传关联度因素检测方法的步骤包括:

1)选择一种性状作为当前性状;

2)确定当前性状的各个相关位点及其基因型,分别计算每一个相关位点下各个基因型的比值比OR;

3)将比值比OR以自然对数e为底求对数得到每一个相关位点下各个基因型的对数b,即b=ln(OR);众所周知,比值比OR在实数中的分部呈现一种逻辑回归的趋势,所以对比值比OR的值以自然对数e为底求对数,从而可以更加直观的反应该位点对性状的影响;

4)将对数b按照绝对值排序并取最大值,得到每一个相关位点的比值比最大值|b|max;考虑到对比值比OR以自然对数e为底求对数得到对数b是一个从负无穷到正无穷的分布,其偏离零点越远,则该位点的效果越显著;所以,对数b的绝对值|b|能够反映某一相关位点的影响。而在同一相关位点的三个基因型,对数b的绝对值|b|最大的影响是该相关位点可能带来的最显著效应,因此将相关位点所有基因型的对数b按照绝对值排序并取最大值得到最大值|b|max;

5)将当前性状的所有相关位点的比值比最大值|b|max求和,得到当前性状的比值比最大值总和|b|sum;在生物学意义上,多个比值比OR和性状的关系是取比值比OR的乘积来表示影响,由于对数b的绝对值|b|是反应了每一个比值比OR的影响,所以,将位点所有基因型的最大值|b|max求和得到当前性状的最大值总和|b|sum;

6)判断是否所有性状已经处理完毕,如果尚未处理完毕,则选择下一种性状作为当前性状跳转执行步骤2);否则,跳转执行步骤7);

7)针对所有性状的比值比最大值总和|b|sum取参考值;

8)将各个性状的比值比最大值总和|b|sum除以参考值得到各个性状的遗传关联度因素。

本实施例中,步骤7)中针对所有性状的比值比最大值总和|b|sum取参考值时,具体是指将所有性状的比值比最大值总和|b|sum的中位数|b|sum-median作为参考值。毫无疑问,在此技术启发下,本领域技术人员也可以根据需要选择最小数、最大数或其他值来作为参考值,其区别点在于选择中位数|b|sum-median作为参考值会使得各个性状的遗传关联度因素的数值更直观。

本实施例中,将性状的遗传关联度因素命名为效应值标准指数(ESSI,Effect Size Standard Index),步骤8)还包括根据得到的各个性状的遗传关联度因素的大小对各个性状进行排序,通过对效应值标准指数ESSI进行排序,可直观量化地表现性状和位点相关性的强弱。

本实施例生物基因多位点性状的遗传关联度因素检测方法具体实施例一般可以通过计算机程序来实现,本实施例生物基因多位点性状的遗传关联度因素检测方法完全对应的生物基因多位点性状的遗传关联度因素检测系统包括:

性状选择单元,用于选择一种性状作为当前性状;

比值比计算单元,用于确定当前性状的各个相关位点及其基因型,分别计算每一个相关位点下各个基因型的比值比OR;

对数计算单元,用于将比值比OR以自然对数e为底求对数得到每一个相关位点下各个基因型的对数b;

最大值计算单元,用于将对数b按照绝对值排序并取最大值,得到每一个相关位点的比值比最大值|b|max;

性状最大值求和单元,用于将当前性状的所有相关位点的比值比最大值|b|max求和,得到当前性状的比值比最大值总和|b|sum;

性状遍历判断单元,用于判断是否所有性状已经处理完毕,如果尚未处理完毕,则选择下一种性状作为当前性状跳转执行比值比计算单元;否则,跳转执行参考值检测单元;

参考值检测单元,用于针对所有性状的比值比最大值总和|b|sum取参考值;

遗传关联度因素检测单元,用于将各个性状的比值比最大值总和|b|sum除以参考值得到各个性状的遗传关联度因素。

本实施例中,参考值检测单元针对所有性状的比值比最大值总和|b|sum取参考值时,具体是指将所有性状的比值比最大值总和|b|sum的中位数|b|sum-median作为参考值。

本实施例中,遗传关联度因素检测单元还包括根据得到的各个性状的遗传关联度因素的大小对各个性状进行排序。

本实施例中得到的中间数据及结果参见表1。

表1:中间数据及结果表。

参见表1,以冠心病为例,其已知的位点包括Rs10757278、Rs2243093、Rs1801133、Rs662、Rs1333049五种,以位点Rs10757278为例,其包括三种基因型#1~#3(GG、AA、AG),其中基因型GG的比值比OR#1的值为1.60,其对数b的绝对值|b|#1为0.47;基因型AA的比值比OR#2的值为0.8,其对数b的绝对值|b|#2为0.25;基因型AG的比值比OR#3的值为1.3,其对数b的绝对值|b|#3为0.26;最终计算得到位点Rs10757278的最大值|b|max为0.47。综合Rs10757278、Rs2243093、Rs1801133、Rs662、Rs1333049五种位点,冠心病的最大值总和|b|sum的值为4.32;其余性状详见表1,在此不再一一列举。本实施例中将所有性状的最大值总和|b|sum的中位数|b|sum-median(4.32)作为参考值,最终计算得到冠心病的遗传关联度因素(ESSI)的值为1,脑卒中的遗传关联度因素(ESSI)的值为1.21,胃癌的遗传关联度因素(ESSI)的值为1.46,2型糖尿病的遗传关联度因素(ESSI)的值为1.13,肺癌的遗传关联度因素(ESSI)的值为1.13。通过对效应值标准指数ESSI进行排序,可直观量化地表现冠心病、脑卒中、胃癌、2型糖尿病和肺癌五种性状(疾病)的性状和位点相关性的强弱,例如本实施例中遗传关联度因素(ESSI)的值为1.46的胃癌检测其性状和位点相关性最高。

以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1