基于多源信息融合的疾病潜在关联基因的获取方法

文档序号:6573833阅读:209来源:国知局
专利名称:基于多源信息融合的疾病潜在关联基因的获取方法
技术领域
本发明涉及生物信息学领域,特别涉及利用计算机技术预测疾病潜在关联基因领域。
背景技术
目前,随着生物技术、计算机技术及高通量技术的发展,各个领域积累了疾病相关的大量文献和数据,面对这些数据,需要采用有效方法从这些数据中找到最有意义的部分,预测疾病相关的基因,从而用于帮助疾病的治疗。深入挖掘复杂疾病的关联基因成为一项在疾病相关研究中的重要挑战,对于临床诊治具有重要的指导意义,而且大量已有研究表明如果能深入挖掘疾病关联基因潜在的知识,对于揭示疾病发病机理和生物学基础,对于促进诊断和防治疾病的手段,都将产生十分重要的理论和现实意义。
有关疾病关联基因的预测方法多种多样,本发明所涉及的主要有以下三个方面内容一是生物网络技术。复杂疾病一般是由多个遗传基因及环境因素共同交互作用而发生发展的,并且生物实体之间(如表型与基因型)没有简单对应关系,而是由多基因、多因素等共同作用的结果。因此,生物网络作为这种复杂关系的有效表达方式,越来越受到领域重视。目前,国内外均已开展了大量针对生物网络数据的研究工作,尽管生物网络在生物信息挖掘中具有重要的作用,但是生物网络没有方向性,没有语义性,在信息获取和信息挖掘中有着一定的制约。如何建立对于复杂疾病研究更有效的生物网络还需要进一步的努力。二是关联基因预测。近年来关于基因功能、基因和疾病关系的生物医学文献大量涌现,为了能够充分利用已有的研究成果,节省人力物力,需要将文献、文本中的生物学知识抽取出来提供给研究人员,帮助他们预测基因或疾病,加快相关研究的进展。这方面的研究最早追溯到1986年,芝加哥大学教授Swanson曾提出“基于非相关文献发现”的方法,具体思想被描述为典型的形式是ABC模式。Seki等人采用Swanson的ABC模式,构建了疾病-基因网络,逐层计算传递概率,从而评价基因与目标疾病的相关性,将相关性高的未知相关基因识别为潜在的与目标疾病相关的基因。Lina等人提出一种基于联合网络拓扑特征的挖掘算法来预测潜在的与目标疾病相关的基因,定义了四种网络拓扑特征来描述基因网络,结合这些拓扑特征通过训练支持向量机来甄选潜在的相关基因。吴雪兵等人则假设功能上相似的基因可能引起表型上相似的疾病,对基因和疾病表型间的关系直接建模,利用得到的模型结果预测与症状相关的新致病基因或发现基因间的协作关系。赵研等人基于基因功能一致性和其在蛋白质互作网络中的拓扑属性对疾病与基因进行关联,预测出了 51个新的疾病致病基因。三是多源信息融合方法。基因组数据量庞大,疾病基因之间的关系复杂,不同的预测方法实现的结果并非完全相同,每个方法相应的结果都有一定的意义,为了更好地对关联基因进行预测,不仅需要更好的疾病潜在基因获取的方法,更应该关心如何融合不同的有效方法来更精确地预测疾病潜在关联基因。D-S证据理论是由Dempster于1986年提出,并由他的学生Sharer于1971年改进使之符合有限离散领域中的推理形式。它是一种决策理论,不但能够处理由于知识的不准确引起的不确定信息,而且能够处理由于不知道引起的不确定信息,它能满足比贝叶斯理论更弱的公理系统,当概率值已知时,证据理论就变成了贝叶斯理论。该理论引入信任函数、似然函数及类概率函数等来分别描述命题的精确信任度、不可驳斥的信任度及估计信任度,从而使D-S理论不仅能从不同角度刻画命题的不确定性,还能处理由于“不知道”而引起的不确定性,即它既能将未知事件明白的表示出来,也能描述事件及其补,使其主观概率之和为1,因而克服了纯概率论模型“不知道”处理的不合理性。

发明内容
(一 )要解决的技术问题本发明的目的在于提出一种基于多源信息融合的疾病潜在关联基因的获取方法,融合基于非相关文献知识发现算法的疾病关联基因预测方法、基于基因功能相似度算法的疾病关联基因预测方法和基于回归预测模型算法的疾病关联基因预测方法,从全局上预测潜在的关联基因,为疾病关联基因获取提供最佳结果。
( 二 )技术方案为了解决上述技术问题,本发明提供了一种基于多源信息融合的疾病潜在关联基因获取方法,该方法包括步骤I :基于非相关文献知识发现算法的疾病关联基因预测步骤,获取第一关联基因集合;步骤2 :基于功能相似性算法的疾病关联基因预测步骤,获取第二关联基因集合;步骤3 :基于回归预测模型算法的疾病关联基因预测步骤,获取第三关联基因集合;步骤4 :根据第一、第二和第三关联基因集合及相应方法下对基因的打分,对骤I、2和3的结果进行基于D-S证据理论的融合,即根据三种方法下的打分结果对三个关联基因集合中的所有基因重新进行打分,得到最终的判决结果,取排名靠前的作为疾病的潜在关联基因。所述步骤I包括以下步骤步骤11 :构建疾病的生物网络;步骤12 :计算疾病同现表型与通过非相关文献关联的基因的相关度;步骤13 :计算疾病与关联基因的相关度,并对得到的基因进行排序,得到以非相关文献关联为依据的疾病潜在的关联基因。所述步骤2包括以下步骤步骤21 :利用在所述步骤I中得到的疾病同现的基因,计算同现基因与非同现基因之间功能相似度,利用基因功能相似度的结果,确定每个疾病同现基因的10个相似基因,扩展生物网络;步骤22 :利用相似度计算排序前10的基因作为疾病同现基因的相似基因,计算疾病与相似基因的关联度,并对得到的基因进行排序,得到以功能相似为依据的疾病潜在的关联基因。所述步骤3包括以下步骤步骤31 :从OMIM数据库中获取疾病关联基因,获得与疾病相关的已知疾病基因,构成已知关联基因;从OMIM数据库得到表型网络,表型之间的相似度利用表型对应的医学主题词表术语间的重叠程度得到;从人类蛋白质相互作用数据库得到基因相互作用网络;步骤32 :计算基因与表型的关联度;步骤33 :根据已知疾病关联基因评估回归模型参数;步骤34 :根据回归模型预测潜在的关联基因。所述步骤4包括以下步骤步骤41 :利用所述步骤1、2和3获取疾病的潜在关联基因,其中分别用B表示基于步骤I得到的疾病潜在关联基因的集合,C表示基于步骤2得到的疾病潜在关联基因的集合,D表示基于步骤3得到的疾病潜在关联基因的集合,Bi, Cj, Dk分别为B,C,D的任一子集;定义集合 为疾病候选关联基因的集合,E表示 的任一子集,Q = 20,即Q表示所有可能的E集合,O表示空集,m为针对潜在关联基因的基本概率分配,是从20到(0,1)上的映射函数,m(E)定义为
权利要求
1.一种基于多源信息融合的疾病潜在关联基因的获取方法,该方法包括以下步骤 步骤I:通过基于非相关文献知识发现算法的疾病关联基因预测步骤获取第一关联基因集合; 步骤2 :通过基于功能相似性算法的疾病关联基因预测步骤获取第二关联基因集合; 步骤3 :通过基于回归预测模型算法的疾病关联基因预测步骤获取第三关联基因集合; 步骤4 :根据所述第一、第二和第三关联基因集合及在相应步骤下对基因的打分情况,对所述第一、第二和第三关联基因集合中的所有基因重新进行打分,得到最终的判决结果,取排名靠前的作为疾病的潜在关联基因。
2.如权利要求I所述的方法,其特征在于,所述步骤I包括以下步骤 步骤11 :构建疾病的生物网络; 步骤12 :计算疾病同现表型与通过非相关文献关联的基因的相关度; 步骤13 :计算疾病与关联基因的相关度,并对得到的基因进行排序,得到以非相关文献关联为依据的疾病潜在的关联基因。
3.如权利要求I所述的方法,其特征在于,所述步骤2包括以下步骤 步骤21 :利用在所述步骤I中得到的疾病同现的基因,计算同现基因与非同现基因之间功能相似度,利用基因功能相似度的结果,确定每个疾病同现基因的10个相似基因,扩展生物网络; 步骤22 :利用相似度计算排序前10的基因作为疾病同现基因的相似基因,计算疾病与相似基因的关联度,并对得到的基因进行排序,得到以功能相似为依据的疾病潜在的关联基因。
4.如权利要求I所述的方法,其特征在于,所述步骤3包括以下步骤 步骤31 :从OMIM数据库中获取疾病关联基因,获得与疾病相关的已知疾病基因,构成已知关联基因;从OMIM数据库得到表型网络,表型之间的相似度利用表型对应的医学主题词表术语间的重叠程度得到;从人类蛋白质相互作用数据库中得到基因相互作用网络;步骤32 :计算基因与表型的关联度; 步骤33 :根据已知疾病关联基因评估回归模型参数; 步骤34 :根据回归模型预测潜在的关联基因。
5.如权利要求I所述的方法,其特征在于,所述步骤4包括以下步骤 步骤41 :利用所述步骤1、2和3获取疾病的潜在关联基因,其中分别用B表示基于步骤I得到的第一关联基因集合,C表示基于步骤2得到的第二关联基因集合,D表示基于步骤3得到的第三关联基因集合,Bi, Cj, Dk分别为B,C,D的任一子集; 定义集合 为基因的集合,E表示O的任一子集,Ω = 20,即Ω表示所有可能的E集合,Φ表示空集,m为针对潜在关联基因的基本概率分配,是从20到(0,1)上的映射函数,m(E)定义为并且满足:Π1(Φ) = 0,Σ/ (/,) = 1 Ρ(δ )表示一个基因gi在对应于获得集合E所采用步骤1、2或3中得到的打分; 步骤42 :按照m(E)的表达式计算Bi, Cj, Dk三个对应的基本概率分配Hi1 (Bi),m2 (Cj),% (Dk); 步骤43 :对上述三个基本概率分配进行融合,表达式为 m(A) = m' Θm,十/” ) =丄工 m,(()·/; ,(I),) K B1UC^Dt=A 其中,A满足A e B U C U D,且A中仅含一个元素;即A表示一个候选疾病潜在关联基因,Hi1(Bi),Hi2(Cj),Hi3(Dk)分别为上述三个集合Bi, Cj, Dk的基本概率分配;K为归一化常数,表达式为 K= Y / ,(^)·/ ;(Γ.)·/;/,(/),) = I- y Dii(Hl)-mAC .)-1)1,(1),.) BtPC S\D^0B CiC,=0 9 步骤44 :计算所有满足条件的A对应的m(A),根据m(A)的值由大到小对基因排序,排序靠前的更有可能作为疾病潜在关联基因。
全文摘要
本发明公开了一种基于多源信息融合的疾病潜在关联基因的获取方法,该方法包括基于非相关文献知识发现的疾病关联基因预测步骤、基于功能相似性的疾病关联基因预测步骤以及基于回归预测模型的疾病关联基因预测步骤;以及对所述基于非相关文献知识发现的疾病关联基因预测步骤、基于功能相似性的疾病关联基因预测步骤以及基于回归预测模型的疾病关联基因预测步骤所获得的关联基因分别进行打分,建立对关联基因的初步分析,然后对各步骤的结果进行融合,得到最终的判决结果,确定疾病的潜在关联基因。
文档编号G06F19/00GK102855398SQ20121030937
公开日2013年1月2日 申请日期2012年8月28日 优先权日2012年8月28日
发明者高一波, 陈迪, 卢朋, 陈琳, 刘西, 代文, 宋江龙, 温伟娜 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1