一种对常见脑疾病易感基因的批量检测方法

文档序号:442435阅读:279来源:国知局
专利名称:一种对常见脑疾病易感基因的批量检测方法
技术领域
本发明属于生物信息学技术以及遗传学领域,涉及一种基于复杂脑 基因网络对常见脑疾病易感基因进行批量检测。
背景技术
当前,.复杂网络研究正在成为国际上最热门的研究课题之一。自从
1998年Strogatz率先在Nature上提出小世界网络开始[1] (Watts DJ and Strogatz SH. Collective dynamics of 'small-world' networks. Nature, 393: 440-442, 1998),世界权威杂志Nature和Science每年都有大量文章涉及到复杂 网络的建模、统计分析以及在社会网络、生物网络等方面的应用[2-5]
(Barabasi AL and Albert R. Emergence of scaling in random networks. Science, 286:509-12, 1999; Albert R., Jeong H., and Barabasi AL. diameter of the world wide web. Nature, 401: 130-131, 1999; Guimera R., Amaral LAN., Functional cartography of complex metabolic networks. Nature, 433: 895-900, 2005; Han JD., Berlin N., and Hao T. et al. Evidence for dynamically organized modularity in the yeast protein-protein interaction network. Nature, 430: 88-93, 2004)。同时,随着人类基因组计划
(Human Genome Project, HGP)的实施与完成[6-8] (Roberts L, Dave叩ort RJ, Pennisi E, Marshall E. A histroy of the Human Genome Project. Science. 291:1195, 2001; Lander ES et al. Initial sequencing and analysis of the human genome. Nature, 409: 860—921, 2001; Venter JC et al. The sequence of the huuman genome. Science, 291:1304-1351,2001.),人类进入了后基因组时代,随之发展了各种高通量 的生物技术,带动了各种生物学数据(包括DNA/蛋白质序列数据、蛋白 质结构数据、基因芯片数据以及各种蛋白-蛋白交互作用数据等)的迅猛 增长,为重建和分析复杂生物网络奠定了物质基础。有关单细胞模式生 物的各种复杂生物网络重建以及相关分析的研究已经获得了很大的成功 [9—13] (Uetz P. et al. A comprehensive analysis of protein—protein interactions in
Saccharomyces cerevisiae. Nature 403, 623~627, 2000; Ito T. et al. A comprehensive two-hybrid analysis to explore the yeast protein interactome. Proc. Natl Acad. Sci. USA 98, 4569~4574, 2001; Gavin AC. et al. Functional organization of the yeast proteome by systematic analysis of protein complexes. Nature 415, 141—147, 2002; Tsuang M. Schizophrenia: genes and environment. Biol. Psychiatry. 47, 210-220, 2000; Allam MF, Castillo AS and Navajas RF. Parkinson's disease risk factors: genetic, environmental, or both Neurol. Res. 27, 206-208, 2005.),但是对于高级物种尤其人类复杂基因网 络的研究,则要远远困难的多。
人类各种常见脑疾病不仅使病人本身承受着巨大的生理和心理痛 苦,而且给病人家庭乃至人类社会带来了巨大影响。无疑,人类各种常 见脑疾病都是复杂性疾病,即它不是由单一基因所决定的,而是由多基 因、多因素,遗传和环境共同作用的结果[M, 15] (Li S. et al. A map of the interactome network of the metazoan C. elegans. Science 303, 540—543, 2004; Giot L et al. A protein interaction map of Drosophila melanogaster. Science 302, 1727-1736, 2003.)。各种常见脑疾病的分子机制,正成为各国科学家努力攻克的难题。 然而,传统的遗传学研究检测单个候选基因与脑疾病的关联,不仅太费 时耗力,而且对于复杂疾病的研究,重复性很差。因此,亟待产生快速 有效,方便便捷的计算检测方法,从系统学以及复杂网络的观点考察复 杂疾病分子机制的研究[16] (Xu Q et al. Association study of an SNP combination pattern in the dopaminergic pathway in paranoid schizophrenia: a novel strategy for complex disorders. Mol Psychiatry.; 9(5):510-21, 2004)正成为当今世界研究的热 点问题,有望产生突破性的科学成果。对于网络分析来说,当前的研究 还有两方面的局限性, 一是和疾病结合起来研究的很少,二是和多种生 物学数据结合起来研究的少。

发明内容
传统的遗传学研究检测单个候选基因与脑疾病的关联,不仅太费时 耗力,而且对于复杂疾病的研究,重复性很差,为了解决上述技术的问 题,本发明的目的是提供一种快速有效、方便便捷、重复性好的批量检 测常见脑疾病易感基因的方法。 本发明是一种基于复杂脑基因网络的常见脑疾病易感基因检测方 法,步骤如下
利用提取大规模数据集,基于贝叶斯模型构建复杂脑基因网络,并 对复杂脑基因网络的分析;对常见脑疾病易感基因的批量检测;对检测 结果进行验证。
根据本发明的实施例,所述提取大规模数据集,是将大规模基因组、 蛋白质组公共生物学数据,存入数据处理器中,基于贝叶斯统计模型将 所述的不同数据集统一到同一框架下。
根据本发明的实施例,所述构建复杂脑基因网络,是通过集成了不 同的数据集,来构建较为精确的复杂脑基因网络。
根据本发明的实施例,所述复杂脑基因网络的分析,是分析复杂脑 基因网络的统计特性。
根据本发明的实施例,所述复杂脑基因网络的统计特性,是引入某 常见脑疾病的先验信息,然后根据定义的准则对网络中所有脑基因进行 重要性排序,选取分数较高的基因构成相关基因子网络。
根据本发明的实施例,所述对常见脑疾病易感基因的批量检测,是 在相关基因子网络中大规模地处理得到脑疾病的多个相关易感基因。
根据本发明的实施例,所述对检测结果进行验证,是对多个相关易 感基因和常见脑疾病的多基因进行处理,获得常见脑疾病的多基因相互 作用病理相吻合的检测结果。
根据本发明的实施例,所述集成的数据集步骤为选取人脑中表达 的基因,基于这一基因集;利用人脑各不同状态、不同脑区的基因表达 数据集以及各种生物、实验验证及其它的基因相互作用网络数据,并全 部将其对应到人脑,保存相关结果。
根据本发明的实施例,所述构建较为精确的复杂脑基因网络步骤为 对多种生物学数据集采用一个统一的评分准则,对所有数据集进行重新 评分,然后基于统一的分数,用简单的贝叶斯分类器,对各数据集进行综 合,构建出一个较为准确的复杂脑基因网络。
根据本发明的实施例,所述定义的准则,是定义所研究脑疾病的一 个或多个比较明确的重要易感基因;然后基于定义的种子基因和前面所
建立的复杂脑基因网络,判别网络内其他基因相对于这些种子基因的重 要程度;按此重要程度对所有脑基因进行排序并选取得分较高的一些基 因作为该疾病的重要易感基因;以检测的这些重要易感基因构成的网络 作为该疾病基因子网络。
根据本发明的实施例,所述脑基因重要性排序的步骤如下根据复 杂脑基因网络的连接特性,计算所有基因相对于种子基因的最短图论距 离,然后计算每一基因相对于各种子基因的距离之和,把它作为网络中 这一基因相对于种子基因的重要程度,并根据此重要程度的高低对所有 基因进行排序。
根据本发明的实施例,所述多个相关易感基因和常见脑疾病的多基 因进行处理步骤如下是以已有疾病易感基因的知识为标准,检验检测 结果的敏感性和特异性;与多次随机种子基因的检测结果相比较,检验 检测结果的准确性;以检测到的该疾病多个重要易感基因为特征,对病 人和正常人的基因芯片数据设计分类器,并考察分类结果,如能达到很 好的分类结果,说明检测的多个易感基因可作为该疾病的重要生物标记 进行疾病的早期诊断;最后进一步实验验证检测结果的准确性以指导疾 病的早期诊断与治疗。
本发明的优点和积极效果本发明从系统科学的角度,从多因素、
多层次、多方面入手,从整体上系统构建出人脑复杂基因网络,分析验 证这一复杂网络,并试图从该网络中找出与常见脑疾病的易感基因子网络。
因此,本发明在当前研究的基础上,和常见脑疾病结合,和多种生 物学数据结合,开发出了更加满足实际情况的方法,可以提供更加先进 的疾病生物标记,而且对理解各种常见脑疾病发生发展的机理开辟了新 的道路,无疑会对人类各种常见脑疾病的早期诊断和疗效评价,对人类 健康有着深远重大的意义。
该基于复杂脑基因网络对常见脑疾病易感基因进行检测的计算方法 有着非常广泛的应用前景。与当前传统的遗传学实验方法相比较,该方
法有如下优点
1、利用计算机计算的手段进行易感基因的检测,比传统的遗传实验
方法节省大量的时间和劳力,方便快捷。
2、 基于脑基因网络信息寻找脑疾病易感基因,从系统层次上进行分 析检测,更符合常见脑疾病是多基因相互作用的致病机理。
3、 基于贝叶斯框架集成不同的数据集构建脑基因网络,充分利用已 有的信息,大大降低网络连接的假阳性率。
4、 充分利用了人类基因组的各种数据信息,使结果的重复性好、可
信性增加。


图1是本发明对常见脑疾病易感基因的批量检测方法实现过程的流 程图。
图2是本发明含大规模数据收集和复杂脑基因网络构建的流程图。 图3是本发明对常见脑疾病易感基因的检测的流程图。
具体实施例方式
下面将结合附图对本发明加以详细说明,应指出的是,所描述的实 施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
本发明收集各种可利用的大规模基因组、蛋白质组等各种公共生物 学数据,将这些数据存储于计算机中,并基于贝叶斯统计模型集成这些 不同的数据集,来构建较为精确的复杂脑基因网络,并分析该网络的统 计特性;在此网络的基础上,引入某常见脑疾病的先验信息,然后根据 本发明定义的准则对网络中所有脑基因进行重要性排序,选取分数较高 的基因构成相关基因子网络,从而大规模地、便捷地发现该疾病的多个 相关易感基因。
本发明对常见脑疾病易感基因的批量检测方法实现过程的技术流程 如图1所示,可具体分为以下五个步骤
步骤Sl :各种大规模数据集的收集如图2;
从文献和实验信息中选取人脑中表达的基因,所有脑基因网络相关 研究都是基于这一基因集。搜集
①人脑各不同状态、不同脑区的基因表达数据集;
② 从PubMed上下载包含关键词为"human"和"brain"的文献摘要;
③ 从DIP数据库下载模式生物的大规模基因网络,并把这些基因与 人脑基因进行同源对应,以此构建脑基因网络;
④ 从HPRD数据库中下载部分实验验证的人脑基因网络;
下载PreBIND以及其它相关的人类基因网络,并将其都对应到人
脑,保存相关结果。
步骤S2:复杂脑基因网络的构建如图2。
如图2是本发明对复杂脑基因网络构建的子流程图所示,将上述这 些不同来源的数据统一到贝叶斯框架下进行集成,对多种生物学数据集 采用一个统一的评分规则,也即是对以前没有分数的数据进行打分,对 以前有一定分数的数据进行重新打分,所有的打分都依据简单的贝叶斯 统计模型,这样可以对不同来源的数据可信度有个客观的评判,以利于 进一步的数据集成。例如,HPRD数据库是可信度较高的实验验证的基因 相互作用数据,而根据基因表达数据集得到的相互作用网络假阳性则较 高,根据我们的评分规则重新评分以后,HPRD中的数据得到了较高的分 数,而基于基因芯片数据的网络则得到了较低的分数。然后基于统一的 分数,用简单的贝叶斯分类器,对各数据集进行综合,构建出一个较为准 确的复杂脑基因网络。这样就构建出了一个以人脑基因为节点,基因与 基因之间的相互作用为连接的脑基因相互作用网络,是一个由约8000 个人脑基因以及它们之间的40, 000多条相互连接所构成的复杂网络。 这一网络具有scale-free的特性,也即网络中有少数的"关键节点"存 在,也即少数的基因具有高度的连接,而大多数基因具有比较少的连接。
步骤S3:复杂脑基因网络的分析。
对于构建的复杂脑基因网络,基于数据库中对基因功能的注释信息, 分析网络中少数"关键节点"的作用,分析人脑基因网络功能模块的属性, 并探索其与脑功能机制的相互关系;进行网络拓扑特异性和稳定性分析, 以发现复杂脑基因网络与其他类似网络相比所具有的特有属性。 步骤S4:如图3常见脑疾病易感基因的检测所示。 寻找所研究脑疾病的一个或多个比较明确的重要易感基因,这里可 以叫做种子基因如图3, S41;然后基于种子基因和上一步骤所建立的复
杂脑基因网络,判别网络内其它基因相对于这些种子基因的重要程度; 此处的重要程度是通过计算网络中所有基因相对于种子基因的最短图论
距离,也即最短路径长度如图3, S42,然后把每一基因相对于所有种子 基因的距离相加,以此作为此基因相对于种子基因的重要程度如图3, S43;按此重要程度的分数高低对所有脑基因进行排序如图3, S44,并 选取得分较高的一些基因作为该疾病的重要易感基因如图3, S45;以检
测的这些重要易感基因之间的相互作用所构成的网络作为该疾病基因子 网络如图3, S4。
步骤S5:检测结果的验证。
以已有疾病易感基因的知识为标准,检验已有疾病易感基因检测结 果的敏感性和特异性;与多次随机种子基因的检测结果相比较,检验检 测结果的准确性;以检测到的该疾病多个重要易感基因为特征,对病人 和正常人的基因芯片数据设计分类器,并考察分类结果,如能达到很好 的分类结果,说明检测的多个易感基因可作为该疾病的重要生物标记进 行疾病的早期诊断;最后进一步实验验证检测结果的准确性以指导疾病 的早期诊断与治疗。
下面是利用图1的方法检测阿尔茨海默氏病易感基因为例说明本发 明的具体实现过程
步骤S1:各种大规模数据集的收集收集建立复杂脑基因网络所需 的各类公共数据,进行相关的预处理以及整理分类工作;以阿尔茨海默 氏病为关键词搜寻OMIM数据库,保存结果,然后针对其中的每个基因, 在PubMed中搜寻和疾病相关的文献支持。如果有多个证据支持,则定义 该基因为这一疾病的易感基因,以此定义的46个易感基因作为标准,验
证检测算法的敏感性和特异性。 步骤S2与步骤S3同上。
步骤S4:阿尔茨海默氏病易感基因的检测以AP0E、 APP、 PSEN1、 PSEN2四个已知的阿尔茨海默氏病易感基因为种子节点,计算复杂脑基 因网络中其余每个基因相对于这些种子基因的最短图论距离,然后基于 这些距离对每个基因的重要程度进行打分,得分较高的前46个基因被认
为是阿尔茨海默氏病的易感基因。
步骤S5:检测结果的验证在检测到的46个阿尔茨海默氏病易感 基因中,有23个与步骤-一中定义的标准相吻合,并且剩余的23个基因 中,还有14个能找到相关的文献报导证据支持检测结果,远远好于随机 模拟的结果;另外通过增加噪声分析该结果的稳定性,表明有很好的稳 定性和鲁棒性。
上面的描述仅仅是用于实现本发明及其实施例,因此,本发明的范 围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明 的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。
权利要求
1、一种对常见脑疾病易感基因的批量检测方法,其特征在于步骤如下根据提取的大规模数据集,基于贝叶斯模型构建复杂脑基因网络,并对复杂脑基因网络分析,对常见脑疾病易感基因的批量检测,对常见脑疾病易感基因的检测结果进行验证。
2、 根据权利要求1所述对常见脑疾病易感基因的批量检测方法,其 特征在于所述提取大规模数据集,是将大规模基因组、蛋白质组公共 生物学数据,存入数据处理器中,基于贝叶斯统计模型将所述的不同数 据集统一到同一框架下。
3、 根据权利要求1和2所述对常见脑疾病易感基因的批量检测方法, 其特征在于所述数据集,是通过集成不同的数据集,来构建较为精确 的复杂脑基因网络。
4、 根据权利要求1所述对常见脑疾病易感基因的批量检测方法,其 特征在于,所述复杂脑基因网络的分析,是分析复杂脑基因网络的统计 特性。
5、 根据权利要求1和4所述对常见脑疾病易感基因的批量检测方法,其特征在于,所述复杂脑基因网络的统计特性,是基于某常见脑疾病的 先验信息,基于定义准则对网络中所有脑基因进行重要性排序,选取分 数较高的基因构成相关基因子网络。
6、 根据权利要求1和5所述对常见脑疾病易感基因的批量检测方法, 其特征在于,所述对常见脑疾病易感基因的批量检测,是在相关基因子 网络中对脑基因的数据处理得到脑疾病的多个相关易感基因。
7、 根据权利要求1和6所述对常见脑疾病易感基因的批量检测方法, 其特征在于,所述对检测结果进行验证,是对多个相关易感基因和常见 脑疾病的多基因的数据进行处理,获得常见脑疾病的多基因相互作用病 理相吻合的检测结果。
8、 根据权利要求2所述对常见脑疾病易感基因的批量检测方法,其 特征在于,所述集成的数据集步骤为选取人脑中表达的基因,基于这 一基因集;利用人脑各不同状态、不同脑区的基因表达数据集以及各种 生物、实验验证及其它的基因相互作用网络数据,并全部将其对应到人 脑,保存相关结果。
9、 根据权利要求3所述对常见脑疾病易感基因的批量检测方法,其 特征在于,所述构建较为精确的复杂脑基因网络步骤为对多种生物学 数据集采用一个统一的评分准则,对所有数据集进行重新评分,然后基于 统一的分数,用简单的贝叶斯分类器,对各数据集进行综合,构建出一个 较为准确的复杂脑基因网络。
10、 根据权利要求5所述对常见脑疾病易感基因的批量检测方法,其特征在于,所述定义准则,是定义脑疾病的一个或多个比较明确的重要易感基因;基于定义的种子基因和所建立的复杂脑基因网络,判别网 络内其它基因相对于这些种子基因的重要程度;按此重要程度对所有脑 基因进行排序并选取得分较高的一些基因作为该疾病的重要易感基因, 以检测的这些重要易感基因构成的网络作为该疾病基因子网络。
11、 根据权利要求5所述对常见脑疾病易感基因的批量检测方法, 其特征在于,所述脑基因重要性排序的步骤如下根据复杂脑基因网络 的连接特性,计算所有基因相对于种子基因的最短图论距离,然后计算 每一基因相对于各种子基因的距离之和,把它作为网络中这一基因相对 于种子基因的重要程度,并根据此重要程度的高低对所有基因进行排序。
12、 根据权利要求6所述对常见脑疾病易感基因的批量检测方法, 其特征在于,所述多个相关易感基因和常见脑疾病的多基因进行处理步 骤如下是以已有疾病易感基因为标准,检验已有疾病易感基因检测结 果的敏感性和特异性;与多次随机种子基因的检测结果相比较,检验检 测结果的准确性;以检测到的该疾病多个重要易感基因为特征,对病人 和正常人的基因芯片数据设计分类器,并考察分类结果,若达到很好的 分类结果,则将检测的多个易感基因作为该疾病的重要生物标记进行疾 病的早期诊断;最后进一步实验验证检测结果的准确性以指导疾病的早 期诊断与治疗。
全文摘要
本发明涉及生物信息学技术领域的一种基于复杂脑基因网络的常见脑疾病易感基因检测方法,用计算机计算的手段大规模检测各种常见脑疾病的易感基因。包括两大部分1.基于贝叶斯模型集成基因组、蛋白质组等多种可利用的公共生物学数据构建复杂脑基因网络,并分析该网络的统计特性;2.在此网络的基础上,引入某常见脑疾病的先验信息,然后根据网络的连接特性对网络中所有脑基因进行重要性排序,选取分数较高的基因构成相关基因子网络,从而大规模地、便捷地处理该疾病相关易感基因。本发明可以快速实现常见脑疾病易感基因的批量检测,在普通的微机上即可完成,可方便快捷地为传统遗传学研究以及各种病理研究提供非常有价值的线索。
文档编号C12Q1/68GK101110095SQ20061010325
公开日2008年1月23日 申请日期2006年7月20日 优先权日2006年7月20日
发明者冰 刘, 蒋田仔 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1