一种基于基因芯片网络分析的疾病风险基因识别方法

文档序号:6620757阅读:367来源:国知局
一种基于基因芯片网络分析的疾病风险基因识别方法
【专利摘要】本发明涉及一种生物【技术领域】,具体是一种基于基因芯片网络分析的疾病风险基因识别方法,其特征在于,在计算机系统中结合递归决策森林技术,通过计算每一成对基因在递归决策森林中的出现频率,定量分析每一对基因和疾病的相关程度,给出基因互作网络的风险基因的分布图谱。本发明结合递归决策树数据挖掘技术,通过定量分析每一对基因在全部递归决策树上的出现频率,评定基因互作网络中可能与疾病相关的风险基因,解决了基因芯片高通量数据所形成的疾病相关基因挖掘难,功能分析难的问题,达到分析与可视化生物分子网络结构与功能的目的,从而提高生物分析网络乃至疾病成因的理解。本发明简单、方便、快捷,可以直观展示基因芯片中基因和疾病的关联程度,将对理解疾病发病原因与病理过程提供有效的信息,也将对研究不同疾病之间的关系具有重要理论意义和实用价值。
【专利说明】-种基于基因芯片网络分析的疾病风险基因识别方法

【技术领域】
[0001] 本发明涉及一种生物【技术领域】,更具体地,是一种基于基因芯片网络分析的疾病 风险基因识别方法。

【背景技术】
[0002] 人类复杂疾病往往是多基因联合作用的结果。随着基因芯片技术的迅猛发展,并 行同时检测成千上万的基因表达水平成为可能。基因互作网络作为生物医学的重要结构描 述,基因互作网络结构与功能的异常直接反映生物机体功能的异常。处于网络中热点区域 的基因可能与所研究疾病显著相关。研究表明基因网络上的扰动可直接反映于生物机体的 表型变化,网络中某些基因的突变可在网络上产生级联放大效应,从而导致疾病的发生,包 括单基因致病的血友病、白化病和多基因致病的复杂疾病,如肿瘤、高血压等。研究表明网 络中基因与基因的相互作用关系发生改变亦可造成生物机体功能异常。近年来的很多分子 网络的解析研究,以期望提供对疾病的更深入的理解,研究表明人类基因相互作用网络的 动态拓扑变化可辅助解决肿瘤的预后问题,另有研究表明构建病原微生物感染网络为了解 病原微生物的致病过程以及分辨不同病原微生物各自的感染模式提供了极其有用的信息, 同时网络的动态结构信息也为联合用药和多靶药物设计提供了理论基础和极大帮助。
[0003] 机体的功能是由完整的生物分子网络驱动的,而疾病是不同病因引起的网络异常 引起的。生物网络具有很强的稳健性和鲁棒性,但是某些特定的网络节点和网络拓扑异常 变化将导致网络较大变化,并可能反映于生物机体,即疾病发生。为此,本发明提出一种基 于基因芯片网络分析的疾病风险基因识别方法。


【发明内容】

[0004] 本发明的目的旨在提供一种能简单、方便、快捷地识别疾病驱动的基因互作网络 中风险基因的识别方法,解决基因芯片高通量数据所形成的疾病相关基因挖掘难,功能分 析难的问题。
[0005] 在一种基于基因芯片网络分析的疾病风险基因识别方法中,输入的每一成对基因 在决策树森林中出现的频率作为一种和疾病相关的定量度量。相关程度的计算需经过如下 步骤:决策树的构建、构建训练集和检验集、决策森林的构建、风险基因的识别。
[0006] 为了达到上述目的,本发明通过以下技术方案实现:
[0007] -种基于基因芯片网络分析的疾病风险基因识别方法,其特征在于,在计算机系 统中结合递归决策森林技术,通过计算每一成对基因在递归决策森林中的出现频率,定量 分析每一对基因和疾病的相关程度,给出基因互作网络的风险基因的分布图谱。
[0008] 本发明所述的递归决策森林技术包含两部分:一是递归决策树的构建;二是递归 决策树分类效能的评价。
[0009] 本发明所述的每一成对基因在递归决策森林中的出现频率,包含任一两个基因在 递归决策森林中出现的频率,这些数据具有相似的类型。
[0010] 本发明所述的定量分析每一对基因和疾病的相关程度,给出基因互作网络的风险 基因的分布图谱,它的计算包括下列步骤:接收来自基因芯片的表达谱数据,对数据进行标 准化;从构建的决策树中提取相应节点的特征基因子集,若干决策树构成决策森林,对决策 所述的每一成对基因在递归决策森林中的出现频率,包含任一两个基因在递归决策森林中 出现的频率,这树分类效能进行评价;计算每一基因对在决策森林中的出现频率;计算基 因间的这种相关关系与疾病的关联函数。本发明通过可视化排列检验阈值以上的基因互作 关系对,得到基因网络的风险基因分布图谱。
[0011] 本发明结合递归决策树数据挖掘技术,通过定量分析每一对基因在全部递归决策 树上的出现频率,评定基因互作网络中可能与疾病相关的风险基因,解决了基因芯片高通 量数据所形成的疾病相关基因挖掘难,功能分析难的问题,达到分析与可视化生物分子网 络结构与功能的目的,从而提高生物分析网络乃至疾病成因的理解。本发明简单、方便、快 捷,可以直观展示基因芯片中基因和疾病的关联程度,将对理解疾病发病原因与病理过程 提供有效的信息,也将对研究不同疾病之间的关系具有重要理论意义和实用价值。

【专利附图】

【附图说明】
[0012] 图1为本发明的一种基于基因芯片网络分析的疾病风险基因识别方法的总体框 图。

【具体实施方式】
[0013] 一种基于基因芯片网络分析的疾病风险基因识别方法,其特征在于,在计算机系 统中结合递归决策森林技术,通过计算每一成对基因在递归决策森林中的出现频率,定量 分析每一对基因和疾病的相关程度,给出基因互作网络的风险基因的分布图谱。
[0014] 具体步骤如图1所示:检查从计算机输入的基因表达谱数据X的合法性,进行η 倍交叉验证、ηΧη对训练集和测试集,建立决策森林,通过递归决策树的分类模型并进行评 价,建立候选基因集,计算每一对基因在递归决策森林上出现的频率、计算基因与疾病的关 联程度打分选择最终基因,结束识别。
[0015] 上述的递归决策森林技术包含两部分:一是递归决策树的构建;二是递归决策树 分类效能的评价。
[0016] 本发明在具体构建递归决策树时,考虑到人类基因有多种命名方式,甚至会出现 不同命名方式之间不能严格的一一对应的现象,而且网络有多种表示方式。因此,本发明在 构建递归决策树(基因网络)的过程中,要求输入的网络中基因以Entrez编码命名,网络 以邻接矩阵的形式表示。
[0017] 将一个基因网络定义为:G = (V,E),其中V为网络中基因集合,E为网络中相互 作用边的集合。首先将要计算两个网络G1= (V2,V2),合并成为一个网络 G12 = (V12, E12),方法是将Gi中的每个节点分别与G2中的所有节点相连,如果有一个基因同 时出现在了 61和62中,将两个基因合并成为G12中的一个基因,这样V12 = Vi U V2, E12 = Ei U E2 U V\ X V2〇
[0018] 在一种定量分析生物分子网络结构与功能的方法中,构建决策树时属性和相应阈 值的识别准则是使得在一个节点的划分最大程度地降低类别杂质度(寻找一种划分最大 地减少在节点t的杂质度),采用Gini差异性指标(代价函数)为节点t的杂质函数:
[0019]

【权利要求】
1. 一种基于基因芯片网络分析的疾病风险基因识别方法,其特征在于:结合递归决策 森林技术,通过计算每一成对基因在递归决策森林中的出现频率,定量分析每一对基因和 疾病的相关程度,给出基因互作网络的风险基因的分布图谱。
2. 根据权利要求1所述的一种基于基因芯片网络分析的疾病风险基因识别方法,其特 征是,所述的递归决策森林技术,包含两部分:一是递归决策树的构建;二是递归决策树分 类效能的评价。
3. 根据权利要求1或2所述的一种基于基因芯片网络分析的疾病风险基因识别方法, 其特征是,所述的每一成对基因在递归决策森林中的出现频率,包含任一两个基因在递归 决策森林中出现的频率,这些数据具有相似的类型。
4. 根据权利要求1或2所述的一种基于基因芯片网络分析的疾病风险基因识别方法, 其特征是,所述的基因和疾病的相关程度它的计算包括下列步骤:接收来自基因芯片的表 达谱数据,对数据进行标准化;从构建的决策树中提取相应节点的特征基因子集,若干决策 树构成决策森林,对决策树分类效能进行评价;计算每一基因对在决策森林中的出现频率; 计算基因间的这种相关关系与疾病的关联函数。
5. 根据权利要求4所述的一种基于基因芯片网络分析的疾病风险基因识别方法,其特 征是,所述的基因互作网络的风险基因的分布图谱,通过可视化排列检验阈值以上的基因 互作关系对,得到基因网络的风险基因分布图谱。
【文档编号】G06F17/50GK104156503SQ201410345984
【公开日】2014年11月19日 申请日期:2014年7月21日 优先权日:2014年7月21日
【发明者】徐瑞龙, 伯晓晨, 杨宁敏 申请人:金华市中心医院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1