互斥性转录因子调控网络下的肿瘤标识物挖掘系统及方法

文档序号:9751163阅读:635来源:国知局
互斥性转录因子调控网络下的肿瘤标识物挖掘系统及方法【
技术领域
】[0001]本发明涉及肿瘤标识物挖掘的
技术领域
,特别是涉及一种互斥性转录因子调控网络下的肿瘤标识物挖掘系统及方法。【
背景技术
】[0002]肿瘤标识物是肿瘤细胞本身存在或分泌的特异性物质。当肿瘤发生、发展时,这些物质明显异常,标志着癌症的发生和存在。肿瘤标识物的研究和检测在临床上对肿瘤的诊断、治疗和预后都具有十分重要的意义,并可借此了解肿瘤的组织发生、细胞分化及功能。理想的肿瘤标识物应符合以下条件:敏感性高、特异性高、其浓度与癌症恶性程度、转移相关并易于检测。而至今所发现的百余种肿瘤标识物中只有少数能满足上述要求。因此,研究与发现新型的肿瘤标识物成为了目前肿瘤诊断与治疗最有希望的方向之一。[0003]转录因子是真核细胞转录调控中的重要因子,可结合特异性DNA序列,进而控制特定基因的转录速度。近年来发现,大部分转录因子-靶基因的调控关系在不同细胞状态、不同生长环境及细胞周期中都存在着巨大的变化。并在癌症中,大量的证据表明转录因子存在广泛的异常现象,包括突变、异常翻译后修饰及异常表达等。同时,深入的分子水平研究表明,异常的转录因子对引发大量基因异常表达,进而促进肿瘤的发生、发展都起到了关键的作用。因此,揭示肿瘤基因表达调控网络异常动态变化的内在规律将对寻找有效的肿瘤标识物及治疗方法都有重大意义。[0004]目前,基于生物网络的系统生物学方法已经成为癌症高通量数据分析的主要手段。该类分析方法能够从网络层次对高维数据进行有效的整合、分析,进而揭示其背后的生物学意义。较为具有代表意义的方法如最近发展的MEMo算法,通过分析同一信号通路中功能类似基因的变异性在大量癌症病人中的分布情况,揭示了重要癌症基因之间存在着互斥性(mutuallyexclusive)的现象。即在同一信号通路中起关键作用的基因之间并不同时出现变异,这表明关键基因之间存在着功能互补性。[0005]此外,基于互斥现象在信号转导通路中的普遍性存在,我们假设,互斥现象亦可能存在在于基因表达调控网络中。因此,可从公开发表的癌症数据出发,发展一个崭新的算法来建立基于转录因子互斥性的基因表达调控网络,并对大量异常表达的基因进行整合、分析,以开发基于此机理的新型肿瘤标识物。【
发明内容】[0006]鉴于以上所述现有技术的缺点,本发明的目的在于提供一种互斥性转录因子调控网络下的肿瘤标识物挖掘系统及方法,依靠公开可得的癌症数据,通过搜寻具有互斥性的转录因子,并建立基因表达调控网络,以挖掘出基于此机理的新型肿瘤标识物。[0007]为实现上述目的及其他相关目的,本发明提供一种互斥性转录因子调控网络下的肿瘤标识物挖掘系统,包括转录因子互斥性计算模块和基因调控网络构建模块;所述转录因子互斥性计算模块用于标记转录因子基因表达数据中的异常样本,计算标记后的转录因子间的互斥性,并分析转录因子互斥性的显著性;所述基因调控网络构建模块用于基于具有显著互斥性的转录因子构建网络模型,挖掘出在恶性程度高、易转移的肿瘤中富集的转录因子。[0008]根据上述的互斥性转录因子调控网络下的肿瘤标识物挖掘系统,其中:所述转录因子互斥性计算模块包括聚类分析单元、互斥性计算单元和显著性分析单元;[0009]所述聚类分析单元用于发现异常样本并进行标记;[0010]所述互斥性计算单元用于计算标记后的转录因子间的互斥性;[0011]所述显著性分析单元用于分析转录因子互斥性的显著性。[0012]进一步地,根据上述的互斥性转录因子调控网络下的肿瘤标识物挖掘系统,其中:在所述聚类分析单元中,对每个基因的表达数据进行聚类分析并分为两类;对这两类表达数据而言,基因表达平均值较高的一类为该基因的高表达样本,标记为“I”,其余样本标记为“O”。进一步地,根据上述的互斥性转录因子调控网络下的肿瘤标识物挖掘系统,其中:在所述互斥性计算单元中,若对于任意一个基因A而言,至少一个其表达值为“I”的样本中任意一个基因B的表达值为“0”,且至少一个其表达值为“O”的样本中基因B的表达值为“1”,则定义基因A与基因B为完全互斥。[0013]根据上述的互斥性转录因子调控网络下的肿瘤标识物挖掘系统,其中:所述基因调控网络构建模块包括网络构建单元和富集单元;[0014]所述网络构建单元用于构建基于显著互斥性的转录因子的基因调控网络;[0015]所述富集单元用于挖掘出在恶性程度高、易转移的肿瘤中富集的转录因子。[0016]进一步地,根据上述的互斥性转录因子调控网络下的肿瘤标识物挖掘系统,其中:所述网络构建单元构建基因调控网络时,将具有显著的互斥性的转录因子连接成基因调控网络图。[0017]同时,本发明还提供一种互斥性转录因子调控网络下的肿瘤标识物挖掘方法,包括以下步骤:[0018]步骤S1、标记转录因子基因表达数据中的异常样本,计算标记后的转录因子间的互斥性,并分析转录因子互斥性的显著性;[0019]步骤S2、基于具有显著互斥性的转录因子构建网络模型,挖掘出在恶性程度高、易转移的肿瘤中富集的转录因子。[0020]根据上述的互斥性转录因子调控网络下的肿瘤标识物挖掘方法,其中:所述步骤Si中,标记转录因子基因表达数据中的异常样本时,对每个基因的表达数据进行聚类分析并分为两类;对这两类表达数据而言,基因表达平均值较高的一类为该基因的高表达样本,标记为“I”,其余样本标记为“O”。[0021]根据上述的互斥性转录因子调控网络下的肿瘤标识物挖掘方法,其中:所述步骤SI中,计算标记后的转录因子间的互斥性时,若对于任意一个基因A而言,至少一个其表达值为“I”的样本中任意一个基因B的表达值为“0”,且至少一个其表达值为“O”的样本中基因B的表达值为“I”,则定义基因A与基因B为完全互斥。[0022]根据上述的互斥性转录因子调控网络下的肿瘤标识物挖掘方法,其中:所述步骤S2中,基于具有显著互斥性的转录因子构建网络模型时,将具有显著的互斥性的转录因子连接成基因调控网络图。[0023]如上所述,本发明的互斥性转录因子调控网络下的肿瘤标识物挖掘系统及方法,具有以下有益效果:[0024](I)通过转录因子互斥性计算模块分析肿瘤中转录因子的基因表达数据,找出异常表达的样本并以此计算各转录因子之间的表达互斥性及其显著性;[0025](2)通过基因调控网络构建模块构建基于转录因子互斥性的基因调控网络,并挖掘出在恶性程度高、易转移的肿瘤中富集的转录因子;[0026](3)应用R语言和peri语言进行编程,简便易行,并具有较强的可移植性。【附图说明】[0027]图1显示为本发明的互斥性转录因子调控网络下的肿瘤标识物挖掘系统的结构不意图;[0028]图2显示为本发明的互斥性转录因子调控网络下的肿瘤标识物挖掘方法的流程不意图;[0029]图3显示为本发明的互斥性转录因子调控网络下的肿瘤标识物挖掘方法的框架示意图。[0030]元件标号说明[0031]I转录因子互斥性计算模块[0032]11聚类分析单元[0033]12互斥性计算单元[0034]13显著性分析单元[0035]2基因调控网络构建模块[0036]21网络构建单元[0037]22富集单元【具体实施方式】[0038]以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的【具体实施方式】加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。[0039]需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。[0040]参照图1,本发明的互斥性转录因子调控网络下的肿瘤标识物挖掘系统包括转录因子互斥性计算模块I和基因调控网络构建模块2。[0041]转录因子互斥性计算模块I用于标记转录因子基因表达数据中的异常样本,计算标记后的转录因子间的互斥性,并分析转录因子互斥性的显著性。[0042]具体地,转录因子互斥性计算模块I包括聚类分析单元11、互斥性计算单元12和显著性分析单元13。[0043]聚类分析单元11用于发现异常样本并进行标记。具体地,通过调用R语言中的程序包mclust对每个基因的表达数据进行聚类分析并分为两类。对这两类表达数据而言,基因表达平均值较高的一类为该基因的高表达样本,标记为“1”,其余样本标记为“O”。[0044]互斥性计算单元12与聚类分析单元11相连,用于计算标记后的转录因子间的互斥性。具体地,依据聚类分析单元标记后的基因表达数据进行互斥性计算,并进行定义。若对于任意一个基因A而言,至少一个其表达值为“I”的样本中任意一个基因B的表达值恰好为“0”,且至少一个其表达值为“O”的样本中基因B的表达值恰好为“1”,则定义基因A与B为完全互斥。[0045]显著性分析单元13与互斥性计算单元12相连,用于分析转录因子互斥性的显著性。其中,显著性分析单元通过统计的方式来分析转录因子互斥性的显著性。具体地,对互斥性基因构建列联表(contingencytable),应用Fisher’sexacttest法(当前第1页1 2 
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1