一种双层基因调控网络的构建方法与流程

文档序号:12947092阅读:499来源:国知局
一种双层基因调控网络的构建方法与流程
本发明属于数据处理
技术领域
,尤其涉及一种双层基因调控网络的构建方法。
背景技术
:生物网络是近几年系统生物学和计算信息学的研究热点和难点之一,它是在系统层次研究并描述生物分子的功能及相互关系的一种综合网络模型,而基因的正常表达在生物系统中有着至关重要的作用。因此,从本质上看,由多种生物分子及其相互之间的调控作用构成的生命体结构可被简化为一个基因网络。基因网络是由一组基因及它们之间相互作用所构成的一种复杂生物网络。同一种基因可通过不同类型的互作与不同的基因构成不同的网络模型,如蛋白质互作网络,基因调控网络,遗传网络等。其中基因调控网络是一种描述调控因子对编码基因调控关系的有向生物网络。基因网络研究起始于20世纪60年代,生物学家通过简单的逻辑规则研究基因网络动力学描述了控制原核生物的分子基因系统组织的特点。20世纪90年代各种基因组学数据的累积加深了基因网络理论的研究。基因网络在整体和系统的层面上研究生命系统的结构域功能,强调在分析中对多种数据及其蕴含的信息进行整合。到目前为止研究基因网络的方法有多种,如随机模型、布尔网络、贝叶斯网络模型等。基因调控网络作为基因组信息学研究的核心内容,运用生物信息学方法和计算科学技术对数据进行采集、分析、建模等处理,推断研究复杂的生物网络,已成为系统生物学的研究热点。基因调控网络是描述基因与其他作用因子之间调控关系的一种有向生物网络,是细胞内各种调控因子之间相互作用关系的整体表现。mirna是一类由内源基因编码、长度约为22个核苷酸的非编码单链rna分子,它们在动植物中参与转录后基因表达调控。mirna作为近年来研究发现的一种新型调控因子,已成为基因调控网络的重要组成部分。mirna通过协同或抑制作用共同调控靶基因并影响生物过程的大量实验证据表明,对mirna功能及其相互作用的研究已经上升到了系统水平,mirna表达异常引起其功能发生改变,已成为几乎所有人类癌症的共同特征。,当它在癌症中的表达水平显著下调或缺失,从而释放原癌基因的活性时,被认为有抑癌作用。当mirna在肿瘤中表达显著上调时,被认为有致癌作用,这类mirna通过抑制与细胞正常生长和繁殖相关的基因表达、或降低抑癌基因的表达来促进肿瘤生长。随着越来越多的研究表明mirna与复杂疾病有着密切关联,尤其是肿瘤癌症,这可能使mirna成为诊断、预防疾病的新型生物学标记,并为更进一步理解复杂疾病的发病机理提供了新的思路。以往多是针对于单一的癌症类型。目前科学家们在越来越多的实验中发现了癌症共有的分子结构,包括在所有肿瘤类型中存在的相似基因变异。比如,tcga在2012年对乳腺癌的研究分析中发现乳腺癌的一种亚型和卵巢癌有明显的相似之处,即基底细胞样型乳腺癌和浆液型卵巢癌的基因变异特征相同,意味着这两种癌症具有相同的分子起源。mirna及其靶基因们可以构建许多复杂网络,不同的mirna可能调控共同的靶基因去控制不同的生物过程,比如在癌症的发生机制中,多种mirna可共调控致癌基因通路。由于mirna合作调控研究难度较大,且由于测序技术的限制,以前mirna相关数据库中资源的数量和种类有限,因此以往极少有对于多种癌症中存在的mirna合作调控现象的研究。综上所述,现有技术存在的问题是:目前大多数研究是针对一种癌症类中单一mirna或单一基因进行,极少有对于多种癌症中存在的mirna或基因合作调控现象开展研究。技术实现要素:针对现有技术存在的问题,本发明提供了一种双层基因调控网络的构建方法。本发明是这样实现的,一种双层基因调控网络的构建方法,所述双层基因调控网络的构建方法包括分析网络中重要调控因子mirna的表达数据;利用统计检验方法选出与多种癌症相关的mirna;度量mirna之间的皮尔森相关性;根据相关性和可调控癌症的数量对mirna进行排序,筛选出强相关的mirna,获取其靶基因以及靶基因之间的相互作用关系。进一步,所述双层基因调控网络的构建方法包括以下步骤:步骤一,对样本数据进行预处理:处理对象为行为mirna名称、列为样本名称的表达值矩阵,筛选出影响多种癌症生物过程的mirna;步骤二,度量筛选出的mirna之间的皮尔森相关性,皮尔森相关系数计算公式如下:根据t值和c值对mirna进行排序,ti表示mirnai在多种癌症中表达异常的次数,ci按如下公式计算:其中,n为至少在五种癌症中表达异常的mirna组成的集合,n为集合n的元素个数,pcc(i,j)为mirnai与mirnaj的皮尔森相关系数值,选出t值和c值大的mirna记为重要mirna;步骤三,使用miranda、mirdb、rna22、targetscan和cancerminer预测重要mirna的靶基因,根据假阳率fdr(falsediscoveryrate小于某设定阈值的条件分别取五种预测结果的交集,作为每种方法的靶基因预测结果;步骤四,将各mirna的五种靶基因结果做交集,利用string数据库,通过基因编码的蛋白质评估得到的交集中基因之间的作用关系;步骤五,综合重要mirna之间的联系和靶基因之间的联系,构建双层基因调控网络。进一步,所述步骤一具体包括:1)对原始数据进行降噪时设定阈值为10,过滤掉平均值小于10的mirna;2)中对每行mirna数据进行t检验时设定p-value阈值为0.5,过滤掉p-value大于0.5的mirna;3)中计算各组mirna数据集中患病样本表达值与正常样本表达值之间的fc值时,设定阈值为2,筛选出fc大于2的mirna。进一步,所述步骤二中计算mirna之间皮尔森相关性后,只对相关系数绝对值大于0.15的mirna进行排序。进一步,所述步骤三中fdr设定阈值为0.01,选取fdr小于0.01的基因作为相应mirnad的候选靶基因。本发明的另一目的在于提供一种由所述双层基因调控网络的构建方法构建的双层基因调控网络,所述双层基因调控网络上层为基因和基因之间的联系,下层为mirna和mirna之间的联系,上层和下层之间通过mirna和基因的靶标关系联系。本发明的优点及积极效果为:基于mirna和基因与癌症的重要联系以及mirna与基因之间的调控关系,通过构建、研究、分析mirna-基因双层调控网络来帮助分析复杂疾病的机理。单一基因或单一mirna的研究对深入了解复杂疾病越来越具有局限性。另一方面,随着测序技术的进步,各类基因数据库和mirna数据库逐步丰富。基于当前海量的相关数据,挖掘多种癌症中mirna与mirna的协同相关性,将其和mirna与基因之间的靶向关系、基因与基因的相互影响等多方位信息综合于一体,以双层调控网络的形式呈现出来,可更直观地体现出mirna通过协作靶向基因调控泛癌症的过程。此类研究必将为疾病的研究提供更全面、更丰富的信息,有助于从系统水平了解疾病的发病机理和过程,为诊断和治疗疾病提供理论借鉴,也为研究复杂疾病提供了新的方法和路径,将会在未来的生命科学研究中发挥举足轻重的作用。本发明综合mirna、靶基因、相关性等多方面信息,揭示了基因和mirna参与调控癌症等疾病生物过程的机理特征,有助于了解基因与癌症等复杂疾病的关系,并为针对泛癌症的生物药物研制及靶向治疗提供借鉴。对mirna之间和基因之间的关联分析进行基因调控网络的研究,识别与癌症相关的mirna和基因,可用于阐释参与调控多种癌症过程的重要作用因子的合作机制、癌症的风险预测以及生物靶向药物研制。附图说明图1是本发明实施例提供的双层基因调控网络的构建方法流程图。图2是本发明实施例提供的双层基因调控网络的构建方法实现流程图。图3是本发明实施例提供的在tcga数据库中pancancer数据集上的实验结果网络示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。下面结合附图对本发明的应用原理作详细的描述。如图1所示,本发明实施例提供的双层基因调控网络的构建方法包括以下步骤:s101:分析网络中重要调控因子mirna的表达数据;s102:利用统计检验方法选出与多种癌症相关的mirna。度量mirna之间的皮尔森相关性;s103:根据相关性和可调控癌症的数量对mirna进行排序,筛选出强相关的mirna,获取其靶基因以及靶基因之间的相互作用关系。本发明实施例构建双层基因调控网络,其中上层为基因和基因之间的联系,下层为mirna和mirna之间的联系,上层和下层之间通过mirna和基因的靶标关系联系起来。下面结合附图对本发明的应用原理作进一步的描述。如图2所示,本发明实施例提供的双层基因调控网络的构建方法包括以下步骤:步骤一,对mirna数据集进行预处理:(1)去掉原始样本中有缺失值的数据,剔除平均表达值小于10的mirna以降噪;(2)对每行数据进行t检验够过滤掉p-value大于0.5的mirna;(3)分别计算各组mirna数据集中患病样本表达值与正常样本表达值之间的fc值,设定阈值为2,即fc绝对值大于2时预示对应的mirna在癌症中表达显著异常;筛选出的mirna是影响多种癌症的生物过程的mirna。步骤二,度量筛选出的mirna之间的皮尔森相关性:皮尔森相关系数计算公式如下:根据t值和c值对mirna进行排序,ti表示mirnai在多种癌症中表达异常的次数,ci按照如下公式计算:其中,n为至少在五种癌症中表达异常的mirna组成的集合,n为集合n的元素个数,pcc(i,j)为mirnai与mirnaj的皮尔森相关系数值。选出排序最高的若干mirna记为重要mirna。步骤三,使用miranda、mirdb、rna22、targetscan和cancerminer这五种方法预测重要mirna的靶基因,根据fdr(falsediscoveryrate)小于某设定阈值的条件分别取五种预测结果的交集,作为每种方法的靶基因预测结果。fdr设定阈值为0.01,即选取fdr小于0.01的基因作为相应mirnad的候选靶基因,以此降低数据内部噪声和提高靶基因鉴定准确率。步骤四,将各mirna的五种靶基因结果做交集之后,利用string数据库,通过基因编码的蛋白质评估得到的交集中基因之间的作用关系。步骤五,综合重要mirna之间的联系、靶基因之间的联系以及mirna-基因之间的联系,构建双层基因调控网络。下面结合实验对本发明的应用效果作详细的描述。实验1:利用pancancer项目中相关数据集构建双层基因调控网络。pancancer项目中,七组数据集有正常样本作为对照,即七种癌症的mirna数据集可以使用。这七种癌症分别是膀胱尿路上皮癌(bladderurothelialcarcinoma,blca)、乳腺浸润癌(breastinvasivecarcinoma,brca)、头颈部鳞状细胞癌(headandnecksquamouscellcarcinoma,hnsc)、肾透明细胞癌(kidneyrenalclearcellcarcinoma,kirc)、肺腺癌(lungadenocarcinoma,luad)、肺鳞状细胞癌(lungsquamouscellcarcinoma,lusc)、子宫内膜样腺癌(uterinecorpusendometrioidcarcinoma,ucec)。每组数据集中都有1045个mirna,样本数量信息如表1所示。表1癌症名称患病样本数目正常样本数目blca12116brca54983hnsc27238kirc21371luad30345lusc19535ucec35728在上述数据集上的具体实施步骤如下:1、对7组mirna原始数据集进行预处理:(1)去掉原始样本中有缺失值的数据,剔除平均表达值小于10的mirna以降噪;(2)对每行数据进行t检验够过滤掉p-value大于0.5的mirna;(3)分别计算各组mirna数据集中患病样本表达值与正常样本表达值之间的fc值,设定阈值为2,即fc绝对值大于2时预示对应的mirna在癌症中表达显著异常;通过以上方法从1045个mirna中筛选出235个mirna,可认为这些mirna影响多种癌症的生物过程。2、在选出的mirna基础上再筛选出至少在五种癌症中表达异常的mirna,度量这48个mirna之间的皮尔森相关性,根据t值和c值(n为mirna集合,n为集合n的元素个数,pcc(i,j)为mirnai与mirnaj的皮尔森相关系数值)对mirna进行排序,ti表示mirnai在多种癌症中表达异常的次数,选出排序最高的八个mirna,分别为mir-590(c=0.23471203,t=5),mir-141(c=0.20808927,t=5),mir-19a(c=0.18899650,t=5),mir-93(c=0.18784103,t=7),mir-96(c=0.18754737,t=6),mir-130b(c=0.18432605,t=7),mir-345(c=0.18118443,t=6),mir-18a(c=0.17539410,t=6)。3、使用miranda、mirdb、rna22、targetscan和cancerminer这五种方法预测重要mirna的靶基因,根据fdr小于0.01的条件分别取五种预测结果的交集。再将各mirna的靶基因结果做交集,最终得到60个基因,利用string数据库通过基因编码的蛋白质评估最终得到的交集中基因之间的作用关系。4、综合八个mirna之间的联系、48个基因之间的联系和mirna及其靶标之间的联系,构建双层基因调控网络,如图3所示。网络综合了多方面信息,有利于全面了解影响泛癌的重要作用因子以及作用因子合作调控癌症过程的机制。以下是对所构建网络的可靠性分析:首先,mirna之间具有强相关性,其中,mir-130b,mir-19a和mir-93是与泛癌相关的mirna家族成员,并且它们可以在其种子区中共享中心gugc基序,以及彼此合作共同调节相同的癌症。同时,mir-93和mir-19a被推断有助于黑素瘤、乳腺肿瘤、胃肿瘤、前列腺肿瘤和卵巢肿瘤这些癌症的发展。而在这八个mirna中,只有mir-590与其他七个mirna的皮尔森相关系数值都超过了阈值,mir-590在癌症过程中发挥的重要作用在过去总被忽略,实际上它会通过与其他几种常见的致癌mirna合作来促进癌症的发展。mirna芯片和qpcr分析和验证了肝癌标本和细胞系中mir-590的表达模式,发现mir-590是通过调节其靶肿瘤抑制基因pdcd4和pten的表达而成为hcc的重要致瘤因子,通过参与细胞周期调节磷酸酶蛋白质产物的表达而成为肿瘤抑制基因的pten,是共调控模块中所有mirna的常见靶标。它可能是这些mirna在癌症中合作的原因之一,可以被视为癌症共有的治疗靶标。其次,基因间的相互作用与癌症过程有着密切的联系,如mmp2和timp3的表达之间有着强相关性,mmp2是涉及许多癌症的蛋白水解酶,能够降解细胞外基质的成分,timp3的特异性组织抑制剂可调节细胞活性,它们的不平衡表达是头颈部癌、肺癌、乳腺癌、结肠癌等多种癌症发生和发展过程中的重要危险因素。e2f1作为一种转录因子可调节rrm2的表达水平,而rrm2的高表达促使直肠癌肿瘤的生长和侵袭。e2f1的异位过度表达促进了rrm2反式激活,e2f1表达降低则会抑制rrm2的表达。与正常组织相比,大多数癌症组织中两者的蛋白质水平均升高且相互平行。foxo1可上调txnip在神经元和内皮细胞中的表达,可下调txnip在肝脏中的表达,foxo1还可抑制胰腺β细胞中的txnip转录,而txnip作为胰腺β细胞生物学的重要因子,对细胞肿瘤的形成过程中起着关键作用。再者,foxo1/txnip生物通路的激活可诱导谷氨酸拮抗剂mk-801抑制肝细胞癌的生长。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1