鉴定长链非编码核糖核酸-转录因子-基因调控模体的方法与流程

文档序号:20604512发布日期:2020-05-01 21:57阅读:576来源:国知局
本发明属于鉴定lncrna-tf-gene调控模体
技术领域
:,尤其涉及一种有效的基于多元线性回归模型鉴定lncrna-tf-gene调控模体的方法。
背景技术
::目前,仍有许多重大疾病在威胁着人们的健康、甚至危及生命。癌症无疑是众多重大疾病中最受关注的一种复杂疾病。从全球情况看,约15%的死亡由癌症造成。癌症的诊断和治疗仍然面临巨大挑战。2019年1月我国国家癌症中心在《chinesejournalofoncology》上刊载了《2019年中国最新癌症报告》。该报告指出:中国平均每分钟有7.5人被确诊罹患癌症。随着我国人口老龄化进程不断加快,同比患癌率不断攀升,癌症患病和死亡人数不断增多。癌症防治工作已引起党、国家、人民群众各方高度重视。一项极具挑战性的世界性难题摆在我们面前:探讨和研究癌症发生、发展的机制,试图找到预防、诊断、监控和治疗癌症的有效方法。癌症是一种与基因突变有关的慢性复杂疾病,包括表观遗传学改变、dna缺失和增加、拷贝数变异、染色体易位等。非编码rna是一类不能翻译为蛋白质的rna。常见的非编码rna包括:mirna、sirna、pirna、lncrna、circrna等等。研究表明非编码rna在多种癌症中有至关重要的生理功能,特别是长链非编码rna(lncrna)对癌症的发生、发展、转移等有至关重要的作用。近年来,通过高通量测序,结合生物信息学分析,已经发现许多lncrna在癌症中异常表达或突变。目前研究已证实一些lncrna为致癌基因,可以作为癌症标志物,用于辅助癌症的诊断和治疗。长链非编码rna(longnon-codingrna,简称lncrna),通常指不能编码蛋白质,并且长度超过200核苷酸的rna。lncrna通过多种形式调控其他编码或非编码基因的表达:转录调控、转录后调控以及表观遗传调控等。已有研究表明lncrna可以充当cerna(competingendogenousrnas,内源竞争rna),与mirna结合,在细胞中起到mirna海绵的作用。从而降低mirna的活性,间接上调mirna相关靶基因的表达。近期多篇文章发现了这种非编码rna在肿瘤癌症调控中发挥重要作用,这些文章陆续发表在《science》、《cell》、《molecularcell》等杂志上。虽然已知lncrna是癌症中重要的生物分子,但它们对癌症的贡献仍然很大程度上尚不清楚。一些研究表明lncrna可以介导基因表达。然而,很少有研究通过lncrna介导的mirna参与癌症来探讨lncrna对tf-gene相互作用调节的影响。技术实现要素:为克服上述现有技术的不足,本发明的目的是提供一种基于多元线性回归模型鉴定lncrna-tf-gene调控模体的方法,旨在采用严格的过滤条件获得可靠的lncrna、tf和gene表达数据,以及可靠的tf-gene调控关系数据,令后续多元线性回归模型输出的结果更为可靠和可信,降低系统误差;把样本按照lncrna的表达水平进行分组,然后把高表达和低表达组进行对比;设计多元线性回归模型拟合lncrna对tf-gene的影响;鉴定lncrna-tf-gene调控模体,该类调控模体可用于分析生物分子间的调控机制,探究疾病的发生和发展的机制,发现新的疾病标志物。为实现上述目的,本发明采用的技术方案是:一种基于多元线性回归模型鉴定lncrna-tf-gene调控模体的方法,包括以下步骤:步骤1,获得基因表达数据从xena数据库下载各类癌症相关的基因及其数量、诊断基础数据,癌症基因组图谱提供了33种常见癌症组织和癌旁组织中转录组测序数据,癌症基因组图谱中的这些样本可用于分析表达谱,癌症基因组图谱提供的原始rna-seq测序数据用于计算出lncrna、tf和gene的表达水平,以每百万个匹配上的读段中匹配到外显子的每一千个碱基上的片段个数的形式来表示表达水平;步骤2,基因表达数据的过滤对lncrna(长链非编码rna)、tf(转录因子)和gene(基因)进行了过滤,首先,仅保留fpkm表达水平在至少50%样本中大于1的lncrna、tf和gene,在后续分析步骤中舍去不满足过滤条件的生物分子;其次,根据生物分子的类别将整个基因表达数据划分为若干个数据集,分别为:过滤后的lncrna表达数据、过滤后的转录因子表达数据、过滤后的基因表达数据;步骤3,获得生物分子之间的调控关系从transfac数据库和trrust数据库获得tf-gene相互调控关系数据,对于两个数据库获得的数据,取其中的交集,这样的数据更为可靠;对于tf-gene,进一步过滤,tf-gene中的tf必须要表达,也就是tf的fpkm必须在至少一半的样本中的值大于1,gene(基因)也必须表达,gene的fpkm必须在至少一半的样本中的值大于1;步骤4,获得高表达和低表达的长链非编码rna把现有的癌症样本按照每个lncrna的表达水平从低到高的表达值进行排序,每个lncrna独立分析,对每个lncrna而言,按照lncrna的表达水平对全部样本排序,三分之一的低表达样品被认为是lncrna低表达组,三分之一的高表达样品被视为lncrna高表达组,其余的样本看作中表达组;步骤5,设计多元线性回归模型多元线性回归模型如下:eg~et+gl+et:gl公式1式中,e是expression表达水平,g是group分组,g是gene,t是tf,l是lncrna,eg表示基因的表达水平,et表示转录因子的表达水平,gl是样本的分组,包括低组和高组,et:gl表示转录因子与lncrna分组之间的相互作用,通过此模型,可获得对tf-gene有显著影响的lncrna,可获得lncrna-tf-gene调控模体;拷贝数变异在很大程度上影响基因表达,需要对公式1进行修正,修正之后的公式如下:eg~et+gl+c+et:gl公式2式中,c表示转录因子或基因的拷贝数变异,如果c对应的p-value小于0.05,则表明cnv对gene的表达水平有显著影响,此时,排除这个tf-gene,e是expression表达水平,g是group分组,g是gene,t是tf,l是lncrna,eg表示基因的表达水平,et表示转录因子的表达水平,gl是样本的分组,包括低组和高组,et:gl表示转录因子与lncrna分组之间的相互作用;步骤6,结果处理对于步骤5获得的lncrna-tf-gene,分析各项参数的p-value,满足gl的p-value<0.05和c的p-value>0.05的调控模体需要保留下来,并做多重校验,fdr<0.05的为最终结果。本申请采用了适用于鉴定lncrna-tf-gene调控模体的算法。转录因子(英文名称是transcriptionfactor,简记为tf)可以调控蛋白编码基因(gene,gene的中文名称是基因)的转录效率,这类调控关系记为tf-gene。同时,长链非编码rna,记为lncrna,可以调节(modulate)tf调控gene的效率,把此类调控关系称为lncrna-tf-gene调控模体。本发明的有益效果是:由于本发明采用了目前最新最权威的数据库作为可靠数据来源,采用了严格的数据筛选标准确保数据准确无误,首次采用多元线性回归模型鉴定lncrna、tf和gene之间的调控关系,所以具有方案新颖、结果准确的优点。本发明中,对thecancergenomeatlas(tcga)pan-cancer数据进行深入分析,以确定lncrna-tf-gene调控模体。tcga、ncbi(nationalcenterforbiotechnologyinformation)、ebi(theeuropeanbioinformaticsinstitute)、gtex(thegenotype-tissueexpression)等权威的数据库提供了大量的高质量基因表达数据,这些数据为研究lncrna调控tf-gene奠定了基础。tf-gene调控关系可以从transfac和trrust数据库获得。以lncrna、tf和gene的表达谱数据为基础,应用线性回归拟合lncrna对tf-gene相互作用的影响。通过考察lncrna、tf、gene的相对表达水平的变化(上调或下调),分析这些分子之间的调控关系。本发明考虑到拷贝数变异(cnv)对基因表达有显著影响,因此,排除cnv导致的tf-gene调控关系变化。本发明可用于鉴定复杂疾病中lncrna-tf-gene调控模体,这类调控模体可用于揭示lncrna通过多级复杂调控机制参与癌症发生、发展,也能为诊断和治疗提供新靶点。本发明设计一种多元线性回归模型系统地鉴定多种癌症类型中广泛存在的lncrna-tf-gene调控模体。该方法和结果对于通过癌症下一代测序应用探索lncrna功能的研究人员非常有用。本发明提供的方法和资源将对研究各种癌症类型中lncrna功能有所帮助。附图说明图1是本发明的流程图。具体实施方式下面结合附图和实施例对本发明作进一步详细说明。一种基于多元线性回归模型鉴定lncrna-tf-gene调控模体的方法,该方法包括以下步骤:步骤1,获得基因表达数据:从xena(xena为加州大学圣克鲁兹分校开发的数据库,取名为xena。数据库的网址为https://xenabrowser.net/)下载各类癌症相关的基因及其数量、诊断基础数据,癌症基因组图谱提供了33种常见癌症组织和癌旁组织中转录组测序数据,癌症基因组图谱中的这些样本可用于分析表达谱,癌症基因组图谱提供的原始测rna-seq(rna-seq即转录组测序技术)测序数据可用于计算出lncrna(lncrna表示长链非编码rna)、tf(transcriptionfactors,tf表示转录因子)和gene(gene表示基因)的表达水平,以每百万个匹配上的读段中匹配到外显子的每一千个碱基上的片段个数的形式来表示表达水平;癌症基因组图谱(tcga)提供了33种常见癌症组织和癌旁组织中转录组测序数据,tcga中的这些样本可用于分析表达谱,tcga提供的原始rna-seq测序数据可用于计算出lncrna、tf和gene的表达水平,以fpkm(每百万个匹配上的读段中匹配到外显子的每一千个碱基上的片段个数)形式来表示表达水平;各类癌症相关的基因及其数量数据可从xena下载,具体网址为:https://xenabrowser.net/datapages/datatt=tcga_rsem_gene_fpkm&host=https://toil.xenahubs.net,这些样本的临床诊断基础数据(表型)也可从xena下载(具体网址为:https://xenabrowser.net/datapages/dataset=survival_supplementaltable_s1_20171025_xena_sp&host=https%3a%2f%2fpancanatlas.xenahubs.net;步骤2,基因表达数据的过滤为了确保数据的准确与可靠,对lncrna(长链非编码rna)、tf(转录因子)和gene(基因)进行了过滤,首先,仅保留fpkm(fpkm,英文全称为:fragmentsperkilobaseoftranscriptpermillionfragmentsmapped,中文意思为:每1百万个匹配上的读段中匹配到外显子的每一千个碱基上的片段个数)表达水平在至少50%样本中大于1的lncrna、tf和gene,在后续分析步骤中舍去不满足过滤条件的生物分子;其次,根据生物分子的类别将整个基因表达数据划分为若干个数据集,分别为:过滤后的lncrna表达数据、过滤后的转录因子表达数据、过滤后的基因表达数据;步骤3,获得生物分子之间的调控关系从transfac数据库(transfac是数据库名称,该数据库的网址为http://gene-regulation.com/pub/databases.html)和trrust数据库(trrust是数据库名称,该数据库的网址为https://www.grnpedia.org/trrust/)获得tf-gene(tf-gene表示转录因子-基因)相互调控关系数据,对于两个数据库获得的数据,取其中的交集,这样的数据更为可靠;对于tf-gene,进一步过滤,tf-gene中的tf必须要表达,也就是tf的fpkm(fpkm,英文全称为:fragmentsperkilobaseoftranscriptpermillionfragmentsmapped,中文意思为:每1百万个匹配上的读段中匹配到外显子的每一千个碱基上的片段个数)必须在至少一半的样本中的值大于1,gene也必须表达,gene的fpkm必须在至少一半的样本中的值大于1;可从transfac数据库(transcriptionfactordatabase,http://genexplain.com/transfac/)和trrust数据库(transcriptionalregulatoryrelationshipsunraveledbysentence-basedtextmining,https://www.grnpedia.org/trrust/)获得tf-gene相互调控关系数据。对于两个数据库获得的数据,取其中的交集,这样的数据更为可靠。对于tf-gene,我们需要进一步过滤,因为在特定的条件下,某些tf或gene不一定表达。也就是说,tf-gene调控关系在特殊的情况下不一定成立。tf-gene中的tf必须要表达,也就是tf的fpkm必须在至少一半的样本中的值大于1,同时,gene也必须表达,gene的fpkm必须在至少一半的样本中的值大于1。通过以上的过滤条件我们可以看出,既要求tf-gene调控关系可靠,又要求tf和gene表达,两者缺一不可,这样的数据才更为可靠;步骤4,获得高表达和低表达的长链非编码rna把现有的癌症样本按照每个lncrna(长链非编码rna)的表达水平从低到高的表达值进行排序,每个lncrna独立分析,对每个lncrna而言,按照lncrna的表达水平对全部样本排序,三分之一的低表达样品被认为是lncrna低表达组,三分之一的高表达样品被视为lncrna高表达组,其余的样本看作中表达组;为了确定长链非编码rna(lncrna)对tf-gene的影响,需要观察lncrna表达水平的变化。当lncrna高表达和低表达时,tf-gene的调控关系是否受到影响,比如tf-gene由正调控变为负调控,或者刚好相反,由负调控变为正调控,或者,由弱调控变为强调控等等。把现有癌症样本按照每个lncrna的表达水平从低到高的表达值进行排序,需要注意的是,每个lncrna独立分析。对每个lncrna而言,按照lncrna的表达水平对全部样本排序,三分之一(33%)的低表达样品被认为是lncrna低表达组。三分之一(33%)的高表达样品被视为lncrna高表达组,其余的样本看作中表达组,这里的阈值取三分之一的原因在于:如果阈值过小,势必获得的样本数量较少,导致回归分析时结果不可靠;如果阈值过大,表达水平居中的样本也被纳入考虑之中,这样的高表达与低表达样本无法区分开;步骤5,设计多元线性回归模型lncrna对tf-gene的影响,可以考虑多个形式的因素,比如tf对gene表达的影响,lncrna对gene表达的影响,还有tf和lncrna的相互作用对gene表达的影响,多元线性回归模型如下:eg~et+gl+et:gl公式1这里,e是expression表达水平,g是group分组,g是gene,t是tf,l是lncrna,eg表示基因的表达水平,et表示转录因子的表达水平,gl是样本的分组(低和高组),et:gl表示转录因子与lncrna分组之间的相互作用,通过这个模型,可以获得对tf-gene有显著影响的lncrna,于是可以获得lncrna-tf-gene调控模体;拷贝数变异(cnv)在很大程度上影响基因表达,因此,需要对公式1进行修正,修正之后的公式如下:eg~et+gl+c+et:gl公式2其中,c表示转录因子或基因的拷贝数变异。如果c对应的p-value小于0.05,则表明cnv对gene的表达水平有显著影响,此时,需要排除这个tf-gene;e是expression表达水平,g是group分组,g是gene,t是tf,l是lncrna,eg表示基因的表达水平,et表示转录因子的表达水平,gl是样本的分组,包括低组和高组,et:gl表示转录因子与lncrna分组之间的相互作用;步骤6,结果处理对于上一步获得lncrna-tf-gene(lncrna-tf-gene表示:长链非编码核糖核酸-转录因子-基因),需要分析各项参数的p-value,满足gl的p-value<0.05和c的p-value>0.05的调控模体需要保留下来,并且,需要做多重校验,fdr<0.05的为最终结果。数据采用了tcga中的33种常见癌症样本,这些数据在同一个样本上有完备的lncrna、tf、gene的表达数据,有癌症样本和正常样本(癌旁组织)作对照,样本数量众多。我们需要研究lncrna-tf-gene调控模体,因此,必须有三类生物分子(lncrna、tf、gene)的表达数据;癌症样本和正常样本可以用于后续作对比,观察lncrna在癌症样本中是否高表达或低表达(差异表达),可以进一步分析lncrna是否为癌症相关的生物标记;在设计模式时,要把样本安装lncrna的表达水平分为低中高三类,各占三分之一,如果样本总数量过少,则会影响结果的准确性。从上面的分析可以看出,选择合适的数据集(样本)至关重要。所述的样本数据过滤也会影响到最终结果的准确性。如果直接使用原始数据获得的表达水平,那么部分数据是无效的。例如:lncrna的表达水平往往比编码蛋白的基因要低一些。在特定的疾病中,某些lncrna是不表达的,在多少样本中的表达水平为0或接近于0。这样的lncrna如果按照表达水平排序并参与分析,显示结果是不可靠的。因此,我们仅保留fpkm表达水平在至少50%样本中大于1的lncrna、tf和gene。所述tf-gene相互调控关系必须是可靠的。transfac和trrust是两个权威的tf调控数据库。采用这两个数据库的tf-gene调控关系的交集更为可靠。另外,在某个特定的癌症中(或某个特定的疾病中)tf或gene不一定表达,如果其中之一不表达,就无法确定lncrna对它们的调控关系的影响,因此,这类不表达的tf-gene不予考虑。对每个lncrna而言,按照lncrna的表达水平对全部样本排序。三分之一(33%)的低表达样品被认为是lncrna低表达组。三分之一(33%)的高表达样品被视为lncrna高表达组。其余的样本看作中表达组。这里的阈值取三分之一的原因在于:如果阈值过小,势必获得的样本数量较少,导致回归分析时结果不可靠;如果阈值过大,表达水平居中的样本也被纳入考虑之中,这样的高表达与低表达样本无法区分开。另外,我们观察了tcga中癌症样本的数量,其中样本数量超过90个的癌症有24种。如果把阈值定为三分之一,那么高表达和低表达的样本各有30个,这个数量是合理的,可以做有效的统计分析。多元线性回归模型首次用于分析lncrna-tf-gene调控模体。回归模型可以用于分析基因表达的相关关系,现存的文献主要用于分析两个基因之间的调控关系或相关关系。在本发明中,采用的回归模型用于分析三类生物分子之间的调控关系,其设计难度明细高于两类生物分子。我们不仅考虑到tf对gene表达影响、分组(即lncrna高低表达)对gene表达的影响,还考虑到tf和分组相互作用对gene表达的影响,这一点十分关键,因此它们的相互作用才能本质上反应lncrna带来的影响。另外,我们还考虑到cnv对gene表达的影响。现有文献都证实cnv对gene表达的影响是不可忽略的。因此,在公式2中体现了cnv带来的影响。如果不考虑cnv,那么部分由cnv导致的gene表达变化会被误认为是lncrna导致的。这样的结果显然是不可靠的。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1