1.鉴定长链非编码核糖核酸-转录因子-基因调控模体的方法,其特征在于,包括以下步骤:
步骤1,获得基因表达数据
从xena数据库下载各类癌症相关的基因及其数量、诊断基础数据,癌症基因组图谱提供了33种常见癌症组织和癌旁组织中转录组测序数据,癌症基因组图谱中的这些样本用于分析表达谱,癌症基因组图谱提供的原始rna-seq测序数据用于计算出lncrna、tf和gene的表达水平,以每百万个匹配上的读段中匹配到外显子的每一千个碱基上的片段个数的形式来表示表达水平;
步骤2,基因表达数据的过滤
对lncrna、tf和gene进行了过滤,首先,仅保留fpkm表达水平在至少50%样本中大于1的lncrna、tf和gene,在后续分析步骤中舍去不满足过滤条件的生物分子;其次,根据生物分子的类别将整个基因表达数据划分为若干个数据集,分别为:过滤后的lncrna表达数据、过滤后的转录因子表达数据、过滤后的基因表达数据;
步骤3,获得生物分子之间的调控关系
从transfac数据库和trrust数据库获得tf-gene相互调控关系数据,对于两个数据库获得的数据,取其中的交集,这样的数据更为可靠;对于tf-gene,进一步过滤,tf-gene中的tf必须要表达,也就是tf的fpkm必须在至少一半的样本中的值大于1,gene也必须表达,gene的fpkm必须在至少一半的样本中的值大于1;
步骤4,获得高表达和低表达的长链非编码rna
把现有的癌症样本按照每个lncrna的表达水平从低到高的表达值进行排序,每个lncrna独立分析,对每个lncrna而言,按照lncrna的表达水平对全部样本排序,三分之一的低表达样品被认为是lncrna低表达组,三分之一的高表达样品被视为lncrna高表达组,其余的样本看作中表达组;
步骤5,设计多元线性回归模型
多元线性回归模型如下:
eg~et+gl+et:gl公式1
式中,e是expression表达水平,g是group分组,g是gene,t是tf,l是lncrna,eg表示基因的表达水平,et表示转录因子的表达水平,gl是样本的分组,包括低组和高组,et:gl表示转录因子与lncrna分组之间的相互作用,通过此模型,可获得对tf-gene有显著影响的lncrna,可获得lncrna-tf-gene调控模体;
拷贝数变异在很大程度上影响基因表达,需要对公式1进行修正,修正之后的公式如下:
eg~et+gl+c+et:gl公式2
式中,c表示转录因子或基因的拷贝数变异,如果c对应的p-value小于0.05,则表明cnv对gene的表达水平有显著影响,此时,排除这个tf-gene,e是expression表达水平,g是group分组,g是gene,t是tf,l是lncrna,eg表示基因的表达水平,et表示转录因子的表达水平,gl是样本的分组,包括低组和高组,et:gl表示转录因子与lncrna分组之间的相互作用;
步骤6,结果处理
对于步骤5获得的lncrna-tf-gene,分析各项参数的p-value,满足gl的p-value<0.05和c的p-value>0.05的调控模体需要保留下来,并做多重校验,fdr<0.05的为最终结果。