应用于组织样本中染色体上转录因子结合位点的检测方法与流程

文档序号:14677663发布日期:2018-06-12 21:43阅读:171来源:国知局

本发明属于免疫检测技术领域,尤其涉及应用于组织样本中染色体上转录因子结合位点的检测方法。



背景技术:

近些年来,“大数据”这个词汇已经成为当下最常见的词汇之一,而自从上世纪90年代开始,生物信息学经过多年的发展,已经从最初的DNA序列分析和蛋白质序列分析,扩展到生物学的各个领域,使得生物学数据的增长惊人,生物学现在也已经进入了“大数据”时代。

转录是基因表达的第一阶段,也是基因调节的主要阶段,通过转录因子与特异的序列结合,对基因的表达起抑制或增强的作用。识别序列的中的这些结合区域,即转录因子结合位点识别,对了解基因的转录活性及理解基因表达有着重要意义,是现今生物信息学中最为广泛研究的问题之一。

转录因子结合位点识别问题的难点在于,与大量长度几百或上千碱基的背景噪声序列相比,长度为十几或几十的模体信号相对较短,并且同一转录因子的模体实例还有可能部分发生变异。同时,随着序列长度和数量的增加,解空间大小也会飞速巨增,计算开销往往不切实际。此外,识别结合区域中的多个转录因子结合位点、寻找特定的共调控转录因子结合位点组合以及在全基因组范围内寻找结合位点,也是此问题所面临的巨大挑战。



技术实现要素:

有鉴于此,本发明提供一种解决或部分解决上述问题的应用于组织样本中染色体上转录因子结合位点的检测方法。

为达到上述技术方案的效果,本发明的技术方案为:应用于组织样本中染色体上转录因子结合位点的检测方法,包括以下步骤:

步骤一:数据预处理:

首先,读取样本的ChIP-seq数据,并将其比对到参考基因组上,寻找出转录因子结合位点富集的特征峰和峰顶点的位置信息;然后,以峰顶点为中心分别向左右两侧延展500bp,延伸后的数据中,每一个DNA序列的中心均为峰顶点,且DNA序列长度均为1002bp;最后,将DNA序列提取出来并去掉其中重复的序列得到DNA短序列;

步骤二:分割DNA短序列:

分别将DNA短序列中前N-4个碱基作为头碱基,将头碱基及其之后连续的四个碱基划分为一个子序列,并将头碱基在DNA短序列的次序作为子序列的编号,子序列的编号为正整数;N是DNA短序列中的碱基数量,N为正整数;子序列中包括五个碱基,头碱基是子序列中的第一个碱基,DNA短序列可以划分出N-4个子序列;

步骤三:均值检测:

分别对四种碱基包括A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)计算当前碱基均值:

(1)正在计算的碱基为当前碱基,按照子序列的编号,依次统计当前碱基在子序列中出现的次数得到均值向量(y1,y2,…,yN-4),其中,y是当前碱基在子序列中出现的次数,y1是当前碱基在编号为1的子序列中出现的次数,y2是当前碱基在编号为2的子序列中出现的次数,yN-4是当前碱基在编号为N-4的子序列中出现的次数;

(2)统计出均值向量中取值大于3的元素的个数即为当前碱基均值;

对四种碱基计算出的当前碱基均值进行均值检测:如果四个当前碱基均值都在0.8N~1.2N的范围内,则进行步骤四;否则检测结束,DNA短序列不是转录因子结合位点;

步骤四:概率检测:

分别对四种碱基计算当前碱基概率,用公式二计算:

公式一:

其中,G是当前碱基概率,为0~1之间的实数,没有单位;σ、μ是方差因子和均值因子,为0~5之间的实数,由检测人员根据经验值人为确定;i是子序列的编号,yi是当前碱基在编号为i的子序列中出现的次数;

对四种碱基计算出的当前碱基概率进行概率检测:如果四个当前碱基概率取值均小于0.7,则DNA短序列不是转录因子结合位点;否则,DNA短序列是转录因子结合位点。

本发明的有益成果为:本发明提供了应用于组织样本中染色体上转录因子结合位点的检测方法,包括数据预处理、分割DNA短序列、均值检测和概率检测。与己有的检测算法相比,提高了ChIP-seq数据的转录因子结合位点识别算法的性能,算法消耗的时间更少,并能准确的识别已有的和新的转录因子结合位点,为转录因子的研究提供了新的技术手段和重要工具。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明的保护范围之内。具体方法如下:

实施例1:本实施例具体介绍了转录因子结合位点表示方法,如下:

同一转录因子会与相似的转录因子结合位点相结合,转录因子结合位点有3种常用表示方式:

(1)基于共有序列

将相同或相似的转录因子结合位点的序列根据位置排列,在每个位置上选择最可能出现的碱基,按照位置组成转录因子结合位点的共有序列。

DNA序列由A、G、C、T四种碱基组成。在实际应用中,一些转录因子结合位点的某些位置上存在两种或以上碱基出现的频率相似,甚至完全相等。如果选择最可能出现的碱基就不能完全反映其保守程度。

为了表示转录因子结合位点的共有序列,一般采用IUPAC简并码,使用A、G、C、T之外的字母来合并表示两个或两个上碱基的组合。

(2)基于概率矩阵

矩阵中的行代表四种碱基,矩阵列的数量与转录因子结合位点的序列长度一致。每一列代表每种碱基在该位置上的概率。相对于共有序列的方法,位置频率矩阵可以精确的翻译出毎个位置上不同碱基出现的频率,该模型假设各个位置上不同碱基出现的概率相互独立,依赖样本量的大小。

研究表明,每个位置上不同碱基出现的频率并不一定相互独立,结合背景信息和该位置上不同碱基的相互依赖关系,给出了位置频率矩阵表示转录因子结合位点的方法。同时,DNA序列本身可能存在的碱基组成上的偏好性,位置频率矩阵常常被转化为位置权重矩阵。位置频率矩阵中的元素为每个碱基出现的次数除该位置上所有碱基出现的总数。在位置权重矩阵中,通过背景序列,即非转录因子结合位点区域的数据来消除DNA序列本身碱基组成偏好性的的影响。在实际中,为了避免因某一列某个字符出现次数为0的情况,通常在位置计数矩阵中添加一个伪计数器。

(3)LOGO图

通过图形化方式直观的表示不同碱基在不同位置上的概率大小,每个位置上所有碱基的高度反应了该位置上碱基的保守性的高低,高度越高越保守。每个位置上每个碱基字母颜色不同,每个位置上每个字母相对于其它字母的大小与该碱基在该位置上出现的频率成正比。

实施例2:本实施例具体说明了应用于组织样本中染色体上转录因子结合位点的检测方法的步骤,如下:

步骤一:数据预处理:

首先,读取样本的ChIP-seq数据,并将其比对到参考基因组上,寻找出转录因子结合位点富集的特征峰和峰顶点的位置信息;然后,以峰顶点为中心分别向左右两侧延展500bp,延伸后的数据中,每一个DNA序列的中心均为峰顶点,且DNA序列长度均为1002bp;最后,将DNA序列提取出来并去掉其中重复的序列得到DNA短序列;

步骤二:分割DNA短序列:

分别将DNA短序列中前N-4个碱基作为头碱基,将头碱基及其之后连续的四个碱基划分为一个子序列,并将头碱基在DNA短序列的次序作为子序列的编号,子序列的编号为正整数;N是DNA短序列中的碱基数量,N为正整数;子序列中包括五个碱基,头碱基是子序列中的第一个碱基,DNA短序列可以划分出N-4个子序列;

步骤三:均值检测:

分别对四种碱基包括A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)计算当前碱基均值:

(1)正在计算的碱基为当前碱基,按照子序列的编号,依次统计当前碱基在子序列中出现的次数得到均值向量(y1,y2,…,yN-4),其中,y是当前碱基在子序列中出现的次数,y1是当前碱基在编号为1的子序列中出现的次数,y2是当前碱基在编号为2的子序列中出现的次数,yN-4是当前碱基在编号为N-4的子序列中出现的次数;

(2)统计出均值向量中取值大于3的元素的个数即为当前碱基均值;

对四种碱基计算出的当前碱基均值进行均值检测:如果四个当前碱基均值都在0.8N~1.2N的范围内,则进行步骤四;否则检测结束,DNA短序列不是转录因子结合位点;

步骤四:概率检测:

分别对四种碱基计算当前碱基概率,用公式二计算:

公式一:

其中,G是当前碱基概率,为0~1之间的实数,没有单位;σ、μ是方差因子和均值因子,为0~5之间的实数,由检测人员根据经验值人为确定;i是子序列的编号,yi是当前碱基在编号为i的子序列中出现的次数;

对四种碱基计算出的当前碱基概率进行概率检测:如果四个当前碱基概率取值均小于0.7,则DNA短序列不是转录因子结合位点;否则,DNA短序列是转录因子结合位点。

本发明的有益成果为:本发明提供了应用于组织样本中染色体上转录因子结合位点的检测方法,包括数据预处理、分割DNA短序列、均值检测和概率检测。与己有的检测算法相比,提高了ChIP-seq数据的转录因子结合位点识别算法的性能,算法消耗的时间更少,并能准确的识别已有的和新的转录因子结合位点,为转录因子的研究提供了新的技术手段和重要工具。

以上所述仅为本发明之较佳实施例,并非用以限定本发明的权利要求保护范围。同时以上说明,对于相关技术领域的技术人员应可以理解及实施,因此其他基于本发明所揭示内容所完成的等同改变,均应包含在本权利要求书的涵盖范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1