应用于组织样本中染色体上转录因子结合位点的检测方法与流程

文档序号：14677663发布日期：2018-06-12 21:43阅读：来源：国知局

技术特征：

1.应用于组织样本中染色体上转录因子结合位点的检测方法，其特征在于，包括以下步骤：

步骤一：数据预处理：

首先，读取样本的ChIP-seq数据，并将其比对到参考基因组上，寻找出转录因子结合位点富集的特征峰和峰顶点的位置信息；然后，以所述峰顶点为中心分别向左右两侧延展500bp，延伸后的数据中，每一个DNA序列的中心均为所述峰顶点；最后，将所述DNA序列提取出来并去掉其中重复的序列得到DNA短序列；

步骤二：分割DNA短序列：

将所述DNA短序列中前N-4个碱基分别依次作为头碱基，将所述头碱基及其之后连续的四个碱基划分为一个子序列，并将所述头碱基在所述DNA短序列的次序作为所述子序列的编号，所述子序列的编号为正整数；所述N是所述DNA短序列中的碱基数量，所述N为正整数；所述子序列中包括五个碱基，所述头碱基是所述子序列中的第一个碱基，所述DNA短序列可以划分出N-4个所述子序列；

步骤三：均值检测：

分别对四种碱基计算当前碱基均值，所述四种碱基包括A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)：

(1)正在计算的碱基为当前碱基，按照所述子序列的编号，依次统计当前碱基在所述子序列中出现的次数得到均值向量(y1,y2,…,yN-4)，其中，y是所述当前碱基在所述子序列中出现的次数，y1是所述当前碱基在编号为1的子序列中出现的次数，y2是所述当前碱基在编号为2的子序列中出现的次数，yN-4是所述当前碱基在编号为N-4的子序列中出现的次数；

(2)统计出所述均值向量中取值大于3的元素的个数即为当前碱基均值；

对所述四种碱基计算出的所述当前碱基均值进行均值检测：如果四个所述当前碱基均值都在0.8N～1.2N的范围内，则进行步骤四；否则检测结束，所述DNA短序列不是转录因子结合位点；

步骤四：概率检测：

分别对四种所述碱基计算当前碱基概率，用公式一计算：

公式一：

其中，G是所述当前碱基概率，为0～1之间的实数，没有单位；σ、μ是方差因子和均值因子，为0～5之间的实数，由检测人员根据经验值确定；i是所述子序列的编号，yi是所述当前碱基在编号为i的子序列中出现的次数；

对所述四种碱基计算出的所述当前碱基概率进行概率检测：如果四个所述当前碱基概率取值均小于0.7，则所述DNA短序列不是所述转录因子结合位点；否则，所述DNA短序列是所述转录因子结合位点。

完整全部详细技术资料下载

当前第2页1 2 3