应用于组织样本中染色体上转录因子结合位点的检测方法与流程

文档序号:14677663发布日期:2018-06-12 21:43阅读:来源:国知局

技术特征:

1.应用于组织样本中染色体上转录因子结合位点的检测方法,其特征在于,包括以下步骤:

步骤一:数据预处理:

首先,读取样本的ChIP-seq数据,并将其比对到参考基因组上,寻找出转录因子结合位点富集的特征峰和峰顶点的位置信息;然后,以所述峰顶点为中心分别向左右两侧延展500bp,延伸后的数据中,每一个DNA序列的中心均为所述峰顶点;最后,将所述DNA序列提取出来并去掉其中重复的序列得到DNA短序列;

步骤二:分割DNA短序列:

将所述DNA短序列中前N-4个碱基分别依次作为头碱基,将所述头碱基及其之后连续的四个碱基划分为一个子序列,并将所述头碱基在所述DNA短序列的次序作为所述子序列的编号,所述子序列的编号为正整数;所述N是所述DNA短序列中的碱基数量,所述N为正整数;所述子序列中包括五个碱基,所述头碱基是所述子序列中的第一个碱基,所述DNA短序列可以划分出N-4个所述子序列;

步骤三:均值检测:

分别对四种碱基计算当前碱基均值,所述四种碱基包括A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤):

(1)正在计算的碱基为当前碱基,按照所述子序列的编号,依次统计当前碱基在所述子序列中出现的次数得到均值向量(y1,y2,…,yN-4),其中,y是所述当前碱基在所述子序列中出现的次数,y1是所述当前碱基在编号为1的子序列中出现的次数,y2是所述当前碱基在编号为2的子序列中出现的次数,yN-4是所述当前碱基在编号为N-4的子序列中出现的次数;

(2)统计出所述均值向量中取值大于3的元素的个数即为当前碱基均值;

对所述四种碱基计算出的所述当前碱基均值进行均值检测:如果四个所述当前碱基均值都在0.8N~1.2N的范围内,则进行步骤四;否则检测结束,所述DNA短序列不是转录因子结合位点;

步骤四:概率检测:

分别对四种所述碱基计算当前碱基概率,用公式一计算:

公式一:

其中,G是所述当前碱基概率,为0~1之间的实数,没有单位;σ、μ是方差因子和均值因子,为0~5之间的实数,由检测人员根据经验值确定;i是所述子序列的编号,yi是所述当前碱基在编号为i的子序列中出现的次数;

对所述四种碱基计算出的所述当前碱基概率进行概率检测:如果四个所述当前碱基概率取值均小于0.7,则所述DNA短序列不是所述转录因子结合位点;否则,所述DNA短序列是所述转录因子结合位点。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1