一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法与流程

文档序号：11156061阅读：1208来源：国知局

本发明属于分子生物信息检测与分析领域，具体涉及一种有效提高DNase高通量测序数据的检测信息准确性的滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法。

背景技术：

目前，DNA蛋白结合位点的检测主要采用染色质免疫共沉淀技术(Chromatin Immunoprecipitation，ChIP)。而将ChIP实验结果与高通量测序技术相结合的ChIP-Seq技术，则能有效地在全基因组范围内检测目的功能蛋白在DNA上的结合位点。ChIP-Seq的原理是：首先通过染色质免疫共沉淀技术(ChIP)利用与目的蛋白特异性结合的酶来富集结合有目的蛋白的DNA片段，并对其进行纯化与文库构建。然后对富集得到的DNA片段进行高通量测序，再将测序获得的数百万条读数序列精确定位到基因组上，从而获得全基因组范围内结合有目的蛋白的DNA区段信息，进而通过各种分析算法得到目的蛋白DNA结合位点。

然而，ChIP-Seq技术也有诸多不足之处，首先是富集目的蛋白的结合酶具有特异性，从而导致某些蛋白因找不到合适的特异结合酶而无法进行检测；其次，一次实验只能检测一种蛋白，耗时耗力，成本高，无法大规模使用；第三，更为重要的是，由于实验获取的与目的蛋白结合的DNA片段较长，测序时只能对其两端进行部分测序，由于测序区域并不是结合位点本身，因此，ChIP-Seq技术对DNA蛋白结合位点的检测分辨率无法达到单碱基。

针对上述问题，近几年产生了一种新的DNA蛋白结合位点检测技术--基于DNase高通测序信息的DNA蛋白结合位点检测技术，即DNase-Seq技术。DNase-Seq的原理是：首先利用DNase核酸剪切酶对DNA进行酶切处理。则没有DNA蛋白结合的DNA区域将被DNase核酸剪切酶随机地切断，而有DNA蛋白结合的DNA区域由于受到结合蛋白的阻碍特异性不被切断。随后，对酶切处理过的DNA片段进行纯化与文库构建，再进行测序，从而获得全基因组范围内DNase核酸剪切酶的酶切信息。在酶切信息中，蛋白结合位点处的酶切信息将特异性减弱，就像在DNA上留下一个个足迹一样，从而可以精确鉴定DNA结合蛋白在DNA分子上的结合位点。

与ChIP-Seq技术相比，DNase-Seq技术的优点非常突出。首先，由于不具有特异性，DNase-Seq可一次性在全基因组范围内同时检测多种DNA蛋白的结合位点；其次，由于一次性检测多种DNA蛋白的结合位点，DNase-Seq大幅提高了检测效率并降低了检测成本，使大规模进行DNA蛋白结合位点检测成为可能；第三，更为重要的是，由于测序起始位置就是酶切位置，DNase-Seq对DNA蛋白结合位点的检测分辨率可达单碱基。

然而，近期发现DNase核酸剪切酶在切割DNA时存在一定的DNA碱基倾向性，这将对 DNA蛋白结合位点的识别产生不利的影响。如何去除该倾向性已成为基于DNase-Seq的DNA蛋白结合位点识别的一个关键问题。

技术实现要素：

本发明的目的在于提供一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法。

本发明的目的是这样实现的：

(1)DNase-Seq实验数据酶切位点区域DNA碱基获取

依据DNase-Seq实验数据在基因组中的位置，提取每一个实验数据对应酶切位点附近区域的DNA碱基。本发明选用酶切位点附近6个位点的碱基，即以酶切位点为中心，左右各取3个碱基。

(2)DNase-Seq实验数据DNA碱基倾向性获取

本发明选用酶切位点附近6个位点的碱基，每个碱基有A、C、G、T等4种取值，则6个位点碱基共有4096种碱基组合。通过统计整个DNase-Seq实验数据酶切位点处这4096种碱基组合出现的频次，即可获得DNase-Seq实验数据的DNA碱基倾向性。

(3)DNA碱基倾向性去除

设有m个蛋白结合位点，每个结合位点包含n个碱基，则：第i个结合位点的DNase检测信号为：[S_i1,S_i2,…,S_in]。其值和为：

考虑DNase的DNA碱基倾向性，则第i个结合位点第j列的DNase检测信号为：S_ij＝[(1-w)P_ij+wB_ij]R_i。其中，P_ij为第i个结合位点第j列处与DNA结合蛋白的蛋白结构相对应的DNase的固有切割概率，B_ij为第i个结合位点第j列处与该处DNA碱基倾向性相对应的DNase的切割概率。P_ij是稳定的，可用于DNA蛋白结合位点识别，而B_ij是不稳定的，应予以滤除。

具体滤除方法如下：

其中，S_ij,R_i可从实验数据中直接得到。B_ij则根据前一步骤获取的DNase-Seq实验数据的DNA碱基倾向性得到。w为权值，取值范围为[0,1]之间，需要进一步确定。

对于m个蛋白结合位点，当权值w取不同值时，会得到不同的[P_i1,P_i2,…,P_in]，1≤i≤m。设则当m个[P_i1,P_i2,…,P_in]与[P₁,P₂,...,P_n]之间的m个相关性值的中位值最大时，此时的w值为最优值。

本发明的有益效果在于：通过所发明的方法可以精确地滤除DNase高通量测序数据中含有的DNA碱基倾向性偏差，以生成更加准确的DNase-Seq测序结果，从而为后续更高层次的应用分析提供数据保障。

附图说明

图1为DNase-Seq实验数据DNA碱基倾向性直方图。

图2为w权值的评价值变化曲线。

图3为本发明流程图。

具体实施方式

下面结合附图对本发明做进一步描述。

作为DNA蛋白结合位点检测的新技术，DNase-Seq技术具有众多突出的优点。由于不具有特异性，DNase-Seq可一次性在全基因组范围内同时检测多种DNA蛋白的结合位点；由于一次性检测多种DNA蛋白的结合位点，DNase-Seq大幅提高了检测效率并降低了检测成本，使大规模进行DNA蛋白结合位点检测成为可能；由于测序起始位置就是酶切位置，DNase-Seq对DNA蛋白结合位点的检测分辨率可达单碱基。

然而，近期发现DNase核酸剪切酶在切割DNA时存在一定的DNA碱基倾向性，这将对DNA蛋白结合位点的识别产生不利的影响。本发明即是针对该问题提出的一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法。

1、DNase-Seq实验数据酶切位点区域DNA碱基获取

2、DNase-Seq实验数据DNA碱基倾向性获取

3、DNA碱基倾向性去除

设有m个蛋白结合位点，每个结合位点包含n个碱基，则：第i个结合位点的DNase检测信号为：[S_i1,S_i2,…,S_in]。其值和为：

考虑DNase的DNA碱基倾向性，则第i个结合位点第j列的DNase检测信号为： S_ij＝[(1-w)P_ij+wB_ij]R_i。其中，P_ij为第i个结合位点第j列处与DNA结合蛋白的蛋白结构相对应的DNase的固有切割概率，B_ij为第i个结合位点第j列处与该处DNA碱基倾向性相对应的DNase的切割概率。P_ij是稳定的，可用于DNA蛋白结合位点识别，而B_ij是不稳定的，应予以滤除。

具体滤除方法如下：

其中，S_ij,R_i可从实验数据中直接得到。B_ij则根据前一步骤获取的DNase-Seq实验数据的DNA碱基倾向性得到。w为权值，取值范围为[0,1]之间，通过下述方法确定：

4、实验验证

从UCSC国际生物信息网站下载人类基因组碱基序列数据，以及国际ENCODE计划UW大学测得的人类K562细胞系DNase-Seq测序数据和NFYA转录因子ChIP-Seq测序数据。

根据每个DNase-Seq测序数据酶切位点在人类基因组中的位置，提取附近6个位点的碱基，即以酶切位点为中心，左右各取3个碱基。统计酶切位点处4096种碱基组合出现的频次，获得DNase-Seq实验数据的DNA碱基倾向性。该倾向性的直方图如图1所示(横轴为碱基组合，纵轴为频次)。由图1可见，DNase-Seq实验数据存在明显的DNA碱基倾向性。

根据NFYA转录因子的ChIP-Seq测序数据，识别出953个NFYA蛋白结合位点。每个结合位点包含201个碱基。

利用本发明方法对DNase-Seq实验数据进行DNA碱基倾向性滤除。当w取某一权值时，每个结合位点滤除DNA碱基倾向性的DNase检测信号为[P_i1,P_i2,…,P_in]，1≤i≤953。计算每个结合位点[P_i1,P_i2,…,P_in]与[P₁,P₂,...,P_n]之间的Pearson相关值，这里n取值为201。选取953个相关值的中位值作为该w值是否优异的评价值。让w值由0到1变化，获得如图2所示的w值的评价值变化曲线(横轴为w值，纵轴评价值)。由图2可见，当w值为0.15时，评价值达到最大并不再增加，此时的w值应为最优值，并进而得到与之对应的滤除DNA碱基倾向性的DNase-Seq检测信息。

作为DNA蛋白结合位点检测的新技术，DNase-Seq技术具有突出优点。由于不具有特异性，DNase-Seq可一次性在全基因组范围内同时检测多种DNA蛋白的结合位点；由于一次性检测多种DNA蛋白的结合位点，DNase-Seq大幅提高了检测效率并降低了检测成本，使大规模进行DNA蛋白结合位点检测成为可能；由于测序起始位置就是酶切位置，DNase-Seq对DNA蛋白结合位点的检测分辨率可达单碱基。然而，DNase核酸剪切酶在切割DNA时存在一定的DNA碱基倾向性，这将对DNA蛋白结合位点的识别产生不利的影响。本发明即是针对该问题提出的一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯伟兴;贺波;宋艳霞;徐斯文;赵森;陈多娇;刘欢;
技术所有人：哈尔滨工程大学;
我是此专利的发明人

上一篇：预测氨基酸突变的方法及系统与制造工艺
上一篇：一种用于循环肿瘤DNA拷贝数变异检测的装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。