大批量单细胞ATAC‑seq数据质量控制和分析方法与流程

文档序号:12963933阅读:1351来源:国知局

本发明属于生物学技术领域,特别涉及基于大批量单细胞atac-seq数据的生物信息分析技术领域,开展单细胞atac-seq数据的质量控制与数据分析流程的探究和开发。



背景技术:

近年来,研究人员开发了基于单细胞的测序技术来研究表观遗传组学现象。单细胞转录组测序技术的出现在很大程度上解决了之前第二代测序中存在的那些问题,相比scrna-seq技术的蓬勃发展和应用,单细胞的基因组和表观遗传组测序技术的进展相对缓慢。造成这种现象的一个重要原因是大部分基因组和表观遗传组测序技术都需要对dna进行预处理。例如对dna片段的扩增;对dna甲基化检测需要进行重亚硫酸氢盐的转化;检测转录因子调控和组蛋白修饰则需要进行抗体富集,这些处理不可避免的造成了dna损耗,相应的需要含有更多细胞量的测序样本,从而增加了单细胞基因组和表观遗传组测序技术发展的难度。直至2013年,tangf等人首次在单细胞内成功应用rrbs-seq技术,开启了单细胞表观遗传组学研究的大门。目前单细胞测序技术在表观遗传组学领域主要用于三个方面:一是单细胞hic技术,基于gpc甲基化水平的核小体定位技术(nome-seq);二是用来测量dna甲基化程度的简化代表性亚硫酸氢盐测序法(rrbs-seq);三是全基因组甲基化测序的方法。2015年,buenrostro等人发表了单细胞atac-seq技术(scatac-seq),一种对转座酶易感的染色质进行测序从而绘制个体细胞的易感基因组的方法。从数千万个细胞的总体上紧密类似的图谱获得来自数百个单细胞的scatac-seq图谱,提供了对细胞与细胞之间变异的了解。不仅发现变异是与特定的反式因子和顺式元件系统相关的,并且还发现细胞与细胞之间变异的诱导或者抑制相关的反式因子的组合。scatac-seq将调控变异与表型变异的细节连接起来,为洞察细胞异质性的分子基础提供了新的视角。scatac-seq同样可以检测小的或者稀有生物样本的表观遗传学细节,从而在单细胞水平上检测细胞分化等问题。

单细胞表观遗传组学主要集中在单细胞甲基化测序上。现阶段单细胞表观遗传组学的数据主要来源于技术手段相对成熟的dna甲基化研究领域。甲基化的第二代测序数据处理主要分为三个大的方面:序列回帖、胞嘧啶甲基化水平计算以及不同样本之间差异甲基化区域的识别。现有算法均是针对多细胞的数据,由于多细胞是众多甲基化或未甲基化胞嘧啶位点的平均,每个位点的甲基化水平是连续分布的,这与单细胞测序技术两个dna拷贝扩增出的01分布有着本质上的差别,造成现有的算法并不能直接应用于单细胞dna甲基化测序技术。研究dna甲基化面临的主要问题是多样本之间甲基化水平的比较,在准确的找到甲基化水平差异区域(dmr)之后,才能对其相应的生物学意义进行分析。

单细胞表观遗传组测序技术的发展有利于对动态变化的表观遗传组有着更加深入的了解和研究。然而,单细胞表观遗传组数据的质量控制流程比单细胞基因组数据具有更多的挑战。例如在单细胞表观遗传组实验中,由于dna拷贝数的限制所引起的扩增噪声。利用scatac-seq技术能够从数千万个细胞的总体上极为类似的图谱获得来自数百个单细胞的scatac-seq图谱,从中不仅发现变异是与特定的反式因子和顺式元件系统相关的,还能够发现细胞与细胞之间变异的诱导或者抑制相关的反式因子的组合。此外,利用scatac-seq技术对大规模的细胞群体绘制调控元件的全基因组图谱,进而揭示了不同细胞类型的染色质结构之间的巨大差异,尤其是在调控区域的远端。目前对于单细胞表观遗传组测序数据还没有专门的质量控制和分析流程被开发出来。这就迫切需要开发适用于不同数据类型的大批量单细胞转录组学和表观遗传组学数据的综合质量控制和分析流程。大批量单细胞表观遗传组学数据(如scatac-seq)开发一个系统的、全面的质量控制和分析流程,并能够系统地生成针对不同类型的单细胞数据的特异性质量控制、分析和非监督细胞聚类的可视化,将对单细胞表观遗传组有更加真实的认识,进一步方便人们深入挖掘蕴藏在单细胞水平内与多细胞研究所获得的不同的生物学现象和特征,实现从组织生理学到系统生物学领域都将获得新的发现。



技术实现要素:

本发明的目的开发针对大批量单细胞atac-seq数据的质量控制和分析方法。

本发明的目的可以通过以下技术方案来实现:

一种大批量单细胞atac-seq测序数据质量控制和分析方法,该方法包括以下步骤:

第一步、原始测序文件的fastq格式或者比对完的sam/bam格式作为输入文件,运行相关命令。

第二步、测序片段水平和多细胞水平的质量控制:

第三步、单个细胞层面的质量控制:第四步、细胞聚类和细胞特异峰的探测:

第五步、生成质量控制报告文档。

优选地,

所述的第二步测序片段层面和多细胞层面的质量控制的两部分计算中,把大批量单细胞数据作为一个多细胞数据进行分析。例如,把多个scatac-seq数据作为一个多细胞的atac-seq数据进行分析。

所述第二步中的测序片段水平的质量控制方法:使用软件包rseqc对单细胞表观遗传组数据进行测序片段水平层面的质量控制,从而衡量序列的质量,包括对测序质量分布、每个测序位点的碱基组成以及每个测序片段的gc含量这三个测度进行计算。

所述第二步中多细胞水平的质量控制方法:来自多个scatac-seq数据样本组合的scatac-seq数据集被认为是一个多细胞的atac-seq数据。对于该层面的质量控制主要包括以下几个步骤,首先罗列出测序片段的比对结果总结,例如序列的回帖率;其次使用macs对“多细胞”的atac数据进行检测“combinedpeaks”,其输出结果(peakmatrix)用于进行下一步分析,并且不同的macs参数被用于scatac-seq数据。最后通过使用ceas软件包来测量scatac-seq的tn5的消化质量的质量。

所述第三步中单个细胞层面的质量控制方法,通过在第二步中获得的peakmatrix计算每个细胞中峰的分布。注:在scatac-seq数据中,一个单细胞是指具有唯一的细胞条形码。每个细胞的峰数目被定义为一个细胞中测序片段拥有的“combinedpeaks”数目。每个细胞中不同的“combinedpeaks”数目分别表明细胞包含不同的信息量。

所述第四步中细胞聚类和细胞特异峰的探测包括以下步骤:

(1)基于每个细胞的“combinedpeaks”的拥有率,并利用层次聚类对细胞进行聚类。

(2)把每个簇中的细胞视为相同的细胞类型(或者是相同细胞亚型),并且合并来自相同细胞类型的峰。根据染色质位置以不同的颜色显示不同细胞类型中的特异峰。注:对于每种细胞类型,来自某一细胞类型的独特峰被定义为该细胞类型的特异峰。

使用silhouette方法来解释和验证前面步骤中定义的簇的一致性。注:在该步骤和以下步骤中将把没有与“combinedpeaks”重叠的测序片段丢弃。如果一个细胞类型(簇)中包含的细胞数少于三个单细胞也被丢弃。

所述第五步中控制报告文档包含上述所有内容,是多层面的质量控制报告和细胞聚类结果。

本发明以scatac-seq数据研究作为出发点,构建了一个系统的、全面的质量控制和分析流程,并能够系统地生成针对不同类型的单细胞数据的特异性质量控制、分析和非监督细胞聚类的可视化,将对单细胞表观遗传组有更加真实的认识,进一步方便人们深入挖掘蕴藏在单细胞水平内与多细胞研究所获得的不同的生物学现象和特征,实现从组织生理学到系统生物学领域都将获得新的发现。本发明可适用于不同类型的单细胞atac-seq数据。

附图说明

图1为本发明的scatac-seq数据质量控制与数据分析流程控制方法的步骤流程图。

具体实施方式

为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。

下面参照附图用本发明的示例性实施例对本发明进行更全面的描述及说明,但并不意味着本发明仅限于此。

如图1所示,为本发明的scatac-seq数据质量控制与数据分析流程控制方法的步骤流程图。

在一种实施方式中,该质量控制和分析方法,使用scatac-seq数据集,数据来自ncbigeo数据库(gse65360),,数据来自三种细胞类型的共288个scatac-seq数据集合并为一套scatac-seq数据。如图1所示,包括以下步骤:

第一步、处理数据文件:原始测序文件的fastq格式或者比对完的sam/bam格式作为输入文件,运行相关命令。

第二步、测序片段水平的质量控制:对测序片段的质量、核苷酸的组成以及测序片段gc含量的测量。

多细胞水平的质量控制:包括“combinedpeaks”的基因组分布和调控区域的平均信号图谱。

第三步、单个细胞层面的质量控制:包括单个细胞中峰的分布。

第四步、细胞聚类层面的质量控制:包括计算silhouettescore和对细胞类型特异性峰的检测。

第五步、生成质量控制报告文档和分析结果。

在此说明书中,本发明已参照其特定的实施例作了描述,是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1