基于多核cpu硬件的高通量转录组测序数据质量控制方法_2

文档序号:9376068阅读:来源:国知局
据中的rRNA序列。将公开的rRNA数据库SILVA中所有的rRNA序列(包括16S、18S、23S和28S rRNA序列)构建隐马尔科夫模型(HMM),并基于HMM搜索对于转录组序列进行rRNA预测,然后将预测的rRNA序列从转录组数据中去除。SILVA数据库是目前世界上收录最全面rRNA序列的核RNA数据库之一,涵盖了细菌、真菌和真核生物三大领域的rRNA序列。因此,我们的方法能够尽可能多的去除转录组序列中所含有的rRNA序列。rRNA-filter将输入文件分割成小规模子数据,将不同的子数据分配到不同的CPU内核上,然后在众多CPU内核上同时预测子序列的16S、18S、23S或28S rRNA特征序列,最后将各类特征序列预测结果合并到一起;然后,根据特征序列预测结果多次将大规模输入数据从外存储器中载入内存并查找提取,最后将搜索结果合并。
[0045]然后,16S或18S rRNA序列是一种较短的生物标记特征序列,广泛应用于原核和真核物种的鉴定。rRNA-filter基于对所预测和提取16S或18S rRNA进行注释的结果,定性地获得高通量测序数据中所有序列的物种来源信息,并分别将16S和18S rRNA特征序列的搜索结果汇总到一起,生成图形化的物种结构组成结果,从而获得转录组测序数据中所有可能存在的物种及污染信息。
[0046]第三,全面、精确的序列比对结果的评价和质量控制。利用自主开发的SAM-stats工具,基于SAM格式的序列比对结果文件,对转录组序列与基因组数据(已知)的比对结果进行精确、全面的统计和评价,其功能包括:
[0047]统计序列的数目,包括全部序列、比对成功的序列、比对到某些特定基因组区域的序列以及上述序列在全部序列中所占的比例等;
[0048]计算序列覆盖度,包括有序列成功比对的基因的数目、每个基因的碱基覆盖度、成功比对的序列在基因组结构上的分布等;
[0049]汇总双端序列比对信息,包括双端均成功比对的序列数目、只有一端成功比对的序列的数目、双端比对序列的的插入片段长度等。
[0050]综上所述,本软件平台依赖于多核CPU硬件平台,只有相互配合才能够发挥高效率转录组测序数据质量控制的功能。
[0051 ] 如图1所示,基于多核CPU硬件的高通量转录组测序数据质量控制方法,其主要部分是:第一,4路多核心CPU的多尺度并行化计算能力,每路CPU具备独立8个计算核心,并具有三通道内存。第二,高速缓存和高速总线。第三,RAID磁盘阵列,不但提高中心服务器的响应速度和稳定性,而且有利于不定期的中心服务器更新。计算和存储硬件基本配置是:单路CPU至少具备4个独立物理计算核心,双通道内存2GB以上,硬盘至少50G以上,CPU和存储之间高速互联。
[0052]如图2所示,其流程主要步骤是:首先,使用Parallel-QC软件工具,利用多核CPU对转录组序列进行处理,依次切除输入数据序列两端的低质量碱基,过滤含有一定比例低质量碱基的序列,删除其中的接头序列,然后将结果合并起来,作为高测序质量序列数据。然后,利用rRNA-filter工具,对于上一步得到的数据进行rRNA序列的预测和污染序列的定性检测,使用并行化多线程计算工具,提取并去除预测的rRNA序列(16S/18S或23S/28S),并将其中的16S或18S序列映射到已知rRNA序列数据库SILVA上,获得所有序列的物种来源(包括可能得污染物种)信息。最后,针对序列比对到参考基因组上的结果(SAM格式的文件),利用SAM-stats软件工具,从序列比对的角度统计和评价转录组数据的质量,包括比对成功序列的数目、基因的覆盖度和双端比对序列的效果等。综合上述结果,生成图形化分析结果和分析报告。软件平台基本配置是=Linux操作系统,预装GCC运行环境、CUDA运行环境(3.0以上),RNA-QC-Chain软件系统版本1.0以上,Parallel-META软件版本2.0以上。RNA-QC-Chain软件系统与Parallel-META软件系统的运行界面为命令行形式,配电子版使用说明。同时官方网站(http://www.computat1nalb1energy.0rg/software, html)提供长期软件更新服务。
[0053]本发明的方法,克服了基于单核CPU硬件计算机的计算效率瓶颈,使高通量转录组数据质量控制效率提高7倍以上。如图3所示,对于同一个转录组测序数据的测试表明,使用16核CPU可在23分钟内完成整个质量控制过程,而使用单核CPU时耗时为180分钟。
【主权项】
1.一种基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,包括以下步骤: 利用多核CPU对高通量转录组测序数据进行并行处理,得到去除低测序质量序列的数据; 利用多核CPU对去除低测序质量序列的数据中的rRNA序列进行预测和去除,并进行污染序列的定性鉴定; 对序列比对结果进行统计和评价。2.根据权利要求1所述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述利用多核CPU对高通量转录组测序数据进行低测序质量序列的去除,包括以下步骤: 利用Parallel-QC工具将输入文件分割成若干个小规模子数据; 将各个子数据分配到不同的CPU内核上; 同时在多个CPU内核上检测其子数据中每个序列的碱基质量和接头序列,并根据用户指定的长度依次切除每个序列两端的低质量碱基,过滤含有用户指定比例的低质量碱基的序列,删除其中的接头序列; 将上述处理后的序列合并到一起,从而得到去除低测序质量序列的数据。3.根据权利要求1所述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述利用多核CPU对去除低测序质量序列的数据中的rRNA序列进行预测和去除,并进行污染序列的定性鉴定,包括以下步骤: 将数据库SILVA中所有的rRNA序列构建隐马尔科夫模型;基于隐马尔科夫模型搜索对于转录组序列进行rRNA预测和提取,并将预测的rRNA序列从转录组数据中去除; 将所预测和提取的16S或18S rRNA,映射到已知rRNA序列数据库SILVA上,获得所有序列的物种来源信息,分别将16S和18S rRNA特征序列的注释结果汇总到一起,生成物种结构组成结果,从而获得转录组测序数据中所有可能存在的物种及污染信息。4.根据权利要求3所述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述基于隐马尔科夫模型搜索对于转录组序列进行rRNA预测和提取,并将预测的rRNA序列从转录组数据中去除,包括以下步骤: 将经过Parallel-QC处理过的去除低质量测序序列的数据文件分割成小规模子数据; 将不同的子数据分配到不同的CPU内核上; 在众多CPU内核上同时预测子序列的16S、18S、23S或28S rRNA特征序列; 将各类特征序列预测结果合并到一起; 根据特征序列预测结果多次将大规模输入数据从外存储器中载入内存并查找提取,最后将搜索结果合并。5.根据权利要求1所述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述对序列比对到参考基因组上的结果进行统计和评价,包括统计序列的数目、计算序列覆盖度、汇总双端序列比对信息。6.根据权利要求5所述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述统计序列的数目包括全部序列、比对成功的序列、比对到某些特定基因组区域的序列以及上述序列在全部序列中分别所占的比例。7.根据权利要求5述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述计算序列覆盖度包括有序列成功比对的基因的数目、每个基因的碱基覆盖度、成功比对的序列在基因组结构上的分布。8.根据权利要求5述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述包括双端均成功比对的序列数目、只有一端成功比对的序列的数目、双端比对序列的的插入片段长度。
【专利摘要】本发明是一种基于多核CPU硬件的高通量转录组测序数据质量控制方法。包括:利用多核CPU对高通量转录组测序数据进行并行处理,得到去除低测序质量序列的数据;利用多核CPU对去除低测序质量序列的数据中的rRNA序列进行预测和去除,并进行污染序列的定性鉴定;对序列比对结果进行统计和评价。本发明基于多核CPU计算机,克服了基于单核CPU硬件计算机的计算效率瓶颈,可以使高通量转录组数据质量控制效率提高7倍以上;本发明的应用将会显著提高高通量转录组数据质量控制的准确度和速度,广泛有助于转录组测序相关研究的迅速发展。
【IPC分类】G06F19/18
【公开号】CN105095686
【申请号】CN201410205571
【发明人】周茜, 宁康, 苏晓泉, 徐健
【申请人】中国科学院青岛生物能源与过程研究所
【公开日】2015年11月25日
【申请日】2014年5月15日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1