基于多核cpu硬件的高通量转录组测序数据质量控制方法

文档序号:9376068阅读:629来源:国知局
基于多核cpu硬件的高通量转录组测序数据质量控制方法
【技术领域】
[0001]本发明专利涉及生物信息学,具体的说是一种基于多核CPU硬件的高通量转录组测序数据质量控制方法,能够快速的对高通量转录组测序数据进行质量控制。
【背景技术】
[0002]高通量测序技术又称“下一代”测序技术,是对传统测序一次革命性的改变,能够一次对几十万到几百万条DNA/RNA分子进行序列测定,已经越来越广泛地应用于生物学相关研究中。与传统的Sanger测序技术相比,新一代测序技术的通量提高了一到两个数量级,数据量更多(100MB至数G)。转录组测序是基于高通量测序技术的一项深入应用,能够对一个物种的转录图谱进行细致、深入而全面的分析。然而,由于高通量测序技术本身的限制及转录组提取等人为实验的操作误差,原始生成的转录组数据往往含有部分低质量序列,包括低质量碱基、污染序列和核RNA序列(rRNA)等。这些低质量序列的存在将会极大地影响后续转录组数据分析的准确性,甚至导致错误的结论。此外,由于后续的转录组分析结果依赖于将序列与参考基因组进行比对(alignment)后得出,因此转录组序列的比对质量也是衡量转录组测序数据整体质量的关键因素之一。综上所述,质量控制是进行高通量转录组测序数据分析必须的关键步骤。目前已有的转录组数据质量控制方法主要集中于完成序列比对层面的质量评价,而无法全面的对于碱基、序列、污染和比对质量同时进行质量控制。
[0003]由于高通量转录组测序数据一般需要测定不同条件或不同时间点采集的多个样本,每个样本一般分别需要三个或以上生物学重复和技术重复,因此测序的样本量巨大,导致每次测序往往获得超过二十个样本和几十G的数据量,所以对应于高通量转录组数据的质量控制,必须有具有相当运算能力的超级计算机和相应的分析软件来实现。采用目前的普通分析方法利用单一的CPU计算机对几亿条序列进行逐条扫描并分别处理,可能需要数天甚至一个月的时间,使数据分析的效率亦成为了相关研究中的一大瓶颈。

【发明内容】

[0004]为了解决传统分析方法和计算系统无法全面、精确而高效地满足高通量转录组测序数据质量控制的要求的问题,本发明根据高通量转录组测序数据可并行处理的特点,提出一种基于多核CPU硬件的高通量转录组测序数据质量控制方法。
[0005]本发明为实现上述目的所采用的技术方案是:一种基于多核CPU硬件的高通量转录组测序数据质量控制方法,包括以下步骤:
[0006]利用多核CPU对高通量转录组测序数据进行并行处理,得到去除低测序质量序列的数据;
[0007]利用多核CPU对去除低测序质量序列的数据中的rRNA序列进行预测和去除,并进行污染序列的定性鉴定;
[0008]对序列比对结果进行统计和评价。
[0009]所述利用多核CPU对高通量转录组测序数据进行低测序质量序列的去除,包括以下步骤:
[0010]利用Parallel-QC工具将输入文件分割成若干个小规模子数据;
[0011]将各个子数据分配到不同的CPU内核上;
[0012]同时在多个CPU内核上检测其子数据中每个序列的碱基质量和接头序列,并根据用户指定的长度依次切除每个序列两端的低质量碱基,过滤含有用户指定比例的低质量碱基的序列,删除其中的接头序列;
[0013]将上述处理后的序列合并到一起,从而得到去除低测序质量序列的数据。
[0014]所述利用多核CPU对去除低测序质量序列的数据中的rRNA序列进行预测和去除,并进行污染序列的定性鉴定,包括以下步骤:
[0015]将数据库SILVA中所有的rRNA序列构建隐马尔科夫模型;基于隐马尔科夫模型搜索对于转录组序列进行rRNA预测和提取,并将预测的rRNA序列从转录组数据中去除;
[0016]将所预测和提取的16S或18S rRNA,映射到已知rRNA序列数据库SILVA上,获得所有序列的物种来源信息,分别将16S和18S rRNA特征序列的注释结果汇总到一起,生成物种结构组成结果,从而获得转录组测序数据中所有可能存在的物种及污染信息;
[0017]所述基于隐马尔科夫模型搜索对于转录组序列进行rRNA预测和提取,并将预测的rRNA序列从转录组数据中去除,包括以下步骤:
[0018]将经过Parallel-QC处理过的去除低质量测序序列的数据文件分割成小规模子数据;
[0019]将不同的子数据分配到不同的CPU内核上;
[0020]在众多CPU内核上同时预测子序列的16S、18S、23S或28S rRNA特征序列;
[0021]将各类特征序列预测结果合并到一起;
[0022]根据特征序列预测结果多次将大规模输入数据从外存储器中载入内存并查找提取,最后将搜索结果合并。
[0023]所述对序列比对到参考基因组上的结果进行统计和评价,包括统计序列的数目、计算序列覆盖度、汇总双端序列比对信息。
[0024]所述统计序列的数目包括全部序列、比对成功的序列、比对到某些特定基因组区域的序列以及上述序列在全部序列中所占的比例。
[0025]所述计算序列覆盖度包括有序列成功比对的基因的数目、每个基因的碱基覆盖度、成功比对的序列在基因组结构上的分布。
[0026]所述包括双端均成功比对的序列数目、只有一端成功比对的序列的数目、双端比对序列的的插入片段长度。
[0027]本发明具有以下优点及有益效果:
[0028]1.实现了全面、高效的转录组数据质量控制,包括对于测序质量、rRNA序列、污染序列和比对结果等多方面的综合分析和质控;
[0029]2.与基于多核CPU计算机相配合,克服了基于单核CPU硬件计算机的计算效率瓶颈,可以使高通量转录组数据质量控制效率提高7倍以上;
[0030]3.本发明的应用将会显著提高高通量转录组数据质量控制的准确度和速度,广泛有助于转录组测序相关研究的迅速发展。
【附图说明】
[0031]图1为本发明的硬件架构图;其中,①为DMI与PCIe2.0总线;②为三通道DDR3内存总线?’③为SATA总线;
[0032]图2为本发明的软件流程图;其中,⑴为低测序质量数据处理;⑵为rRNA序列和污染序列的定性鉴定;(3)为序列对比结果的评价和质量控制;
[0033]图3为采用16核CUP应用本发明和应用单核CPU对于同一个转录组测序数据的测试结果图。
【具体实施方式】
[0034]下面结合附图及实施例对本发明做进一步的详细说明。
[0035]本发明采用的技术方案是多核CPU计算机以及构筑于其上的高效、统一的软件平台。其特点是(I)高性能并行计算和存储硬件系统;(2)功能全面、高性能、统一、可配置的并行化软件平台。
[0036](I)高性能并行计算和存储硬件
[0037]该硬件系统采用多路多核CPU进行大规模并行化计算。图1是计算服务器的系统结构图:
[0038]首先,多路多核CPU并行化计算,采用4路处理器,处理器之间采用QPI总线连接。每路处理器具有8个独立计算核心,配备三通道DDR3 RDIMM内存,同时也适应于云计算服务器的计算要求。
[0039]其次,高速缓存和高速总线:适应于并发式的测序数据分析任务的调配和协同工作环境在大规模任务分配上的需要。
[0040]最后,RAID磁盘阵列:通过RAID磁盘阵列存储,不但提高中心服务器的响应速度和稳定性,而且有利于不定期的中心服务器更新。同时可应付云计算服务器的备份和升级需要。
[0041 ] (2)功能全面、高性能、统一、可配置的软件平台
[0042]高性能的软件平台包括低测序质量数据处理、污染序列的定性鉴定、rRNA污染序列的定性定量鉴定和序列比对质量的检测等(图2)。此系统被命名为RNA-QC-Chain软件系统(http:// www.computat1nalb1energy.0rg/rna-qc-chain.html,自主知识产权),其数据质量控制步骤是:
[0043]第一,基于多核CPU并行计算的低测序质量数据处理。利用Parallel-QC工具(http://www.computat1nalb1energy.0rg/parallel-qc.html,自主知识产权),将输入文件分割成小规模子数据,将不同的子数据分配到不同的CPU内核上,然后同时在多个CPU内核上预测每个序列的碱基质量和接头序列,并根据用户指定的长度依次切除序列两端的低质量碱基,过滤含有一定比例低质量碱基的序列,删除其中的接头序列,最后将过滤后的序列合并到一起,从而得到去除低测序质量序列的数据结果。
[0044]第二,基于多核CPU并行计算的污染序列的定性鉴定。首先利用rRNA-filter工具去除数
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1