一种基于集群的高通量数据分析方法与流程

文档序号：11134473阅读：来源：国知局

技术特征：

1.一种高通量数据分析方法，其特征在于，对高通量测序下机数据的处理包括：

对下机数据进行数据分割；

对于分割后获得的多个数据片的运算处理，采用集群管理工具分配包括计算节点，以及相应的CPU和内存的计算资源。

2.如权利要求1所述的高通量数据分析方法，其特征在于，

在对下机数据进行数据分割后，生成多个前数据片文件，在与参考基因组的所有比对完成后，将生成的多个比对结果片文件合并为一个比对结果文件；

预先指定一个区域文件，将其分割成指定的多个区域子文件；

将所述比对结果文件根据指定的多个区域子文件抽取数据进行再次分割，生成多个后数据片文件，提供给后续步骤处理。

3.如权利要求2所述的高通量数据分析方法，其特征在于，

前数据片文件和后数据片文件均为以行为每条记录单位的区隔，做分割处理时，预先设定文件的总行数，以此控制产生的片文件数量，也由此设定需要并行处理的任务数。

4.如权利要求1所述的高通量数据分析方法，其特征在于，该分析方法用于变异检测，测序下机数据文件为fastq格式。

5.如权利要求1所述的高通量数据分析方法，其特征在于，该分析方法运行于linux系统，使用linux shell编程，集群管理工具使用torque。

6.如权利要求5所述的高通量数据分析方法，其特征在于，包括以下步骤：

(1)对高通量测序下机数据进行数据分割，测序原始数据为fastq格式，下机数据是经过压缩的；

(2)使用torque对分割的数据分配计算节点、CPU和内存，作剪切adaptor序列、末端无效序列、低质量末端序列的处理，结果数据格式为fastq；

(3)使用torque对步骤(2)获得的结果数据分别分配计算节点、CPU和内存，将reads比对到参考基因组，结果数据格式为sam；

(4)使用torque对步骤(3)获得的结果数据分别分配计算节点、CPU和内存，对比对结果文件作的处理包括，对比对结果进行排序、去除比对质量低的部分比对结果、将比对结果数据作压缩和对比对结果作索引，结果数据格式为bam；

(5)使用torque对步骤(4)获得的结果数据分配计算节点、CPU和内存，将所有比对结果文件整合为一个总比对文件，结果数据格式为bam；

(6)使用预先指定的目标区域文件，将此目标区域文件包含的区域分割成指定的多个目标区域子文件，目标区域文件使用bed格式；

(7)按照各自的目标区域文件，使用torque对将步骤(5)获得的结果文件分配计算节点、CPU和内存，分割比对文件重新分割为多个文件，每个文件的比对数据比对到的区域只包含各自目标区域，结果数据格式为bam；

(8)使用torque对步骤(7)获得的结果数据分别分配计算节点、CPU和内存，作去除PCR引起的重复序列的处理，结果数据格式为bam；

(9)使用torque对步骤(8)获得的结果数据分别分配计算节点、CPU和内存，作indel区域再比对的处理，结果数据格式为bam；

(10)使用torque对步骤(9)获得的结果数据分别分配计算节点、CPU和内存，作碱基质量值再校正的处理，结果数据格式为bam；

(11)使用torque对步骤(10)获得的结果数据分别分配计算节点、CPU和内存，作SNP calling和INDEL calling，结果数据格式为vcf；

(12)使用torque对步骤(11)获得的结果数据分别分配计算节点、CPU和内存，对变异进行过滤和注释，结果数据格式为vcf；

(13)使用torque对步骤(12)获得的结果数据分别分配计算节点、CPU和内存，将所有的变异结果文件进行整合，结果数据格式为txt、xls、pdf或html。

完整全部详细技术资料下载

当前第2页1 2 3