本申请涉及生物信息技术领域,具体而言,涉及一种变异位点的获取方法及装置。
背景技术:
现有的对变异位点的获取方法,常用被称为第二代测序技术的新一代测序技术(Next-generation sequencing)。虽然相比于第一代测序技术(Sanger sequencing),第二代测序技术具有数据量巨大、测序时间快、单个基因位点成本低等优点,但也具有原始数据错误率高,变异位点的查找不够准确的问题。
技术实现要素:
有鉴于此,本申请实施例提供了一种变异位点的获取方法及装置,对经过测序软件初步获得的变异位点进行进一步的过滤,将不满足预设保留条件的变异位点删除,以使获得的变异位点更加准确,以改善上述问题。
为了实现上述目的,本申请采用的技术方案如下:
一种变异位点的获取方法,所述方法包括:将待测基因的多个短序列与参考基因组进行数据比对,获得待测基因的初步变异位点信息,所述初步变异位点信息中包括多个初步变异位点;根据所述初步变异位点信息,将所述多个初步变异位点中不满足预设保留条件的变异位点删除,获得所述待测基因中的变异位点。
一种变异位点的获取装置,所述装置包括:比对模块,用于将待测基因的多个短序列与参考基因组进行数据比对,获得待测基因的初步变异位点信息,所述初步变异位点信息中包括多个初步变异位点;过滤模块,用于根据所述初步变异位点信息,将所述多个初步变异位点中不满足预设保留条件的变异位点删除,获得所述待测基因中的变异位点。
本申请实施例提供的变异位点的获取方法及装置,在待测基因的短序列与参考基因组进行比对获得包括多个变异位点的信息的初步变异位点信息后,根据该初步变异位点信息,对该初步变异位点信息中的多个变异位点进行再一次的过滤,即删除初步变异位点中不满足预设保留条件的变异位点,使最后保留的变异位点为准确率更高的位点。本方案获得的待测基因中的变异位点相比于现有技术,具有更高的准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了本申请实施例提供的计算机的结构示意图;
图2示出了本申请第一实施例提供的变异位点的获取方法的一种流程图;
图3示出了本申请第一实施例提供的变异位点的获取方法的另一种流程图;
图4示出了本申请第二实施例提供的变异位点的获取装置的功能模块图;
图5示出了本申请第二实施例提供的变异位点的获取装置的过滤模块的功能模块图;
图6示出了本申请第二实施例提供的变异位点的获取装置的比对模块的功能模块图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,是本申请计算机100的方框示意图。所述计算机100包括变异位点的获取装置200、存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105及其他。
所述存储器101、存储控制器102、处理器103、外设接口104以及输入输出单元105各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述变异位点的获取装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述计算机100的操作系统(operating system,OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块,例如所述变异位点的获取装置200包括的软件功能模块或计算机程序。
其中,存储器101可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器101用于存储程序,所述处理器103在接收到执行指令后,执行所述程序,前述本申请实施例任一实施例揭示的流过程定义的计算机100所执行的方法可以应用于处理器103中,或者由处理器103实现。
处理器103可能是一种集成电路芯片,具有信号的处理能力。上述的处理器103可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。
所述外设接口104将各种输入/输出装置耦合至处理器103以及存储器101。在一些实施例中,外设接口104,处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元105用于提供给用户输入数据实现用户与所述计算机的交互。所述输入输出单元可以是,但不限于,数据读取装置、鼠标和键盘等。
可以理解的,图1所示的结构仅为示意,计算机100还可以包括比图1中所示更多或更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
第一实施例
本申请实施例提供了一种变异位点的获取方法,请参见图2,该方法包括:
步骤S110:将待测基因的多个短序列与参考基因组进行数据比对,获得待测基因的初步变异位点信息,所述初步变异位点信息中包括多个初步变异位点。
首先,获取待测基因的多个短序列,该短序列可以是通过第二代测序平台输出。将待测基因的短序列与参考基因组进行比对。如,若待测基因为人类基因,该参考基因组则为人类参考基因组。
当然,该比对过程可以包括多次比对以及去重等过程,得到比对后的包括多个变异位点的变异位点信息。
具体的,如图3所示,在本实施例中,本步骤中的数据比对以获取初步变异位点信息的过程可以包括:
步骤S111:将所述待测基因的多个短序列与参考基因组进行首次比对,获得SAM格式的比对结果。
将待测基因的短序列与参考基因组进行数据比对,该比对过程可以利用现有的比对软件进行,如Bowtie2,可以获得SAM格式的比对结果,该SAM格式的比对结果中存储有比对后获得的比对信息。可以理解的,在该SAM格式的比对结果中,包括了待测基因中各个碱基的信息,如位置信息。
当然,具体使用的比对软件以及比对结果的表示方式在本实施例中并不作为限制,以能将待测基因的多个短序列与参考基因组进行比对并获得表示比对结果的比对信息为宜。
步骤S112:对所述比对结果进行去重,使对比到参考基因组的一个位置的短序列个数小于或等于1。
步骤S111获得的比对结果中,有一定比例的重复序列和结果,例如,对比到参考基因组的同一位置可能有多个短序列,于是,在本步骤中,将比对结果进行去重。
在本实施例中,可以利用软件Picard进行去重工作。具体的,利用的可以是Picard的MarkDuplicate工具去重,获得bam格式的去重结果。
步骤S113:对去重后的对比结果进行本地重比对(local multiple alignment)。
由于获得的与参考基因组进行比对的短序列很难精确的比对到高度相似的重复区域,于是在基因组的重复区域很容易得到假阳性的变异位点,如假阳性的SNPs。可以理解的,假阳性的变异位点即为比对结果错误的变异位点。为了降低假阳性变异位点的数量和比例,在本实施例中,对去重后的对比结果进行本地重比对。
具体的,该本地重比对(local multiple alignment)可以使用GATK中IndelRealigner进行,获得bam格式的重比对后的比对结果。该比对过程一般有三个步骤,a.检测到可疑的,需要进行重比对的区域;b.对这些可疑的区域进行重比对;c.修复在重比对过程中丢失的mate pairing信息。
步骤S114:重新计算本地重比对后的比对结果中的碱基质量分数。
在前述处理过程中的步骤S111中,每个单一的碱基都会在数据处理过程中被赋予一个质量分数(Quality scores),用于反映相应的碱基被观察到的核苷酸的可信度。
由于前述处理过程中获得的质量分数没有较好地和错误的分型结果可能性联系起来,同时单一碱基的质量分数,没有和其他参数相例子联系,比如在同一个样品中不同测序平台,不同测序循环,不同文库等进行联系。
因此,在本步骤S114中,将每个碱基的质量分数与测序过程中的各个因子相联系,对每个碱基的质量分数进行重新计算,生成新的质量分数,以用于判断每个碱基是否可信。
具体的,在本实施例中,可以使用GATK进行empirical quality score recalibration,获得bam格式的结果。
步骤S115:根据所述碱基质量分数,对本地重比对后的对比结果进行SNP和indel分析,获得初步变异位点信息。
根据重新计算获得的碱基质量分数,对本地重比对获得的比对结果进行SNP和indel的初步判读,对其进行SNP和indel分型,以获得变异位点信息,该变异位点信息作为初步变异位点信息。可以理解的,在该初步变异位点信息中,包括了各个变异位点以及每个变异位点所在位置。在本实施例中,变异位点为SNP和indel,优选的,在本实施例中,变异位点仅为SNP。
具体的,在本步骤中,可以是利用GATK的Unified Genotyper进行分析。因为在完成SNPs的分型后,采用了很多数据过滤参数对数据再次进行过滤,以进一步控制数据质量,所以在本步骤中将standard minimum confidence thresholds都设置为零。可以理解的,SNPs表示SNP的复数形式。
当然,该SNP和indel的初步判读过程也可以用其他方式进行,在本实施例中并不作为限制,也可以是其他,如GATK的HaplotypeCaller进行。
在该步骤中,可以获得包括初步变异位点信息的vcf文件,该vcf文件中的初步变异位点信息中包括在步骤S110中获得的各个变异位点以及每个变异位点对应的位置信息,当然,还包括其他,在此不加赘述。
步骤S120:根据所述初步变异位点信息,将所述多个初步变异位点中不满足预设保留条件的变异位点删除,获得所述待测基因中的变异位点。
在步骤S110中,获得的初步变异位点信息中的初步变异位点中,仍可能存在假阳性的变异位点,于是,本步骤对初步变异位点进行进一步过滤,删除其中假阳性可能性较高的变异位点,以删除后的结果中的变异位点作为该待测基因中的变异位点,使最后获得的变异位点更加准确。可以理解的,删除后的结果中还包括了每个变异位点的位置信息以及其他信息,在此不做赘述。
具体的,在本步骤中,可以包括如下一种或多种删除不满足预设保留条件的变异位点的方式:
方式一:去除所述多个初步变异位点中,等位基因的个数大于预设阈值的变异位点。
等位基因大于预设阈值的变异位点,是假阳性变异位点的可能性较高,对其进行去除。在本实施例中,该预设阈值可以根据实际需要取值,由于包含大于1个以上等位基因的位点就具有较高的基因分型错误,优选的,该预设阈值的取值可以为1。
当预设阈值取值为1,即去除获得的多个初步变异位点中具有1个以上等位基因的变异位点。
方式二:删除所述多个初步变异位点中,位于每个插入缺失(indel)的上游范围或者下游范围内的所有变异位点,所述上游范围和下游范围包括的碱基个数为预设个数。
由于用于数据比对的短序列常由二代测向平台输出,而二代测序平台的短序列在靠近插入缺失(indel)的区域更容易产生错误的比对,而上述处理过程中的本地重比对不能完全消除这一错误。于是,将插入缺失上游范围或者下游范围内的所有变异位点删除,以降低假阳性结果的可能性。
该上游范围和下游范围包括的碱基个数为预设个数,该预设个数可以由用户根据实际需求确定,在本实施例中并不作限制,并且,上游范围以及下游范围的预设个数可以相同或者不同。
在本实施例中,上有范围包括的碱基个数优选为5个,下游范围包括的碱基个数优选为5个。即,确定初步变异位点中的所有indel,针对每一个indel,将其上游5bp(5个碱基)之内的所有变异位点删除,或者将其下游5bp之内的所有变异位点删除。
当然,在本实施例中,可以只删除indel的上游范围内的变异位点或者下游范围内的变异位点,也可以将上游范围内的变异位点以及下游范围内的变异位点都删除。
优选的,在本实施例中,删除的为插入缺失(indel)的上游范围或者下游范围内的所有SNPs。
方式三:将所述多个初步变异位点中,彼此之间间隔预设碱基个数的变异位点删除。
在本步骤中,将彼此靠近的变异位点删除,即将彼此之间距离小于一定值的变异位点删除。
在本实施例中,该预设碱基个数并不作为限制,可以根据实际需要设定。
优选的,该预设碱基个数为4个,若某存在彼此之间间隔的碱基个数小于4个的变异位点,将其删除。也就是说,删除在彼此上游或下游5bp之内的变异位点。
优选的,该步骤中,删除的为彼此之间间隔预设碱基个数的SNPs。
方式四:将所述多个初步变异位点中,对应的GQ(Genotype quality)值小于预设GQ阈值的变异位点删除。
GQ(Genotype quality)是一个后验概率(the phred-scaled probabilities)值,对于每一个位点,GQ值用以表示当前获得的基因分型结果中该位点不是真实情况的可能性,即表示获得的在该位点该基因型存在的可能性。计算方式为:
GQ值=-10*log10(P[error]),其中,P[error]表示相应的位点不是真实情况的概率。
优选的,在本实施例中,预设GQ阈值为20。经验证,当GQ阈值为20时,理论上的错误率为1%。
方式五:将所述多个初步变异位点中,对应的MQ(Mapping quality)值小于预设MQ阈值的变异位点删除。
MQ表示在比对序列时的专一性(uniqueness)。当同一个短序列可以比对到同一个基因组不同区域时,第一最好比对区域(the first best alignment)的比对分数(alignment's score)与第二最好比对区域(the second best alignment)的比对分数,两者差异越大,表明比对的专一性越好,MQ的值就越高。
在本实施例中,认为MQ值小于预设MQ阈值的变异位点具有较高的可能性为假阳性,将其删除。
优选的,在本实施例中,预设MQ阈值取值为30。经验证,MQ取值为30时,P[error]=0.001,即相对于比对到当前位置,比对到另一个位置的可能性最高为0.1%。
在本发明实施例中,方式一至方式五为可选的执行方式,即在本步骤中,可采用其中的某一种方式、某几种方式或者所有的方式。当使用多种方式进行不满足预留条件的变异位点的删除时,该多种方式之间的执行顺序并不作为限制。当然,该多种方式也可以并行执行。
另外,该步骤120中,当有多种方式被顺序执行时,后续的步骤可以在前续步骤的基础上执行。例如,若执行方式一的去除所述多个初步变异位点中等位基因的个数大于预设阈值的变异位点,以及方式三中的,将所述多个初步变异位点中彼此之间间隔预设碱基个数的变异位点删除,且先执行方式一,再执行方式三。则在方式三中,删除的可以是方式一处理后的变异位点中彼此之间间隔预设碱基个数的变异位点。
步骤S120对初步变异位点进行删除过滤后,获得的最终结果作为待测基因的变异位点,可以以vcf格式文件表示。
第二实施例
本实施例提供了一种变异位点的获取装置200,请参见图4,该装置200包括:
比对模块210,用于将待测基因的多个短序列与参考基因组进行数据比对,获得待测基因的初步变异位点信息,所述初步变异位点信息中包括多个初步变异位点。
过滤模块220,用于根据所述初步变异位点信息,将所述多个初步变异位点中不满足预设保留条件的变异位点删除,获得所述待测基因中的变异位点。
进一步的,在本实施例中,如图5所示,过滤模块220可以包括以下一种或多种单元:
第一删除单元221,用于去除所述多个初步变异位点中,等位基因的个数大于预设阈值的变异位点。第二删除单元222,用于删除所述多个初步变异位点中,位于每个插入缺失(indel)的上游范围或者下游范围内的所有变异位点,所述上游范围和下游范围包括的碱基个数为预设个数。第三删除单元223,用于将所述多个初步变异位点中,彼此之间间隔预设碱基个数的变异位点删除。第四删除单元224,用于将所述多个初步变异位点中,对应的GQ(Genotype quality)值小于预设GQ阈值的变异位点删除。第五删除单元225,用于将所述多个初步变异位点中,对应的MQ(Mapping quality)值小于预设MQ阈值的变异位点删除。
进一步的,如图6所示,本实施例提供的比对模块210还可以包括:
比对单元211,用于将所述待测基因的多个短序列与参考基因组进行首次比对,获得SAM格式的比对结果。去重单元212,用于对所述比对结果进行去重,使对比到参考基因组的一个位置的短序列个数小于或等于1。重比对单元213,用于对去重后的对比结果进行本地重比对(local multiple alignment)。质量分数计算单元214,用于重新计算本地重比对后的比对结果中的碱基质量分数。初判单元215,用于根据所述碱基质量分数,对本地重比对后的对比结果进行SNP和indel分析,获得初步变异位点信息。
需要说明的是,对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
综上所述,本发明实施例提供的变异位点的获取方法及装置,在通过现有的软件初步获得变异位点信息后,对获得的初步变异位点进行进一步过滤,删除其中不满足预设保留条件的变异位点,使最终获得的待测基因的变异位点的准确率更高。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器100,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二、另一等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。