测序数据的处理方法及装置的制作方法

文档序号：6439780阅读：308来源：国知局

专利名称：测序数据的处理方法及装置的制作方法
技术领域：
本发明涉及数据处理领域，具体而言，涉及一种测序数据的处理方法及装置。
背景技术：
随着高通量测序技术的迅速发展，DNA测序的能力也越来越强，然而，现有技术中在进行测序时存在一些没法避免的测序错误问题，比如由于接头序列污染导致的测序错误；由于文库的随机性导致测序GC含量偏差和测序序列重复片段比例过高；此外，还有测序仪本身所带来的测序误差等，这些测序错误问题的存在导致难以从测序序列中获取高准确性的测序数据，造成生物信息分析员在进行质量控制时不能准确地对测序数据进行处理。针对相关技术中难以从测序序列中获取高准确性的测序数据的问题，目前尚未提出有效的解决方案。

发明内容
本发明的主要目的在于提供一种测序数据的处理方法及装置，以解决现有技术中难以从测序序列中获取高准确性的测序数据的问题。为了实现上述目的，根据本发明的一个方面，提供了一种测序数据的处理方法，包括接收测序序列的第一测序数据；以及筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据，其中，第一测序片段为测序序列中含有接头序列的测序片段。进一步地，筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据包括将第一测序数据与接头序列库中的数据进行对比以确定第一测序数据中是否含有第一测序片段的测序数据；以及在确定第一测序数据中含有第一测序片段的测序数据时，筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据。进一步地，在筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据之后，上述方法还包括根据第二测序数据计算测序序列中对应位置的第一碱基和第二碱基的个数含量，得到第一碱基的含量分布和第二碱基的含量分布，其中，第一碱基和第二碱基为测序序列中一对互补的嘌呤碱基和嘧啶碱基。进一步地，在根据第二测序数据计算测序序列中对应位置的第一碱基和第二碱基的个数含量，得到第一碱基的含量分布和第二碱基的含量分布之后，上述方法还包括判断测序序列是否为已知物种的测序序列；以及在确定测序序列为已知物种的测序序列时，将第一碱基的含量分布和第二碱基的含量分布与标准含量分布进行对比以确定测序序列的质控质量。进一步地，在根据第二测序数据计算测序序列中对应位置的第一碱基和第二碱基的个数含量，得到第一碱基的含量分布和第二碱基的含量分布之后，上述方法还包括判断第一碱基的含量分布与第二碱基的含量分布是否一致；以及在确定第一碱基的含量分布与第二碱基的含量分布不一致时，确定测序序列存在测序错误。
进一步地，在根据第二测序数据计算测序序列中对应位置的第一碱基和第二碱基的个数含量，得到第一碱基的含量分布和第二碱基的含量分布之后，上述方法还包括判断测序序列是否为未知物种的测序序列；以及在确定测序序列为未知物种的测序序列时，将第一碱基的含量分布和第二碱基的含量分布作为未知物种的第一碱基和第二碱基含量的预测值。进一步地，在筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据之后，上述方法还包括计算第二测序数据中测序片段对应位置的碱基质量的平均值；以测序片段对应位置的碱基质量的平均值作为测序序列对应位置的碱基质量；以及统计测序序列的碱基质量的位置分布。进一步地，在筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据之后，上述方法还包括计算第二测序数据中不同碱基质量所对应的碱基数目；以及统计测序序列的碱基质量的数目分布。进一步地，上述方法还包括按照下式计算测序错误率，得到测序错误率分布 Q = -IOlog10 E其中，Q为碱基质量，E为测序错误率。进一步地，在计算第二测序数据中不同碱基质量所对应的碱基数目；以及统计测序序列的碱基质量的数目分布之后，上述方法还包括筛除第二测序数据中的第二测序片段和第三测序片段的测序数据，得到第三测序数据，其中，第二测序片段为含有第三碱基的测序片段，其中，第三碱基为碱基质量小于预设质量且碱基数目在第二测序片段中的比例大于第一预设比例的碱基，第三测序片段为含有第四碱基的测序片段，其中，第四碱基为未知碱基且在第三测序片段中的比例大于第二预设比例的碱基。进一步地，在筛除第二测序数据中的第二测序片段和第三测序片段，得到第三测序数据之后，上述方法还包括根据第三测序数据中测序片段的碱基的排序判断第三测序数据中的任意两条测序片段是否为重复的测序片段；以及在确定第三测序数据中任意两条测序片段是重复的测序片段时，将其中一条筛除。进一步地，在接收测序序列的第一测序数据之前，上述方法还包括判断测序序列的类型；以及在测序序列为单文库多通道的测序序列时，将测序序列的测序数据进行合并，得到第一测序数据。为了实现上述目的，根据本发明的另一方面，提供了一种测序数据的处理装置，包括接收模块，用于接收测序序列的第一测序数据；筛除模块，用于筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据，其中，第一测序片段为测序序列中含有接头序列的测序片段。进一步地，上述装置还包括对比模块，用于将第一测序数据与接头序列库中的数据进行对比以确定第一测序数据中是否含有第一测序片段的测序数据，其中，筛除子模块，用于在确定第一测序数据中含有第一测序片段的测序数据时，筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据。进一步地，上述装置还包括第一筛除子模块，用于筛除第二测序数据中的第二测序片段和第三测序片段的测序数据，得到第三测序数据，其中，第二测序片段为含有第三碱基的测序片段，其中，第三碱基为碱基质量小于预设质量且碱基数目在第二测序片段中的比例大于第一预设比例的碱基，第三测序片段为含有第四碱基的测序片段，其中，第四碱基为未知碱基且在第三测序片段中的比例大于第二预设比例的碱基。通过本发明，采用接收测序序列的第一测序数据；以及筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据，其中，第一测序片段为测序序列中含有街头序列的测序片段的处理测序数据的方法，解决了现有技术中难以从测序序列中获取高准确性的测序数据的问题，进而达到了从测序序列中获取高准确性的测序数据的效果。

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中图I是根据本发明实施例的测序数据处理装置的示意图；图2是根据本发明优选实施例的测序数据处理装置的示意图；图3是根据本发明实施例的测序数据处理方法的流程图；图4是根据本发明优选实施例的测序数据处理方法的流程图；图5是根据本发明优选实施例的测序数据处理方法得到的第一碱基和第二碱基含量分布示意图；图6根据本发明优选实施例的测序数据处理方法得到的碱基质量的位置分布示意图；图7根据本发明优选实施例的测序数据处理方法得到的碱基质量的数目分布示意图；以及图8根据本发明优选实施例的测序数据处理方法得到的测序错误率分布示意图。
具体实施例方式需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。图I是根据本发明实施例的测序数据处理装置的示意图，如图I所示本发明实施例中的测序数据处理装置包括接收模块10和筛除模块12。接收模块10用于接收测序序列的第一测序数据。筛除模块12用于筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据，其中，第一测序片段为测序序列中含有接头序列的测序片段。在上述测序数据处理装置中，由于通过接收模块10接收测序序列的第一测序数据之后，通过筛除模块12将第一数据中的含有接头序列的测序片段的测序筛除，因而实现了筛除测序序列的原始数据中被接头序列污染的测序数据，以便测试项目的设计与进行不受外物的干扰，达到了从测序序列中获取高准确性的测序数据的效果。图2是根据本发明优选实施例的测序数据处理装置的示意图，如图2所示，本发明优选实施例的测序数据处理装置还包括对比模块11，用于将第一测序数据与接头序列库中的数据进行对比以确定第一测序数据中是否含有第一测序片段的测序数据；第一筛除子模块121，用于筛除第二测序数据中的第二测序片段和第三测序片段的测序数据，得到第三测序数据，其中，第二测序片段为含有第三碱基的测序片段，其中，第三碱基为碱基质量小于预设质量且碱基数目在第二测序片段中的比例大于第一预设比例的碱基，第三测序片段为含有第四碱基的测序片段，其中，第四碱基为未知碱基且在第三测序片段中的比例大于第二预设比例的碱基。从以上的描述中，可以看出，本发明优选实施例中的测序数据处理装置实现了将测序序列中低质量的测序片段筛除的目的，以免对测试项目的正常进行造成影响，达到了提高测序数据的准确性的效果。图3是根据本发明实施例的测序数据处理方法的流程图，如图3所示，根据本发明的实施例，提供了一种测序数据的处理方法，包括如下步骤S302 :接收测序序列的第一测序数据；S304:筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据，其中，第一测序片段为测序序列中含有接头序列的测序片段。
在上述测序数据处理方法中，由于通过步骤S302接收测序序列的第一测序数据之后，通过步骤S304将第一数据中的含有接头序列的测序片段的测序筛除，因而实现了筛除测序序列的原始数据中被接头序列污染的测序数据，以便测试项目的设计与进行不受外物的干扰，达到了从测序序列中获取高准确性的测序数据的效果。优选地，筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据包括将第一测序数据与接头序列库中的数据进行对比以确定第一测序数据中是否含有第一测序片段的测序数据；以及在确定第一测序数据中含有第一测序片段的测序数据时，筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据。通过将第一测序数据与接头序列库中的数据进行对比以确定第一测序数据中是否含有第一测序片段的测序数据，达到了准确判断第一测序数据中是否含有接头序列片段的目的，以便将第一测序数据中的接头序列片段准确筛除，实现了提高测序数据准确性的效果。优选地，在筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据之后，方法还包括根据第二测序数据计算测序序列中对应位置的第一碱基和第二碱基的个数含量，得到第一碱基的含量分布和第二碱基的含量分布，其中，第一碱基和第二碱基为测序序列中一对互补的嘌呤碱基和嘧啶碱基。通过计算测序序列中对应位置的第一碱基和第二碱基的个数含量，得到第一碱基的含量分布和第二碱基的含量分布，达到了避免由于实验技术本身特点导致的高GC和低GC区域测序覆盖率偏低，甚至某些区域覆盖不到而造成的第一碱基和第二碱基含量分布确定不准确的问题，实现了准确确定G碱基和C碱基含量分布的效果。优选地，在根据第二测序数据计算测序序列中对应位置的第一碱基和第二碱基的个数含量，得到第一碱基的含量分布和第二碱基的含量分布之后，方法还包括判断测序序列是否为已知物种的测序序列；以及在确定测序序列为已知物种的测序序列时，将第一碱基的含量分布和第二碱基的含量分布与标准含量分布进行对比以确定测序序列的质控质量。当测序序列为已知物种的测序序列时，通过将第一碱基的含量分布和第二碱基的含量分布与标准含量分布进行对比，达到了直观、清晰地判断测序序列是否存在混样或者其它测序错误的问题，实现了准确确定测序序列质控质量的效果。
优选地，在根据第二测序数据计算测序序列中对应位置的第一碱基和第二碱基的个数含量，得到第一碱基的含量分布和第二碱基的含量分布之后，方法还包括判断第一碱基的含量分布与第二碱基的含量分布是否一致；以及在确定第一碱基的含量分布与第二碱基的含量分布不一致时，确定测序序列存在测序错误。当第一碱基的含量分布于第二碱基的含量分布相差比较大时，通过对比二者的含量分布，实现了直接确定测序序列是否存在测序错误的效果。优选地，在根据第二测序数据计算测序序列中对应位置的第一碱基和第二碱基的个数含量，得到第一碱基的含量分布和第二碱基的含量分布之后，方法还包括判断测序序列是否为未知物种的测序序列；以及在确定测序序列为未知物种的测序序列时，将第一碱基的含量分布和第二碱基的含量分布作为未知物种的第一碱基和第二碱基含量的预测值。当测序序列为未知物种的测序序列时，将第一碱基的含量分布和第二碱基的含量分布作为未知物种的第一碱基和第二碱基含量的预测值，实现了为未来测序提供参考标准的效果。优选地，在筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据之后，方法还包括计算第二测序数据中测序片段对应位置的碱基质量的平均值；以测序片段对应位置的碱基质量的平均值作为测序序列对应位置的碱基质量；以及统计测序序列的碱基质量的位置分布。计算第二测序数据中不同碱基质量所对应的碱基数目；以及统计测序序列的碱基质量的数目分布。由于测序长度越长，测序碱基质量会越低，通过统计测序碱基质量，并图形化测序质量的变化趋势以及每个质量的碱基数量，实现了判断测序是否有偏向性问题的效果。优选地，方法还包括按照下式计算测序错误率，得到测序错误率分布Q = -IOlog10 E其中，Q为碱基质量，E为测序错误率。测序错误率与碱基质量有关，根据测序技术的特点，通过上式实现了准确计算测序错误率的效果。优选地，在根据第二测序数据统计不同碱基质量所对应的碱基数目，得到测序序列的碱基质量分布之后，方法还包括筛除第二测序数据中的第二测序片段和第三测序片段的测序数据，得到第三测序数据，其中，第二测序片段为含有第三碱基的测序片段，其中，第三碱基为碱基质量小于预设质量且碱基数目在第二测序片段中的比例大于第一预设比例的碱基，第三测序片段为含有第四碱基的测序片段，其中，第四碱基为未知碱基且在第三测序片段中的比例大于第二预设比例的碱基。通过筛除第二测序片段和第三测序片段，达到了将测序序列中低质量的测序片段筛除的目的，以免对测试项目的正常进行造成影响，实现了提高测序数据的准确性的效果。优选地地，在筛除第二测序数据中的第二测序片段和第三测序片段，得到第三测序数据之后，方法还包括根据第三测序数据中测序片段的碱基的排序判断第三测序数据中的任意两条测序片段是否为重复的测序片段；以及在确定第三测序数据中任意两条测序片段是重复的测序片段时，将其中一条筛除。测序重复片段会造成项目分析的误判；PCR(Polymerase Chain Reaction聚合酶链反应，简称PCR)扩增出很多一模一样的母版分子，导致测序结果中出现很多一样的测序片段；此外，样本基因组自身的重复序列含量高也会导致测序重复片段比例过高；必须筛除重复片段对项目分析的影响。优选地，在接收测序序列的第一测序数据之前，方法还包括判断测序序列的类型；以及在测序序列为单文库多通道的测序序列时，将测序序列的测序数据进行合并，得到第一测序数据。通过将单文库多通道的测序序列的测序数据进行合并，达到了准确获得测序数据的效果。图4是根据本发明优选实施例的测序数据处理方法的流程图，在如图4中，优选实施例样本为基于高通量测序技术的PE测序数据。实施例上机策略为一个样本建了一个库，在一个通道上测序。如图4所示在步骤S401中，接收高通量测序技术得到的测序片段。在本发明实施例中，采用Illumina GA高通量测序技术实现PE测序。
在步骤S402中，将序列片段与比对到相应接头序列库上，同时将含有接头序列的序列片段去除。在步骤S403中，计算测序数据中的G，C的个数，统计GC碱基的含量。在步骤S404中，统计测序数据中碱基质量的分布。在步骤S405中，统计测序数据中碱基测序错误率的分布。在步骤S406中，筛除测序数据中低质量的测序片段，在该实施例中的过滤标准是(1)质量低于5的碱基数目不能超过整条测序序列的比例为10%; (2)测序序列片段中N的含量不能超过整条测序序列的比例为50其中，N表不未知喊基。在步骤S407中，统计测序数据中重复的测序片段并作筛除。根据本发明优选实施例的测序数据处理方法得到的测试结果如下表所示
权利要求
1.一种测序数据的处理方法，其特征在于，包括接收测序序列的第一测序数据；以及筛除所述第一测序数据中的第一测序片段的测序数据，得到第二测序数据，其中，所述第一测序片段为所述测序序列中含有接头序列的测序片段。
2.根据权利要求I所述的方法，其特征在于，筛除所述第一测序数据中的第一测序片段的测序数据，得到第二测序数据包括将所述第一测序数据与接头序列库中的数据进行对比以确定所述第一测序数据中是否含有所述第一测序片段的测序数据；以及在确定所述第一测序数据中含有所述第一测序片段的测序数据时，筛除所述第一测序数据中的所述第一测序片段的测序数据，得到所述第二测序数据。
3.根据权利要求I所述的方法，其特征在于，在筛除所述第一测序数据中的所述第一测序片段的测序数据，得到所述第二测序数据之后，所述方法还包括根据所述第二测序数据计算所述测序序列中对应位置的第一碱基和第二碱基的个数含量，得到所述第一碱基的含量分布和所述第二碱基的含量分布，其中，所述第一碱基和所述第二碱基为所述测序序列中一对互补的嘌呤碱基和嘧啶碱基。
4.根据权利要求3所述的方法，其特征在于，在根据所述第二测序数据计算所述测序序列中对应位置的第一碱基和第二碱基的个数含量，得到所述第一碱基的含量分布和所述第二碱基的含量分布之后，所述方法还包括判断所述测序序列是否为已知物种的测序序列；以及在确定所述测序序列为所述已知物种的测序序列时，将所述第一碱基的含量分布和所述第二碱基的含量分布与标准含量分布进行对比以确定所述测序序列的质控质量。
5.根据权利要求3所述的方法，其特征在于，在根据所述第二测序数据计算所述测序序列中对应位置的第一碱基和第二碱基的个数含量，得到所述第一碱基的含量分布和所述第二碱基的含量分布之后，所述方法还包括判断所述第一碱基的含量分布与所述第二碱基的含量分布是否一致；以及在确定所述第一碱基的含量分布与所述第二碱基的含量分布不一致时，确定所述测序序列存在测序错误。
6.根据权利要求3所述的方法，其特征在于，在根据所述第二测序数据计算所述测序序列中对应位置的第一碱基和第二碱基的个数含量，得到所述第一碱基的含量分布和所述第二碱基的含量分布之后，所述方法还包括判断所述测序序列是否为未知物种的测序序列；以及在确定所述测序序列为所述未知物种的测序序列时，将所述第一碱基的含量分布和所述第二碱基的含量分布作为所述未知物种的第一碱基和第二碱基含量的预测值。
7.根据权利要求I所述的方法，其特征在于，在筛除所述第一测序数据中的所述第一测序片段的测序数据，得到所述第二测序数据之后，所述方法还包括计算所述第二测序数据中测序片段对应位置的碱基质量的平均值；以所述测序片段对应位置的碱基质量的平均值作为所述测序序列对应位置的碱基质量；以及统计所述测序序列的碱基质量的位置分布。
8.根据权利要求I所述的方法，其特征在于，在筛除所述第一测序数据中的所述第一测序片段的测序数据，得到所述第二测序数据之后，所述方法还包括计算所述第二测序数据中不同碱基质量所对应的碱基数目；以及统计所述测序序列的碱基质量的数目分布。
9.根据权利要求8所述的方法，其特征在于，所述方法还包括按照下式计算测序错误率，得到测序错误率分布Q = -IOlog10 E 其中，Q为所述碱基质量，E为所述测序错误率。
10.根据权利要求8所述的方法，其特征在于，在计算所述第二测序数据中不同碱基质量所对应的碱基数目；以及统计所述测序序列的碱基质量的数目分布之后，所述方法还包括筛除所述第二测序数据中的第二测序片段和第三测序片段的测序数据，得到第三测序数据，其中，所述第二测序片段为含有第三碱基的测序片段，其中，所述第三碱基为碱基质量小于预设质量且碱基数目在所述第二测序片段中的比例大于第一预设比例的碱基，所述第三测序片段为含有第四碱基的测序片段，其中，所述第四碱基为未知碱基且在所述第三测序片段中的比例大于第二预设比例的碱基。
11.根据权利要求10所述的方法，其特征在于，在筛除所述第二测序数据中的所述第二测序片段和所述第三测序片段，得到所述第三测序数据之后，所述方法还包括根据所述第三测序数据中测序片段的碱基的排序判断所述第三测序数据中的任意两条测序片段是否为重复的测序片段；以及在确定所述第三测序数据中任意两条测序片段是重复的测序片段时，将其中一条筛除。
12.根据权利要求I所述的方法，其特征在于，在接收所述测序序列的第一测序数据之前，所述方法还包括判断所述测序序列的类型；以及在所述测序序列为单文库多通道的测序序列时，将所述测序序列的测序数据进行合并，得到所述第一测序数据。
13.一种测序数据的处理装置，其特征在于，包括接收模块，用于接收测序序列的第一测序数据；以及筛除模块，用于筛除所述第一测序数据中的第一测序片段的测序数据，得到第二测序数据，其中，所述第一测序片段为所述测序序列中含有接头序列的测序片段。
14.根据权利要求13所述的装置，其特征在于，所述装置还包括对比模块，用于将所述第一测序数据与接头序列库中的数据进行对比以确定所述第一测序数据中是否含有所述第一测序片段的测序数据，其中，所述筛除模块用于在确定所述第一测序数据中含有所述第一测序片段的测序数据时，筛除所述第一测序数据中的所述第一测序片段的测序数据，得到所述第二测序数据。
15.根据权利要求13所述的装置，其特征在于，所述装置还包括第一筛除子模块，用于筛除所述第二测序数据中的第二测序片段和第三测序片段的测序数据，得到第三测序数据，其中，所述第二测序片段为含有第三碱基的测序片段，其中，所述第三碱基为碱基质量小于预设质量且碱基数目在所述第二测序片段中的比例大于第一预设比例的碱基，所述第三测序片段为含有第四碱基的测序片段，其中，所述第四碱基为未知碱基且在所述第三测序片段中的比例大于第二预设比例的碱基。
全文摘要
本发明公开了一种测序数据的处理方法及装置。其中，测序数据的处理方法包括接收测序序列的第一测序数据；以及筛除第一测序数据中的第一测序片段的测序数据，得到第二测序数据，其中，第一测序片段为测序序列中含有街头序列的测序片段的处理测序数据的方法。通过本发明，解决了现有技术中难以从测序序列中获取高准确性的测序数据的问题，进而达到了从测序序列中获取高准确性的测序数据的效果。
文档编号G06F19/18GK102831330SQ20111039182
公开日2012年12月19日申请日期2011年11月30日优先权日2011年11月30日
发明者田仕林, 周广宇, 李瑞强申请人:北京诺禾致源生物信息科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田仕林;周广宇;李瑞强
技术所有人：北京诺禾致源生物信息科技有限公司
我是此专利的发明人

上一篇：并行数据处理系统及方法
上一篇：车载音乐系统的音乐媒体信息获取方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。