一种基于slaf简化基因组测序数据的二次数据识别方法_3

文档序号:9564770阅读:来源:国知局
效率只有70%。
[0053] 3、由于本实施例设定的一次识别率预期值是86%,当低于预期值时,进行二次识 另IJ,第161批SLAF测序数据的一次识别率为70%,远低于预期值,因此进入二次识别流程, 该流程再次读入一次识别程序未能识别的index序列,并将这些未识别序列与畸变数据库 中记录的错误index序列进行匹配,能够完全匹配上的index序列,其对应的原始index序 列就从畸变数据库中获得。一次识别完成后,所有未识别测序数据都存放在一个文件中, 每条测序reads第一行注释信息记录了 index序列,通过上一步明确的错误index和原始 index的对应关系彳目息,和已知的原始index序列和样品编号的对应关系,程序就可以逐条 为测序reads分配所属样品,至此完成整个二次识别过程。经过二次识别后,数据识别效率 提升至83. 4%,而整个二次识别过程耗时仅36分钟,详见表3 :
[0054] 表3二次识别效率统计
[0056] 实施例2第214批SLAF测序数据二次识别统计
[0057] 1、设定优化的index组合方法,该批次使用index方案与实施例1中一致,在此不 再罗列。
[0058] 2、构建构建畸变index数据库参照实施例1的方法。
[0059] 3、使用Illumina Hiseq 2500测序的数据下机后使用illumina的识别流程对 SLAF测序进行一次识别,识别结束后对一次识别效率进行统计,统计结果如下:
[0060] 表4 一次识别效率统计
[0062] 该批SLAF数据是一个纯SLAF测序项目集合,即同一个批次上机的项目都是SLAF 项目,因此不会受到其他类型测序数据影响,测序质量正常。一次识别程序效率85. 9%,是 一个比较正常的水平。
[0063] 3、由于本实施例设定的一次识别率预期值是85. 9%,当低于预期值时,进行二次 识别,第214批SLAF测序数据的一次识别率为85. 9%,因此进入二次识别流程,经过二次识 别后,识别效率提升至89. 1 %,而整个二次识别过程耗时仅50分钟,详见表5 :
[0064] 表5二次识别效率统计
[0066] 以上的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进 行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方 案做出的各种变型和改进,均应落入本发明的权利要求书确定的保护范围内。
【主权项】
1. 一种基于SLAF简化基因组测序数据的二次数据识别方法,包括以下步骤: (1) 优化上机index组合,确保index组合之间的错配数大于3 ; (2) 构建畸变index数据库; (3) 针对双端index的SLAF测序数据,根据测序结果中index与预先加入的index之 间的相似性,对测序数据进行一次识别; (4) 判断一次识别效率是否低于预期值,当低于预期值时,采用构建的畸变index数据 库对步骤(3)中未识别的数据进行二次识别。2. 根据权利要求1所述的方法,其特征在于,步骤(1)所述的优化上机index组合的 方法为:统计两两上机index序列之间的错配数,根据两两index序列间的错配数,进行 index聚类,聚到一个类中的两两index之间的错配数高于3。3. 根据权利要求2所述的方法,其特征在于,采用全局比对算法统计两两上机index序 列之间的错配数,计算方法如下: F〇J=d*j F0l=d*i Fxj=max(Fxsi+S(A1;Bj),si+d,Fxj+d) 全局比对算法构建了一个二维矩阵F,矩阵的横轴和纵轴分别代表一条序列上每个碱 基的位置,Fij代表序列1上第i个位置和序列2上第j个位置的比对得分;在比对开始前 要对矩阵的第一行KjP第一列FΜ进行初始化,通过初始化分配给第一行和第一列的每个 位置一个初始得分,分别记为d*i和d*j,d为一个比对空位的罚分;初始化后矩阵中每个 位置上的得分为对角线上前一格位置的得分hui加上错配罚分或匹配加分S(AB,),对 角线所对应的位置正上方一格的位置FliU加空位罚分,对角线所对应的位置左边一格位置 FlU]加空位罚分三者中得分最高的一个,如此依次计算每个位置的得分,得到两条序列的 最优比对模式,根据最优比对模式统计两条序列之间的错配数,即得到两两上机index序 列之间的错配数。4. 根据权利要求2所述的方法,其特征在于,index聚类方法为:以任一index序列为 一个类的起点,逐条引入其它index序列,确保新引入的index序列与类中的所有index序 列之间有3个以上错配,该过程一直继续直到类中满足要求的index序列数目不再增加。5. 根据权利要求1-4任一所述的方法,其特征在于,步骤(2)所述的畸变index数据库 包含所有以前SLAF测序项目产生的发生测序错误而未识别出的index序列和其对应的原 始index编号。6. 根据权利要求1-4任一所述的方法,其特征在于,步骤(4)在进行二次识别时,需要 为未识别的index序列分配其所属的样品编号;然后根据index的分类,从未识别数据中分 别将属于每个样品的数据提取出来。7. 根据权利要求6所述的方法,其特征在于,为未识别的index序列分配其所属的样 品编号的方法为:遍历当次测序数据产生的未识别index序列,当某条未识别序列在畸变 数据库中有匹配且该index对应的原始index被当次的测序样品使用时,根据与原始index 序列的错配数确定来自未识别index的样品归属,就可以为这条未识别序列分配样品编 号。8. 根据权利要求7所述的方法,其特征在于,每条可以匹配到原始index的未识别 index要满足两个条件:1)未识别序列只与唯一一条原始index序列错配数不大于3,反 之,如果某条未识别数据与两条及以上原始index的错配数都不大于3,则认为仍无法确认 该条index的归属;2)在满足1)的基础上,要求匹配到的原始index亦为当次安排上机的 index,反之若匹配到的原始index并非本次上机所安排的,则说明匹配结果不可靠,因而 弃用。9. 根据权利要求6所述的方法,其特征在于,所述从未识别数据中分别将属于每个样 品的数据提取出来是指,经过一次识别,所有未识别测序数据都存放在一个文件中,通过每 个index序列对应样品编号,根据每条测序reads第一行注释信息中的index序列将测序 reads分配给各个样品。10. 权利要求1-9任一所述的方法在高通量基因组测序中的应用。
【专利摘要】本发明提供了一种基于SLAF简化基因组测序数据的二次数据识别方法,优化index组合,使上机测序的两两index序列之间有3个碱基以上的差异;使用全局比对算法结合项目样品的index先验信息对一次识别后的未识别数据进行重新识别,通过构建畸变index数据库对数据进行二次识别,畸变index数据库包含所有以前SLAF测序项目产生的发生测序错误而未识别出index序列和其对应的原始index编号,根据以往积累的数据构建的数据库可用于识别当次的测序数据,不用每次都逐条对未识别index进行全局比对,大大节约时间,在确保识别可靠的基础上,通过增加识别的错配数提高数据的识别效率,减少可用数据损失。
【IPC分类】G06F19/18
【公开号】CN105320848
【申请号】CN201510695476
【发明人】郑洪坤, 刘敏, 张崟雯
【申请人】北京百迈客生物科技有限公司
【公开日】2016年2月10日
【申请日】2015年10月22日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1