DNA自动测序中小概率序列判读错误的人工纠错方法与流程

文档序号:13265075阅读:837来源:国知局
技术领域本发明涉及生物信息处理领域,特别涉及一种DNA序列的自动测序中出现计算机软件判读错误的人工纠错方法,属于生物技术领域。

背景技术:
DNA序列分析首先是序列的测定和测序结果的判读;序列的测定分为手工测序和自动测序两种,目前随着自动测序仪和测序费用的减低,绝大多数试验室越来越多的选择自动测序对DNA进行序列测定,在完成了序列测定后,就是对序列的判读,序列判读这一过程看似简单,但却非常重要,稍有不慎就有可能把序列读错,特别是在有大量的序列需要判读时这种情况就更容易发生,从而影响到整个实验的进程;在序列的判读过程中,一般都以测序电泳图为准,测序图分为两个部分:上面的文字部分和下面的图形部分;一般来说只要图中的峰形较好,上面对应的文字即ATGC的不同排列是不会有错的,但是在特定的情况下也会发生极少部分的差错,这些差错一般是由电脑测序软件在判读或打印时发生的误差所致。

技术实现要素:
本发明的目的是提供一种DNA自动测序中小概率序列判读错误的人工纠错方法,以便能够纠正自动测序结果判读过程中容易出现的几种错误,使获得的DNA序列更加准确和可信。本发明的技术方案是:DNA自动测序中小概率序列判读错误的人工纠错方法,其特征在于:所述方法的流程包括以下步骤:(1)人工图文对比:先人工核对由DNA序列测试仪自动测试的并由电脑测序软件判读和打印的图文DNA序列电泳图,查看图文DNA序列电泳图中的文字部分和峰形图之间的对应关系,如果没有误差,就执行下一步骤;如果有误差就以峰形图为准,然后再执行下一步骤;(2)正向判读序列:对DNA序列测试仪生成的测序报告按正向进行人工判读DNA序列;(3)存储正向判读结果:将上述步骤(2)的DNA序列判读结果存储到计算机中,作为对比文件一;(4)反向读写序列:对DNA序列测试仪生成的测序报告按反向读写DNA序列,并将其结果翻译成反向读写序列的互补序列,存储到计算机中,作为对比文件二;(5)对比正反向结果:将上述步骤(3)的对比文件一和步骤(4)的对比文件二用计算机软件进行比对,看两者的DNA序列判读结果是否有误差;若没有误差,就执行步骤(7);若有误差,就执行下一步骤;(6)人工修正错误:如果正向判读的对比文件一与反向读写序列之互补序列的对比文件二两者之间的DNA序列判读结果有误差,就必须对出错的地方作为重点进行人工核查,对错误进行纠错,直到两者的DNA序列判读结果完全一致;(7)重复两次步骤:重新按照上述步骤(1)至步骤(6)核对DNA序列两次,即一共做三次人工DNA序列核对,看三次的判读结果是否一致,如果一张序列电泳图核对三遍,其DNA序列的判读结果是一致的,基本上就可以认为此时的DNA序列判读结果是正确的,就执行下一步骤;若重复的步骤不足两次,就重新按照上述步骤(1)至步骤(6)核对DNA序列;(8)打印最终结果:打印和生成DNA序列判读的最终结果,作为DNA序列的正式报告。本发明由于采用上述多重纠错方法,其优点是可以避免由计算机测序软件在判读或打印时发生的误差,以便能够获得到准确和可信的DNA序列,这对DNA克隆、基因重组、基因表达和分子进化等分子生物学研究都具有十分重要的意义。附图说明图1为本发明DNA自动测序中小概率序列判读错误的人工纠错方法的基本流程图;图2为实施例判读中发现多出一个碱基A的电泳图;图3为实施例判读中发现多出一个碱基T的电泳图;图4为实施例判读中发现多出一个碱基C的电泳图;图5为实施例判读中发现G变C的电泳图;图6为实施例判读中发现判读不出结果而出现N的电泳图;图7为实施例判读中发现少读一个碱基A的电泳图;图8为实施例判读中发现换行时重复出现碱基A的电泳图。具体实施方式1.参见图1,本发明的DNA自动测序中小概率序列判读错误的人工纠错方法的流程包括以下步骤:(1)人工图文对比:先人工核对由DNA序列测试仪自动测试的并由电脑测序软件判读和打印的图文DNA序列电泳图,查看图文DNA序列电泳图中的文字部分和峰形图之间的对应关系,如果没有误差,就执行下一步骤;如果有误差就以峰形图为准,然后再执行下一步骤;(2)正向判读序列:对DNA序列测试仪生成的测序报告按正向进行人工判读DNA序列;(3)存储正向判读结果:将上述步骤(2)的DNA序列判读结果存储到计算机中,作为对比文件一;(4)反向读写序列:对DNA序列测试仪生成的测序报告按反向读写DNA序列,并将其结果翻译成反向读写序列的互补序列,存储到计算机中,作为对比文件二;(5)对比正反向结果:将上述步骤(3)的对比文件一和步骤(4)的对比文件二用计算机软件进行比对,看两者的DNA序列判读结果是否有误差;若没有误差,就执行步骤(7);若有误差,就执行下一步骤;(6)人工修正错误:如果正向判读的对比文件一与反向读写序列之互补序列的对比文件二两者之间的DNA序列判读结果有误差,就必须对出错的地方作为重点进行人工核查,对错误进行纠错,直到两者的DNA序列判读结果完全一致;(7)重复两次步骤:重新按照上述步骤(1)至步骤(6)核对DNA序列两次,即一共做三次人工DNA序列核对,看三次的判读结果是否一致,如果一张序列电泳图核对三遍,其DNA序列的判读结果是一致的,基本上就可以认为此时的DNA序列判读结果是正确的,就执行下一步骤;若重复的步骤不足两次,就重新按照上述步骤(1)至步骤(6)核对DNA序列;(8)打印最终结果:打印和生成DNA序列判读的最终结果,作为DNA序列的正式报告。2.本发明DNA自动测序中小概率序列判读错误的人工纠错方法的图文DNA序列电泳图的判断例子:(1)参见图2、图3和图4所示,虽然图文DNA序列电泳图的峰形较好,但对应的文字部分分别多出了一个A、T和C,即多出一个碱基,这种情况比较隐蔽,如果注意不够,就很可能判读错误;(2)参见图5,在测序电泳图中,不同的碱基其峰形图和相应的文字分别用不同的颜色表示,一般G用黑色表示;图5中碱基的峰形图是G,但其文字部分却被打印成了C,即峰形图和对应的文字不一致,这种情况发生的概率最小;(3)参见图6,峰形图都非常清晰,但上面的文字部分却打出一个N,即判读不出,这种情况一般在判读时,肯定会引起读序者的注意,只要对峰形再次进行核对并纠正,一般不会影响最终的读序结果;(4)参见图7,这种情况一般发生在峰形不是最高时,这里缺少一个A,少读一个碱基,在文字部分的相应处会出现一个小的空缺,一般在读序时,由于文字排列的疏密不同,会引起判读者的注意,只要仔细地核查,就能补上所缺的碱基;(5)参见图8,这种情况一般发生在测序报告换行时,刚好A的峰形图一半在上行,一半在下行,这时在文字部分就会出现上一行有一个A,下一行也有一个A的情况,即A重复出现,所以在读到行的末端和首端时,要仔细核对峰形图,以避免多出一个碱基。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1