一种识别测序过程中汽泡效应的方法和装置的制造方法

文档序号:9418234阅读:378来源:国知局
一种识别测序过程中汽泡效应的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及基因测序技术领域,尤其涉及一种识别测序过程中汽泡效应的方法和 装置。
【背景技术】
[0002] 在测序仪测序的工作过程中,由于流体动力学的影响,经常会在测序芯片的泳道 (Lane)上产生一些气体汽泡。这些汽泡会影响反应的进行以及荧光信号的产生和传递, 还难以在测序读取周期中被清洗操作清除,所以常导致测序仪在该位点读取的碱基信号错 误。这些错误的碱基信号,会对下游的数据分析产生影响,特别是对于临床医学的应用,会 产生严重的影响。
[0003] 目前还没有任何一个软件或算法等技术,能够识别测序仪测序的工作过程中产生 的汽泡效应。

【发明内容】

[0004] 依据本发明的一方面提供一种识别测序过程中汽泡效应的方法,包括将测序过程 中产生的多条PolyX记录以点的形式可视化地显示在图像上,以上述图像上的上述点所在 的区域表征汽泡区域;其中上述PolyX表示序列中一段连续的相同碱基,上述PolyX记录包 含上述PolyX在测序芯片上的位置信息以用于将上述PolyX记录显示在上述图像上的适当 位置。
[0005] 依据本发明的另一方面提供一种识别测序过程中汽泡效应的装置,包括:数据输 入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括 可执行的程序;处理器,与上述数据输入单元、数据输出单元及存储单元数据连接,用于执 行上述可执行的程序,上述程序的执行包括完成如上述的识别测序过程中汽泡效应的方 法。
[0006] 本发明的识别测序过程中汽泡效应的方法,将PolyX记录以点的形式可视化地显 示在图像上,以点所在的区域表征汽泡区域,从而将测序过程中的汽泡效应可视化的识别 出来,解决了本领域存在的汽泡效应难以识别的问题。
【附图说明】
[0007] 图1为本发明一种实施方式的识别测序过程中汽泡效应的方法的流程图。
[0008] 图2为本发明另一种实施方式的识别测序过程中汽泡效应的方法的流程图。
[0009] 图3为本发明又一种实施方式的识别测序过程中汽泡效应的方法的流程图。
[0010] 图4为本发明一种实施方式的识别测序过程中汽泡效应的装置的框图。
[0011] 图5为本发明一个实施例的识别测序过程中汽泡效应的方法的实验结果图。
【具体实施方式】
[0012] 下面通过【具体实施方式】结合附图对本发明作进一步详细说明。
[0013] 术语释义:
[0014] 序列:一条连续的核酸序列,对于DNA而言,主要由A、T、C、G四种不同的碱基组成, 序列也可能含有一些未知的碱基N ;比如一条序列ATCCGTAGCTCACGGACG。
[0015] PolyX:表示序列中一段连续的相同碱基;一段序列中,如果出现连续多个A,即称 为 PolyA,同理可得 PolyT、PolyC、PolyG、PolyN,X 代表 A、T、C、G、N 中任意一个,即得 PolyX。
[0016] 泳道(Lane):测序芯片上的一条泳道,测序芯片可以有多条Lane,每条Lane之间 是分隔开的。比如Illumina的nextseq 500仪器,总共有4条Lane0
[0017] 表面(Surface):测序芯片的两个表面都可以进行化学反应,即正面和反面。
[0018] Tile :某条Lane中的同一个图像采样位置,通常从1开始编号,比如Illumina的 nextseq 500仪器,每条Lane可以有12个Tile。
[0019] 相机(Camera):用于获取测序中化学反应荧光信号的相机,每次完成拍摄后,下 方的云台可以相对运动,使得下次拍摄的位置可以不同,比如Illumina的nextseq 500仪 器,总共有6个Camera,分布成2行、3列。
[0020] Swath :每条Lane中沿着Lane方向的Tile的列数,即在同一行(与Lane垂直的 方向)里,有多少不同的Tile,比如Illumina的nextseq 500仪器,总共有1-3个Swath0
[0021] 本发明的基本依据是,对于测序过程中测序芯片的泳道上的汽泡范围内的一些 点,由于汽泡的影响,该点的反应不能正常进行,而在起汽泡之前的信号不会被清洗掉,所 以会被一直保留,形成PolyX。汽泡区域的PolyX的密度通常会是其它区域的多倍(如3倍 以上)。因此,通过对PolyX的检测和识别即可实现汽泡效应的识别。
[0022] 本发明的识别测序过程中汽泡效应的方法适合各种测序仪器和/或测序芯片, 只要该测序仪器和/或测序芯片在测序过程中存在汽泡效应且因汽泡效应的存在会导致 PolyX的形成,就能够使用本发明的方法将汽泡效应识别出来。
[0023] 然而,不同的测序仪器和/或测序芯片,基于其原理和特性的差别可能倾向于形 成不同的PolyX。比如,Illumina的nextseq 500仪器在汽泡区域容易形成PolyG和PolyT, 而不是PolyA或PolyC。但是,无论是哪一种PolyX均能用于表征汽泡效应,因此,并不因 PolyX的差异导致本发明的可行性存在问题。
[0024] 如图1所示,依据本发明的一种实施方式,提供一种识别测序过程中汽泡效应的 方法100,包括如下步骤:
[0025] S102 :将测序过程中产生的多条PolyX记录以点的形式可视化地显示在图像上。
[0026] S104 :以图像上的点所在的区域表征汽泡区域。
[0027] 应当理解,一般而言,完成步骤S102,即可自然实现步骤S104。因此,也可以认为 步骤S102和步骤S104在同一步完成。
[0028] 需要说明的是,PolyX表示序列中一段连续的相同碱基,PolyX记录包含PolyX在 测序芯片上的位置信息以用于将PolyX记录显示在图像上的适当位置。也就是说,PolyX记 录在图像上的精确位置的显示依赖于PolyX记录中包含的该PolyX记录在测序芯片上的位 置信息,因为每一个PolyX记录均是从测序芯片上采集的,其中位置信息包括例如PolyX所 在的Lane、Swath、Camera、Tile、Surface的信息等。一般而言,这些位置信息是随同测序 结果包含在PolyX记录中的。基于这些位置信息可以计算出每一个PolyX记录对应于图像 上的坐标(x,y)。
[0029] 本发明可以通过对每一个PolyX记录所对应的图像上的坐标点赋予一个对应的 颜色,实现以点的形式将PolyX记录可视化地显示在图像上。优选的是,针对不同PolyX(如 PolyA、PolyT、PolyC或PolyG)记录,赋予不同的颜色,这样不仅能够可视化地显示汽泡效 应在图像上的区域,而且能够可视化地显示该汽泡效应导致产生怎样的PolyX。此外,各 PolyX记录的连续度(或者长度,即有多少个碱基是连续的)可能不同,连续度能够表征汽 泡效应造成的影响的严重程度,如果连续度较大,意味着汽泡效应造成的影响比较严重;而 如果连续度较小,意味着汽泡效应造成的影响比较轻微。因此,为了更加精确地可视化汽泡 效应造成的影响的严重程度,优选地,通过PolyX记录的连续度,赋予对应的颜色值(或颜 色的亮度)并将其加权到原图上。
[0030] -般而言,本发明的方法是从一个初始化的"空白"图开始进行可视化显示,其中 "空白"图可以是一张全黑的图或者全白的图,本发明优选全黑的图。
[0031] 如果PolyX记录的数量不是太多,可能意味着测序过程中的汽泡效应不是很严 重,在对汽泡效应没有严格要求的情况下,可以不检测其中的汽泡效应。一般而言,在PolyX 记录有20个以上的情况下,才需要通过本发明的方法识别测序过程中汽泡效应。在汽泡效 应严重的情况下,PolyX记录的个数能够达到成千上万个,甚至数以百万计。无论如何,本 发明的方法对于各种程度的汽泡效应的识别都是适用的。
[0032] 通过如上方法100,虽然还没有精确地界定汽泡的界线,但是已经能够定性地显示 出汽泡效应所在的区域。因此,对于只需要大体显示出汽泡效应所在的区域这样的定性要 求,如上方法100已经可以完全实现其目的。
[0033] 然而,为了精确地界定汽泡的界线,如图2所示,依据本发明的一种实施方式,提 供一种识别测序过程中汽泡效应的方法200,包括如下步骤:
[0034] S202 :将测序过程中产生的多条PolyX记录以点的形式可视化地显示在图像上。
[0035] S204 :以图像上的点所在的区域表征汽泡区域。
[0036] S206 :根据PolyX记录中的位置信息,将多条PolyX记录聚集成不同子集。
[0037] 在一个实施例中,上述子集是指测序芯片的泳道上的每个图像采集位置Tile中 的PolyX记录的集合,也就是说以每个Tile中的PolyX记录作为一个单元,分别分析每个 Tile中的PolyX记录的情况,依次表征每个Tile中的汽泡效应的情况。以下步骤S208至 步骤S212均是分别针对每个Tile中的PolyX记录进行处理。
[0038] S208 :对每一子集中的PolyX记录,按照PolyX记录之间的距离进行区域增长,根 据预设距离将PolyX记录分成不同的类。
[0039] 在步骤S208中之所以进行区域增长以将PolyX记录分成不同的类,其依据是距离 较远的PolyX记录可能分别属于不同的汽泡。上述预设距离,可以根据测序使用的具体仪 器和芯片以及具体的测序场景设定,该预设距离可以是一个经验值或者理论值,例如对于 Illumina的nextseq 500仪器可以将上述预设距离设置为每个PolyX记录的周围600、800 或1000个像素的范围内。
[0040] S210 :对每一类中的PolyX记录,统计其圆心和半径以形成一个圆。
[0041] 步骤S210的直接目就是试图精确地界定汽泡的界线。然而,在该步骤中,首次作 出的圆有可能会与Tile的边界相交,在这种情况下,可以通过寻找对应的类中相距最远的 N组(如2、3、4或10组)点对,以重新计算圆心和半径以形成一个圆。当然,该步骤也可以 使用霍夫变换进行计算,但是计算复杂度可能会上升。
[0042] S212 :通过预设标准确定圆表征的汽泡区域的范围。
[0043] 通过步骤S210所作出的圆,在大部分情况下可能能够正确表征汽泡区域的范围, 但是在某些情况下可能不能正确表征汽泡区域的范围,例如在大部分点分布在圆周附近而 圆内部相对缺乏点的情况下,可能意味着这是一个"假圆",不能表征真实的汽泡区域。因 此,需要通过预设标准去除那些"假圆",从而确定圆表征的汽泡区域的范围。这样的预设标 准可能有很多,比如计算类中的PolyX记录的边界矩形的面积与圆的面积的比例,根据预 设阈值比例去除比例小于预设阈值比例的圆,其中预设阈值比
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1