识别核酸中的碱基的方法和系统与流程

文档序号:25591934发布日期:2021-06-22 17:08阅读:721来源:国知局
识别核酸中的碱基的方法和系统与流程

本发明涉及数据处理领域,尤其涉及一种识别核酸中的碱基的方法、一种计算机可读存储介质、一种计算机程序产品和一种系统。



背景技术:

在相关技术中,所称的测序一般指测定生物聚合物,包括测定核酸例如dna和rna等的一级结构或序列,包括测定给定的核酸片段的核苷酸碱基(腺嘌呤a、鸟嘌呤g、胸腺嘧啶t/尿嘧啶u和胞嘧啶c)的次序的过程。该类方法通常包括识别核酸中的一个或多个位置上的碱基即进行碱基识别(basecalling),来测定该核酸的序列。

核苷酸/碱基结合到待测核酸分子(模板)的特定位置对应的信号和/或信号强度的变化可以指示该核酸分子上该位置的碱基类型,例如,可利用标记不同荧光分子来识别不同的碱基。所称的核苷酸/碱基结合到待测核酸分子的特定位置,也称为核苷酸/碱基掺入到待测核酸分子或者碱基延伸,例如可通过聚合、连接和杂交等方式来实现。

具体地,在利用光学成像系统多次对碱基延伸的信号进行图像采集、并基于处理该些图像实现核酸测序的平台上,由于光学效应、空间效应和/或化学反应如色差(chromaticaberration)、串色(crosstalk)和/或相位失相(phasing)等对图像采集、定位和/或信号强度的影响,常使得难以基于图像处理准确地识别碱基。

因此,如何处理包括关联多次不同时间点所采集的图像的信息,以有效且准确地判定该模板的至少一部分的核苷酸/碱基类型和次序,是期望得到解决或改善的问题。



技术实现要素:

本发明实施方式旨在至少一定程度上解决现有技术中存在的技术问题之一或者至少提供一种有用的手段。为此,本发明实施方式提供一种识别核酸中的一个或多个碱基的方法、一种计算机可读存储介质、一种计算机程序产品和一种系统。

本发明实施方式的一种识别核酸中的一个或多个碱基的方法,该方法通过检测获自测序的图像,包括:将对应于模板的亮斑集合中的每个亮斑的坐标映射到待检图像上,确定待检图像上相应坐标的位置;确定待检图像上相应坐标的位置的信号的强度,该强度为矫正后的强度;以及比较待检图像上相应坐标的位置的信号的强度与第一预设值的大小,基于比较结果判断该位置对应的碱基类型,实现碱基识别。

所称的对应于模板的亮斑集合基于一组图像构建获得,所称的一组图像中的每个图像均包含多个亮斑;所称的一组图像和待检图像均来自测序且对应一个相同的视野;所称的一组图像来自至少一轮测序;至少一部分所称的信号在一组图像上表现为至少一部分所称的亮斑。

本发明其它实施方式涉及与上述实施方式中的方法有关的计算机可读介质、计算机产品、计算机程序产品和系统。

例如,本发明实施方式的一种计算机可读存储介质,用于存储供计算机执行的程序,执行该程序包括完成上述任一实施方式中的识别核酸中的碱基的方法。

本发明实施方式的一种计算机产品,包括上述任一实施方式中的计算机可读存储介质。

本发明实施方式的一种系统,包括上述任一实施方式中的计算机产品;和,一个或多个处理器,用于执行存储于所称的计算机可读存储介质中的程序。执行所称的程序包括完成上述任一实施方式中的碱基识别方法。

本发明实施方式的一种计算机程序产品,包括实现识别核酸中的一个或多个碱基的指令,该指令在该计算机执行所称的程序时,使计算机执行上述任一实施方式中的碱基识别方法。

本发明实施方式的一种配置成执行上述任一实施方式中的识别核酸中的碱基的方法的系统。

本发明实施方式的一种系统,包括多个模块,该些模块用于执行上述任一实施方式中的识别核酸中碱基的方法的步骤。

上述本发明任一实施方式的识别核酸中的碱基的方法、产品和/或系统,对待检图像即原始输入数据的类型和格式等没有特别限制,待检图像可来自任何基于光学成像检测实现核酸测序的平台,包括但不限于一般所称的二代和三代测序平台,例如华大基因bgi包括全基因组cg(completegenomics)、伊鲁米纳illumina包括太平洋生物pacbio(pacificbiosciences)、赛默飞世thermofisher包括生命技术lifetechnologies、罗氏roche和海利克斯helicos等机构的一个或多个系列测序平台。

利用本发明任一实施方式的方法、产品和/或系统进行碱基识别,能够快速且准确地识别碱基,实现模板的至少一部分序列的核苷酸/碱基的次序的测定。

本发明实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实施方式的实践了解到。

附图说明

本发明实施方式的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:

图1是本发明实施方式的识别核酸中的一个或多个碱基的方法的流程示意图;

图2是本发明实施方式的四种荧光染料的光谱曲线;

图3是本发明实施方式的5*5矩阵示意图;

图4是本发明实施方式的5*5大小的卷积核示意图;

图5是本发明实施方式的图像进行卷积前和卷积后的对比示意图;

图6是本发明实施方式的一个5*5矩阵的指定方向的多个像素点的像素值呈单调波动示意图;

图7是本发明实施方式的将图像划分成多个块、确定块与块之间的偏移量来对齐一个视野的一轮图像的过程示意图;

图8是本发明实施方式的将两个图像分成100*100大小的块后,至少一部分的相应块组合之间的偏移量示意图;

图9是本发明实施方式的一轮测序的一组图像进行对应于模板的亮斑集合的构建过程示意图;

图10是本发明实施方式的一个视野的四张图像两两之间的crosstalk散点图;

图11是本发明实施方式的a-gcrosstalk散点图,横坐标为a,纵坐标为g;

图12是本发明实施方式的a-t信号强度拟合曲线;

图13是本发明实施方式的a-t信号强度矫正前和矫正后的结果示意图;

图14是本发明实施方式的进行色差矫正后的一个视野的一轮测序的四张图像两两之间的crosstalk示意图;

图15是本发明实施方式的一个视野中的特定碱基的第一轮和第二轮(cycle1和cycle2)的信号串扰示意图,从上到下及从左往右依次为a、c、g和t的phasing散点图;每个phasing散点图中,横坐标为cycle1中该碱基的相对信号强度,纵坐标为cycle2中相同碱基的相对信号强度;

图16是本发明实施方式的一个视野中的特定碱基的第三十轮和第三十一轮(cycle30和cycle31)的信号串扰示意图,从上到下及从左往右依次为a、c、g和t的phasing散点图;每个phasing散点图中,横坐标为cycle30中该碱基的相对信号强度,纵坐标为cycle31中相同碱基的相对信号强度;

图17是本发明实施方式的一个视野中的特定碱基的第六十轮和第六十一轮(cycle60和cycle61)的信号串扰示意图,从上到下及从左往右依次为a、c、g和t的phasing散点图;每个phasing散点图中,横坐标为cycle60中该碱基的相对信号强度,纵坐标为cycle61中相同碱基的相对信号强度;

图18是本发明实施方式的一个视野中的特定碱基的第九十轮和第九十一轮(cycle90和cycle91)的信号串扰示意图,从上到下及从左往右依次为a、c、g和t的phasing散点图;每个phasing散点图中,横坐标为cycle90中该碱基的相对信号强度,纵坐标为cycle91中相同碱基的相对信号强度;

图19是本发明实施方式的四种碱基的phasing比例或prephasing比例与测序轮数的关系示意图,横坐标为测序轮数,纵坐标为prephasing比例;

图20是本发明实施方式的cycle30和31的a的phasing散点图;

图21是本发明实施方式的系统100示意图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

在本发明的实施方式中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量;限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。除非另有说明,“一组”或者“多个”指两个或两个以上。

需要说明的是,除非另有说明,“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通信;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在相应示例中的具体含义。

本发明可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设定之间的关系。

在本发明的实施方式中,所称的“测序”、“核酸测序”和“基因测序”可以互换,指核酸序列测定;包括合成测序(边合成边测序,sbs)和/或连接测序(边连接边测序,sbl),包括dna测序和/或rna测序,包括长片段测序和/或短片段测序,所称的长片段和短片段是相对的,如长于1kb、2kb、5kb或者10kb的核酸分子可称为长片段,短于1kb或者800bp的可称为短片段;包括双末端测序、单末端测序和/或配对末端测序等,所称的双末端测序或者配对末端测序可以指同一核酸分子的不完全重叠的任意两段或两个部分的读出;所称的测序包括使核苷酸(包括核苷酸类似物)结合到模板并采集发出的相应的信号的过程。

测序一般包括多轮测序以实现模板上的多个核苷酸/碱基的次序的测定;“一轮测序”(cycle)也称为“测序轮”,可定义为四种核苷酸/碱基的一次碱基延伸,换句话说,可定义为完成模板上任意一个指定位置的碱基类型的测定,对于基于聚合或连接反应实现测序的测序平台,一轮测序包括实现一次四种核苷酸(包括核苷酸类似物)结合到所称的模板并采集发出的相应的信号的过程;对于基于聚合反应实现测序的平台,反应体系包括反应底物核苷酸、聚合酶和模板,模板上结合有一段序列(测序引物),基于碱基配对原则和聚合反应原理,加入的反应底物核苷酸在聚合酶的催化下,连接到测序引物上实现该核苷酸与模板的特定位置的结合;通常地,一轮测序可包括一次或多次碱基延伸(repeat),例如,四种核苷酸依次加入到反应体系中,分别进行碱基延伸和相应的反应信号的采集,一轮测序包括四次碱基延伸;又例如,四种核苷酸任意组合加入到反应体系中,例如两两组合或者一三组合,两个组合分别进行碱基延伸和相应的反应信号的采集,一轮测序包括两次碱基延伸;再例如,四种核苷酸同时加入到反应体系中进行碱基延伸和反应信号的采集,一轮测序包括一次碱基延伸。

所称的图像上的“亮斑”(spots或者peaks),也称为“亮点”或“光点”,指图像上的信号相对强的位置,例如该位置的信号较周围的强,在图像上表现为相对亮的一个斑或点,一个亮斑或一个所称的位置占有一个或多个像素。亮斑/该位置的信号可能来自目标分子,也可能来自非目标物质。对“亮斑”的检测包括对目标分子如延伸碱基或碱基簇的光学信号的检测。

所称的“色差”(chromaticaberration,ca)是指光学上透镜无法将各种波长的色光都聚焦在同一点上的现象[maxborn;emilwolf.principlesofoptics:electromagnetictheoryofpropagation,interferenceanddiffractionoflight(7thedition).cambridgeuniversitypress.october13,1999:334.isbn0521642221.];在成像上,色差表现为光谱上的每一种颜色无法聚焦在光轴上的同一点,对于涉及利用多个波长的色光对同一物体(例如一个或多个核酸分子)进行成像的测序平台,至少地,色差会使得在不同波长下采集得的一个物体的多个像中,该物体具有不同的位置/坐标,或者说,该物体没有发生实际的移动,但由于色差会使得它在不同波长下的多个图像中看上去是移动的。

所称的“串色”(crosstalk或laser-crosstalk或spectra-crosstalk),也称为“光谱串色”或“光谱交叉”,指对应一种碱基的信号扩散到另一种碱基的信号中的现象;对于利用标记不同的荧光分子来识别不同的碱基的测序平台,如果选择的两种或两种以上的荧光分子的发射光谱有重叠,可能检测到一轮测序中一种荧光分子的信号扩散到另一种荧光通道的情况。

所称的“相位失相”、“相位失衡”、“失相”、“相位差异”,指化学反应中,一个群体比如一个核酸分子簇中的核酸分子之间的反应不同步的现象,包括落后/滞后(phasing或sequencelag)和提前/超前(prephasing或sequencelead);在利用标记不同的荧光分子来识别不同的碱基的测序平台中,表现为特定位置的碱基对应的荧光分子在超过一轮测序中的信号不为零的现象。一般地,利用带有荧光分子标记和阻断基团的核苷酸进行测序,核苷酸上的阻断基团可以阻止其它核苷酸结合到该模板的下一个位置,阻断基团例如为连接在该核苷酸的糖基的3'位的叠氮,阻断基团的脱落或者未能在下一碱基延伸之前被去除,均会造成相位失相。

在本发明的实施方式中,图像来自基于光学成像检测芯片实现核酸测序的平台,所称的平台包括但不限于来自bgi/cg(completegenomics)、illumina/solexa、thermofisher/lifetechnologies/abisolid和roche454等公司或机构的一个或多个系列的测序平台。

在一些平台中,固相支持物例如芯片上固定有多段序列(探针或者测序引物),模板(待测核酸分子)通过与探针结合例如通过杂交连接到该芯片上,可选地,在芯片上对模板进行扩增,接着将承载有模板的芯片载入测序设备中,该测序设备包括成像系统和液路系统,通过控制液路系统通入分别包含聚合酶和核苷酸的溶液至芯片,在合适的条件下进行可控的聚合酶链式反应,例如通入的核苷酸溶液包含的核苷酸包括修饰的核苷酸,该修饰的核苷酸带有阻断基团和荧光分子,根据碱基互补原则,在聚合酶的催化下该修饰的核苷酸结合到某个模板的特定位置上,其上的阻断基团能够阻止其它核苷酸(包括修饰的核苷酸)结合到该模板的下一个位置;进而,利用成像系统激发荧光分子使荧光分子发出荧光信号,以及采集该些荧光信号例如对芯片上的反应区域进行拍照,获得图像;最后,通过控制液路系统通入切割试剂,以去除结合到模板上的修饰的核苷酸的阻断基团和荧光分子;至此,完成一次碱基延伸,再次通入分别包含聚合酶和核苷酸的溶液至芯片,重复上述碱基反应。基于该些拍得的图像和各次拍照的时间顺序和/或加入的碱基类型,确定每次模板的特定位置结合的核苷酸/碱基的类型,亦即确定模板的该些特定位置的核苷酸/碱基。

基于生化反应的各个步骤的反应效率达不到百分之一百,例如即使在信号采集之前,对未结合到模板的修饰的核苷酸进行清除,例如利用不影响碱基延伸的缓冲液对芯片上的反应区域进行清洗,可以理解地,采集得的图像上的表现为亮斑的位置,除了可能对应结合到模板的修饰的核苷酸,也可能对应未结合到模板但未能除去的修饰的核苷酸或荧光分子,还可能对应芯片上的检测区域存在其它非目标物质发出的信号。

在本发明的一个实施例中,图像来自二代测序平台,例如illuminahiseq/miseq系列和bgimgiseq系列,输入的原始数据为采集得的信号的位置和强度等相关参数包括图像的像素相关信息,对图像上所称的“亮斑”的检测包括对对应于核酸分子簇的光学信号的检测。

请参阅图1,本发明实施方式的一种识别核酸中的一个或多个碱基的方法,该方法通过检测获自测序的图像,包括:s11将对应于模板的亮斑集合中的每个亮斑的坐标映射到待检图像上,确定待检图像上相应坐标的位置;s21确定所述待检图像上相应坐标的位置的信号的强度,所述强度为矫正后的强度;以及s31比较所述待检图像上相应坐标的位置的信号的强度与第一预设值的大小,基于比较结果判断该位置对应的碱基类型,实现碱基识别。

所称的对应于模板的亮斑集合基于一组图像构建获得,一组图像中的每个图像均包含多个亮斑;该一组图像和待检图像均来自测序且对应一个相同的视野(fieldofview,fov),所称的一组图像来自至少一轮测序,至少一部分所称的信号在该一组图像上表现为至少一部分所称的亮斑。

该方法能够快速且准确地识别碱基,进而快速且准确地测定模板的至少一部分序列的核苷酸/碱基的次序。

具体地,s11中,所称的对应于模板的亮斑集合包括与模板对应的多个亮斑,包含各个亮斑的强度和坐标信息。

所称的坐标映射是通过原图像如对应于模板的亮斑集合与目标图像如待检图像之间建立一种映射关系,这里的映射关系包括确定原图像的任意亮斑在映射后图像的坐标位置。

本实施方式对坐标的确定方法和实现坐标映射的方法均不作限制。对于坐标映射,例如,可通过opencv的remap函数实现。而对于亮斑的坐标的确定,通常地,图像上的一个亮斑占有一个或多个像素,可以以某个像素的坐标作为该亮斑的坐标,或者利用诸如二次函数插值法等确定该亮斑的亚像素中心坐标作为该亮斑的坐标。

具体地,在一些实施例中,输入的待检图像可为512*512或2048*2048的16位tiff格式的图像,tiff格式的图像可为灰度图像。对于灰度图像,像素值同灰度值。输入的图像也可以是彩色图像,彩色图像的一个像素点具有三个像素值,可以将彩色图像转化为灰度图像,再进行后续处理检测,以降低图像处理过程的计算量和复杂度。可选择但不限于利用浮点算法、整数方法、移位方法或平均值法等将非灰度图像转换成灰度图像。

所称的对应于模板的亮斑集合可以在进行该碱基识别时构建,也可以预先构建保存。这里,利用采集自至少一轮测序的一组图像,预先构建对应于模板的亮斑集合,保存备用。

在一些示例中,四种核苷酸带有不同的标记,在进行测序时,该些不同的标记被激发发出不同颜色的信号,不同的信号对应不同类型的核苷酸/碱基。所称的对应于模板的亮斑集合包括四个分别对应于四种核苷酸的亮斑集合。

在一个示例中,利用来自一轮测序的一组图像进行对应于模板的亮斑集合的构建,包括:顺序或者同时加入四种核苷酸至反应体系中进行一轮测序,获得所称的一组图像,该一组图像包括第一图像、第二图像、第三图像和第四图像,第一图像、第二图像、第三图像和第四图像分别采集自四种核苷酸反应时发出的信号,所称的反应体系包括模板和聚合酶;分别对第一图像、第二图像、第三图像和第四图像进行亮斑检测,确定各个图像的亮斑,包括确定亮斑的坐标;对齐该一组图像,以使该一组图像的亮斑处于一个相同的坐标系中;合并对齐后的一组图像上的亮斑,获得一级亮斑集合;依据所称的一级亮斑集合,建立分别对应于四种核苷酸的亮斑集合,即建立四种核苷酸/碱基的模板。

构建对应于模板的亮斑集合时,对该一组图像进行亮斑检测和对齐该一组图像,没有顺序限制。进行该一组图像的对齐可以利用该一组图像上的亮斑,也可以不利用该一组图像上的亮斑,例如在检测区域的特定位置作一些标记,依据各图像的该些标记的信息来对齐这组图像。

所称的一轮测序可以包括四次碱基延伸,例如四种核苷酸依次加入到反应体系中分别独立地完成碱基延伸包括相应反应信号的采集,也可以包括两次碱基延伸,例如四种核苷酸两两组合,各组合中的核苷酸同时进入反应体系中进行碱基延伸,还可以只包括一次碱基延伸,例如四种核苷酸同时在反应体系中进行碱基延伸。

在一个示例中,同时加入四种核苷酸至所称的应体系中,利用成像系统采集相应的反应信号以获得一组图像和/或待测图像,所称的成像系统包括第一激光、第二激光、第一相机和第二相机。

进一步地,所称的模板为dna,四种核苷酸分别带有第一标记、第二标记、第三标记和第四标记,例如,四种发射光谱不同或者说不完全重叠的荧光分子;在一轮测序中,利用第一激光激发核苷酸,四种核苷酸中的两种分别发出第一信号和第二信号,第一相机和第二相机同步作业以分别采集该第一信号和第二信号,获得第一图像和第二图像,以及,利用第二激光激发核苷酸,四种核苷酸中的另外两种核苷酸分别发出第三信号和第四信号,第一相机和第二相机同步作业以分别采集该第三信号和所述第四信号,获得第三图像和第四图像。所称的第一激光和第二激光可以来自两个能够发射不同波长的激光器,也可以来自一个能够发射多种波长的激光器。

具体地,例如,四种脱氧核糖核苷酸datp(有时简示为a)、dttp(有时简示为t)、dgtp(有时简示为g)和dctp(有时简示为c)分别带有atto-532、rox、cy5和if700四种荧光染料,该四种荧光染料的光谱曲线如图2所示,从左到右的虚线曲线分别为atto-532、rox、cy5和if700的吸收光谱,各吸收光谱峰值波长分别为531nm、577nm、651nm和692nm,从左到右的实线曲线分别为atto-532、rox、cy5和if700的辐射光谱/发射光谱,各辐射光谱峰值波长分别为551nm、602nm、670nm和712nm。在成像系统的光路结构设计时,考虑到染料的激发效率,采用至少两种波长的激光对该四种染料进行两两分时激发,并由两个相机通过分光二向色镜及双带通滤片进行分时荧光信号采集;换句话说,第一激光和第二激光可异步作业,第一相机和第二相机可同步作业,如此,可高效地实现四种染料的激发和相应信号的采集。

对图像上亮斑的识别和检测,为能检测出来自目标分子的信号。本发明的该实施方式对亮斑的检测方式不作限制,例如可参照cn107918931a披露的方法进行。

在一些实施例中,检测亮斑包括利用k1*k2矩阵对该一组图像中的各个图像进行检测,包括:判定中心强度与边缘强度的关系mids满足第一预设条件的矩阵对应一个所称的亮斑,中心强度反映该矩阵的中心区域的强度,边缘强度反映该矩阵的边缘区域的强度,一个中心区域和一个边缘区域形成所称的k1*k2矩阵,k1和k2均为大于1的自然数,k1*k2矩阵包含k1*k2个像素。

k1和k2的取值与模板分子在固相基质上的密度和分布以及成像分辨率有关,一般期望k1*k2矩阵不小于一个目标亮斑的大小,所称的目标亮斑对应目标信号或者对应目标分子/分子簇;较佳地,一般也期望k1*k2矩阵小于图像上两个独立的亮斑所占的大小。

k1*k2矩阵,k1和k2可以相等也可以不相等。一般地,k1和k2的取值范围均为大于1且小于10。

在一个示例中,成像系统相关参数为:物镜60倍,电子传感器的尺寸为6.5μm,经过显微镜成的像再经过电子传感器,能看到的最小尺寸(分辨率)约为0.1μm,获得的图像或者输入的图像可为512*512、1024*1024或2048*2048的16位的灰度或彩色图像,一个目标亮斑对应单个分子,对应的尺寸通常小于10nm,所称的单个分子包括一个或少数几个分子/核酸片段,一般少于10个分子,例如1、2、3、4或5个分子,一个目标亮斑在该图像上大概占3*3像素。

在另一个示例中,成像系统相关参数为:物镜20倍,经过显微镜成的像再经过电子传感器,分辨率约为0.3μm,获得的图像或者输入的图像可为512*512、1024*1024、2048*2048或2560*2048的灰度或彩色图像,一个目标亮斑对应一个分子簇,一个目标亮斑在该图像上大概占5*5像素。

k1和k2可以为奇数也可以为偶数,在一些实施例中,k1和k2均为奇数。如此,便于矩阵的中心区域和边缘区域的设定以及便于后续计算。

在一个示例中,k1=k2=3。

所称的中心区域和边缘区域是相对的定义,例如,可以以矩阵的中心像素或中心亚像素为中心的一定大小的区域为中心区域,其它区域则构成该矩阵的边缘区域。

所称的强度,或者信号的强度,包括这里的中心强度和边缘强度,反映在图像上,一般与像素的大小相关,例如为一个或多个像素的像素值、多像素值的平均值或中位数、多个像素值之和或者为与像素大小呈正相关的关系。

在一些示例中,所称的第一预设条件为mids≥s1,mids=midint-sumints(1:n)/n,midint表示所称的中心强度,sumints(1:n)/n表示所称的边缘强度,sumints(1:n)表示边缘区域的第1至第n个像素的像素值之和,n为不小于4的自然数,s1为[2,4]中的任意值。该第一预设条件是发明人通过大量图像数据训练总结获得,适合来自各种测序平台的不同信号强度、亮斑密度和分布的图像的亮斑检测。

具体地,k1和k2均为大于3的奇数,所称的中心区域为以该矩阵的中心像素为中心的3*3区域。在一个示例中,请参阅图3,k1=k2=5,图3示意一个5*5矩阵,中心区域为以该图中标记着mids的像素为中心的3*3区域,以该中心区域的任意一个像素的像素值为该中心区域的强度(中心强度),例如以该图中中标记着mids所在的像素的像素值为中心强度,n取12,如图上标记着1-12的像素点,s1取2。如此,能够快速且有效地检测出对应于目标分子的亮斑,利于对应于模板的亮斑集合的构建,利于后续碱基的准确识别。

在另一些实施例中,亮斑检测包括:分别对该一组图像中的各个图像进行卷积,获得卷积后的图像;寻找卷积后的图像中所有的在k3*k4区域内包含峰值的像素,k3和k4均为大于1的自然数,k3*k4区域包含k3*k4个卷积后的图像的像素;以及,判定满足第二预设条件的以峰值像素为中心的k5*k6区域对应一个所称的亮斑,第二预设条件为k5*k6区域的峰值像素的像素不小于s2,k5和k6均为大于1的自然数,s2可通过该卷积后的图像的像素进行确定。

利用卷积核对图像进行卷积,卷积核也称为卷积模板、滤波器、滤波模板或者扫描窗,该实施方式对实现卷积的方式不作限定,例如,设定卷积核后,利用matlab中的相关函数进行。对图像进行卷积,一般包括的计算过程为可选地卷积模板翻转,然后在原图像上滑动该卷积模板,把对应位置上的元素相乘后加起来,得到最终的结果。例如,一般所称的滤波,可利用高斯模板来实现。

在一些示例中,目标分子是核酸分子簇,例如为一个核酸分子经过扩增如链置换扩增或者桥式扩增后形成的核酸分子簇,图像采集利用的成像系统的分辨率约为0.3μm,设置k3=k4=k5=k6=5;进一步地,发明人在研究了大量这样的目标分子在图像上的形态和/或强度变化的规律后,设置了一个5*5大小的卷积核来进行该卷积,该5*5大小的卷积核如图4所示,图4所示的卷积核上的标记显示该标记所在的像素相对于中心像素的坐标/位置,横向表示为x,纵向表示为y,单位为像素,利用这样一个5*5大小的卷积核对图像进行卷积运算,包括利用该卷积核对图像中的每个像素进行重新赋值。如此,能够增强图像中的5*5区域的中心像素和边缘像素(例如最外围像素)的差异。

具体地,在一个示例中,发明人通过大量训练数据,设置使图4所示的卷积核上的不带坐标标记的位置/像素的强度值/像素值为0,通过该卷积核进行以下设定的卷积运算后,图像中的像素例如坐标为(x,y)的像素的强度/像素值ints(x,y)变为newints(x,y),newints(x,y)=(12*ints(x,y)–edge8ints(x,y,2))*200/(ints(x,y)+edge8ints(x,y,2)),

ints(x,y)代表卷积前坐标为(x,y)的像素/位置的像素值/强度值;为利于快速运算可进一步设定newints(x,y)的范围为[0,255],newints(x,y)小于0的则赋值为0、大于255则赋值为255;

edge8ints(x,y,2)表示中心坐标(x,y)的8个方向(8邻域)的、与该中心坐标的(x,y)距离不小于2个像素的12个像素的像素值/强度值之和,该示例中,所称的与该中心坐标的(x,y)距离不小于2个像素的12个像素,如图4上显示的带坐标标记所在的像素,edge8ints(x,y,2)可表示为edge8ints(x,y,2)=(ints(x-2,y-1)+ints(x-2,y)+ints(x-2,y+1)+ints(x+2,y-1)+ints(x+2,y)+ints(x+2,y+1)+ints(x-1,y-2)+ints(x,y-2)+ints(x+1,y-2)+ints(x-1,y+2)+ints(x,y+2)+ints(x+1,y+2)),这里的ints(x-2,y-1)、ints(x-2,y)、ints(x-2,y+1)、ints(x+2,y-1)、ints(x+2,y)、ints(x+2,y+1)、ints(x-1,y-2)、ints(x,y-2)、ints(x+1,y-2)、ints(x-1,y+2)、ints(x,y+2)和ints(x+1,y+2)分别代表坐标为(x-2,y-1)、(x-2,y)、(x-2,y+1)、(x+2,y-1)、(x+2,y)、(x+2,y+1)、(x-1,y-2)、(x,y-2)、(x+1,y-2)、(x-1,y+2)、(x,y+2)和(x+1,y+2)的位置/像素卷积前的强度值/像素值。

进行该卷积前,可选择的,对图像进行高斯滤波;对获得的高斯滤波后的图像再进行上述卷积运算。

图5显示利用上述方式对图像进行卷积前和卷积后的对比图,上图为卷积前,下图为卷积后,图中的方框示意卷积前和卷积后的图中的一个相同区域上信号强度和/或形态的变化。

可以理解地,根据需要,例如目标分子在图像上的形态和/或强度变化具有不同的特征,可以调整上述卷积核的大小、卷积核中的数值以及调整例如edge8ints(x,y,n)中n的大小,对于调整该n,一般地,若已知理想亮斑的大小为m*m,可调整使n=m/2且向下取整。

对于k3和k4或者k5和k6的设置,类似地,k3和k4或者k5和k6的取值与模板分子在固相基质上的密度和分布以及成像分辨率有关,一般期望k3*k4或者k5*k6不小于一个目标亮斑的大小,所称的目标亮斑对应目标信号或者对应目标分子/分子簇;较佳地,一般也期望k3*k4或者k5*k6小于图像上两个独立的亮斑所占的大小。

k3和k4,或者k5和k6可以相等也可以不相等。一般地,k3、k4、k5和k6的取值范围均为大于1且小于10。

在一些实施例中,k3等于k4,和/或,k5等于k6。

在一些实施例中,k3和k4均为大于1的奇数,和/或k5和k6均为大于1的奇数。进一步地,对于一个目标亮斑对应一个分子簇的平台,例如一个模板经过扩增形成一个分子簇,该分子簇固定在微球上或者芯片表面上,通常地,该一个分子簇的大小为数百纳米,在20倍放大的成像光路下,k3和k4均可取为大于3的奇数,和/或k5和k6均可取为大于3的奇数。如此,便于计算,利于对应于模板的亮斑集合的构建,也利于后续碱基的准确识别。

s2与变换后的图像的像素相关,例如,s2可通过该变换后的图像的所有像素进行确定。在一些实施例中,s2不小于卷积后的图像的所有像素按像素值升序排序的中位数,和/或不大于该变换后的图像的所有像素按像素值升序排序的第八十分位数。在一个示例中,将输入的图像转化成256色图(16位图),s2可设置为19-25中的任意值。如此,能有效地进行亮斑的检测。

在一个示例中,对原图进行高斯滤波后进行上述卷积运算,获得卷积后的图;找出该卷积后的图上的所有具备峰值的点(亮斑),并且保证峰值大于特定值,例如设定特定值为19-25中的任意值,一般地,峰值越大表示这个点越亮、形态越好,具体地,该变换图上的每个像素都具有一个mids,凸起的位置对应的mids的数值是较高的,此处设置25为过滤阈值,大于25以上的该位置,可认为此处是一个凸起的点;进一步地,对所有符合上述条件的点,在原图上使用3*3区域重心法确定其亚像素坐标。

在一些实施例中,在利用上述任一示例的方法检测图像上的亮斑之后,还包括基于原始图像上该亮斑所在区域的强度对检测出的亮斑进行筛选。如此,去除相对较暗或者特别亮的亮斑或者说去除很可能不是或不单纯是来自于目标分子的信号,利于减少计算量,利于提高高质量下机数据的比例。

在又一些实施例中,所称的亮斑检测包括利用k7*k8矩阵对所称的一组图像中的各个图像进行检测,包括:判定指定方向的多个像素为单调波动的k7*k8矩阵对应一个候选亮斑;利用相应k7*k8矩阵中的至少一部分区域的像素对该候选亮斑进行筛选,以确定所称的亮斑,k7和k8均为大于1的自然数,k7*k8矩阵包含k7*k8个像素。

类似地,k7和k8或取值一般与模板分子在固相基质上的密度和分布以及成像分辨率有关,一般期望k7*k8不小于一个目标亮斑的大小,所称的目标亮斑对应目标信号或者对应目标分子/分子簇;较佳地,一般也期望k7*k8小于图像上两个独立的亮斑所占的大小。

在一些示例中,k7等于k8,和/或k7和k8均为大于1的奇数。如此,便于计算,便于对应于模板的亮斑集合的构建,也便于后续碱基识别的进行。

所称的指定方向可以是经过k7*k8矩阵中心例如中心像素像素或亚像素的任意方向;所称的单调波动指指定方向上的多个像素的像素值围绕着k7*k8矩阵的中心无波动、呈对称波动或者呈近似对称波动。

在一个示例中,请参阅图6,图6显示一个5*5矩阵的指定方向的多个像素点的像素值呈单调波动,一个具体的指定方向可以为任一箭头所示的方向,a0、a1、a2和a3示意所在像素点的像素值,该矩阵对应一个候选亮斑。

所称的利用相应k7*k8矩阵中的至少一部分区域的像素对该候选亮斑进行筛选,能够进一步去除相对较暗或者特别亮的亮斑或者说去除很可能不是或不单纯是来自于目标分子的信号,利于减少计算量,利于提高高质量下机数据的比例。

例如,以对应候选亮斑的k7*k8矩阵中的全部像素、任意一行或一列的像素的平均值或者高频值作为背景,比较候选亮斑的中心的强度和该背景的大小,对该候选亮斑进行筛选,例如设置筛选条件为候选亮斑的中心的强度不小于3倍的背景,满足该条件的候选亮斑为所称的亮斑。如此,能够提高下机数据中高质量数据的比例。

在一些示例中,亮斑检测还包括利用重心法确定检测出的亮斑的亚像素坐标。如此,获得亮斑的坐标信息。

基于光路系统实现成像的系统,一般不可避免的存在色差,色差一般会使得一个静止的信号在不同时间点采集的多个像中具有不同的位置;另外,若使用的测序平台是基于成像系统和芯片的相对运动,对芯片上的一个视野进行多次图像采集,不同轮测序的同一视野的图像采集涉及相关结构的机械运动,一般也会造成同一视野在不同时间点采集的图像中具有不同的位置。对齐所称的一组图像至少可以至少一定程度地纠正由于上述原因造成的位置偏差。

在一些实施例中,对齐该一组图像,包括以该一组图像中的任一图像比如以第一图像的坐标系为基准,分别对第二图像、第三图像和第四图像的坐标系进行转换,以使该一组图像的坐标系相同。

本发明该实施方式对转换坐标系的方法不作限制,例如,可利用matlab相关函数进行。

具体地,一轮测序中,一个视野的四张图像来自两个相机的四个波段,尽管已尽量进行光学调整,该四张图像之间仍存在像素偏移(色差),一般地,光学设置不变,可认为相应的色差造成的偏移是固定的;假如该一组图像来自第一轮测序(cycle1)或者前几轮测序,在cycle1或者前几轮测序中,一般对应四种碱基的四种信号的指定两种之间没有发生串扰或者串扰不明显,例如,atgc分别带有atto-532、rox、cy5和if700四种荧光染料,在前几轮测序中的任一轮测序中,于某个一个时间点,同时地第一相机拍a、第二相机拍g,于另一时间点,同时地第一相机拍t、第二相机拍c,从该轮采集得的图像/信号来看,a和t信号或者g和c信号通常会存在串扰,但c和t或者a和g的信号不存在串扰或者串扰不明显,所称的c和t的信号不存在串扰或者串扰不明显,表现为某个位置采集有c信号时采集不到t信号(c亮的t不亮),因而,在某次测序中,一般难以用该测序的前几轮中的一轮图像来确定该固定的偏移量。

因此,在一些示例中,对齐所称的一组图像,包括利用来自第m轮测序的图像进行。m例如大于20、30或者50。一轮测序一般能确定模板上的一个位置的碱基类型,测序进行到第m轮(cyclem)时,例如第20、50、80、100或150轮,由于荧光染料发射光谱部分重叠引起的串色和/或由于化学反应不同步引起的相位失衡,由于累积或叠加等一般已比较明显,表现为四种碱基的信号两两之间均存在串扰,可以利用该第m轮采集得的图像进行偏移量的确定,进而对齐该一组图像。

在一些示例中,第m轮测序的图像包括第五图像、第六图像、第七图像和第八图像,所称的第五图像、第六图像、第七图像和第八图像分别与该一组图像中的第一图像、第二图像、第三图像和第四图像对应相同种核苷酸。

在一个示例中,构建对应于模板的亮斑集合的一组图像也来自该第m轮,所称的第五图像、第六图像、第七图像和第八图像分别同该一组图像中的第一图像、第二图像、第三图像和第四图像。

在一个示例中,所称的一组图像来自cycle1,利用相同视野的第100轮(cycle100)的图像来确定该偏移量,以对齐该一组图像。具体地,例如以第五图像的坐标系为基准,分别对第六图像、第七图像和第八图像的坐标系进行转换,可包括:以相同方式分别将第五图像和第六图像划分成一组大小为k9*k10的块,k9和k10均为大于30的自然数,k9*k10包含k9*k10个像素;分别确定第六图像的每个块相对于第五图像的相应块的偏移量;基于该偏移量,对齐第二图像和第一图像。类似地,对齐第三图像和第一图像、第四图像和第一图像,以快速且准确地实现该一组图像的对齐。

k9和k10可以相等也可以不相等。k9和k10的取值受限于检测区域上目标分子/分子簇的分布、密度和成像分辨率,期望一个k9*k10的块上存在的亮斑的数目具有统计意义,例如大于30、50、100或500。

假设色差造成的一轮测序的特定视野的多个图像的偏移量是固定的,可以理解地,只要该视野的一轮测序的图像的两两之间均存在信号串扰,不论该些串扰的信号在图像上的形态,该轮测序的图像就可以用来确定所称的固定的偏移量,进而对齐构建对应于模板的亮斑集合的一组图像。在一些情况中,可以在不同检测区域例如不同芯片或者同一个检测区域上设置横纵上规律分布的网格信号作为特征信息(信源),这些特征信息在不同通道或波段上都能够成像,即在采集哪种碱基信号时都能采集到,利用该些特征信息包括其分布规律容易对齐各图像。在把图像划分成多个块之后,通过对齐该些特征信息,可确定一组组相应块的偏移量。

将图像划分成块,相邻块之间可以重叠,也可以不重叠。在一个示例中,相邻块不重叠且相邻块之间有一条公共的边或顶点。

图7示意一个实施例中的将图像划分成多个块、确定块与块之间的偏移量来对齐一个视野的一轮图像的过程,图上的黑色方块表示一个所称的块,具体地,以对应碱基g的图像(简称g图)上的一个块的坐标系为基准/参考,分别确定a图、c图和t图上的相应块相对于g图的该块的偏移量。

测试中发现,相应的块与块之间的偏移量不是固定的,即位于图像上不同位置的两个组合块的偏移量是不相同的,例如,位于两个图像的中心区域的两个块的偏移量为5像素(pixels),位于两个图像的边缘区域的两个块的偏移量为10pixels;而且,相邻的块组合的偏移量的差异较小。例如,对于4112*2176的图像,长边4112的偏移量为4-5个pixels,短边2176的偏移量大概为2-3个pixels。在一个示例中,k9=k10=100,一般地,可认为在100*100大小的一个块内部,偏移量是恒定的,图8示意将两个图像分成100*100大小的块后,至少一部分的相应块组合之间的偏移量,图8示意的偏移量表格可以表示两张图之间的坐标系关系。

在一些实施例中,所称的合并对齐后的一组图像上的亮斑,包括将预设范围k11*k12内的多个亮斑合并为一个亮斑,k11和k12均为大于1的自然数,k11*k12包含k11*k12个像素。

一般地,设置k11*k12不大于两个分离的目标亮斑的大小,较佳地,设置k11*k12不大于一个目标亮斑的大小。

在某个成像系统中,例如,电子传感器的尺寸为6.5μm,显微镜放大倍率60倍,分辨率为0.1μm,对应于目标分子包括分子簇的一个亮斑的大小一般小于10*10或者5*5。可设置k11=k12=3,即设置所称的预设范围为3*3来进行亮斑合并,如此,能准确的构建得对应于模板的亮斑集合。

具体地,对预设范围内的亮斑进行合并时,可以先设置一个空白集合/空白图/空白模板(templatevec),然后依次将第一图像、第二图像、第三图像或第四图像(简称为a图、c图、g图和t图)上的亮斑标注到该空白图上,在标注某个亮斑时,若发现它的临近位置(预设范围内)已有一个亮斑,可根据这两亮斑的强度做权重,来确定这合并这两个亮斑后的新亮斑的位置,例如,亮斑1的强度是350、坐标是(3.0,5.0),亮斑2的强度是150、坐标是(4.0,7.0),将这两个亮斑标注为一个新亮斑,新亮斑的强度为290、坐标为(3.3,5.6)。如此,实现该一组图像上的符合预设条件的亮斑的合并,便于获得对应于模板的亮斑集合。

请参阅图9,图9示意一个实施例中的利用来自一轮测序的一组图像进行对应于模板的亮斑集合的构建过程,包括对一组图像中的a图、c图、g图和t图上的亮斑进行检测识别,获得各图像的亮斑集,以g图的坐标系为参考坐标系,对齐该一组图像包括合并各图的亮斑集,获得一级亮斑集合,再经过坐标系转换,将一级亮斑集合的坐标系转换成a图、c图、g图和t图原本的坐标系,获得对应于四种核苷酸/碱基的亮斑集,即获得四种核苷酸/碱基的模板。

在该实施方式中,s21中的强度为矫正后的强度。在一些实施例中,矫正强度包括串色矫正和/或相位矫正。

具体地,在对待检图像上的相应坐标位置的强度进行矫正之前,使待检图像对齐于所称的对应于模板的亮斑集合。如此,利于后续步骤的进行。

在一个示例中,atgc分别带有atto-532、rox、cy5和if700四种荧光染料,在测序中,利用两种波段的激光分别激发该四种荧光染料,每次激发后利用两个相机同时采集荧光信号;图10显示依据该示例,第50轮测序中的一个视野的四张图像两两之间的crosstalk图,从上到下、从左到右依次为碱基a-ccrosstalk散点图(横坐标是a信号的相对强度、纵坐标是c信号的相对强度)、碱基a-gcrosstalk散点图(横坐标是a信号的相对强度、纵坐标是g信号的相对强度)、碱基a-tcrosstalk散点图(横坐标是a信号的相对强度、纵坐标是t信号的相对强度)、碱基c-gcrosstalk散点图(横坐标是c信号的相对强度、纵坐标是g信号的相对强度)、碱基c-tcrosstalk散点图(横坐标是c信号的相对强度、纵坐标是t信号的相对强度)和碱基g-tcrosstalk散点图(横坐标是g信号的相对强度、纵坐标是t信号的相对强度),各散点图上的一个点表示所称的待检图像上相应坐标的一个位置;从各crosstalk散点图的两个臂和图上的点的弥散情况可以看出,a信号(a图)受到t信号的串扰较明显,c信号(c图)受到g信号的串扰较明显,表现为多个a图上的相应坐标的位置具有较明显的t信号,多个c图上的相应坐标的位置存在较明显的g信号。

在一些示例中,对强度的矫正包括串色(crosstalk)矫正,基于来自相同一轮测序、相同视野且对应不同种类核苷酸/碱基的图像的至少之一进行该串色矫正。

矫正crosstalk,利于碱基的准确识别。在一些示例中,图像xi和待检图像来自相同一轮测序,图像xi和待检图像对应相同的视野,待检图像受到图像xi对应的核苷酸的信号的串扰,对待检图像进行串色矫正,包括:对待检图像的特定区域内的多个相应坐标的位置的信号进行拟合,获得拟合结果;以及,基于该拟合结果矫正该待检图像上的相应坐标的位置的信号。如此,能够消除待检图像上的来自对应于图像xi的碱基的信号串扰,使待检图像中的信号尽量都只对应一种碱基,利于碱基的准确识别,利于准确地测定出核苷酸的序列。

如无例外说明,以“ac矫正”或“a->c”或“a-c”表示矫正c图的相应坐标的位置上受到的a信号串扰(即矫正a信号对c信号的串扰);类似地,“ta矫正”或“t->a”表示矫正a图上的相应坐标的位置受到的t信号的串扰(即矫正t信号对a信号的串扰),“cg矫正”或“c->g”表示矫正g图上的相应坐标的位置受到的c信号的串扰(即矫正c信号对g信号的串扰)等等。

四维数据两两进行矫正,有12种情况,矫正过程可表示为其中的为crosstalk矫正系数矩阵,该crosstalk矩阵中的值表示两两信号的拟合结果(矫正系数),如rac表示矫正c图上的相应坐标位置上受到的a信号的串扰时依据的拟合结果/矫正系数,为观测值,为真实值(矫正后的值)。

所称的特定区域,可以是整个待检图像,也可以是待检图像的一部分。较佳地,特定区域选自待检图像的中心区域的至少一部分,图像的中心区域可如一般所理解的,例如,对于大小为4000*2000的图像,该图像的中心区域可以是3000*1500、2056*1024、2000*1500、1024*1024、1024*512、1000*500、1000*1000、512*512或者512*256等,相对的,图像的其它区域可以称为边缘区域。一般地,图像的中心区域内的相应坐标的位置的强度值波动较小,在crosstalk图上表现为较为会聚,如图11示例的a-gcrosstalk散点图中的黑圈中的点。利用该区域中的至少一部分位置的强度值进行拟合而确定的拟合结果/矫正系数进行矫正,能够快速且准确地实现色差矫正。

该实施方式对拟合的方法不作限制,例如可以利用matlabcftool曲线拟合工具箱、atool、curveexpert等软件进行;拟合可以是线性拟合,也可以是非线性拟合。关于用于拟合的数据量或者说采样量,即选取多少个图像上的特定区域内的相应坐标的位置的强度来做该拟合,没有特别限制,原则上,只要能求解出欲拟合的y元方程的y个系数就行,例如对于线性拟合,可以取2个、5个、10个、20个、30个或者50个;较佳地,希望采样量能具有统计学意义,例如不小于20个、30个或50个;可选的,为了使计算量不至于太大,同时可限制采样量小于200或者小于100。如此,利用相应的拟合结果(矫正系数)能够准确地实现矫正。

在一些示例中,进行线性拟合。如此,便于计算,花费时间少,利于快速矫正。

具体地,请参阅图12和图13,在一个示例中,待检图像为a图,图像xi为t图,选取待检图像上的中心区域的20个相应坐标的位置的信号的强度进行线性拟合,图12显示了该拟合的结果,横坐标为a的相对信号强度值,纵坐标为t的相对信号强度值,该拟合的结果确定了拟合的直线的斜率k,以该斜率作为矫正系数,对待检图像的每个相应坐标的位置的信号的强度进行矫正,例如it'=it-ia×k,it'为矫正后的该位置上的t信号强度,it为观测得的该位置的t信号强度(观测值),ia为观测得的该位置的a信号强度(观测值);图13示意待检图像上的该20个相应坐标的位置的信号的矫正前和利用该方式进行矫正的矫正后的结果。如此,能够消除或削减t信号对待检图像的相应坐标的位置的信号强度的波动的贡献,获得矫正后的待检图像。

对比图10,图14显示利用上述示例的方式进行色差矫正后的相同视野的该轮测序的四张图像两两之间的crosstalk图。可看出,经过该色差矫正,同一视野同一轮的对应于不同碱基的图像之间的信号串扰明显降低,利于碱基的准确识别以及测读得更长的序列。

请参阅图15-18,图15-18显示一个示例中的同一视野的对应同一种碱基的相邻轮的两图像之间的信号串扰图,图上的一个点代表一个所称的相应坐标的位置,横纵坐标均为相对信号强度;从上到下、从左至右,图15中的四张phasing散点图分别为cycle1和cycle2的两张a图、两张c图、两张g和两张t图的信号强度关系图,图16中的四张phasing散点图分别为cycle30和cycle31的两张a图、两张c图、两张g和两张t图的信号强度关系图,图17中的四张phasing散点图分别为cycle60和cycle61的两张a图、两张c图、两张g和两张t图的信号强度关系图,图18中的四张phasing散点图分别为cycle90和cycle91的两张a图、两张c图、两张g和两张t图的信号强度关系图。

可以看出,该示例中,相对于a或g,c或t的失相现象(phasing或prephasing)较明显;且随着测序轮数的增加,各种碱基的化学反应的相位失衡造成的信号串扰越发严重,结合图18可看出,该示例到第91轮测序时,失相已经造成难以准确区分出t图中的某个位置的信号是来自第90轮测序还是来自该第91轮测序。一般地,测序进行到最后,会出现所有的相应坐标的位置都亮且亮度均匀的情况,该种情况下已无法识别出正确的碱基,也就是说无法继续测序了,失相是限制边合成边测序的读长的主要原因。

图19中的上下两个曲线图分别显示了某次核酸样本测序中的四种碱基的phasing比例或prephasing比例与测序轮数的关系,随着测序轮数增加,每种碱基的phasing和prephasing比例均增大。

进行phasing或prephasing矫正,利于碱基的正确识别和测读得更长的序列。相位矫正,可以在进行crosstalk矫正之前进行,也可以在crosstalk矫正之后进行。

在一些示例中,对强度的矫正包括相位矫正,基于来自相邻轮测序且对应相同种类核苷酸的图像的至少之一进行该相位矫正。

具体地,在一个示例中,图像yj和待检图像来自相邻两轮测序,例如图像yj来自于第31轮测序、待检图像来自第30轮测序,yj和待检图像对应相同的视野,图像yj和待检图像对应相同种类核苷酸/碱基,例如a,所称的相位矫正包括:对待检图像的特定区域内的多个相应坐标的位置的信号进行拟合,获得拟合结果;以及基于拟合结果矫正待检图像上的相应坐标的位置的信号。

类似地,这里所称的特定区域,可以是整个待检图像,也可以是待检图像的一部分。较佳地,特定区域选自待检图像的中心区域的至少一部分,图像的中心区域可如一般所理解的,例如,对于大小为4000*2000的图像,该图像的中心区域可以是3000*1500、2056*1024、2000*1500、1024*1024、1024*512、1000*500、1000*1000、512*512或者512*256等,相对的,图像的其它区域可以称为边缘区域。一般地,图像的中心区域内的相应坐标的位置的强度值波动较小,在phasing散点图上表现为较为会聚,如图20示例的cycle30和31的a图的phasing散点图中的黑圈中的点。利用该区域中的至少一部分位置的强度值进行拟合而确定的拟合结果/矫正系数进行矫正,能够快速且准确地实现相位矫正。

类似地,该实施方式对拟合的方法不作限制;拟合可以是线性拟合,也可以是非线性拟合。关于用于拟合的数据量或者说采样量,即选取多少个图像上的特定区域内的相应坐标的位置的强度来做该拟合,没有特别限制,原则上,只要能求解出欲拟合的y元方程的y个系数就行,例如对于线性拟合,可以取2个、5个、10个、20个、30个或者50个;较佳地,希望采样量能具有统计学意义,例如不小于20个、30个或50个;可选的,为了使计算量不至于太大,同时可限制采样量小于200或者小于100。如此,利用相应的拟合结果(矫正系数)能够准确地实现矫正。

在一些示例中,依据上述示例的方法在crosstalk矫正之前进行线性拟合以矫正phasing,线性拟合的r^2=0.97;在另一些示例中,取相同的多个位置的信号进行拟合,依据上述示例的方法在crosstalk矫正之后进行线性拟合以矫正phasing,线性拟合的r^2=0.93。

对于s31,在一些示例中,所称的待检图像上相应坐标的位置的信号的强度为一个包含四个数值的数组(四维数据),对应该位置上的四种核苷酸/碱基的信号强度,例如可表示为{intsa,intst,intsg,intsc},intsa、intst、intsg和intsc分别表示碱基a、t、g和c的信号强度值,经过矫正后,一般地,intsa、intst、intsg和intsc具有相同的基准,可取该数组中的最大值(max)与所称的第一预设值进行比较,大于或等于该第一预设值,可判定该图像上的该位置对应的碱基型为该最大值对应的那种碱基,即识别出相应的核酸分子上的对应位置上的碱基为最大值所对应的那种碱基;若该数组中的最大值(max)小于该第一预设值,可判定该图像上的该位置所对应的碱基型无法准确识别出,可将相应核酸分子的该位置上的碱基记为n或者留空位,n为atgc中的任意一种;在一些示例中,碱基识别后的包含n或空位的读段(reads),可以进一步处理,例如,进一步依据其他读段例如相邻读段的信息推测该读段中的n或空位所表示的碱基型,或者被部分过滤掉等,以提高产出数据的利用率或者产出数据的质量。

在一些示例中,{intsa,intst,intsg,intsc}中的各个数值为经过处理例如归一化后的数值。

在一个示例中,对该四维数据进行质量分数(qualityscore,简称qscore)计算,qscore本质是一种先验概率,可利用已知的方法计算,例如参照[ewingetal.,base-callingofautomatedsequencertracesusingphred.i.accuracyassessment.,genomeres.1998mar,8(3):175-85.]进行。这里,发明人使用矫正后的4维数据中的最大值与总值的比值计算该qscore,计算得的该qscore大小的范围为[0,40],具体地,qscore=(1.0*maxints/sumints-0.25)/0.75*40,maxints为intsa、intst、intsg和intsc中的最大值,sumints为intsa、intst、intsg和intsc之和,相应地,设置第一预设值为0.1,若该qscore大于0.1,则判定该位置的碱基型为maxints对应的碱基。如此,能有效进行碱基识别。

上述在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以被认为是用于实现逻辑功能的可执行指令的序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。例如,本发明实施方式的一种计算机可读存储介质,用于存储供计算机执行的程序,执行程序包括完成上述任一实施方式的方法。该计算机可读存储介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置,包括但不限于只读存储器,磁盘或光盘等。更具体地,该计算机可读存储介质包括以下(非穷尽性列表):具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(ram)、只读存储器(rom)、可擦除可编辑只读存储器(eprom或闪速存储器)、光纤装置以及便携式光盘只读存储器(cdrom)。另外,该计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,例如可以通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。上述对任一实施方式中的碱基识别方法的技术特征和优点的描述,同样适用于该计算机可读存储介质,在此不再赘述。

进一步地,本发明的实施方式提供了一种计算机产品,包括上述任一实施方式中的计算机可读存储介质。

例如,本发明的实施方式提供了一种系统,包括上述任一实施方式中提供的计算机产品和至少一个处理器,用于执行存储于所述计算机可读存储介质中的程序。

例如,本发明的实施方式提供了一种计算机程序产品,包括实现识别核酸上的一个或多个碱基的指令,指令在计算机执行程序时,使计算机执行上述任一实施例中的识别核酸中的一个或多个碱基的方法。

本发明的实施方式提供了一种配置成执行上述任一实施例中的识别核酸中的一个或多个碱基的方法的系统。

请参阅图21,本发明的实施方式提供了一种系统100,包括多个模块,该系统用于执行上述任一实施例中的识别核酸中的一个或多个碱基的方法的步骤。该系统100包括:映射模块110、信号确定模块120和比较模块130。映射模块110,用于将对应于模板的亮斑集合中的每个亮斑的坐标映射到待检图像上,确定待检图像上相应坐标的位置。所称的对应于模板的亮斑集合基于一组图像构建获得,一组图像中的每个图像均包含多个亮斑;该一组图像和所述待检图像均来自测序且对应一个相同的视野;测序包括加入核苷酸进行多轮测序,所称的一组图像来自至少一轮测序,至少一部分所述信号在所述一组图像上表现为至少一部分所述亮斑;

信号确定模块120,用于确定来自映射模块110的待检图像上相应坐标的位置的信号的强度,所称的强度为矫正后的强度;以及比较模块130,用于比较来自信号确定模块120的待检图像上相应坐标的位置的信号的强度与第一预设值的大小,基于比较结果判断该位置对应的碱基类型,实现所述碱基识别。

本领域技术人员知晓,除了以纯计算机可读程序代码方式实现控制器/处理器外,完全可以通过将方法步骤进行逻辑变成来使得控制器以逻辑门、开关、专用集成电路、可编辑逻辑控制器和嵌入微控制器等的形式来实现相同的功能。因此,这种控制器/处理器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的的软件模块又可以是硬件部件内的结构。

上述实施方式中对识别核酸中的一个或多个碱基的方法的技术特征和有点的描述,也适用于该系统,在此不再赘述。可以理解,上述任一实施例中的识别核酸中的一个或多个碱基的方法的附加技术特征,包括子步骤、附加步骤、可选择可替代或较佳的设置或处理等,可通过使得该系统或该系统的模块进一步包括单元/模块或子单元/子模块得以实施。

在一些示例中,系统100还包括亮斑集合构建模块140,用于构建所称的对应于模板的亮斑集合,该亮斑集合构建模块140与映射模块110连接。

在另一些示例中,映射模块110包括亮斑集合构建子模块111,用于构建对应于模板的亮斑集合,亮斑集合构建子模块111包括:图像采集单元1111,用于顺序或者同时加入四种核苷酸至反应体系中进行一轮测序,获得一组图像;该四种核苷酸带有不同的标记,被激发发出不同颜色的信号,一组图像包括第一图像、第二图像、第三图像和第四图像,第一图像、第二图像、第三图像和第四图像分别采集自同一视野的四种核苷酸的反应信号,反应体系包括所述模板和聚合酶;亮斑检测单元1113,用于分别对来自图像采集单元1111中的第一图像、第二图像、第三图像和第四图像进行亮斑检测,确定各个图像的亮斑;对齐单元1115,用于对齐所称的一组图像;合并单元1117,用于合并来自对齐单元1115的对齐后的一组图像上的亮斑,获得一级亮斑集合;以及,亮斑集合建立单元1119,用于依据来自合并单元1117的一级亮斑集合,建立分别对应于四种核苷酸的亮斑集合。

在一些示例中,图像采集单元1111在同时加入四种核苷酸至所述反应体系中,利用成像系统采集所述信号以获得所述一组图像和/或所述待测图像,所称成像系统包括第一激光、第二激光、第一相机和第二相机。

在一些示例中,图像采集单元1111加入的四种核苷酸分别带有第一标记、第二标记、第三标记和第四标记,在所称的一轮测序中,开启第一激光激发所述核苷酸,四种核苷酸中的两种分别发出第一信号和第二信号,第一相机和第二相机同步作业以分别采集所述第一信号和所述第二信号,获得第一图像和第二图像,以及,开启第二激光激发所述核苷酸,四种核苷酸中的另外两种核苷酸分别发出第三信号和第四信号,第一相机和第二相机同步作业以分别采集所述第三信号和所述第四信号,获得第三图像和第四图像。

在一些示例中,亮斑检测单元1113利用k1*k2矩阵对所述一组图像中的各个图像进行检测,包括,判定中心强度与边缘强度的关系mids满足第一预设条件的矩阵对应一个所述亮斑,中心强度反映所述矩阵的中心区域的强度,边缘强度反映所述矩阵的边缘区域的强度,中心区域和所述边缘区域构成所述矩阵,k1和k2均为大于1的自然数,k1*k2矩阵包含k1*k2个像素。

在一些示例中,亮斑检测单元1113在利用k1*k2矩阵对所述一组图像中的各个图像进行检测时,k1等于k2。

在一些示例中,亮斑检测单元1113在利用k1*k2矩阵对所述一组图像中的各个图像进行检测时,k1和k2均为大于1的奇数。

亮斑检测单元1113在利用k1*k2矩阵对所述一组图像中的各个图像进行检测时,k1和k2均为大于3的奇数,所述中心区域为以所述矩阵的中心像素为中心的3*3区域。

在一些示例中,亮斑检测单元1112在利用k1*k2矩阵对所述一组图像中的各个图像进行检测时第一预设条件为mids≥s1,mids=midint-sumints(1:n)/n,midint表示所述中心强度,sumints(1:n)/n表示所述边缘强度,sumints(1:n)表示所述边缘区域的第1至第n个像素的像素值之和,n为不小于4的自然数,s1为[2,4]中的任意值。

在一些示例中,亮斑检测单元1113包括用于:分别对所述一组图像中的各个图像进行卷积,获得卷积后的图像;寻找所述卷积后的图像中所有的在k3*k4区域内包含峰值的像素,k3和k4均为大于1的自然数,k3*k4区域包含k3*k4个卷积后的图像的像素;判定满足第二预设条件的以峰值像素为中心的k5*k6区域对应一个所述亮斑,所述第二预设条件为所述k5*k6区域的峰值像素的像素不小于s2,k5和k6均为大于1的自然数,s2可通过该卷积后的图像的像素进行确定。

在一些示例中,k3等于k4,和/或k5等于k6。

在一些示例中,k3和k4均为大于1的奇数,和/或k5和k6均为大于1的奇数。

在一些示例中,k3和k4均为大于3的奇数,和/或k5和k6均为大于3的奇数。

在一些示例中,s2不小于所述卷积后的图像的所有像素按像素值升序排序的中位数,和/或不大于所述卷积后的图像的所有像素按像素值升序排序的第八十分位数。

在一些示例中,亮斑检测单元1113还包括基于原始图像上所述亮斑所在区域的强度对该图像的亮斑进行筛选。

在一些示例中,亮斑检测单元1113包括利用k7*k8矩阵对所述一组图像中的各个图像进行检测,包括,判定指定方向的多个像素值为单调波动的k7*k8矩阵对应一个候选亮斑,利用相应k7*k8矩阵中的至少一部分区域的像素对所述候选亮斑进行筛选,以确定所述亮斑,k7和k8均为大于1的自然数,k7*k8矩阵包含k7*k8个像素。

在一些示例中,k7等于k8,和/或k7和k8均为大于1的奇数。

在一些示例中,映射模块110还包括亚像素坐标确认子模块112,用于利用重心法确定所述亮斑的亚像素坐标。

在一些示例中,对齐单元1115用来自第m轮测序的图像进行该对齐。

在一些示例中,对齐所称的一组图像,包括利用来自第m轮测序的图像进行。m例如大于20、30或者50。

在一些示例中,对齐单元1115用来自第m轮测序的图像进行该对齐时,第m轮测序的图像包括第五图像、第六图像、第七图像和第八图像,所称的第五图像、第六图像、第七图像和第八图像分别与第一图像、第二图像、第三图像和第四图像对应相同种核苷酸的反应信号,以所称的第五图像的坐标系为基准,分别对第六图像、第七图像和第八图像的坐标系进行转换,包括,以相同方式分别将所述第五图像和第六图像划分成一组大小为k9*k10的块,k9和k10均为大于30的自然数,k9*k10包含k9*k10个像素;分别确定所称的第六图像的每个块相对于所称的第五图像的相应块的偏移量;基于所述偏移量,对齐所称的第二图像和所述第一图像。

在一些示例中,合并单元1117,在合并对齐后的一组图像上的亮斑时,包括将预设范围k11*k12内的多个亮斑合并为一个亮斑,k11和k12均为大于1的自然数,k11*k12包含k11*k12个像素。

在一些示例中,信号确定模块120,用于确定所述待检图像上相应坐标的位置的信号的强度,所称的强度为矫正后的强度,矫正强度包括串色矫正和/或相位矫正。

在一些示例中,信号确定模块120在对所述强度进行矫正之前,映射模块110使所述待检图像对齐于所述对应于模板的亮斑集合。

在一些示例中,信号确定模块120在进行强度的矫正时包括采用串色矫正,基于来自相同一轮测序且对应不同种类核苷酸的图像的至少之一进行所述串色矫正。

在一些示例中,信号确定模块120在进行强度的矫正时,所采用的串色矫正包括:

对所述待检图像的特定区域内的多个相应坐标的位置的信号进行拟合,获得拟合结果;以及,基于拟合结果矫正所述待检图像上的相应坐标的位置的信号。其中,图像xi和所述待检图像来自相同一轮测序,所述图像xi和所述待检图像对应相同的视野,所述待检图像包含来自所述图像xi对应的核苷酸的信号。

在一些示例中,拟合为线性拟合。

在一些示例中,信号确定模块120在进行强度的矫正时包括采用相位矫正,基于来自相邻轮测序且对应相同种类核苷酸的图像的至少之一进行所述相位矫正。

在一些示例中,信号确定模块120在进行强度的矫正时,所采用相位矫正包括:对所述待检图像的特定区域内的多个相应坐标的位置的信号进行拟合,获得拟合结果;以及基于拟合关系矫正所述待检图像上的相应坐标的位置的信号。其中,图像yj和所述待检图像来自相邻两轮测序,所述图像yj和所述待检图像对应相同的视野,所述图像yj和所述待检图像对应相同种类核苷酸。

利用本发明任一实施方式的方法、产品和/或系统进行碱基识别,能够快速且准确地识别碱基,实现模板的至少一部分序列的核苷酸/碱基的次序的测定。

在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施方式进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1