用于多个分子信号的数据处理方法和装置的制造方法

文档序号:10618209阅读:355来源:国知局
用于多个分子信号的数据处理方法和装置的制造方法
【专利摘要】本发明提出了用于多个分子信号的数据处理方法。该方法计算任意不同的分子簇A与分子簇B的荧光信号之间的混杂系数C(A←B)和C(B←A),用于衡量所述分子簇A和分子簇B的荧光信号相互混杂的严重程度,进而,可以干预、减少不同分子簇间相互混杂的干扰,以提高分子识别技术的辨识精度。
【专利说明】
用于多个分子信号的数据处理方法和装置
技术领域
[0001] 本发明涉及分子测序的数据处理领域,具体来说,涉及一种数据处理方法和装置。
【背景技术】
[0002] Illumina公司的基因序列合成的测序技术和基于该技术的测序平台被广泛使用 的,已最成功的第二代基因测序技术之一。它首先将短的单链DNA分子随机固定在芯片表 面上,然后通过复制形成包含相同序列的单链分子簇。每一轮测序中,通过加入带有不同 英光标记的可逆终止子基团的四种单核巧酸,分子簇的互补链生长且仅每一轮生长一个碱 基。之后分别在不同频率的激光光谱上对芯片表面进行拍照。每个频道主要对应一种英光。 在拍照完成后,再将终止子基团洗去,W进行下一轮测序。送样,通过对分子簇进行定位,然 后提取同一个分子簇每轮测序的英光信号,并根据英光信号的不同类型确定每轮测序识别 出的碱基,进而完成对送一分子簇包含序列的测序。送一技术被应用在GA,Hiseq和Miseq 等平台上。关于送一技术的更详细的内容及现有相关数据处理技术,可参见文献Bentley etc, 2008 ;Li&Speed, 1999 ;Massin曲am&Gol血an, 2012 ;怖iteford etc, 2009 等。
[0003] 但是该技术还存在诸多不足。除光谱串色和相位失相W外,还包括下述问题;首 先,由于测序仪精度限制,不同照片中的景物有从小于一个像素到数十甚至上百像素的位 移和轻微的拉伸现象。同时,分子簇不发光的郝些位置也存在较小的非零、随机的光强背景 值。更为麻烦的是,由于序列片断的分子是随机落在芯片上的,因此形成的分子簇可能离得 较近,送时每张照片中送些离得较近的分子簇的信号将混杂在一起相互影响(如图1A、图 1B、图1C和图2,图1A是现有技术测得的一轮测序一个频道的图片的局部示意图,显示了离 得较近的分子簇;图1B是经过光谱串色和相位失相的校正后两个离得较近的分子簇信号 部分测序轮的示意图,此图中第二个分子簇对第一个分子簇信号产生相邻分子簇混杂,并 导致第一个分子簇的第13个碱基被错误辨识;图1C是相邻分子簇信号混杂的示意图;图 2是两个离得较近的分子簇的定位和产生信号混杂的示意图,当两个分子簇离得较近时,根 据英光信号最大值确定的两个分子簇的位置会相互靠近,同时产生信号混杂)。如图2所 示,离得较近的分子簇的坐标位置的确定也有可能存在偏差。
[0004] 针对上述相关技术中的难题,目前尚未提出有效的解决方案。
[0005] W下是对本领域的相关术语的解释:
[0006] 分子簇:英文名称为Cluster,指分子测序过程中特定分子的集合,该集合内包含 具有相同序列的分子,并且送些分子之间的平均距离小于不同分子簇的分子之间的平均距 离。
[0007] 巧IJ序:测序的目的为识别分子簇内分子的序列。所述分子的序列指所述分子中特 定位置的分子基本元件的类型。W DNA分子测序为例,其序列为DNA分子中特定片断的每 个碱基的类型。
[0008] 英光信号;英文名称为fluorescence intensity,指通过预定测量方式得到的, 分子簇内分子英光标记受激发发出的光强,亦称作英光强度。
[0009] 信号混杂;无英文名称,指任一分子簇的英光信号中出现的来源于其它分子簇英 光标记的英光信号。
[0010] 频道;英文名称为channel,对某一状态下的分子簇英光标记进行测量时,每种测 量方式称为一个频道。
[0011] 测序轮:英文名称为cycle, W不同测量方式对分子英光标记进行测量时,对一种 状态的测量过程为一个测序轮。
[0012] 光谱串色,英文名称为laser-crossta化或spectra-crossta化,指某种类型的基 团对应的英光标记在超过一个频道中引起英光信号不为零的现象。
[0013] 相位失相,英文名称为地asing,指特定位置的基团对应的英光标记在超过一个 测序轮中引起英光信号不为零的现象。
[0014] 分子簇定位,英文名称为template generation,指确定图像中的哪些坐标存在符 合预定条件的分子簇。

【发明内容】

[0015] 针对相关技术中存在的难题,尤其是离得较近的分子簇的信号会混杂在一起相互 影响,本发明提出一种用于多个分子的测序数据的处理方法。
[0016] 该方法的内容包括:
[0017] (1)计算任意分子簇A与符合预定条件的分子簇B的英光信号之间的混杂系数 C (A ^ B),用于衡量所述分子簇A的英光信号中所述分子簇B的混杂的严重程度。
[0018] (2)利用计算出的混杂系数,对分子簇英光信号进行处理。
[0019] 本发明的意义在于;本发明提出的数据处理方法通过计算不同分子簇英光信号之 间的混杂系数,有效的衡量了所述不同分子簇英光信号之间的干扰或混杂的严重程度。进 而,能够在进行分子测序时通过对离得较近的分子簇信号进行处理,并将处理结果用于分 子序列识别和输出序列识别的相关信息,W极大提升分子识别技术的辨识精度。现有技术 使用图像去模糊化的方法减少分子簇英光信号混杂,但部分英光信号的混杂程度不符合模 糊化方法使用的核函数模式,致使分子簇的英光信号中仍残留一定程度的混杂,影响序列 识别的精度。本发明有效弥补了现有技术中的送一不足。
[0020] 本发明提出的数据处理方法的技术路线包括:
[0021] (1)计算任意分子簇A与符合预定条件的分子簇B的英光信号之间的混杂系数 C (A ^ B),所述C (A ^ B)用于衡量分子簇A的英光信号中来源于分子簇B的混杂的严重程 度,其值为E(A^B) 与E度^B) 的比,其中,所述E(A^B) 为所述分子簇A的英光信号中 属于分子簇B中分子英光标记的英光信号,所述E度^ B)为所述分子簇B的英光信号中属 于所述分子簇6中分子英光标记的英光信号。通过下述公式计算所述"4^8):
[0022] C(A ^ B) = ar卵inc(f (lA-clB)+hk));
[002引其中,h(c)是预先设定的单调非减函数,用于控制过大的混杂系数对序列识别精 度的影响,Ια和I e为分子簇A和分子簇B在预先指定的测序轮和测序频道的英光信号,
:用于衡量输入英光信号中混杂的严重程度。其中η为测序轮的数量, 对测序轮数j,r,为预先设定的函数,W ,为根据所有分子簇在第j轮测序中的英光信号计算 出的标量或是预先设定的常数。输入信号中的高的混杂使f(I)的值变大,因此计算出的 混杂系数使分子簇A的英光信号进行信号混杂的校正后其混杂程度减小。
[0024] 计算a r g J?) + /;(c))时,通过使用分位数法求f(iA-cIe)+h(c)的导 函数零点的方法完成。
[0025] (2)根据所述混杂系数对对所述分子簇英光信号进行处理,W完成分子簇中分子 的序列的识别和序列识别相关信息的计算。
[0026] 其中,对所述分子簇英光信号进行处理包括,对分子簇英光信号中的信号混杂进 行校正,校正方法包括:
[0027] 通过下述公式计算所述分子簇的没有信号混杂的英光信号所组成的矩阵Ii:
[002引 C · Ii= I 0;
[0029] 其中在所述矩阵Ii中,每行的元素对应一个分子簇的英光信号,每列的元素对应 一个测序轮中一个频道的所有分子簇的英光信号;所述C为由各个分子簇之间的混杂系数 所组成的矩阵;所述I。为需要进行所述校正的分子簇英光信号所组成的矩阵,在矩阵I。中, 每行的元素对应一个分子簇的英光信号,每列的元素对应一个测序轮中一个频道的所有分 子簇的英光信号。
[0030] 对所述分子簇英光信号进行处理还包括对校正过信号混杂的分子簇英光信号进 行后续处理,W完成分子序列的识别。
[0031] (3)为了更容易计算分子簇间的混杂系数,本方法在计算不同分子簇的英光信号 之间的混杂系数之前采用预定方式对输入数据进行处理,所述预定方式包括W下至少之
[0032] 校正光谱串色、校正相位失相、对原始图像数据进行预处理生成所述分子簇英光 信号。
[0033] 对原始图像数据进行预处理生成所述分子簇英光信号时,本方法包括下述步骤:
[0034] 移除背景光,正规化,生成对准模版,分子簇定位和提取分子簇英光信号。
[0035] 其中,所述生成对准模板步骤包括:
[0036] 对准存在光谱串色的频道的图像,并校正所述对准的图像的光谱串色;
[0037] 将各个所述校正过光谱串色的图像中相同位置的像素的亮度进行比较,保留所述 相同位置中亮度最大的值,生成对准模板。
[0038] 所述生成对准模板步骤中,将不同图像(或图像同对准模板)对准的方法包括:
[0039] 选取需要对准的两幅图像中预定坐标范围和预定数量的区域,将其中一幅图像的 所选区域进行位移操作;
[0040] 对两幅图像的预定坐标范围的区域,搜索其中一幅图像所述区域的整点坐标的位 移,并将所述区域与另一幅图像中所述区域的最大相关对应的位移坐标作为初始点,通过 BFGS或其他求解非约束最优化问题的算法定位位移。
[0041] 所述分子簇定位步骤包括:
[0042] 对校正过光谱串色的图像进行定位操作,所述定位操作包括:
[0043] 查找所述校正过光谱串色的图像中的亮点,并通过目标亮点及所述目标亮点周围 的多个亮点的英光信号,分别在两个方向上拟合抛物线,并计算所述抛物线的对称轴W确 定所述目标亮点的坐标;
[0044] 通过不存在邻居的亮点的坐标均值计算各个亮点所对应的分子簇的坐标,其中所 述不存在邻居的亮点为一个包含亮点的单位像素内的亮点,且在所述包含亮点的单位像素 的周围两个单位像素范围内不存在除自身所包含的亮点外,其他同频道同测序轮的亮点。
[0045] 根据本发明的另一方面,提供了 一种数据处理装置。
[0046] 该装置包括:
[0047] 计算混杂系数模块,用于计算不同分子簇的英光信号之间的混杂系数。其中,任意 分子簇A与符合预定条件的分子簇B的英光信号之间的混杂系数C (A ^ B)用于衡量所述 分子簇B对所述分子簇A的英光信号产生的混杂的严重程度。
[0048] 该装置还可W包括,处理模块,用于通过所述混杂系数对分子簇英光信号进行处 理,W完成分子序列的识别。
[0049] 该装置还可W包括,预处理模块,用于在计算不同分子簇的英光信号之间的混杂 系数之前采用预定方式对输入数据进行处理。
[0050] 其中,计算混杂系数模块进一步用于计算如下的混杂系数;对任意分子簇A和符 合预定条件的分子簇8,所述混杂系数"4^8)为E(A^B) 与E度^B)的比,其中,所 述E (A ^ B)为所述分子簇A的英光信号中来源于分子簇B的英光标记的英光信号,所述 E@ ^ B)为所述分子簇6的英光信号中来源于所述分子簇6中分子英光标记的英光信号。
[0051] 计算混杂系数模块进一步用于通过下述公式计算所述C(A ^ B):
[0052] C(A ^ B) = ar卵inc(f (lA-clB)+hk));
[0053] 其中,h(c)是预先设定的单调非减函数,Ια和I e为分子簇A和分子簇B在预先指 定的测序轮和测序频道的英光信号,
其中η为测序轮的数量,对测序轮 数j,r,为预先设定的函数,W ,为根据所有分子簇在第j轮测序中的英光信号计算出的标量 或是预先设定的常数,其中j > 1。
[0054] 处理模块可进一步包括校正单元,用于对分子簇英光信号中的信号混杂进行校 正,校正方法包括:
[00巧]通过下述公式计算所述分子簇的没有信号混杂的英光信号所组成的矩阵:
[005引 C · Ii= I 0;
[0057] 其中在所述矩阵Ii中,每行的元素对应一个分子簇的英光信号,每列的元素对应 一个测序轮中一个频道的所有分子簇的英光信号;所述C为由各个分子簇之间的混杂系数 所组成的矩阵;所述I。为需要进行所述校正的分子簇英光信号所组成的矩阵,在矩阵I。中, 每行的元素对应一个分子簇的英光信号,每列的元素对应一个测序轮中一个频道的所有分 子簇的英光信号。
[0058] 处理模块可进一步包括下游处理单元,用于对校正过信号混杂的分子簇英光信号 进行后续处理,W完成分子序列的识别。
[0059] 其中,预处理模块包括图像处理单元和预处理单元,图像处理单元用于当输入数 据为测序得到的图像时,对图像进行处理W生成分子簇英光信号,预处理单元用于对分子 簇英光信号进行处理W符合计算混杂系数所需的条件。
[0060] 其中,图像处理单元进一步用于采用本发明的方法,对测序得到的图像进行W下 操作W生成分子簇英光信号:移除背景光,正规化,生成对准模版,分子簇定位和提取分子 簇英光信号。
[0061] 其中,图像处理单元包括校正子单元和定位子单元:
[0062] 所述校对单元用于校正存在光谱串色的频道对应的图像的光谱串色;
[0063] 所述定位子单元用于对所述校正过光谱串色的图像进行分子簇定位操作。
【附图说明】
[0064] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图进行简单的介绍。显而易见地,下面描述中的附图仅仅符合本发明的一些 实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据送些附 图获得其他实施例对应的附图。
[0065] 图1A是现有技术测得的一轮测序一个频道的图片的局部示意图;
[0066] 图1B是经过光谱串色和相位失相的校正后两个离得较近的分子簇信号部分测序 轮的示意图,此图中第二个分子簇对第一个分子簇信号产生相邻分子簇混杂,并导致第一 个分子簇的第13个碱基被错误辨识;
[0067] 图1C是Η个分子簇之间发生信号混杂的示意图;
[0068] 图2是离得较近的分子簇对分子簇定位产生影响的示意图;
[0069] 图3是根据本发明实施例的数据处理方法的流程示意图;
[0070] 图4是根据本发明实施例的数据处理方法的步骤流程的示意图;
[0071] 图5是根据本发明实施例的数据处理结果示意图;
[0072] 图6是根据本发明实施例的数据处理装置的结构示意图。
【具体实施方式】
[0073] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的 范围。
[0074] 在实现本发明的过程中发明人发现,在现有的分子测序的技术中方案中,部分基 于测序仪器提供的分子簇的英光信号来进行(送一数据被存储在扩展名为CIF的文件或未 压缩的TXT文档中)。送一格式的文件主要包括每个分子簇每轮测序在每个频道上的英光 信号。由于测序仪器提供的数据已扔掉因距离过近而被混杂得较严重的分子簇,因此目前 的方法对混杂的信号均没有太好的办法去处理,而是采用稳健性的方法尽力减少小部分混 杂带来的影响。
[0075] 根据本发明的实施例,提供了一种数据处理方法,主要应用于分子测序中。该方法 通过计算任一分子簇与符合预定条件的另一分子簇间的混杂系数,并将计算出的混杂系数 应用于分子序列的识别,从而克服信号混杂对序列识别准确度的影响。
[007引如图3所示,根据本发明实施例的数据处理方法包括:
[0077] 步骤S2,计算任意分子簇A与符合预定条件的分子簇B的英光信号之间的混杂系 数,任意分子簇A和符合预定条件的分子簇B的混杂系数C (A ^ B)用于衡量分子簇A中来 源于分子簇B的混杂的严重程度。发明人发现,对任一分子簇A和在A的英光信号中具有 混杂的分子簇B,在任意测序轮和频道中,分子簇B在A中的混杂与分子簇B自身的英光信 号的比值近似不变,因此,发明人在实施例中使用该比值作为混杂系数"4^8)的值。发 明人还发现,只有距离较近的分子簇会存在相互混杂的现象。因此只计算任意分子簇与和 它距离不超过预定像素值的其它分子簇之间的混杂系数。同时,由于可W通过预处理,使没 有混杂的分子簇的英光信号仅在与其序列对应的频道中存在较大数值,而在其余频道中近 似为〇,因此使用下述公式计算混杂系数"4^8):;
[0078] C(A ^ B) = ar卵inc(f (Ia-cIb)+1i(c));
[0079] 其中,h(c)是预先设定的单调非减函数,Ια和I e为分子簇A和分子簇B在预先指 定的测序轮和测序频道的英光信号,
其中η为测序轮的数量,对测序轮 数j,r,为预先设定的函数,用于计算测序轮j中混杂的严重程度,W ,为根据所有分子簇在 第j轮测序中的英光信号计算出的标量或是预先设定的常数,为计算混杂系数时测序轮j 的权重,C为预定区间内的实数。
[0080] 对通过实施例的预处理方式进行预处理的英光信号,r,可W为如下形式:
[0081]
[0082] 其中,r为频道的数量,1化k)为输入英光信号在第j个测序轮、第k个频道中的 数值。
[0083] 在通过上述公式计算混杂系数时,argmin。(f (Ia-cIb) +h (C))可通过使用分位数法 求f(lA-cIe)+h(c)的导函数零点的方法得到。
[0084] 步骤S3,根据混杂系数对不同分子簇的英光信号进行处理。
[0085] 在实施例中,发明人通过该混杂系数校正分子簇英光信号中的信号混杂。使用的 校正方式为,通过下述公式计算分子簇的没有信号混杂的英光信号所组成的矩阵Ii:
[008引 C · Ii= I 0;
[0087] 其中在矩阵Ii中,每行的元素对应一个分子簇的英光信号,每列的元素对应一个 测序轮中一个频道的所有分子簇的英光信号;C为由各个分子簇之间的混杂系数所组成的 矩阵;I。为需要进行校正的分子簇英光信号所组成的矩阵,在矩阵I。中,每行的元素对应一 个分子簇的英光信号,每列的元素对应一个测序轮中一个频道的所有分子簇的英光信号。
[0088] 在通过混杂系数校正分子簇英光信号中的信号混杂后,还可W采用预定方式对校 正过信号混杂的分子簇英光信号进行后续的处理W完成序列的识别和相关信息的计算。
[0089] 另外,在计算不同分子簇的英光信号之间的混杂系数之前,根据使用的计算混杂 系数的方法和输入数据的特征,还需要对输入数据进行相应的预处理操作,包括:
[0090] 步骤S1,在计算不同分子簇的英光信号之间的混杂系数之前,采用预定校正方式 对分子簇英光信号进行校正,预定校正方式包括W下至少之一:
[0091] 步骤S121,校正光谱串色;
[009引步骤S122,校正相位失相;
[0093] 步骤S11,对原始图像数据进行预处理生成分子簇英光信号。
[0094] 其中,对原始图像数据进行预处理生成分子簇英光信号包括:
[0095] 步骤Sill,读取原始图像数据,进行正规化,具体作法为:
[0096] 根据前k轮的测序图像数据计算不同频道中的图像的各个位置的英光强度尺 度,其中k > 1,具体的,查找图像中的亮点,其中亮点为在同一幅图像中,根据预先设定的 规则筛选出的像素,且筛选出的像素的英光强度超过其周围像素的英光强度;
[0097] 将图像的平面区域分割成多个不重叠的区域,并在每个频道中计算前k轮测序 中,图像中每个区域所包含的亮点的英光强度的中位数;
[0098] 根据预定规则移除图像中目标区域预定范围内的不符合预定规则的区域中的亮 占. ;、、、?
[0099] 通过最小二乘的方法使用图像中剩余区域中计算出的亮点的中位数拟合出高次 曲面,并根据高次曲面计算在图像中剩余区域的英光强度尺度,其中,高次曲面的曲面次数 与图像中的区域数量成正比。
[0100] 将图像各像素的光强值除W当前测序频道对应位置的英光强度尺度。
[0101] 此外,对原始图像数据进行预处理生成分子簇英光信号进一步包括:
[0102] 步骤S112,计算原始图像数据的背景光,并移除背景光;
[0103] 步骤S113,生成对准模版,具体步骤为:首先对准预定测序轮中存在光谱串色的 频道,然后校正存在光谱串色的频道的图像的光谱串色,将各个校正过光谱串色的图像中 相同位置的像素的英光信号进行比较,保留相同位置中英光信号最大的值,生成对准模板。 对准任意两幅图像的步骤为,选取需要对准的两幅校正过光谱串色的图像中坐标相同的区 域,将其中一幅图像的所选区域进行位移操作;搜索所选区域的整点坐标的位移,并将最大 相关对应的位移坐标作为初始点,通过BFGS或其他求解非约束最优化问题的算法定位位 移。
[0104] 步骤S114,在对准的图像上进行分子簇定位操作。
[0105] 具体的,在对准的图像上校正光谱串色,然后查找校正过光谱串色的图像中的亮 点,并通过目标亮点及目标亮点周围像素的英光信号,分别在两个方向上拟合抛物线,并计 算抛物线的对称轴,将对称轴作为目标亮点的坐标;
[0106] 通过不存在邻居的亮点的坐标均值计算各个亮点所对应的分子簇的坐标,其中不 存在邻居的亮点为满足如下条件亮点:在包含亮点的单位像素的周围两个单位像素范围内 不存在除自身所包含的亮点外,其他同频道同测序轮的亮点。
[0107] 步骤S115,提取分子簇英光信号。具体方法为,通过将各幅图像同对准模版对准, 计算各个分子簇在各幅图像中的位置,W获取各个分子簇的英光信号。
[0108] 其中,预处理操作步骤S1还可包括:
[0109] 步骤S123,在对分子簇英光信号校正完光谱串色后再对分子簇英光信号进行相 邻基团干扰校正,其中相邻基团干扰为分子簇在前一个位置的基团类别对它后继基团的英 光信号产生的不同干扰的现象。
[0110] 具体的,在校正完光谱串色后,对任意基团类别a和类别b,对第L测序轮的所有 类别为a类型的分子簇,计算第L+1测序轮的所有类别为b类型的分子簇对应的频道上的 分子英光强度的平均数或中位数,得到第L测序轮中a类型的英光标记对第L+1测序轮中 b类型的英光信号产生干扰时,b类型的英光标记的平均尺度,其中L > 1 ;
[0111] 对任意测序轮M,其中Μ > 2,根据第M-1轮辨识出的序列类别,将第Μ轮的每个频 道上的分子簇的英光信号除W受第M-1轮辨识出的类别的干扰下当前频道的英光标记的 平均尺度。
[0112] 本发明的上述方法适用于任意两个分子簇的英光信号之间具有任意特征的混杂 系数,上述方法通过混杂系数降低信号混杂的干扰,提高了分子簇序列辨识的准确率。
[0113] 根据本发明的实施例本发明还提供了一种数据处理装置,该装置可W应用于分子 识别领域,用于使用上述本发明的方法更准确的完成对分子序列的辨识。
[0114] 如图6所示,该装置包括:
[0115] 计算混杂系数模块D2,用于计算不同分子簇的英光信号之间的混杂系数。其中,任 意分子簇A与符合预定条件的分子簇B的英光信号之间的混杂系数C(A ^ B)用于衡量分 子簇B对分子簇A的英光信号产生的混杂的严重程度。
[0116] 处理模块D3,用于通过混杂系数对分子簇英光信号进行处理,W完成分子序列的 识别。
[0117] 该装置还可W包括,预处理模块D1,用于在计算不同分子簇的英光信号之间的混 杂系数之前采用预定方式对输入数据进行处理。
[0118] 其中,计算混杂系数模块D2进一步用于计算如下的混杂系数;对任意分子簇A和 符合预定条件的分子簇B,混杂系数C (A ^ B)为E (A ^ B)与E度^ B)的比,其中,E (A ^ B) 为分子簇A的英光信号中来源于分子簇B的英光标记的英光信号,E度^ B)为分子簇B的 英光信号中来源于分子簇B中分子英光标记的英光信号。
[0119] 计算混杂系数模块02进一步用于通过下述公式计算"4^8):
[0120] C(A ^ B) = ar卵inc(f (lA-clB)+hk));
[0121] 其中,h(c)是预先设定的单调非减函数,Ια和I e为分子簇A和分子簇B在预先指 定的测序轮和测序频道的英光信号,
其中η为测序轮的数量,对测序轮 数j,r,为预先设定的函数,W ,为根据所有分子簇在第j轮测序中的英光信号计算出的标量 或是预先设定的常数,其中j > 1,C为预定区间内的实数。
[0122] 处理模块D3可进一步包括校正单元D31,用于对分子簇英光信号中的信号混杂进 行校正,校正方法包括:
[0123] 通过下述公式计算校正过信号混杂的不同分子簇的英光信号所组成的矩阵Ii:
[0124] C · Ii= I 0;
[01巧]其中在矩阵Ii中,每行的元素对应一个分子簇的英光信号,每列的元素对应一个 测序轮中一个频道的所有分子簇的英光信号;C为由各个分子簇之间的混杂系数所组成的 矩阵;I。需要进行校正的分子簇英光信号所组成的矩阵,在矩阵I。中,每行的元素对应一个 分子簇的英光信号,每列的元素对应一个测序轮中一个频道的所有分子簇的英光信号。
[0126] 处理模块D3可进一步包括下游处理单元D32,用于对校正过信号混杂的分子簇英 光信号进行后续处理,进而可完成分子序列的识别。
[0127] 其中,预处理模块D1包括图像处理单元D11和预处理单元D12,图像处理单元用于 当输入数据为测序得到的图像时,对图像进行处理W生成分子簇英光信号,预处理单元用 于对分子簇英光信号进行处理W符合计算混杂系数所需的条件。
[012引其中,图像处理单元D11进一步用于采用本发明的方法,对测序得到的图像进行 w下操作w生成分子簇英光信号:移除背景光,正规化,生成对准模版,分子簇定位和提取 分子簇英光信号。
[0129] 其中,图像处理单元D11包括校正子单元DC和定位子单元D114 :
[0130] 校对单元DC用于校正存在光谱串色的频道对应的图像的光谱串色;
[0131] 定位子单元D114用于对校正过光谱串色的图像进行分子簇定位操作。
[0132] 该装置的不同模块可通过不同的硬件或软件及其组合实现。该装置可配置多个相 同功能的子单元,通过将任务分配给送些子单元同时处理W加快数据处理速度。例如,可通 过0PENMP将模块D2中计算各混杂系数的部分并行化,或将计算各混杂系数的部分在GPU、 FPGA或DSP上实现从而可同时处理多个计算混杂系数的请求,也可通过同时配置多个该装 置的实例W加快数据处理速度。
[0133] 为了更好的理解本发明的方案构成,下面将W-具体的实施例进行阐述,实施例 将本发明应用于DNA分子的测序,通过对输入数据进行处理,提高了测序精度。应当注意的 是,下述实施例的大标题只是表达该标题所阐述的内容,但是对于本发明的技术方案的实 现顺序并不限定。同样的,实施例中的步骤只代表本发明的技术方案的一种可行实现,通过 调整步骤的顺序而对测序结果无实质性的正面影响的实现并不超出本发明的技术方案的 范围。
[0134] 图4示出了本发明实施例的数据处理方法的示意性流程图。
[0135] 一、数据的预处理和确定每个分子簇的位置:
[0136] 不同频道间平均信号峰值在不同区域上的变化存在差异,如果不对它进行处理, 则不同区域的光谱串色矩阵将会不一致,因而用估计出的光谱串色矩阵对串色进行校正 时,偏差将会出现,从而对结果产生影响。然而由于信号峰值受分子簇中分子数量等因素影 响,估计出的子区域的平均信号强度方差较大,因此本发明采用前四轮的测序数据对其进 行估计,并用多项式拟合的方法对估计值进行平滑化。
[0137] 本步骤的流程如下:
[013引步骤S111,首先读入图像数据,然后用前四轮的数据估计不同频道中图像各个位 置的光强尺度。
[0139] 送一估计步骤如下:
[0140] S1111.找出每幅图像中的亮点。一个像素被看作为一个亮点;如果它的光强值比 周围8个像素都大并且光强值超过送幅图光强的均值加上标准差的四分之一。
[0141] S1112.将整个区域切割成小正方形,在每个频道中,对每个小正方形,计算前四轮 数据落在该正方形内亮点光强的中位数。将中位数看作该小正方形的尺度估计。
[0142] S1113.移除郝些与周围正方形光强尺度估计值偏离过远的估计值。一个估计值被 认为偏离过远:如果它的值与周围至多8个邻居的均值的差大于邻居中最大值与最小值的 差。
[0143] S1114.在每个频道中,对剩余的估计值,用最小二乘拟合出高次曲面,并将曲面在 每个像素处的值作为光强尺度的估计。曲面的次数取决于每幅图中正方形的数量。
[0144] 然后估计读入数据的背景光,并将送一背景光减去,然后将每个像素都除W对应 频道的光强尺度。
[0145] 步骤S112,估计背景光的方法如下:
[0146] S1121.将每幅图分成小正方形。使用小正方形中所有光强值的第k小的点作为该 小正方形背景光的估计。
[0147] S1122.移除郝些与周围正方形背景光估计值偏离过远的估计值。"偏离过远"的 定义同光强尺度估计中的定义。
[014引S1123.使用周围邻居的背景光估计的均值代替被移除的估计值。
[0149] S1124.使用双线性插值计算每个像素的背景光。
[0150] 接下来生成对准模版并对准前五轮图片:
[0151] 对准图片的基础是芯片不同照片中发光的地方均为分子簇所在位置。因此对准的 照片存在相关性,从而可W通过使用求最大相关的办法找到照片位移量。然而由于同一轮 的A,C频道照片发光的位置,G,T频道不会发光,因此两者无法直接对准。同时由于不同频 道间的照片同一分子簇的位置不一定同时发光,因此相关性较弱,为实现高精度的对准,需 设法加强此相关性,因此本发明通过求最大值生成模版来提高对准精度。
[0152] 在对准过程中,涉及到非整数像素时,光强值通过先后在X轴和y轴方向作分段Η 次插值估计得到。步骤S113,生成对准模版并对准前五轮图片的方法如下:
[0153] S1131.通过步骤S11R将每轮C频道的图片与A频道对准。估计A,C频道间的光 谱串色。校正对准图片的串色,然后通过对每两幅A和C图片按像素取最大值生成对应测 序轮的AC频道模版,即将每幅图片相同位置的光强相比较,保留其中取值最大的,从而生 成对准模板。
[0154] S1132.将第二轮的模版同第一轮的模版对准。将第四轮的模版同第Η轮对准。用 对准的第一轮和第二轮模版每个像素的最大值生成模版一,用第Η和第四轮的模版生成模 版二。将模版二同模版一对准。
[0155] S1133.将前两轮的G和Τ频道图片同模版二对准,将其它剩余的图片同模版一对 准。
[0156] 步骤S11R,将两幅图片对准的算法如下:
[0157] S11R1.将两幅图片正中间的小块儿对准。对准的标准是送时两图之间的相关值最 大。首先搜索整格点的位移,然后将最大相关对应的位移作为初始点用BFGS方法搜索更精 确的位移。
[015引 S11R2. W两幅图片正中间的小正方形的位移为初始点,分别通过最大化相关的方 法搜索位于两幅图片四角附近的小正方形之间的位移。
[0159] S11R3.将两幅图间的坐标差异看作仿射变换,使用Robust回归分别计算X轴方向 和y轴方向变换从而计算出两幅图间的仿射变换。
[0160] 最后识别各个分子簇的位置,计算每个分子簇在各频道对应的光强尺度。
[0161] 步骤S114,识别分子簇的步骤如下:
[0162] S1141.通过步骤SC估计光谱串色。并校正光谱串色。校正方法为,将每个像素四 个频道的光强值看作四维向量,然后左乘估计出串色矩阵的逆。
[0163] S1142.找到每幅图中的亮点。使用亮点中必和它上下左右共5个光强值通过分别 在两个方向上拟合抛物线并计算抛物线对称轴的方法确定更精确的亮点坐标。一个像素点 被确定为亮点:如果它的光强值比周围8个相邻像素的光强值都大并且它的光强值超过 根据整幅图片确定的某一阀值。
[0164] S1143.将每个像素看作一个格子,把找到的亮点放到送些格子中去。如果两个相 邻格子满足:在每一轮中至多存在一个频道有亮点,则将两个格子合并。合并指的是将包含 的亮点总光强值低的格子中的亮点移到另一格子中去。
[0165] S1144.删除连同周围格子中所有亮点光强值总和过低的格子。删除在五轮测序中 光强值过大且光强无明显变化的格子。删除与邻近格子相比,包含亮点光强均值过低的格 子。
[0166] S1145.将剩下的所有包含光点的格子看作分子簇。使用包含的与邻近格子位于不 同频道的光点的坐标均值作为该分子簇的坐标。
[0167] 步骤SC,估计m个频道间光谱串色的方法如下:
[0168] SCI.正规化每个频道使不同频道上的方差相同。将输入看作m维向量构成的总 体。
[0169] SC2. W四个频道上的单位向量为初始点,对所有输入向量做k = m的k-means聚 类。聚类时用到的距离定义为d(x, y) = 1-COS < X, y >
[0170] SC3.计算每一类在每个频道上的中位数,从而得到每一类向量的估计。用送些向 量构成正规化后数据的串色矩阵。
[0171] SC4.根据正规化的信息计算正规化前的串色矩阵。
[0172] 二、步骤S115,提取分子簇英光信号
[0173] 本步骤的流程如下:
[0174] 对读入的每幅图像,首先通过S112,去除其背景光,然后通过S11R计算它与模版 对准所需变换。之后根据仿射变换计算出每个分子簇在送幅图上的坐标。使用插值算法计 算出每个分子簇的光强,再将送一光强除W对应频道对应分子簇的平均尺度。相关算法上 述内容已经介绍过或可根据叙述直接实现,在此不再赏述。
[0Π 5] H、步骤S12,分子簇英光信号的预处理
[0176] CIF文件中每个分子簇包含一系列离散数字,共η行4列,每个数字表示一个测序 轮一个频道上的光强。在处理光谱串色和相位失相时,对第i个分子簇进行描述的如下的 概率模型被广泛接受:
[0177] Ii= λ iPSiMT+N+ε 1
[0178] 送里Ii表示CIF文件中记录的光强值,S 1表示该分子簇的碱基序列,它和11 一样, 是η行4列的矩阵,每行只有一个元素为1,其余Η个元素均为0,1所在的位置对应该行表 示的测序轮中该分子簇的碱基类别。Ρ是ηΧη的相位矩阵,其中第j行第1列的元素表示 第1个位置的碱基在第j轮测序中发光的概率。而Μ是4X4的光谱串色矩阵,第j行第1 列的元素表示第1种碱基在第j个频道的英光强度。ε 1则是η行4列的白噪声矩阵,代表 测量误差。
[0179] 本步骤的流程如下:
[0180] 步骤S121,估计并校正光谱串色,具体步骤为:
[0181] 步骤S1211,使用SC估计串色矩阵,步骤S1212,校正光谱串色。
[0182] 步骤S122,全计并校正相位失相。具体步骤为:
[0183] 步骤S1221,估计相位矩阵。使用此相位矩阵作为初值,然后通过迭代加权最小二 乘算法估计更精确的包含相位和光谱串色现象的4mX4m矩阵。送里m指测序轮数。
[0184] 步骤S1222,使用新的矩阵校正英光信号。
[0185] 步骤S123,校正相邻碱基干扰现象,校正送一现象的步骤如下:
[0186] 步骤S1231.根据每个分子簇每个测序轮最大的光强值确定其碱基类别。
[0187] 步骤S1232.使用前四轮的数据,计算当前一轮为某一种碱基时,本轮每种碱基在 对应频道上的光强的中位值。
[0188] 步骤S1233.对每个分子簇每一轮数据,根据上一轮辨识出的碱基类别,将本轮每 个频道数据分别除W对应的光强中位值。然后重新完成本轮的辨识。
[0189] 其中,步骤S12可替换为:
[0190] 步骤S12R,使用现有的其它方法完成对分子簇英光信号中除信号混杂W外的其 它问题进行校正。
[0191] 四、步骤S2,校正分子簇间的信号混杂
[0192] 本步骤依赖于模型:
[0193]
[0194] 其中Μ是光谱串色矩阵,P是相位矩阵,两者定义在步骤S12中给出;C是信号混杂 矩阵,其两个维度的长度均等于分子簇的数量;ξ是观测误差构成的Η维数组,S是由序列 构成的非0即1的Η维状态数组,代表所有分子簇的序列,0为提取的光强构成的Η维数组, W上Η个Η维数组Η个维度的长度分别为分子簇的数量、测序轮的数量和频道的数量。Μ、Ρ 的具体意义不再赏述,C中第i行第1列的元素表示第1个分子簇的英光标记在第i个分子 簇的CIF数据中的发光情况,记作混杂系数C α ^ 1),或Cii。Η _4将Η中固定除第r维外 另两维下标,遍历第r维得到的向量左乘矩阵A得到新数组中对应位置的向量。送一运算满 足的性质包括同维运算时的相合性(签化4 ),:不同维运算时的 可交换性(Η ?,. ^S 二 Η 及 J ),可逆性(对可逆的 A,Η ?,. = Η] )等。而通过使用送一运算的可交换性(即先算哪个维度再算哪个维度结果不变),可W得 到:
[0195]
[019引其中务1,: I是校正了光谱串色和相位问题的数 据。因此可W先进行其它现象的校正再估计出分子簇相互混杂C,并通过求解 巧@2: P@3 M)?i投二0或直接计算0句完成对混杂的校正。
[0197] 在估计信号混杂矩阵时,可W通过建立衡量分子簇信号质量的目标函数,然后优 化送一函数的方法确定两个分子簇间的混杂系数,从而估计出混杂矩阵、求解模型方程W 移除混杂。具体地,首先设定混杂矩阵对角线的元素均为1,而离得较远的分子簇间不存在 相互混杂(值为0)。而对近距离的分子簇之间,W分子簇1和分子簇2为例,使用如下两分 子簇模型:
[019 引
[0199] 通过变形得到:
[0200] Ii= C 1212+(1-。12。21) Si+( ξ i_Ci2 ξ 2)
[020。 送里ξ 1-Ci2 ξ 2期望为0,而S 1在除对应第1个分子簇的碱基类别外的频道中值 为0。因此可W找到第1个分子簇各位置碱基类别,然后移除对应的频道,在剩下的频道中 完成对Ci2的估计,送一估计可通过建立目标函数并求其极值实现。而在校正分子簇信号相 互混杂时,较大的混杂系数会为四个频道的光强数据带来额外精度损失,因此,需要在目标 函数中引入对大混杂系数的惩罚。而注意到在分子簇1各个碱基对应频道W外的频道上,
时它的期望值均为0,所W可选择形如g(l,2) (t) =f(Ii-tl2)+h(t)的 目标函数,其中h(t)是单调增的函数而函数f可写作如下的形式:
i 是对第j轮测序精度的度量,而函数r,衡量第j轮信号的被混杂的严重程度。
[0202] 通过使用加权LAD方法完成对混杂比例的估计,假设Ii -中每轮测序最大的 信号所在的频道对应分子簇1该位置的碱基类别,同时令h(t)取线性函数,则可得到目标 函数:
[020引 g(l,。(t) = f (Ii-tl2)+ut
[0204] 其中的u为根据权重或分子簇英光信号的观测误差计算得到的正常数,函数f定 义如下:
[0205]
[0206] 它代表对输入信号纯净程度的衡量。通过对目标函数的优化,可W得到各混杂系 数的估计算法。
[0207] 步骤S2的方法如下:
[020引在完成初步的除相互混杂之外问题的校正后,进行下述工作。假设每次需要处理 的图片中包含η个分子簇。
[0209] 步骤S21,进行预处理工作,计算出计算混杂系数时所需的参数,步骤如下:
[0210] S211.对每个分子簇,取出每一测序轮中并非为最大信号的其它Η个信号值,计算 送些信号的中位值,然后通过中位值估计方差。 C ,
[0211] S212.对每一轮测序j,计算W二一。C为任意正常数,其值不影响计算结果;(67 σ '1 为前一步估计出的第j轮测序时的方差。
[0212] S213.对参数ink (事先给定,在0.5到0.8的范围内,送一值越高则测序精度略微 提高但序列重复率增加,越低则相反),计算
[0213] 步骤S214,建立空的稀疏矩阵S。将分子簇编号赋值给一个与图片大小相同的数 组中与分子簇位置对应的元素。对每个分子簇,通过数组找到与之距离不超过一定像素的 所有分子簇,然后估计送些分子簇对它的混杂。
[0214] 步骤S22,对任意分子簇i和与其距离小于预定常数的分子簇j,估计混杂系数 C(i^如,即(3。。估计方法如下:
[0215] S211.如果i = j,则将Cii赋值为1 ;否则进行下面的步骤。
[0216] S212.定义
。送里 0 = 0.001,
Ii和I,分别为分子簇i和分子簇j校正过其 它混杂后的光强。将变量1设为0, r设为1,然后进行下一步工作。
[0217] S213.计算g(0. 61+0. 4r),若其值大于t虹,则将1的值改变为0. 61+0. 4r,否则将 r的值改变为0. 61+0. 4r,然后如果I l-r| > 0. 001,则重复本步骤,否则进行下面的步骤。
[0218] S214.将 1 赋值给 Ci j。
[0219] 其中,步骤S2对不同混杂系数的估计可并行完成。送一并行可通过GPU编程,多 核CPU或FPGA实现。
[0220] 四、步骤S3,进行后续处理
[0221] 本步骤包括:
[0222] 步骤S31,在完成步骤S2得到C的估计后,对未做任何处理的输入的分子簇英光信 号,或通过步骤S115得到的分子簇英光信号0,求解CD = 0得到校正过相互混杂的光强D
[0223] 步骤S32,对校正过分子簇信号相互混杂的光强数据重复步骤S12, W进行光谱串 色、相位失相等的校正操作。
[0224] 步骤S33,对每个分子簇的每一轮数据,根据最大光强值所在频道确定对应位置的 碱基类别。根据分子簇信号的纯度确定其质量值。输出碱基类别和质量值。
[0225] 其中,步骤S2和S31可通过如下方式完成:
[0226] 步骤S2P,将分子簇坐标所在的平面区域通过预定方式进行分割,对每一子区域, 选取子区域包含的所有分子簇和与该子区域的距离不超过预定数值的所有分子簇,对选取 的分子簇执行步骤S2和步骤S31,然后将该子区域包含的分子簇的计算结果作为所述校正 过信号混杂的光强。对每一子区域的操作可并行完成,步骤S211到S213可W对每一子区 域分别执行也可先于步骤S2P执行。
[0227] 其中,步骤S31和步骤S32可替换为:
[022引步骤S3R1,对步骤S123得到的分子簇英光信号I,求解CS= I得到可直接用于进 行辨识碱基的信号。
[0229] 步骤S32和步骤S33可替换为:
[0230] 步骤S3R2,输出D,使用第Η方工具,如AYB (Massin曲am&Goldman, 2012)等完成测 序。
[0231] 发明人采用本发明的技术方案对分子簇测序的英光信号数据进行了仿真测试,女口 图5所示;图5是根据本发明实施例的数据处理结果示意图,其中横轴表示离最近分子簇的 距离,纵轴表示数量,黑色部分(CACC improved PF reads)为采用本发明实施例后对测序 精度的提高。X轴坐标代表离最近分子簇中必的距离。左侧长条为通过本发明处理数据后 完美匹配序列比例,中间的是通过本发明的方案但不校正分子簇信号相互混杂的结果,右 侧为识别出的分子簇的总数量。可见,离最近分子簇距离在1到3个像素的送部分分子簇 的映射正确率提高最显著。
[0232] 同时,发明人制作了应用本发明技术方案的软件。该软件可W输入测序图像数据 或分子簇英光信号数据,通过计算混杂系数,完成对信号混杂的校正,并输出校正了信号混 杂的分子簇英光信号或序列识别结果及质量值。根据本发明的技术方案,软件分为预处理 模块、计算混杂系数模块和处理模块,分别用于对输入数据的预处理、计算混杂系数和根据 混杂数据对输入数据进行后续处理。预处理模块分为图像处理单元和预处理单元,图像处 理单元用于处理输入数据为测序图像的情形,预处理单元用于完成对数据的预处理使之符 合计算混杂系数的条件。软件的具体内容如上述步骤所示,不再赏述。该软件的一个版本 通过C++代码编译实现,该软件的另一个版本通过Matl油程序实现。软件的各部分步骤通 过0PENMP实现并行处理,加快了执行速度。
[0233] 综上所述,借助于本发明的上述技术方案,通过对邻近分子簇间的信号混杂的自 适应的校正,从而可W更准确地完成对分子序列的辨识。此外,本发明还可W读入原始图片 数据或分子簇英光信号数据,并输出校正过信号混杂的分子簇英光信号数据,或输出最终 的有质量评估的分子序列,本技术可直接应用于处理采用桥式扩增技术的DNA测序仪器产 生的数据,并可应用于处理其他辨识多个分子的结构或序列的装置产生的数据。
[0234] W上所述仅为本发明的较佳实施例而已,并不用W限制本发明,凡在本发明的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内,并 且本工作得到了国家自然科学基金委员会重大研究计划培育项目91130008的资助。
[0235] 参考文献
[0236] Anastasi, C. (2008). Accurate whole human genome sequencing using reversible terminator chemistry. Nature, 456(7218), 53-59.
[0237] Bentley, D. R. , Balasubramanian, S. , Swerdlow, H. P. , Smith, G. P. , Milton, J. , Brown, C. G. ,. . . &
[0238] Li, L. , feSpeed, T. P. (1999). An estimate of the crosstalk matrix in four-dye fluorescence-based DNA sequencing. Electrophoresis, 20(7), 1433-1442.
[023引 Massin曲am, T. , &Goldman, N. (2012). All Your Base : a fast and accurate probabilistic approach to base calling. Genome Biol, 13, R13.
[0240] Whiteford, N. , Skelly, T. , Curtis, C. , Ritchie, M. E. , Liihi·, A. , Zaranek, A. W. , . . . &Brown, C. (2009). Swift:primary data analysis for the Illumina Solexa sequencing platform. Bioinformatics, 25(17), 2194-2199。
【主权项】
1. 一种用于多个分子信号的数据处理方法,其特征包括: 计算任意分子簇A与符合预定条件的分子簇B的英光信号之间的混杂系数C(A ^ B); 根据所述混杂系数,对不同分子簇的英光信号进行处理; 其中对任意所述分子簇A和符合预定条件的所述分子簇B,所述C (A ^ B)用于衡量所 述分子簇A的英光信号中来源于所述分子簇B的混杂的严重程度,所述混杂是指所述分子 簇A的英光信号中出现的所述分子簇B中英光标记的英光信号;分子簇为特定分子的集合, 该集合内包含具有相同序列的分子,并且送些分子之间的平均距离小于不同分子簇的分子 之间的平均距离;对任意所述分子簇A,其英光信号指通过预定方式得到的、可用于对所述 分子簇A包含分子的序列或子序列进行识别的数据;分子的序列为分子中预定的一个或多 个位置的分子基本元件的类型。2. 根据权利要求1的所述方法,其特征在于,所述根据所述混杂系数对不同分子簇的 英光信号进行处理,包括: 通过所述混杂系数校正所述不同分子簇的英光信号中的信号混杂; 其中,所述信号混杂是指任意分子簇的英光信号中出现属于其他分子簇中分子英光标 记的英光信号。3. 根据权利要求1的所述方法,其特征在于,对任意所述分子簇A和所述分子簇B,所 述混杂系数C(A ^ B)为E(A^B)与£度^B)的比,其中,所述E(A^B)为所述分子簇A 的英光信号中来源于所述分子簇B的英光标记的英光信号,所述E度^ B)为所述分子簇B 的英光信号中来源于所述分子簇B中分子英光标记的英光信号。4. 根据权利要求1的所述方法,其特征在于,通过下述公式计算所述混杂系数 C(A-B): 0(八户8)=日1'卵;[]1。江(14-。1[5)+11(。)); 其中,h (C)为预先设定的单调非减函数,Ia和I e分别表示所述分子簇A和所述分子簇 B在预先指定的测序轮和测序频道的英光信号其中n为测序轮的数 量,对测序轮数j,r,为预先设定的函数,W ,为根据所有分子簇在第j轮测序中的英光信号 计算出的标量或是预先设定的常数,C为预定区间内的实数。5. 根据权利要求4的所述方法,其特征在于,argminc(f(lA-cIe)+h(c))通过使用分位 数法求f (lA-cIe)+h(c)的导函数零点的方法得到。6. 根据权利要求2的所述方法,其特征在于,所述通过所述混杂系数校正所述不同分 子簇的英光信号中的信号混杂包括: 通过下述公式计算校正过信号混杂的所述不同分子簇的英光信号所组成的矩阵Ii: C- Ii= I 0; 其中在所述矩阵Ii中,每行的元素对应一个分子簇的英光信号,每列的元素对应一个 测序轮中一个频道的所有分子簇的英光信号;C为由各个分子簇之间的混杂系数所组成的 矩阵;I。为需要进行所述校正的分子簇的英光信号所组成的矩阵,在所述矩阵I。中,每行的 元素对应一个分子簇的英光信号,每列的元素对应一个测序轮中一个频道的所有分子簇的 英光信号。7. 根据权利要求1的所述方法,其特征在于,在计算所述不同分子簇的英光信号之间 的混杂系数之前进一步包括: 采用预定方式对输入数据进行处理,所述预定方式包括W下至少之一: 校正光谱串色、校正相位失相、对原始图像数据进行预处理生成分子簇的英光信号。8. 根据权利要求7的所述方法,其特征在于,对所述原始图像数据进行预处理生成分 子簇的英光信号,包括: 校正存在光谱串色的频道对应的图像的光谱串色; 对所述校正过光谱串色的图像进行分子簇定位操作, 其中,所述分子簇定位操作是指确定图像中符合预定条件的分子簇,W及确定所述符 合预定条件的分子簇的坐标。9. 根据权利要求2的所述方法,其特征在于,所述根据所述混杂系数对不同分子簇的 英光信号进行处理,进一步包括: 通过校正过信号混杂的分子簇英光信号对分子簇中分子的序列进行识别。10. -种用于多个分子信号的数据处理装置,其特征在于,包括: 计算混杂系数模块,用于计算任意分子簇A与符合预定条件的分子簇B的英光信号之 间的混杂系数"4 ^B); 处理模块,用于根据所述混杂系数对不同分子簇的英光信号进行处理; 其中对任意所述分子簇A和符合预定条件的所述分子簇B,所述C (A ^ B)用于衡量所 述分子簇A的英光信号中来源于所述分子簇B的混杂的严重程度,所述混杂是指所述分子 簇A的英光信号中出现的所述分子簇B中英光标记的英光信号;分子簇为特定分子的集合, 该集合内包含具有相同序列的分子,并且送些分子之间的平均距离小于不同分子簇的分子 之间的平均距离;对任意所述分子簇A,其英光信号指通过预定方式得到的、可用于对所述 分子簇A包含分子的序列或子序列进行识别的数据;分子的序列为分子中预定的一个或多 个位置的分子基本元件的类型。11. 根据权利要求10的所述装置,其特征在于,所述处理模块包括:校正单元,用于通 过所述混杂系数校正所述不同分子簇的英光信号中的信号混杂, 其中,所述信号混杂为任意分子簇的英光信号中出现属于其他分子簇中分子英光标记 的英光信号。12. 根据权利要求10的所述装置,其特征在于,所述混杂系数C (A ^ B)为E (A ^ B)与 E度^ B)的比,其中,所述E (A ^ B)为所述分子簇A的英光信号中属于所述分子簇B中分 子英光标记的英光信号,所述E度^ B)为所述分子簇B的英光信号中属于所述分子簇B中 分子英光标记的英光信号。13. 根据权利要求10的所述装置,其特征在于,所述计算混杂系数模块进一步用于,通 过下述公式计算所述混杂系数C (A ^ B): 0(八户8)=日1'卵;[]1。江(14-。1[5)+11(。)); 其中,h (C)为预先设定的单调非减函数,Ia和I e为分子簇A和分子簇B在预先指定的 测序轮和测序频道的英光信号,其中n为测序轮的数量,对测序轮数 j,r,为预先设定的函数,W ,为根据所有分子簇在第j轮测序中的英光信号计算出的标量或 是预先设定的常数,C为预定区间内的实数。14. 根据权利要求13的所述装置,其特征在于,argmine(f (Ia-CIb)+h(c))通过使用分 位数法求f (lA-cIe)+h(c)的导函数零点的方法得到。15. 根据权利要求11的所述装置,其特征在于,所述校正单元进一步用于,通过下述公 式计算校正过信号混杂的所述不同分子簇的英光信号所组成的矩阵Ii: C* Ii= 1〇; 其中在所述矩阵Ii中,每行的元素对应一个分子簇的英光信号,每列的元素对应一个 测序轮中一个频道的所有分子簇的英光信号;所述C为由各个分子簇之间的混杂系数所组 成的矩阵;所述I。为需要进行所述校正的分子簇英光信号所组成的矩阵,在所述矩阵I。中, 每行的元素对应一个分子簇的英光信号,每列的元素对应一个测序轮中一个频道的所有分 子簇的英光信号。16. 根据权利要求10的所述装置,其特征在于,进一步包括: 预处理模块,用于在计算所述不同分子簇的英光信号之间的混杂系数之前,采用预定 方式对输入数据进行处理,所述预定方式包括W下至少之一: 校正光谱串色、校正相位失相、对原始图像数据进行预处理生成分子簇的英光信号。17. 根据权利要求16的所述装置,其特征在于,所述预处理模块进一步包括: 图像处理单元,用于对原始图像数据进行预处理生成所述分子簇的英光信号;W及所 述图像处理单元进一步包括: 校正子单元,用于校正存在光谱串色的频道对应的图像的光谱串色; 定位子单元,用于对所述校正过光谱串色的图像进行分子簇定位操作, 其中,所述分子簇定位操作是指确定图像中符合预定条件的分子簇,W及确定所述符 合预定条件的分子簇的坐标。18. 根据权利要求11的所述装置,其特征在于,所述处理模块进一步包括: 下游处理单元,用于根据所述校正单元校正过信号混杂的分子簇英光信号对分子簇中 分子的序列进行识别。
【文档编号】G01N21/64GK105989248SQ201510061908
【公开日】2016年10月5日
【申请日】2015年2月5日
【发明人】李雷, 王博, 万林
【申请人】中国科学院数学与系统科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1