一种基于参数化变形模板的生物芯片图像样点自动识别方法

文档序号:6599208阅读:145来源:国知局
专利名称:一种基于参数化变形模板的生物芯片图像样点自动识别方法
技术领域
本发明属于生物信号图像处理领域,涉及一种生物芯片图像样点自动识别方法,
特别涉及一种基于参数化变形模板的生物芯片图像样点自动识别方法。
背景技术
生物芯片在一块微小的基片表面可以集成大量的分子识别探针,能够在同一时间内平行分析大量的基因,进行大信息量的筛选与检测分析,使人们快速准确地获取样品中的生物信息,检测效率是传统检测手段的成百上千倍。这种芯片技术已广泛应用于临床诊断、药物筛选和新药开发、基因功能研究、环保、农业、畜牧业生产、军事、检验检疫、环保和食品安全等领域。 生物芯片上集成了大量的杂交样点,而每个样点都表达了一定的生物信息,要提取反应数据,得到杂交模式,就需要对杂交样点定位,因此准确识别每个样点是芯片图像处理另一个关键问题。在生物芯片的应用过程中,由于点样的随意性和点样仪的误差,阵列中每个样点的位置也并不能保证正好处于一个正规网格的节点处。在芯片的制作、反应、清洗和测定过程中,基片上难免沾染灰尘和待测样品中的核酸、蛋白质、细胞和组织碎片,因此基片表面除了阵列斑点外,还存在很多杂质点,有的杂质点甚至面积较大,强度也较高,不易与实际阵列斑点区分。以上这些因素都使得自动定位样点的位置比较困难,特别是当所分析图像中阵列规模和形式差别较大时,更难以得到一个通用的算法自动定位生物芯片扫描图像中的样点。因此大多数的商业化软件均采取了手动定位阵列样点的方法,这种方法的步骤是首先选择需要识别的区域,然后输入芯片阵列的行列数、斑点半径和阵列的行列间距,接着由计算机自动产生一个圆圈阵列,调整圆圈阵列,将其套在样点阵列上,使每个圆圈内包括一个样点。由于点阵排列的不完全规则,最后需要手动对单个点进行调整。这种手动定位的方法具有一定的灵活性,但是由于是手工操作,因此会加大实验者的工作量,而且不利于实现整个芯片应用过程的自动化,同时,手工定位随意性比较大,数据重复性和可靠性难以得到保证。也有一些研究者提出了生物芯片图像样点自动识别算法,例如基于遗传算法、圆心度函数的方法,通过寻找高质量对照点的方法,基于图像投影的方法以及基于数学形态学的方法等。但是这些方法通常是基于对单个样点使用模式识别的方法进行辨别和定位,要么对不同形式芯片适用性不强,要么对图像质量要求较高,要么仍然需要一定程度的手工操作,要么对有倾斜角度的芯片无法处理,不能满足对不同形式芯片阵列样点进行自动识别的要求。 为此,本发明提出了一种基于参数化变形模板的生物芯片图像样点自动识别方法。

发明内容
1.本发明要解决的技术问题
现有技术无法完全满足对不同形式生物芯片图像进行样点自动的需要,为避免现有技术的不足之处,本发明提供了一种基于参数化变形模板的生物芯片图像样点自动识别方法。 2.技术方案 本发明针对生物芯片的图像特征,提出了一种基于参数化变形模板的生物芯片图像样点自动识别方法,以芯片设计点样阵列为模板,建立了芯片杂交样点的变形模板模型,用6个参数表征了模板的平移、旋转和縮放,结合图像特征设计了变形模板的能量函数,采用遗传算法搜索变形模板,实现了变形模板与杂交样点的最佳匹配,模板匹配结果即为样点自动识别的结果。
(1)基于变形模板技术的样点特征提取 基于生物芯片模型的参数化变形模板由一组描述所要提取的目标几何形状的参数表示,这组参数包含了有关目标的位置、大小和形状等先验信息,反映了目标几何形状的特征。与一般意义下的模板不同,变形模板的形状参数在与图像的各种特征的相互作用过程中是可改变的。对于不同的目标而言,模板的形状不同,表示模板的形状参数也不一样。实际应用中图像有可能发生以下几种基本变形平移、旋转和縮放,因此在利用变形模板匹配时,我们采用同样的基本变形对模板进行变形,寻求优化的匹配结果。 —般来说,由实验以后的芯片扫描出来的图像,杂交反应充分的样点位置信号比较强,杂交反应不充分或者根本没有杂交反应的样点位置信号比较微弱,甚至没有信号,而芯片数据处理需要提取所有样点位置的数据信息,因此变形模板以芯片设计时的整体点样阵列作为模型。芯片由自动点样仪点样,点样时遵循一定规则,样点最上边一行和最左边一列是阳性对照点,可以作为样点坐标,每个样点图形基本都是圆形,所有样点呈行列分布。模板是由一组圆所组成的网格,在芯片图像上建立图像坐标系,以图像的(O,O)点作为坐标原点,向右为x轴方向,向下为y轴方向,(x,y)为左上角第一个样点圆心的坐标,称作基点,dx为样点的列距,dy为样点的行距,r为样点半径,e为样点模型与x轴倾斜夹角。
这样,模型中每个样点圆心坐标可以表示为 其中,i, j为样点所在位置,m, n分别为样点模型的行列数。 由前面的分析可以看出,如果样点模型行列数确定,样点模型中每一个样点的位置、大小和形状,都可以由式(1)和(2)表示,也就是可以用(x,y,dx,dy,r, e)6个彼此独立的参数完全描述,其中,x,y表征了模板的平移,dx,dy,r表征了模板的縮放,e表征了模板的旋转,这六个参数的变化就可以刻画芯片样点模型的所有变形。
(2)变形模板能量函数的定义 变形模板匹配的目的在于找到一种变形,使模板与图像的匹配达到最佳,这种匹
配一般由预定义的能量函数来表达。能量函数是变形模板最重要的特征,表征了变形模板和图像之间的吻合度,动态地调整参数实现能量函数的最大化或最小化就可以达到最终的模板匹配。通过定义能量函数,将模板与图像之间位置匹配的优劣映射到能量函数的取值上,从而将图像匹配问题转换为计算机优化问题。 能量函数一般由内部能量函数和外部能量函数构成,内部能量考虑变形模板与理想轮廓的偏差,外部能量主要涉及图像的一些具体特征。分析芯片图像的特征,可以看出样点和图像背景之间存在一个强度明显不同的过渡,图像的梯度在这个过渡边界上将存在最大值,而且样点的灰度和背景的灰度也存在很大差别,因此图像梯度和亮度的能量可以作为外部能量;图像样点形状规律,排列较为整齐,因此几何形状的约束可以作为内部能量。综合以上分析,芯片样点变形模板的能量函数主要包括图像梯度、图像亮度和几何形状约束三个部分。
1)图像梯度能量 模板的梯度能量是指模板边缘轮廓上图像梯度的约束能量,定义为模板边缘轮廓上图像梯度的负平均值,艮卩
五一(;)=-—— (3)
参数向:
其中L表示模板的外部轮廓线,l,表示模板外部轮廓线的长度,Grad(x,y)表示由5表示的模板的外部轮廓线上点(x,y)的梯度。
图像函数f(x,y)在点(x,y)的梯度是一个具有方向和大小的矢量,其大小为 Grat/(x,力=j(f)2 + (#)2 (4)
5_y 对于数字图像,可以用一阶差分直接代替图像函数的偏导数。图像点(x, y)的梯
度幅度由方向差分的均方值来近似,即
Gra《x,力=V[/", W _ +1' J + W + 少+1) — + i'力] (5) 在实际应用中,为了计算简单可以用梯度函数的罗伯特绝对值来近似,即 Grad(x, y) = |f (x, y)-f (x+l, y+l) | + |f (x, y+l)-f (x+l, y) I (6) 梯度能量的作用是使模板边缘接近样点的边缘,根据边缘的特性,边缘上点的梯
度值应该在其相应的邻域内最大,因此在当模板的图像梯度的均值最大时,此项约束能量
达到最小。 2)图像亮度能量 模板的亮度能量是指模板内部的图像亮度的约束能量,定义为模板所包含图像像素值的平均值,即 F ="沐s_ (7) 其中Grey(x,y)表示由参数向量^表示的模板的内部各点(x,y)的像素值,S表示模板内部的封闭区域,Sw表示模板的面积,为了使三个约束能量都在一个数量级,我们将SN扩大10倍。 亮度能量约束的目的是使模板向样点靠拢,由于样点比背景的灰度值小,所以当
模板与样点匹配时,该约束能量也达到最小。 3)几何形状约束能量 图像的几何形状约束能量是指对样点模板的形状及大小的约束综合加权,定义为
£ge。m,(》=Vl I血-血0 I +v2 I办-办。I +v3 I r - r。 I (8) 其中dx, dy, r表示模板的参数,dx。, dy。, r。表示初始模板的参数。 引入几何形状约束使模板在提取目标的过程中,不会因为其它因素的干扰使模板
的形状和先验的样点形状偏离过大。对于确定的芯片图像来说它的行列距和样点半径dx。,
dy。,r。都是可由先验信息估计得到。^、^、^表示各项的权值,处于0和l之间,并且和为1。 设芯片网格模板的参数向量为;,则模板总能量为 五脚0) = £grarf (v) + ^脾 £, 0) + w,m (v) (9) 其中wgrad、WgMy、wge。m分别表示三项能量的权值,大小位于0和1之间,其和为1。 若参数组(x, y, dx, dy, r, e )使能量函数五^(》取得最小值,则这一组参数可以
精确的对芯片样点定位。至此,变形模板匹配问题转化为能量函数最小化问题。
(3)基于遗传算法的变形模板参数优化搜索 本发明是将变形模板参数进行编码,而后通过选择、交叉、变异等操作,在适应度 函数(此处为综合的能量函数)的控制下,进化生成最优或近优的模板参数组合。
1)参数编码方案 采用遗传算法进行变形模板匹配需要对模板参数进行编码。芯片样点模型以6个
相互独立的参数刻画,因此我们将模板参数采用二进制方式编码,第一个样点的横纵坐标
(x, y)分别以6个字符表示,样点行列距dx, dy分别以5个字符表示,样点半径r以4个字
符表示,图像倾斜角度9以4个字符表示,种群个体(染色体)字符串长度为各变量所占
字符数之和,即30。 2)初始模板的生成 初始变形模板的构造应充分利用样点模型的先验知识。由于芯片采用自动点样仪 点样,因此对于同批点样的芯片,样点模型中(x, y, dx, dy, r, 9 )6个参数应该可以通过先 验知识估计其大致范围,初始变形模板限定在这个范围内可以加快收敛速度。
3)适应度函数的定义 适应度函数决定了进化的速度和方向。能量函数反映了变形模板和图像之间的吻 合程度,所以以(9)式定义的能量函数作为适应度函数,当适应度函数达到最小时,可变模 板和图像样点阵列达到最优匹配。 由于遗传算法中的适应度是非负的,并且以适应度最高的作为最优解。在此需要 将能量函数的极小值问题转化为求解极大值的问题。同时考虑到可能的负的目标函数值以 及避免早期的高适应度的个体导致收敛到次优解,根据个体在种群中的排列而不是原始的 性能向它们指派适应度,先把个体i按目标函数值f(Xi)用降序排列,目标函数值小,也就 是适应度高的个体就排在了后面,Xi表示个体i在已排好序的种群中的位置。然后用变量
7MAX来决定选择的压力,通常选择区间为[1. 1,2.0]。则适应度计算如下F(x,) = 2 —M4X + 2(M4X —(10)
w — l 4)遗传算子的选择 在该算法中交叉算子采用单点交叉,即以一定概率P。从父代群体中选择两个个 体,随机选择某一交叉点把两个个体进行交叉,从而生成两个新的子代个体。变异算子采用 单点变异,随机选择某一基因,将"0"变为"1"或将"1"变为"0"。选择算子采用赌轮法则 进行个体选择,从父代群体和保存的最优群体中,按个体适应度在整个群体适应度总和中 所占的比例,选择生成下一代群体。
5)停止策略 在每一代群体中取出适应度排列在前的30位个体,以它们的适应度平均值作为 判别依据,如果相邻两代适应度平均值小于一个很小的值或者迭代次数达到某一预设值, 则终止算法,这一代的群体达到了稳定,其中适应度最高的个体作为最终的结果输出。
本发明的生物芯片样点识别算法步骤为
步骤一 对变形模板参数进行编码; 步骤二 依据先验知识,确定初始变形模板种群,进化代数为1 ; 步骤三如果满足进化停止条件,则转至步骤十; 步骤四根据式(9)和(10)计算每个模板个体的适应度; 步骤五根据模板个体的适应度选择个体; 步骤六根据设定的交叉概率对模板个体进行交叉操作; 步骤七根据设定的变异概率对模板个体进行变异操作; 步骤八补充模板个体,保持种群个体数目; 步骤九进化代数递增,转至步骤三; 步骤十在最后一代模板种群中,选择最后30个个体的平均值作为模板最优参 数。 有益效果 本发明一种基于参数化变形模板的生物芯片图像样点自动识别方法优点在于
(1)该方法迭代次数少,收敛速度快,具有很好的稳定性; (2)该方法以芯片设计时所有样点为模板,在搜索的过程中,兼顾所有样点匹配模 板,而且模板定位后不再需要用户手动调整对准,准确度较高。


图1本发明的一种基于参数化变形模板的生物芯片图像样点自动识别方法的总 体框图 图2三幅不同倾角的生物芯片图像 图3图2 (a)的样点参数化变形模板模型 图4三幅不同倾角的生物芯片图像平均适应值进化曲线 图5变形模板与倾角为0度的生物芯片样点阵列的匹配过程 图6三幅不同倾角的生物芯片图像样点模板匹配结果
具体实施例方式
下面结合附图对本发明作进一步的详细说明。 本发明提出一种基于参数化变形模板的生物芯片图像样点自动识别方法。图1为 本发明的一种基于参数化变形模板的生物芯片图像样点自动识别方法的总体框图,该方法 以芯片设计点样阵列为模板,建立了芯片杂交样点的变形模板模型,用6个参数表征了模 板的平移、旋转和縮放,结合图像特征设计了变形模板的能量函数,采用遗传算法搜索变形 模板,实现了变形模板与杂交样点的最佳匹配,模板匹配结果即为样点自动识别的结果。
本发明采用图2中三幅不同倾角的芯片图像对算法进行实验验证。在本发明提出 的算法中,初始种群规模为100,交叉率为0. 9,变异率为0. 05,代沟为1 ,最大的繁衍代数为 100, dx。 = 30, dy。 = 30, r。 = IO,适应度函数由式(9)和式(10)定义,其权值确定为c^ =0.4, "2 = 0.3, "3 = 0.3。对图2(a)倾角为0度的芯片图像、图2 (b)倾角为-5度的 芯片图像和图2(c)倾角为3度的芯片图像采用图3样点参数化模板进行匹配,其种群平均 适应度进化曲线分别见图4 (a)、图4 (b)和图4 (c),从图4可以看出,种群的平均适应度即 模板的能量函数随着迭代次数的增加快速收敛,到一定程度,适应度函数趋于平稳,不再变 化,这时模板与目标图像达到最佳匹配,也进一步表明,本发明具有较高的计算效率,进化 70-80代左右即可达到较为稳定的结果。此时样点阵列匹配最优模板参数见下表
图号 JC 少 r 0 进化代数
图2(a) 22.4194 15.6452 29.3333 26.6667 9.6667 -0.1333 71
图2(b) 24.6774 34.8387 29.3333 26.6667 9.6667 -4.9000 81
图2(c) 35.9677 16.7742 29.3333 26.6667 9.6667 2.8667 77 基于遗传算法的变形模板匹配过程是一个渐进优化的过程,以图2(a)的芯片图 像为例,图5给出了变形模板与芯片样点阵列的匹配过程。可以看出,由于采用了遗传算 法,模板在朝着一个看似无序实则有序的方向进化,能量函数在这里起了非常重要的作用。 基于可变模板的样点识别算法的关键就是定义合适的能量函数,以及对遗传算法参数的选 择。图6(a)为图2(a)生物芯片图像样点阵列模板匹配结果,图6 (b)为图2(b)生物芯片 图像样点阵列模板匹配结果,图6(c)为图2(c)生物芯片图像样点阵列模板匹配结果。
本发明迭代次数少,具有很好的稳健性和较快的收敛速度,能够准确识别生物芯 片图像杂交样点,解决了生物芯片样点自动识别的难题,对生物芯片信息提取的自动化和 智能化有很好地促进作用。
权利要求
一种基于参数化变形模板的生物芯片图像样点自动识别方法,其特征在于所述的方法包括以下步骤步骤一针对生物芯片图像的特征,以芯片点样阵列为模型,建立了芯片样点的变形模板模型,用表征样点的位置、大小和形状的6个参数刻画了芯片样点模型的所有变形,将模板的平移、缩放和旋转与6个参数一一对应;步骤二结合生物芯片图像的梯度、亮度和几何形状约束的能量函数来定义总能量函数,将模板与图像之间位置匹配的优劣映射到能量函数的取值上,从而将图像匹配问题转换为计算机优化问题;步骤三对表征变形模板的6个参数进行单独编码,将能量函数定义为适应度函数,采用遗传算法同时优化这6个参数,搜索与样点最佳匹配的模板,模板匹配结果即为样点自动识别的结果。
2. 根据权利要求1所述的一种基于参数化变形模板的生物芯片图像样点自动识别方法,其特征在于所述步骤一中生物芯片图像的特征是图像中有杂交反应的样点位置有信号,没有杂交反应的样点位置没有信号,芯片图像样点最上边一行和最左边一列是阳性对照点,作为样点坐标,每个样点图形基本都是圆形,所有样点呈行列分布。
3. 根据权利要求1所述的一种基于参数化变形模板的生物芯片图像样点自动识别方法,其特征在于所述步骤一中建立的变形模板模型为每个样点圆心坐标可以表示为其中,i, j为样点所在位置,m, n分别为样点模型的行列数,(x, y)为左上角第一个样点圆心的坐标,称作基点,dx为样点的列距,dy为样点的行距,r为样点半径,e为样点模型与x轴倾斜夹角,同时x,y,dx,dy,r, e为所述步骤一中的表征样点的位置、大小和形状的6个参数,通过式(1)和式(2)刻画了芯片样点模型的所有变形,其中x, y, dx, dy与模板的平移进行对应,r与模版的縮放进行了对应,e与模版的旋转进行了对应。
4.根据权利要求1所述的一种基于参数化变形模板的生物芯片图像样点自动识别方法,其特征在于所述步骤二中模板的梯度能量是指模板边缘轮廓上图像梯度的约束能量,定义为模板边缘轮廓上图像梯度的负平均值,定义为其中L表示模板的外部轮廓线,l,表示模板外部轮廓线的长度,Grad(x,y)表示由参数向量5表示的模板的外部轮廓线上点(x,y)的梯度,近似为Grad (x, y) = | f (x, y) -f (x+l , y+l) | +1 f (x, y+l) -f (x+l , y) | (4)所述步骤二中模板的亮度能量是指模板内部的图像亮度的约束能量,定义为模板所包含图像像素值的平均值,定义为<formula>formula see original document page 3</formula>其中Grey(x,y)表示由参数向量^表示的模板的内部各点(x,y)的像素值,S表示模板内部的封闭区域,Sw表示模板的面积,为了使三个约束能量都在一个数量级,将Sw扩大10倍;所述步骤二中模板的几何形状约束能量是指对样点模板的形状及大小的约束综合加权,定义为<formula>formula see original document page 3</formula>其中dx, dy, r表示模板的参数,dx。, dy。, r。表示初始模板的参数,对于确定的芯片图像来说它的行列距和样点半径dx。, dy。, r。都是可由先验信息估计得到,Vl、 v2、 v3表示各项的权值,处于O和1之间,并且和为1 ;<formula>formula see original document page 3</formula>其中wgMd、wgrey、wgTOm分别表示三项能量的权值,大小位于0和1之间,其和为1 ;若参数组(x, y, dx, dy, r, e )使能量函数£_(》取得最小值,则这一组参数可以精确的对芯片样点定位,通过式(7)将模板与图像之间位置匹配的优劣映射到了能量函数的取值上,变形模板匹配问题即转化为能量函数最小化问题。
5. 根据权利要求1所述的一种基于参数化变形模板的生物芯片图像样点自动识别方法,其特征在于所述步骤三中适应度计算公式为<formula>formula see original document page 3</formula>Xi表示个体i在已排好序的种群中的位置,然后用变量MAX来决定选择的压力,通常选择区间为[1. 1,2.0]。
6. 根据权利要求1所述的一种基于参数化变形模板的生物芯片图像样点自动识别方法,其特征在于该方法可以应用到所有在计算机上开发的生物芯片分析系统。
7. 根据权利要求1所述的一种基于参数化变形模板的生物芯片图像样点自动识别方法,其特征在于该方法可以应用到所有生物芯片扫描和分析设备上。
全文摘要
生物芯片数据处理和信息提取需要对图像中杂交样点进行精确定位,样点识别是生物芯片信息处理的核心,其结果将直接影响到芯片检测结果的精度和准确性。针对生物芯片的图像特征,本发明提出了一种基于参数化变形模板的生物芯片图像样点自动识别方法,以芯片设计点样阵列为模板,建立了芯片杂交样点的变形模板模型,用6个参数表征了模板的平移、旋转和缩放,结合图像特征设计了变形模板的能量函数,采用遗传算法搜索变形模板,实现了变形模板与杂交样点的最佳匹配。本发明迭代次数少,具有很好的稳健性和较快的收敛速度,能够准确识别生物芯片图像杂交样点,解决了生物芯片样点自动识别的难题,对生物芯片信息提取的自动化和智能化有很好地促进作用。
文档编号G06K9/00GK101777118SQ201010124509
公开日2010年7月14日 申请日期2010年3月16日 优先权日2010年3月16日
发明者刘国传, 陆琳 申请人:刘国传;陆琳
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1