基于主动轮廓模型和细胞神经网络的生物芯片分析方法

文档序号:6596004阅读:155来源:国知局
专利名称:基于主动轮廓模型和细胞神经网络的生物芯片分析方法
技术领域
本发明属于生物芯片技术领域,特别是一种基于主动轮廓模型和细胞神经网络的生物芯片分析方法,该方法可应用于生物芯片扫描图像的处理、自动识别和分析。
背景技术
生物芯片是通过平面微细加工技术在固体芯片表面构建的微流体分析单元和系统,以实现对细胞、蛋白质、核酸以及其他生物组分的准确、快速、大信息量的检测,具有多通道、高通量、并行自动处理等优点。生物芯片技术充分利用了生物科学、信息学等学科的成果,已经广泛应用于医学、生命科学、环境科学等相关领域。生物芯片样点识别是生物芯片检测系统的关键技术。生物芯片上集成了大量点阵的生物识别分子,每个样点对应一个基因表达或者生物信息,对生物芯片上所包含的信息进行准确检测是一项至关重要的工作。生物芯片信息处理的关键是准确识别每个样点,在样点区域内提取灰度强度作为后续处理的依据。样点识别是生物信息分析的基础,识别准确与否直接影响后续数据提取及生物信息建立,其速度和精度对整个生物芯片信息分析具有决定性作用。样点识别技术是生物信息提取和分析方法领域的一个经典难题。芯片图像经常受到点样仪误差、扫描仪误差、反应过程污染、清洗过程污染以及环境光污染等因素的综合影响,从而增大了准确、快速地识别样点的难度。而且现在还没有统一的国际标准或行业标准,算法的一致性 、精确性、图像依赖性等关键技术指标不明确,用户难以选择合适芯片特点的样点识别方案。目前较多的生物芯片分析软件仍采用人为干预相结合的方法,一般做法是:首先手动输入设置网格参数,自动生成粗对准网格,然后手动调整实现目标样点局部区域化,按照一定规则不断调整分割区域的位置和大小,最后实现目标样点的分割和数据提取。对于生物芯片高密度、大信息量的特点,手动辅助识别的方式显得效率低下,对操作人员的主观依赖性大,精度难以提高。KASS于1987年提出SNAKE模型,现已广泛应用于数字图像分析和计算机视觉领域,这种主动轮廓模型具有良好的提取和跟踪特定区域内目标轮廓的能力,因此非常适合边缘提取。LEON 0.CHUA等于1988年提出了细胞神经网络,这种网络在分类、学习和预测问题上有较好性能,并提供了分布式信息存储和并行处理能力,使它在生物芯片判定方面具有得天独厚的优势。

发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种基于主动轮廓模型和细胞神经网络的生物芯片分析方法,解决样点信息提取和分析上的难题,准确、快速和自动地识别样点。为解决上述技术问题,本发明所采用的技术方案是:一种基于主动轮廓模型和细胞神经网络的生物芯片分析方法,该方法为:
I)若原始生物芯片图像未发生倾斜,即图像准直,则进入4);若图像发生倾斜,即倾斜角度在[-5° ,5° ]范围内,则进入2);若图像倾角超出[-5° ,5° ]范围,则认为芯片图像的质量不符合要求,不进行后续的分析;2)将生物芯片图像二值化,计算二值的生物芯片图像的倾斜角度,得到其相反数为最佳的倾斜校正角度;3)利用所述最佳的倾斜校正角度和图像几何空间变换的原理,对倾斜的原始生物芯片图像进行旋转校正并灰度化,得到准直的芯片灰度图像;4)对所述准直的芯片灰度图像进行投影计算,得到准直图像在水平和竖直两个方向上的投影波形Ph (X),Pv (y),将投影波形进行开闭级联运算操作和自适应二值化处理,得到二值投影方波;5) 二值投影方波Ph(X)的波峰中心对应着每一行样点的中心,在所述中心划分网格线,确定样点行在水平方向的坐标;二值投影方波Ph(X)的波谷中心对应着样点行间空隙的中心位置,在所述中心位置划分网格线,将每个样点分割到各自的子区域中;运用上述同样的方法处理二值投影方波Pv (y);6)读取上述二值投影方波的各个波峰和波谷的宽度,以及波峰中心与波谷中心的位置;运用数学统计学原理,计算出贴近真实的平均波峰宽度和平均波谷宽度,以及平均波峰中心距;7)结合数学统计学原理,通过判断每条网格线对应的方波的波峰宽度和中心距,发现冗余网格线并予以剔除;对剩余的网格线重新进行计算,添补缺失的网格线;对网格线的位置与数量进行调整,生成优化后的网格线,完成对样点的初次定位;8)将步骤6)获得的平均波峰宽度用作二次精确定位网格的初始直径,对每个样点生成一个二次精确定位 初始网格;对于圆形样点的芯片图像,网格设计成圆形;对于矩形样点的芯片图像,网格设计成矩形;9)基于邻域搜索和自适应调整的原理,对样点进行二次精确定位:运用邻域搜索算法,对上述产生的二次精确定位网格的中心位置逐个进行调整;通过比较网格内部样点信号数据,确定尺寸调整方向,再按照直径调整准则进行调整;使得网格最终能将样点套住,信号区域完全落在网格内部,同时套住的背景区域像素数目达到最小值;10)根据贪婪算法优化主动轮廓模型,利用细胞神经网络CNN将芯片样点按信号强弱进行分类;将多主动轮廓模型Multiple snakes与CNN结合,CNN先学习强信号芯片样点snake的收敛行为,并得到强信号样点的snake轮廓;再指导弱信号芯片样点snake的收敛,得到弱信号芯片样点的snake轮廓,最终实现芯片样点信号区域的分割,提取芯片样点信号区域内灰度强度作为后续处理的数据;11)计算每个样点信号区域内部的灰度总值、平均值和方差,统计得到芯片样点的信号值;计算样点snake轮廓外部环形区域的灰度强度信息,统计出每个样点的背景值,最后输出生物芯片样点分析数据。以下进一步详细阐述本发明的原理。(I)基于改进Hough变换和改进Radon变换的倾斜快速校正算法本发明的目的之一是提供一种基于Hough变换和Radon变换的倾斜快速校正算法,综合考虑了样点形状、校正精确度和运算速度等因素,解决了现有技术中生物芯片图像倾斜检测精度和速度不佳的问题。为了达到上述目的一,经过比较常见的主流倾斜校正算法,本发明提出对矩形样点采用改进的Hough变换进行倾斜校正,而对于圆形样点则采用改进的Radon变换,该方法解决问题的具体技术方案由如下A、B和C三部分组成。(A)针对矩形样点改进的Hough变换方法,包括如下步骤:步骤Al:对生物芯片图像进行二值化将倾斜角度范围规定为[-5° ,5° ],角度检测精度为0.01°。大量统计得到生物芯片图像的倾斜角度范围是[-5° ,5° ],如果图像的倾角超过这范围,则可以认为图像质量不符合要求。但是生物芯片要求的倾角检测精度比一般的直线倾角检测要高,故将倾角检测精度规定为0.01°。在检测倾斜角度之前,先对生物芯片图像进行灰度化,然后进行一次形态学的开闭运算级联操作。接着选择Otsu算法自动计算最佳分割阈值,并使用这阈值将芯片图像二值化。所得二值图像的白色区域(灰度值为255)代表芯片样点,黑色区域(灰度值为O)代表芯片背景。步骤A2:计算Hough参数空间在进行Hough变换之前先对像素点进行判别,如果当前像素点符合条件,则进行Hough变换,否则跳转到下一个像素点。像素点的约束条件:如果当前像素的灰度值为0,且下一行同样位置像素的灰度值为255 ;或者如果当前像素灰度值为255,且下一行同样位置的像素灰度值为O,则计算当前像素点的Hough参数(P ,Θ ),即仅统计矩形样点的上下边缘像素。其中,P为直线到计算原点的距离,Θ为直线与轴之 间的夹角。因此,这种改进的Hough算法仅适合矩形样点,不适合圆形样点。以二值图像的中心为计算原点,以对角线长度为P轴最大值,步长为I ;以5°为Θ轴的最大值,步长为0.01°,计算Hough参数空间。统计P Θ参数空间中各曲线交点的信号累加值,对应着各个角度上特征点的累计数量。步骤A3:提取占主导的直线组无论是准直图像还是倾斜图像,同一行矩形样点的上(下)边缘都处在同一条直线上,故可以通过累计同一行样点的上(下)边缘长度,来判别该行是否对图像倾斜贡献较大。显然,占主导地位的都是累计长度较长的直线,对应的矩形样点行信号强度好、样点数在提取占主导地位的样点上(下)边缘之前,选择图像宽度的1/10为最小直线长度八_。遍历Hough参数空间,如果参数空间坐标(Pi, Θ j)的累加值为A(i,j),代表直线XCOS Θ j+ysin Qj=Pi的累计长度为A(i, j)。如果线长度A(i, j)小于Amin,则表明该直线不占主导地位,应舍去不记录。反之,如果线长度A(i,j)不少于Amin,则要进一步判别它是否局部极大值。根据检测精度确定合理的局部峰值半径r,将Hough参数空间中A(i,j)的rXr邻域值与当前累加值A(i,j)比较,如果A(i,j)在局部区域内是极大值,则表明该直线起主导作用,应保存并用于下一步计算。步骤A4:计算直线组的平均倾斜角度将提取到的直线组按照累计长度从大到小地排序,从而得到最大累计长度Amax,并分别计算累计长度较长的前10条直线的相对长度
权利要求
1.一种基于主动轮廓模型和细胞神经网络的生物芯片分析方法,其特征在于,该方法为: 1)若原始生物芯片图像未发生倾斜,即图像准直,则进入4);若图像发生倾斜,即倾斜角度在[-5° ,5° ]范围内,则进入2);若图像倾角超出[-5° ,5° ]范围,则认为芯片图像的质量不符合要求,不进行后续的分析; 2)将生物芯片图像二值化,计算二值的生物芯片图像的倾斜角度,得到其相反数为最佳的倾斜校正角度; 3)利用所述最佳的倾斜校正角度和图像几何空间变换的原理,对倾斜的原始生物芯片图像进行旋转校正并灰度化,得到准直的芯片灰度图像; 4)对所述准直的芯片灰度图像进行投影计算,得到准直图像在水平和竖直两个方向上的投影波形Ph(X),Pv (Y),将投影波形进行开闭级联运算操作和自适应二值化处理,得到二值投影方波; 5)二值投 影方波PH(x)的波峰中心对应着每一行样点的中心,在所述中心划分网格线,确定样点行在水平方向的坐标;二值投影方波PH(x)的波谷中心对应着样点行间空隙的中心位置,在所述中心位置划分网格线,将每个样点分割到各自的子区域中;运用上述同样的方法处理二值投影方波Pv (y); 6)读取上述二值投影方波的各个波峰和波谷的宽度,以及波峰中心与波谷中心的位置;运用数学统计学原理,计算出贴近真实的平均波峰宽度和平均波谷宽度,以及平均波峰中心距; 7)结合数学统计学原理,通过判断每条网格线对应的方波的波峰宽度和中心距,发现冗余网格线并予以剔除;对剩余的网格线重新进行计算,添补缺失的网格线;对网格线的位置与数量进行调整,生成优化后的网格线,完成对样点的初次定位; 8)将步骤6)获得的平均波峰宽度用作二次精确定位网格的初始直径,对每个样点生成一个二次精确定位初始网格;对于圆形样点的芯片图像,网格设计成圆形;对于矩形样点的芯片图像,网格设计成矩形; 9)基于邻域搜索和自适应调整的原理,对样点进行二次精确定位:运用邻域搜索算法,对上述产生的二次精确定位网格的中心位置逐个进行调整;通过比较网格内部样点信号数据,确定尺寸调整方向,再按照直径调整准则进行调整;使得网格最终能将样点套住,信号区域完全落在网格内部,同时套住的背景区域像素数目达到最小值; 10)根据贪婪算法优化主动轮廓模型,利用细胞神经网络CNN将芯片样点按信号强弱进行分类;将多主动轮廓模型Multiple snakes与CNN结合,CNN先学习强信号芯片样点snake的收敛行为,并得到强信号样点的snake轮廓;再指导弱信号芯片样点snake的收敛,得到弱信号芯片样点的snake轮廓,最终实现芯片样点信号区域的分割,提取芯片样点信号区域内灰度强度作为后续处理的数据; 11)计算每个样点信号区域内部的灰度总值、平均值和方差,统计得到芯片样点的信号值;计算样点snake轮廓外部环形区域的灰度强度信息,统计出每个样点的背景值,最后输出生物芯片样点分析数据。
2.根据权利要求1所述的基于主动轮廓模型和细胞神经网络的生物芯片分析方法,其特征在于,所述步骤2)中,计算生物芯片二值图像的倾斜角度时,对矩形样点图像采用改进的Hough变换检测倾斜角度,对于圆形样点图像则采用改进的Radon变换: a)采用改进的Hough变换检测矩形样点的芯片图像的倾斜角度过程如下: 1)对生物芯片图像进行灰度化,然后进行一次形态学的开闭运算级联操作;接着运用Otsu算法将芯片图像二值化; 2)计算矩形样点的上下边缘像素的Hough参数和累计值;以二值芯片图像的中心为计算原点,以对角线长度为P轴最大值,步长为I ;以5°为Θ轴的最大值,步长为0.01°,计算Hough参数空间;统计P Θ参数空间中各曲线交点的信号累加值,对应着各个角度上特征点的累计数量; 3)选择图像宽度的1/10为最小直线长度Amin;遍历Hough参数空间,如果参数空间坐标(P i,Θ j)的累加值为A(i, j),代表直线xcos Θ j+ysin Θ」=P i的累计长度为A(i, j);如果线长度A(i,j)小于Amin,则表明该直线不占主导地位,舍去不记录;反之,如果线长度A(i, j)不小于Amin,则进一步判别它是否为局部极大值;根据局部峰值半径r,将Hough参数空间中A(i,j)的rXr邻域值与当前累加值A(i, j)比较,如果A(i,j)在局部区域内是极大值,则表明该直线起主导作用,保存到直线组并用于下一步计算; 4)将上述步骤3)中提取到的直线组按照累计长度从大到小排序,从而得到最大累计长度Afflax,分别计算累计长度较长的前10条直线的相对长度
3.根据权利要求1所述的基于主动轮廓模型和细胞神经网络的生物芯片分析方法,其特征在于,所述步骤4)中,对投影信号PhOO,Pv(y)分别进行自适应二值化处理的过程如下: 1)计算投影信号Ph(X)或匕(7)的平均值,选取该平均值为初始阈值Ttl; 2)利用所述初始阈值将投影信号分成两组,信号值小于阈值的划分为groupl,不小于阈值的划分为group 2 ; 3)分别计算groupl和group2的均值Hi1和m2,并计算新的阈值T,其中
4.根据权利要求1所述的基于主动轮廓模型和细胞神经网络的生物芯片分析方法,其特征在于,所述步骤6)中,运用数学统计学方法分别计算平均波峰宽度和平均波谷宽度,二值投影方波的平均波峰宽度或平均波谷宽度的计算过程如下: 将所述步骤6)所获取的各个波峰宽度或波谷宽度存放在一个数组中,将波峰宽度数组或波谷宽度数组中的数值从小到大地排序,然后通过不断地剔除偏离整体较大的数值,得到剩余的符合条件的数值,最后对这些波峰宽度数值求平均值,得到平均波峰宽度或平均波谷宽度;其中剔除偏离整体较大的数值的过程为:将经过排序的波峰宽度数组或波谷宽度数组的第一个数值剔除,即剔除最小值,计算剔除最小值后数组的方差;将经过排序的波峰宽度数组或波谷宽度数组的最后一个数值剔除,即剔除最大值,计算剔除最大值后数组的方差;比较两种情况下的方差,方差较小情况下的剔除是正确的;对于经过排序的波峰宽度数值或波谷宽度数值,以此类推。
5.根据权利要求1所述的基于主动轮廓模型和细胞神经网络的生物芯片分析方法,其特征在于,所述步骤7)中,剔除冗余的网格线和添补缺失的网格线的过程为: 1)将当前两个相邻波峰的中心距Clcd与平均波峰中心距^进行比较,如果Clcd与平均波峰中心距$相差不大,即符合条件则保留这两个波峰对应的网格线;否则视为冗余网格线并予以剔除;其中,λ。为波峰中心距系数,取值范围为λ。^ [5,15]; 2)将当前方波波峰宽度dpi与平均波峰宽度^进行比较,如果dpi与平均水平符合条件则保留该波峰对应的网格线;否则视为样点行或列形状有误或受到噪声污染,应予以剔除;其中,λp为波峰宽度系数,取值范围为λρε [3, 10]; 3)对剔除后剩余的网格线重新进行计算,获取相邻网格线距离的数组D'cl,d' c2,...d/ m},并计算新的平均网格线距离将当前相邻网格线距离d' ^与平均网格线距离进行比较,计算当前相邻的两条网格线之间存在的波长整数个数#,.= / ,并添补N1-1条网格线。
6.根据权利要求1所述的基于主动轮廓模型和细胞神经网络的生物芯片分析方法,其特征在于,所述步骤9)中,运用邻域搜索算法,对网格中心位置逐个进行调整的过程为: 1)计算网格内部信号强度数据(I_Ifflean, Istd),I_ Imean, Istd分别表示圆形或矩形网格范围内的样点信号总值、均值和标准方差;将网格中心分别移到网格中心的八邻域上,在新位置上保持样点直径一致,分别计算样点在新位置上的信号强度数据,得到原网格和8个虚拟网格的三组信号强度信息数据; 2)找出8个虚拟网格中样点信号总值Isum的最大值,并跟原位置样点信号总值进行比较;判断出信号局部最强的位置,即确定网格中心位置调整的方向; 3)比较新位置的信号方差与原位置的信号方差,判断网格中心位置是否调整合理正确,如果新位置的信号方差较小,则用新的网格中心位置代替原位置。
7.根据权利要求1所述的基于主动轮廓模型和细胞神经网络的生物芯片分析方法,其特征在于,所述步骤9)中,自适应调整网格尺寸的步骤为: 1)根据步骤8)所生成的二次精确定位网格,计算所述初始网格的内部信号强度数据(10sun, 10mean, 10std);其中,10sum, 10mean, Icistd分别表示初始网格内的样点信号总值、均值和标准方差; 2)将二次精确定位网格的直径增大两个像素长度,计算增大直径后的虚拟网格的样点信号总值、均值和标准方差(I1.,I1nrean, I1std);将网格直径缩小两个像素长度,计算缩小直径后的虚拟网格的样点信号总值、均值和标准方差(Γ1.,F1fflean, F1std); 3)将1°_^与(256*256-1)/3进行比较,如果满足条件ItlmeanS(256*256-1)/3,则认为网格内的样点信号较强、形状丰满;否则认为网格内的样点信号较弱、边缘有缺口 ; 4)对于信号较强、形状丰满的样点,如果满足条件</=,则将网格的直径增大两个像素长度;如果满足条件/,,,L, = CmJjll </L,则将网格的直径缩小两个像素长度;其它情况皆保持网格直径不变; 5)对于信号较弱、边缘有缺口的样点,如果满足条件/l>/m, 则将网格的直径增大两个像素长度;如果满足条件/丄=IimJmL,, < C—,则将网格的直径缩小两个像素长度;其它情况皆保持网格直径不变; 6)每完成一次网格中心位置的调整,接着调整一次网格的尺寸大小。
8.根据权利要求1所述的基于主动轮廓模型和细胞神经网络的生物芯片分析方法,其特征在于,所述步骤10)中,运用贪婪算法优化主动轮廓模型的过程为: 1)通过搜索snake曲线上当前轮廓点的附近区域获得能量极小的位置;假定snake曲线上相邻的轮廓点都已经处于最佳位置,当前轮廓点位置的优劣与其它各轮廓点都不相关联;在当前轮廓点的八邻域内,通过搜索局部能量极小的位置来调整当前轮廓点,从而达到局部最优化; 2)将snake的收敛分成两个阶段进行:第一阶段贪婪地仅以外部能量为主导,不考虑snake曲线的光滑度和形状,通过将snake曲线能量最小化计算出轮廓点的移动距离,使snake收敛到目标样点的附近捕获位置;第二阶段仅以内部能量为主导,不考虑外部能量,自适应地增删轮廓点,调整各轮廓点的位置,使snake曲线贴近目标样点的边缘。
9.根据权利 要求1所述的基于主动轮廓模型和细胞神经网络的生物芯片分析方法,其特征在于,所述步骤10)中,CNN将芯片样点按信号强弱进行分类的过程为: 1)计算芯片灰度图像中样点t的snake起始轮廓的内部区域Dt的像素灰度方差:
10.根据权利要求9所述的基于主动轮廓模型和细胞神经网络的生物芯片分析方法,其特征在于,CNN学习强信号芯片样点snake收敛行为的过程为:1)将所述的强信号样点当作神经元,放入一个新的参数未知的细胞神经网络中;设神经元C(i,j)对应强信号样点的snake曲线的能量为J的,将snake能量作为C(i,j)的当前输入,即、(/I) = Un).然后给出神经元C(i,j)的期望输出鳥(》);通过学习训练决定网络的参数矩阵A,B和阈值矩阵I,将CNN网络的输出yu (η)转变为期望输出鳥(》),并在整个过程中学习迭代进行; 2)对于有wXh个神经元的CNN,每次迭代都要进行wX h次学习,不断地更新A,B,I,使得输出yij(n)不断地逼近期望输出鳥(〃),从而学习获得强信号样点轮廓;当所有强信号样点的轮廓都收敛稳定,那么CNN的学习训练结束;得到的模板A,B, I用于指导弱信号样点的snake快速收敛。
11.根据权利要求10所述的基于主动轮廓模型和细胞神经网络的生物芯片分析方法,其特征在于,经过学习的CNN指导弱信号芯片样点snake收敛的过程为: 1)根据所述经过学习产生的模板A,B,I,生成用来指导弱信号样点的snake收敛的细胞神经网络;将微阵列中样点当作神经元,不分信号强弱,放入经过学习的网络中;将强信号样点对应的神经元看作是记忆神经元,记忆神经元不参与网络的迭代收敛,故状态、输出保持不变,用来指导弱信号样点的snake收敛;将弱信号样点对应的神经元看作是活动神经元,且网络的每次迭代都会改变状态、输入和输出; 2)弱信号样点snake参数的初始值由3X 3或5 X 5邻域内的强信号样点生成的snake模板α,β,P,Y决定;利用这组参数进行轮廓收敛迭代,然后不断更新snake参数α, β, P, Y,使得snake曲线上的轮廓点向向样点边缘的方向移动,贴近弱信号样点的边缘;同时运用李雅普诺夫方法建立网络能量监控单元,通过监控网络能量判断网络是否稳定;当网络趋于稳定时,得到弱信号样点的snake轮廓以及参数。
12.根据权利要求3所述的基于主动轮廓模型和细胞神经网络的生物芯片分析方法,其特征在于,入τ=0.5。
13.根据权利要求5所述的基于主动轮廓模型和细胞神经网络的生物芯片分析方法,其特征在 于,入。=8,λ ρ=5ο
全文摘要
本发明公开了一种基于主动轮廓模型和细胞神经网络的生物芯片分析方法,包括以下步骤对矩形样点采用改进的Hough变换进行倾斜校正,而对于圆形样点则采用改进的Radon变换;基于投影法对样点进行初次定位,并生成优化后的网格;然后基于邻域搜索自适应地调整网格,对样点进行二次精确定位;根据贪婪算法优化主动轮廓模型,利用CNN将样点按信号强弱进行分类;将Multiple snakes与CNN结合,CNN先学习强信号样点snake的收敛行为,再指导弱信号样点snake的收敛,最终实现样点的合理分割;提取并输出微阵列样点信号数据。本发明解决了生物芯片图像倾斜校正、形状不规则样点及弱信号样点分割困难等问题,实现了生物芯片样点的自动识别,适合大规模的生物芯片样点快速分析。
文档编号G06T7/00GK103236065SQ201310168888
公开日2013年8月7日 申请日期2013年5月9日 优先权日2013年5月9日
发明者刘正春, 吴灶全, 陈熹, 彭程, 柳建新 申请人:中南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1