一种基于细胞显微镜图像的DNA定量分析方法与流程

文档序号:17178906发布日期:2019-03-22 20:44阅读:205来源:国知局
本发明涉及图像处理
技术领域
:,尤其涉及一种基于细胞显微镜图像的DNA定量分析方法。
背景技术
::细胞学检查是当前宫颈癌、口腔癌等典型癌症早期筛查的主要途径,早期采用的刮片技术因价格低廉而普及,但其漏诊率高,21世纪以来广泛采用的液基制片技术虽然改善了制片效果,但需要经验丰富的病理医生直接在显微镜下对细胞的形态进行观察后给出诊断结果,效率低,而且容易收到主观性的影响,可重复性差。DNA倍体分析技术则自动对细胞图像中的细胞核进行分析,进而定量测量出细胞核内染色体或DNA含量,并自动给出判断结果。与传统细胞学方法相比,该技术具有敏感性高、效率高和可重复性好等特点,可以有效解决基层缺乏有经验的病理医生这一矛盾,具有广泛的应用前景。快速、准确的对细胞图像中二倍体细胞核进行分割和识别是DNA倍体分析技术的关键。现有方法和系统在分割时采用诸如阈值分割、形态学方法等简单图像分割方法提取候选区域,然后提取候选区域的各种形状、纹理等特征并训练分类器完成细胞核类型的自动识别。然而这类方法在处理细胞核分布较为密集以及细胞核的灰度分布变化大等情况下会漏掉大量的二倍体细胞,且在识别时往往提取每个候选区域所有的特征,在候选区域数量大的情况下耗时长。技术实现要素:本发明采用最大极值稳定区域(MaximallyStableExtremalRegions,MSER)算法对从图像中提取大量候选区域,并训练两个分类器C1和C2组成级联分类器完成对这些候选区域的快速、准确的识别。首先通过合理设置的参数,MSER算法所产生的候选区域包含了几乎所有的有效细胞区域,召回率(Recall)高,但同时也会产生大量其他非细胞的区域,精确度(Precision)低,而且一个细胞往往对应多个候选区域,存在大量冗余。然后采用级联分类器的逐级对这些候选区域进行筛选,第一级分类器C1仅采用候选区域的面积、周长和圆度等简单特征,可快速排除大量的非细胞区域;为了消除冗余区域,根据MSER所提取的候选区域之间仅存在包含(nested)或不相交(non-overlapping)两种关系,建立HierarchicalMSER树对其进行表示并对其进行分解,得到一系列的单叉树或单个节点(可视为深度为1的单叉树),并基于分类器C1的输出采用非最大值抑制的方法将每棵单叉树进行简化为单个节点。余下的候选区域进一步输入到第二级分类器C2进行识别。分类器C2采用区域形状、纹理等较为复杂特征,计算较为复杂,但精度高。由于大量的无效候选区域已经被分类器C1排除,分类器C2处理的候选区域数量较少,因此可实现整个系统的快速、准确的识别。本发明的技术解决方案如下:一种基于细胞显微镜图像的DNA定量分析方法,包括以下步骤:步骤1:对原始的RGB彩色图像进行预处理,包括灰度化处理、背景校正、高斯平滑和背景像素去除等;步骤2:采用最大极值稳定区域(MaximallyStableExtremalRegions,MSER)方法从图像中提取大量候选区域,在此基础上根据MSER所提取的候选区域之间仅存在包含(nested)或不相交(non-overlapping)两种关系,建立对应的HierarchicalMSER树,并进一步将其分解为若干单叉树或单个节点;步骤3:提取每个候选区域的一个3维的特征训练第一级分类器C1,快速判断各个候选区域是否为感兴趣的细胞,并计算其属于感兴趣的细胞的可能性(或概率),基于该分类器对每棵单叉树的节点提取特征计算其属于感兴趣细胞的可能性,并采用非最大值抑制将每棵单叉树简化为单个节点,最后删除分类器C1判断为负样本的所有节点(候选区域);步骤4:针对每个候选区域提取各种形态学特征、纹理特征和光度(Photometric)特征,组合成一个80维的特征用以表示该候选区域,并训练第二级分类器C2,采用该分类器对分类器C1输出为正样本的所有候选区域进行进一步的分类,将其细分为二倍体、淋巴、粒细胞和其他等四类中的一类;步骤5:计算所有二倍体、淋巴、粒细胞的积分光密度(IOD),并根据参考细胞核的平均积分光密度计算DNAindex(DI)值,完成细胞的DNA定量测量。优选的,所述步骤1中,在进行背景校正时根据给定的黑背景BB(x,y)和白背景图像WB(x,y),对图像I(x,y)进行背景校正得到校正后的图像Ic(x,y):在进行背景像素去除时,首先采用5×5空间模板近似高斯函数对图像进行卷积得到平滑后的图像Is(x,y),然后计算翻转后的图像Ii(x,y)=255-Is(x,y),的均值μ和标准差δ,进后可求得全局阈值t=μ+0.5δ,遍历图像的每个像素,由下式计算图像的标记图M(x,y)利用该标记图M(x,y)可根据计算得到去除背景像素后的图像优选的,所述步骤2中,在提取候选区域时根据MSER算法首先采用0-255中所有的数作为阈值对进行二值化,并计算阈值为i时某个连通区域Q的变化率(i)=|Qi-Qi-Δ|/|Qi-Δ|,其中Δ为灰度值的微小变化量,|·|表示集合的大小,随着阈值的变化(i)取得极小值的那些连通区域即作为候选区域,这里参数Δ=10,由于细胞核的大小和灰度分布存在一定的规律,这里删除了连通区域面积小于100和大于10000的区域,同时也删除那些(i)<0.25的区域;由于这些区域仅存在包含或不相交两种关系,可采用树的方式对其进行统一表示,建立HierarchicalMSER树,每个候选区域对应树一个节点,将增加阈值时在各个位置上首先出现的候选区域作为叶子节点,随着阈值的增加得到的候选区域往往包含两个或者多个区域,则直接将新得到的候选区域作为所包含区域的父节点,迭代直至达到最大阈值为止。优选的,所述步骤3中,首先采用半自动标注的方法得到训练集后,提取每个区域的面积、周长和圆度作为特征,训练梯度提升决策树分类器作为第一级分类器C1将候选区域分为两类,训练分类器C1时的目标函数由损失项L和正则项Ω组成,损失项L采用如下Logistic损失函数:这里yi∈{0,1}表示第i个样本的真实类别,yi表示当前的分类器对其的预测值,训练时每棵回归树的最大深度为2,回归树的最大棵树为5;根据分类器C1可进一步采用非最大抑制方法将每棵HierarchicalMSER树进行简化为单个节点,然后采用分类器C1对所有简化后的节点进行决策,仅保留C1输出为正样本的那部分候选区域。优选的,所述步骤4中,首先采用半自动标注的方法得到训练集后,训练一个GBDT分类器作为第二级分类器C2,将候选区域分成二倍体、粒细胞、淋巴细胞和其他等四类,这里每个区域采用一个80维的矢量表示,包括52维的形态学特征、11维的光度特征和17维的纹理特征,训练分类器C2时的目标函数仍由损失项L和正则项Ω组成,损失项L采用如下Softmax损失函数:这里1{·}为indicator函数,即1{true}=1.1{false}=0,yi∈{0,1,2,3}表示第i个样本的真实类别,表示当前的分类器将其判断为第j类的预测值;正则项Ω则由两部分组成,且这其中T为叶子节点的个数,w∈RT为叶子节点权重矢量,正则化参数γ和λ由10倍交叉验证通过网格搜索确定,回归树的深度为8,采用100棵回归树。附图说明图1为本发明提出的一种基于细胞显微镜图像的DNA定量分析方法的流程图;图2为本发明提出的一种基于细胞显微镜图像的DNA定量分析方法的原始图像;图3为本发明提出的一种基于细胞显微镜图像的DNA定量分析方法的预处理后图像;图4为本发明提出的一种基于细胞显微镜图像的DNA定量分析方法中根据MSER得到的候选区域;图5为本发明提出的一种基于细胞显微镜图像的DNA定量分析方法中根据第一级分类器和HierarchicalMSER树简化后得到的候选区域;图6为本发明提出的一种基于细胞显微镜图像的DNA定量分析方法中经过第二级分类器识别后的结果;图7为本发明提出的一种基于细胞显微镜图像的DNA定量分析方法中手工标注的结果。具体实施方式下面结合具体实施例对本发明作进一步解说。参照图1-7,本发明提出的一种基于细胞显微镜图像的DNA定量分析方法,包括以下步骤:步骤1:预处理,首先进行灰度化处理,提取原始彩色图像的r(x,y),g(x,y),b(x,y通道后计算均值,并进行翻转后作为灰度图像I(x,y),即I(x,y)=(r(x,y)+b(x,y)+g(x,y))/3,然后进行背景校正,即根据给定的黑背景BB(x,y)和白背景图像WB(x,y),对图像I(x,y)进行背景校正得到校正后的图像Ic(x,y):进一步对图像进行去噪,采用高斯滤波器对Ic(x,y)进行高斯平滑,即Is(x,y)=Ic(x,y)*h(x,y),实际中采用5×5空间模板近似高斯函数h(x,y),其中σ=1.0;最后计算全局阈值去除背景像素,对图像进行翻转,即Ii(x,y)=255-Is(x,y),然后分别计算图像Ii(x,y)的均值μ和标准差δ,进而可求得全局阈值t=μ+0.5δ,然后遍历图像的每个像素,由下式计算图像的标记图M(x,y)根据该标记图可根据下式计算得到去除背景像素后的图像步骤2:采用MSER算法提取候选区域,MSER算法对图像依次采用不同的阈值([0,255])对图像进行二值化,得到一系列连通区域,与传统的MSER算法不同的是,这里根据下式计算阈值为i时某个连通区域Qi的变化率q(i)(i)=|Qi-qi-Δ|/|Qi-Δ|,其中Δ为灰度值的微小变化量,|·|表示集合的大小,随着阈值的变化(i)取得极小值的那些连通区域即作为候选区域,这里参数Δ=10,由于细胞核的大小和灰度分布存在一定的规律,这里删除了连通区域面积小于100和大于10000的区域,同时也删除那些(i)<0.25的区域;然后根据MSER的分割结果生成HierarchicalMSER树,由于MSER算法采用递增阈值的方式提取候选区域,因此所得到的区域相互之间仅存在包含(nested)或不相交(non-overlapping)两种关系,可采用树的方式对其进行表示,每个候选区域对应树一个节点,将增加阈值时在各个位置上首先出现的候选区域作为叶子节点,随着阈值的增加得到的候选区域往往包含两个或者多个区域,则直接将新得到的候选区域作为所包含区域的父节点,迭代直至达到最大阈值为止,最终可得到一系列HierarchicalMSER树;步骤3:分类器C1的训练,选取细胞分布分散、背景简单的200幅细胞图像,对每幅图像采用Otsu算法计算全局阈值对其进性分割以获得若干候选区域,然后手动将这些区域标注为细胞和非细胞两类作为训练集训练分类器C1,这里采用梯度提升决策树(GradientBoostedDecisionTrees,GBDT)分类器,提取每个区域的面积(area)、周长(perimeter)和圆度(circularity=4π×area/perimeter2)等特征作为分类器的输入,GBDT分类器由多棵回归树组成,由各棵回归树响应值的和作为最终的判别结果共同完成决策,训练时采用梯度下降迭代学习的方式,每次迭代采用贪婪算法学习一棵回归树去逼近当前目标函数的梯度,训练分类器C1时的目标函数由损失项L和正则项Ω组成,损失项L采用如下Logistic损失函数:这里yi∈{0,1}表示第i个样本的真实类别,表示当前的分类器对其的预测值,训练时每棵回归树的最大深度为2,回归树的最大棵树为5;为了消除候选区域的冗余,进一步对HierarchicalMSER树分解,首先针对HierarchicalMSER树中每个节点区域提取其面积、周长和圆度等特征并进性归一化后,输入到分类器C1计算其响应值,并完成是否可能为细胞区域的分类;然后从树的每个叶子节点出发,逐层访问其父节点,直到该树的根节点,可得到一系列单叉树;根据分类器C1的响应值采用非最大值抑制的方法将这些单叉树简化为单个节点区域,即仅保留单叉树中分类器C1响应值最大的那个节点区域;最后根据分类器C1的分类结果对剩余的候选区域进行筛选,仅保留分类结果为正样本的候选区域,同时移除重复区域;步骤4:分类器C2的训练,从临床数据中随机选取5000幅细胞图像,并采用前述方法得到若干候选区域,采用人工的方式将这些候选区域标注为二倍体、粒细胞、淋巴细胞和其他等四类作为分类器C2的训练集,这里分类器C2仍然采用GBDT分类器,提取了各种形态学特征、纹理特征和光度(Photometric)特征,从中筛选出如下80维特征:52维形态学特征,包括:区域面积和周长、圆度、区域边界上的点到区域重心的最大、最小距离和平均距离及其方差、凸度、inertia、偏心率、区域主轴长度和长度比、32维傅立叶形状描述子、7维Hu不变矩等;11维光度特征,包括:区域的积分光密度IOD、光密度最大值和方差、区域灰度均值和方差、区域边界的灰度均值与方差、光密度和灰度的skewness和kurtosis等;17维纹理特征,包括:9维旋转不变uniformlocalbinarypattern(LBP)特征、8维灰度共生矩阵特征等;在训练分类器C2时的目标函数由损失项L和正则项Ω组成,损失项L采用如下Softmax损失函数:这里1{·}为indicator函数,即1{true}=1,1{false}=0,yi∈{0,1,2,3}表示第i个样本的真实类别,表示当前的分类器将其判断为第j类的预测值;正则项Ω则由两部分组成,且这其中T为叶子节点的个数,w∈RT为叶子节点权重矢量,正则化参数γ和λ由10倍交叉验证通过网格搜索确定,回归树的深度为8,采用100棵回归树;步骤5:计算细胞核的DI值,对所有经过HierarchicalMSER树分解后属于正样本的候选区域进行特征提取后输入到分类器C2进行分类,并根据平均IOD值计算每个细胞核的DI值(=IOD/平均IOD)。以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
:的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1