本发明属于模式识别技术领域,涉及一种基于自学习色彩聚类的自然场景文本检测方法。
背景技术:
自然场景图像文本包含大量有效信息,提取图像文本是图像内容分析和理解的重要前提,并可广泛应用于车牌检测、无人驾驶、基于内容的图像检索、手机文本识别和机器人自动导航等领域。然而,由于自然场景图像文本检测方法受到多方面的因素影响,增加了文本检测的难度,其中影响因素主要分为以下三类:
复杂的图像背景:图像采集于任意的场景,不同图像中色彩复杂程度各异,且存在大量的树叶、砖头、栏杆和瓦片等干扰物体,易导致文本检测错误。
多样化的文本:自然场景图像中文本尺寸大小和样式的多样化,且文本字符存在不同程度的扭曲和倾斜。
不同程度的干扰因素:自然场景图像为户外拍摄采集得到,易受不同程度的光照、阴影、分辨率和拍摄角度的影响。
为克服上述影响因素,提高文本检测的准确率,专家学者提出了大量的自然场景文本检测方法,主要分为两类:基于滑动窗口的方法和基于连通域的方法。
基于滑动窗口的文本检测方法通常使用多尺度滑动窗口,扫描原始图像,提取候选文本区域,然后结合候选区域色彩、梯度和纹理等特征,利用机器学习的方法进行验证,得到文本检测结果。由于图像中文本尺寸的多样性,基于滑动窗口的方法通常使用多尺度窗口扫描图像,提取候选文本,使得该方法耗时长,产生的候选区域过多,增大了后续文本验证的难度。
基于连通域的方法是目前较为流行的文本检测方法。该方法进一步分为三个子任务:(1)候选字符提取,(2)候选字符验证,(3)文本区域分析。
候选字符提取通常考虑图像中文本字符包含的像素点具有灰度一致性、色彩一致性、笔画宽度均一性等特征,进而提取特征相似的像素点,构建候选字符连通域。
候选字符验证通常通过对字符和背景区域进行分析,提取一系列易于区分背景和文本的特征,并结合机器学习的方法验证候选字符连通域,移除非文本字符。
文本区域分析通常是对验证后保留的字符进行后处理操作。一般,通过分析字符连通域的空间位置,色彩、纹理等特征,将位置、色彩和纹理相近的字符进行合并,构成文本行,然后使用启发式规则和机器学习的方式对文本行进行分词和验证,得到最终的检测结果。
由于自然场景图像背景复杂多变,图像中文本色彩、字体、尺寸等多样化,且受到不同程度的光照、阴影、拍摄角度的影响。因此,如何从不同复杂程度的背景中有效提取提取候选字符,是基于连通区域文本检测方法的关键。
技术实现要素:
本发明提供了一种基于自学习色彩聚类的文本检测方法,为了克服上述现有文本检测方法存在的问题,本方法将层次聚类和参数自学习策略相结合,实现自适应色彩聚类算法,构建色彩层,提取色彩层中的连通区域,作为候选字符,进而定位图像中的文本。
一种基于自学习色彩聚类的自然场景文本检测方法,包括以下步骤:
步骤1:将待进行文本检测图像I中的每个像素点的R、G、B色彩值投影到三维色彩空间中,对三维色彩空间进行等间距划分,每个三维色彩空间立方体作为一个层次聚类基本单元;
以每个三维色彩空间立方体中所有像素点的色彩均值作为层次聚类基本单元的特征c;
c=(μ(r),μ(g),μ(b)),其中μ(r)、μ(g)和μ(b)分别为层次聚类基本单元中所有像素点的R、G、B色彩均值;
步骤2:初始化层次聚类基本单元的特征权重向量w,w=(wr,wg,wb,wθ);
其中,wr,wg,wb分别为层次聚类基本单元像素点的R、G、B的色彩距离权重,wθ为聚类阈值;
步骤3:以层次聚类基本单元的特征权重向量w,依次计算任意两个层次聚类基本单元之间的颜色距离;
di,j=wr|μi(r)-μj(r)|+wg|μi(g)-μj(g)|
+wb|μi(b)-μj(b)|
其中,μi和μj分别表示i和j个层次聚类基本单元;
步骤4:将颜色距离最小的两个层次聚类基本单元进行合并,获得新的层次聚类基本单元,并计算新的层次聚类基本单元的特征c,以层次聚类基本单元合并构建对应的层次聚类树,返回步骤3,直到层次聚类基本单元数量为1;
步骤5:构建正样本和负样本的特征向量;
依据聚类阈值wθ,对步骤4中构建的层次聚类树进行划分,得到层次聚类森林,以层次聚类森林中同一棵子树下的任意两个初始的层次聚类基本单元的颜色距离作为正样本的特征向量,以层次聚类森林中不同子树下的任意两个初始的层次聚类基本单元的颜色距离作为负样本的特征向量;
步骤6:利用层次聚类基本单元的特征权重向量w的当前取值,并采用激活函数对步骤5构建的正样本和负样本的特征向量进行样本类别预测,并利用样本类别预测值和样本本身的类别属性,构建权重向量w的似然函数,通过最大化似然函数求得新的层次聚类基本单元的特征权重向量w,若更新后的w使得构建的似然函数的最大值收敛,则以新的层次聚类基本单元的特征权重向量w,重新构建层次聚类森林,否则,返回步骤3;
为了方便求解似然函数,对似然函数两边取对数,得到对数似然函数:
使用随机梯度上升法,最大化对数似然函数l(w),求解权重向量w。
步骤7:依次以步骤6获得的层次聚类森林中每一颗子树包含的所有初始层次聚类单元中像素点进行合并,构建对应的色彩层;
步骤8:从每个色彩层中提取连通域,得到候选字符,用分类器对候选字符进行筛选,对经过筛选后的候选字符进行字符合并,得到文本行;对文本行进行单词划分,得到文本检测结果。
进一步地,所述步骤6中采用的激活函数为逻辑回归函数:
其中,hw(x)为输入向量x对应样本的预测结果;x为输入向量,由正样本或负样本的特征向量和截距项-1组成,x=(|μi(r)-μj(r)|,|μi(g)-μj(g)|,|μi(b)-μj(b)|,-1)。
进一步地,所述步骤6中构建的权重向量w的似然函数如下:
其中,p(y(i)|x(i);w)是x关于参数w的概率密度函数,x(i)和y(i)分别表示第i个样本的输入向量和样本本身属性类别,n为样本总量;y(i)取值为0或1,0表示负样本,1表示正样本。
进一步地,所述步骤8中用于对候选字符进行筛选的分类器为Adaboost分类器,采用如下过程训练获得:
首先,将ICDAR2013数据库中训练集的每一幅图像执行步骤1-7,从得到的色彩层中提取候选字符;
然后,将候选字符与真实标定的字符进行像素点匹配,构建训练正负样本集合;
接着,从训练正负样本集合中,随机选取30000个训练正样本和30000个训练负样本作为构建Adaboost分类器的训练集;
最后,提取训练集中每一个样本的几何特征和HOG特征,训练Adaboost分类器,得到用于验证候选字符的Adaboost分类器。
进一步地,所述用分类器对候选字符进行筛选,是指提取每一个候选字符的几何特征和HOG特征,输入训练好的Adaboost分类器进行候选字符验证,移除非文本字符,保留文本字符。
进一步地,所述对经过筛选后的候选字符进行字符合并,得到文本行的具体过程如下:
将验证之后的字符两两组合,形成字符对,将宽高比、水平距离和颜色距离满足以下条件的字符对视为文本字符对,合并包含相同连通域的文本字符对,构建文本行:
|mean(R1)-mean(R2)|<80
其中,w(·)和h(·)分别表示字符的宽度和高度;hd和vd分别表示字符区域R1和R2两个中心点之间的水平距离和垂直距离;mean(R)表示字符区域R中像素点的色彩均值。
进一步地,所述对文本行进行单词划分,是指对相邻的两个字符水平间距dh进行判断,若满足则进行一次划分,得到划分后的单词;
其中,dh为相邻字符之间的水平间距,为所有字符水平间距的均值,α为字符平均间距缩放系数,取值为1-2,β为所有字符水平间距的中位数。
所述所有字符水平间距的中位数是指对所有字符的水平间距大小依次排序后的中间值。
进一步地,对划分后的单词中只包含单个字符的单词使用所述的Adaboost分类器进行验证,保留得分大于0.8的单词,得到最终的文本检测结果。
有益效果
本发明提供了一种基于自学习色彩聚类的自然场景文本检测的方法,首先,将层次聚类和参数自学习策略结合,设计一种自适应色彩聚类方法,提取图像中的候选字符,该自适应色彩聚类方法能针对不同图像自动学习权重阈值,有较好的字符召回率。然后,通过训练Adaboost分类器,构建字符验证模型,移除非文本字符;最后,合并字符构建文本行,并通过后处理得到文本检测结果。与传统的方法相比,本方法能获得较高的文本检测召回率,且检测的文本结果较为准确。
附图说明
图1为本发明所述方法的流程示意图;
图2为本发明所述方法的文本检测过程,其中,图(a)为待检测图像;图(b)为自适应色彩聚类方法提取的色彩层,图中同一个色彩层的像素点使用同一种颜色表示;图(c)为色彩层提取的候选字符,每一个候选字符使用单独的颜色进行标识;图(d)为候选字符验证之后的结果;图(e)为字符合并,构建的文本行;图(f)为文本行分词之后,得到的最终文本检测结果;
图3为层次聚类和正负样本构建的示意图。
具体实施方式
以下结合具体实施例,对本发明进一步详细说明。
一种基于自学习色彩聚类的自然场景文本检测的方法,流程如图1所示,包括以下步骤:
以对图2(a)进行文本检测为例,具体步骤如下:
步骤1:输入待检测图像,表示为图像I,如图2(a);
步骤2:提取图像I中所有像素点的R、G、B色彩值,根据图像中像素点的R、G、B值,将其投影到三维色彩空间。将三维色彩空间按照步长32,等间距划分为512个尺寸为32×32×32的小立方体。
步骤3:提取包含像素点的小立方体,作为层次聚类的基本单元。计算每个小立方体中像素点的R、G、B色彩均值,作为聚类基本单元的特征,表示为c=(μ(r),μ(g),μ(b))。
步骤4:初始化权重向量w=(wr,wg,wb,wθ),其中wr,wg,wb分别为μ(r)、μ(g)、μ(b)的色彩距离权重,wθ为聚类阈值,将w初始化为(1,1,1,50)。
步骤5:构建层次聚类树;
步骤5.1:根据步骤4中特征权重向量w,按公式(1)计算步骤3中聚类单元两两之间的颜色距离。
其中,μ(r)、μ(g)、μ(b)分别为层次聚类单元中所包含像素点的R,G,B色彩均值,μi和μj分别表示i和j个层次聚类基本单元;
步骤5.2:合并颜色距离最小的聚类单元,构建新的聚类单元;
步骤5.3:计算新单元的颜色特征,并更新与其他单元之间的的颜色距离;
步骤5.4:重复步骤5.2-5.3,直到聚类元素为1,由此构建层次聚类树。
步骤6:根据聚类阈值wθ,将步骤5中的层次聚类树划分为层次聚类森林,如图(3)所示。其中,实线划分得到不同的子树,每棵子树下包含不同的单元节点,如图虚线框所示。将同一棵子树下的任意两个初始的层次聚类基本单元的颜色距离作为正样本的特征向量,将层次聚类森林中不同子树下的任意两个初始的层次聚类基本单元的颜色距离作为负样本的特征向量,由此构建正、负样本的特征向量。
步骤7:更新权重向量w。
步骤7.1:根据权重向量w和步骤6提取的样本特征,本文采用逻辑回归函数(如公式2所示)作为激活函数,对样本进行类别预测。
其中,x为输入向量,由样本特征和截距项-1组成,表示为x=(|μi(r)-μj(r)|,|μi(g)-μj(g)|,|μi(b)-μj(b)|,-1),hw(x)为样本的预测结果。y为样本真实标签,用0或1进行表示。
步骤7.2:根据样本预测值和其真实标签,构建似然函数,如公式(3)所示,其中,p(y(i)|x(i);w)是x关于参数w的概率密度函数,x(i)和y(i)分别表示第i个样本的输入向量和样本本身属性类别,n为样本总量;y(i)取值为0或1,0表示负样本,1表示正样本。
步骤7.3:为了方便求解似然函数,对公式(3)两边取对数,得到对数似然函数,如公式(4) 所示。
步骤7.4:使用随机梯度上升法,最大化对数似然函数l(w),由此求解权重向量w。对公式(4)求w的梯度,得到结果如公式(5)所示。
步骤7.5:根据公式(6)更新权重向量w,其中α为随机梯度上升法的学习速率,设置为0.011。
wj:=wj+α((y-hw(x))xj) (6)
步骤7.6:重复步骤7.1-7.5,更新权重向量w,直到梯度接近为0为止,认为似然函数达到最大值。
步骤8:根据步骤7中更新的权重向量w,重复步骤5-7,直到步骤7中对数似然函数l(w)的最大值收敛,得到最佳的权重向量,构建最优层次聚类树。
步骤9:根据最终的聚类阈值wθ,划分层次聚类树,得到层次聚类森林。
步骤10:依次以步骤9获得的层次聚类森林中每一颗子树包含的所有初始层次聚类单元中像素点进行合并,构建对应的色彩层;其色彩层结果如图2(b),图中同一色彩层的像素点标记为相同颜色。
步骤11:标记每个色彩层中的连通域,得到候选字符,结果如图2(c)所示,图中同一个字符像素点标记为相同的颜色。
步骤12:提取每一个候选字符的几何特征和HOG特征,输入训练好的Adaboost分类器进行候选字符验证,移除非文本字符,保留文本字符,结果如图2(d)所示。
所述Adaboost分类器的训练过程如下:
首先,将ICDAR2013数据库中训练集的每一幅图像执行步骤1-11,得到候选字符;
然后,将候选字符与真实标定的字符进行像素点匹配,当匹配像素点占候选字符与真实标定的字符相并像素点数量的60%以上,则认为匹配成功,将候选字符视为正样本,否则视为负样本,构建样本集合。
最后,从样本集合中,随机选取30000个正样本和30000个负样本作为构建Adaboost分类器的训练集。提取训练集中每一个样本的几何特征和HOG特征,训练Adaboost分类器,得到候选字符验证模型。
步骤13:字符合并,构建文本行,结果如图2(e)所示。
将步骤12验证之后的字符两两组合,形成字符对,将宽高比、水平距离和颜色距离满足一定条件(如公式7-9)的字符对视为文本字符对,合并包含相同连通域的文本字符对,构建文本行。
其中,w(·)和h(·)分别表示字符的宽度和高度;hd和vd分别表示字符区域R1和R2两个中心点之间的水平距离和垂直距离。
|mean(R1)-mean(R2)|<80 (9)
其中,mean(R)表示字符区域R中像素点的色彩均值。
步骤14:文本行后处理,得到文本检测结果,如图2(f)所示;
步骤14.1:对步骤13构建的文本行,按照公式10对相邻的两个字符水平间距dh进行判断,若满足公式10的条件,则进行一次划分,得到划分后的单词;
其中,dh为相邻字符之间的水平间距,为所有字符水平间距的均值,α为字符平均间距缩放系数,取值为1.5,β为所有字符水平间距的中位数。
步骤14.2:对经过步骤14.1文本行划分之后,只包含单个字符的单词,使用步骤12中的Adaboost分类器进一步验证,只保留得分大于0.8的单词,得到最终的文本检测结果。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的范围内可对其进行许多修改,但都将落入本发明的保护范围内。