基于特征摘要图的视频中的户外场景文本自动获取方法与流程

文档序号:14444973阅读:348来源:国知局
基于特征摘要图的视频中的户外场景文本自动获取方法与流程

本发明涉及一种数字图像处理方法,确切地说,涉及一种基于特征摘要图的视频中的户外场景文本自动获取方法,属于计算机视觉处理的技术领域。



背景技术:

过去的几年中,随着数字图像采集装置、智能手机和实用视觉系统及其设备的普及,基于内容的图像理解技术得到越来越多的关注。因为图像/视频中的场景文本具有比较丰富、直接的语义信息线索,因此,场景文本被认为是必须要被检测和识别的重要对象。其中,文本检测、定位、提取和识别是获取文本信息的主要步骤。通常是将文本检测、定位和提取的操作统一称为文本获取。对于文本识别而言,文本获取是非常重要的前提,因为它减少了复杂背景,消除了照明效果,从而使得识别相对简单和容易。然而,由于室内外的不均匀光照,图像/视频的模糊不清,背景复杂,透视变形,颜色多样性,字体复杂和笔划宽度的不同等等多种不利因素,都对视频场景文本的获取产生很大的挑战性和严峻性。

目前,国内外的研究人员已经在视频场景文本的获取技术方面研制成功了多种方法。现在,将场景文本的提取分为两个步骤:(1)场景文本的检测定位,(2)场景文本的提取。

现有技术的场景文本检测定位方法可分为:基于颜色的、基于边缘/梯度的、基于纹理的和基于笔划的四种不同的场景文本检测方法。其中:

基于颜色的场景文本检测:这是一种早就提出并已经用了20余年的传统方法,该方法简单又高效:通常采用基于局部阈值的场景文本检测算法,也有研究人员采用改进尼布拉克niblack算法中的局部阈值获取方法,使得该方法能够用于一些背景比较简单的场景文本进行快速检测。研究人员还提出使用均值移动(meanshift)算法生成颜色层,以便显著提高在复杂背景下文本检测的鲁棒性。但是,在视频/图像中存在多种颜色的字符和光照不均匀时,基于颜色特征的文本检测会遇到许多难题。

基于边缘/梯度的场景文本检测:假设在背景区域上显示的文本区域出现强烈且对称的变化时,具有大的、对称的梯度值的像素可被视为文本像素,这就可以将边缘特征和梯度特征用于场景文本检测中。研究人员还提出一种基于边缘增强的场景文本检测算法。这类研究包括基于尺寸、位置和颜色距离的空间限制,将水平排列的“梯度矢量流”通过聚类方式找到文本候选区域。当前,研究人员提出将梯度/边缘特征与各种分类器(例如人工神经网络或adaboost算法)相结合的基于adaboost分类器的场景文本检测算法;甚至进一步提出在基于adaboost分类器的基础上,再增加一种基于神经网络的文本定位器的检测方法。但是,这类算法难以检测具有强烈梯度的复杂背景下的场景文本。

基于纹理的场景文本检测:当字符区域比较密集时,场景文本可被视为一种纹理。当前许多方法都采用提取纹理特征来检测场景文本,包括采用傅立叶变换,离散余弦变换dct(discretecosinetransform),小波,局部二值模式lbp(localbinarypattern)和方向梯度直方图hog(histogramoforientedgradient)等等。虽然纹理特征能被用于有效检测密集的字符,然而该方法可能无法检测稀疏的字符。于是,研究人员分别提出基于傅里叶频域特征检测场景文本和基于频域中的dct系数检测场景文本的方法。近来又提出一种基于局部二值模式(localhaarbinarypattern)特征检测场景文本算法。然而,当呈现的背景复杂时,许多背景噪音也都显示出与文本相似的纹理,这样就降低了该方法的检测精度。

基于笔划的场景文本检测方法:笔划宽度变换swt(strokewidthtransform)被用于计算最有可能的笔划像素宽度。基于笔划的特征已被证明能够非常有效地应用于高分辨率场景文本的检测,特别是当其结合适当的学习方法、或将笔划特征与包括边缘方向差eov(edgeorientationvariance)、相反边缘对oeps(oppositeedgepairs)或空间-时序分析(spatial-temporalanalysis)的其它特征相互融合时。最近,引入基于bandlet的边缘检测器来提高swt、增强场景文本的边缘差异,并消除噪音点边缘,使得swt能够被用于低分辨率文字的检测中。然而,在检测具有多种尺寸和字体的字符的场景文本时,该方法的检测精度会明显地大幅度下降。

现有技术的场景文本提取方法至少可以分为:基于阈值的、基于颜色的和基于字符笔划的三种文本提取算法。其中:

基于阈值的文本提取算法:该方法又分为两个子类算法:一是使用全局阈值方法,如大津算法(otsu)等;另一是使用局部阈值方法。现在又提出一种多阈值算法:该算法中的第二阶段阈值取决于第一阶段的阈值基础,这样显著增强了提取效果。但是,因为基于阈值的方法不考虑场景文本的特征,所以该方法并没有得到令人满意的执行与推广。

基于颜色的文本提取算法:该方法是先使用k均值或其他聚类算法生成几个候选二进制图像,然后基于图像分析选择二进制图像。其特点是假设文本颜色是一致的,并将颜色聚类引入场景文本的提取。缺点是:因其属于全局计算方法,对非均匀照明比较敏感,且在分析多个候选图像时的计算成本和参数k的选择,都是非常复杂的。

基于字符笔划的文本提取算法:先用两组非对称gabor滤波器提取图像中的纹理方向和尺度,再将这些特征用于最可能表示文本字符的边缘,以增强对比度。然而,该算法对提取的字符大小很敏感,不适合在视频中提取场景文本。

总之,上述各种现有技术的场景文本的检测与定位和场景文本的提取技术存在多方面的不尽人意之处,因此,如何研制一种性能比较优良、或特点完善的视频中的场景文本获取方法,就成为业内科技人员非常关注的新课题。



技术实现要素:

有鉴于此,本发明的目的是提供一种基于特征摘要图的视频中的户外场景文本自动获取方法,该方法能够较好地解决现有技术中的多种缺陷,能够正确、完整地获取在不均匀光照、模糊、或复杂的背景下,存在透视变形、颜色多样、字体复杂和笔划宽度不等的各种不同状况下的场景文本。。

为了达到上述目的,本发明提供了一种基于特征摘要图的视频中的户外场景文本自动获取方法,其特征在于:该方法包括下列操作步骤:

步骤1,获取场景文本的视频帧图像,并基于该视频帧图像的红绿蓝rgb色彩空间生成视频帧特征摘要图:首先在rgb色彩空间上分别提取包括水平方向、垂直方向、45度方向和135度方向的四个卷积图,得到用于表征rgb色彩空间的四个方向特征向量;再将该四个方向特征向量分别进行两两向量的乘积运算,以获得分别代表不同方向视频帧的十个显著图;然后对该不同方向的十个显著图进行融合计算,得到视频帧特征摘要图,作为后续获取视频中的场景文本的视觉表征,并删除背景和噪声干扰,提高识别精准度;

步骤2,自动获取场景文本:首先基于该视频帧特征摘要图和rgb色彩空间进行k均值颜色聚类计算,将该视频帧摘要图细分为分别表示背景、前景文字字符、字符轮廓和噪音的四个区域的四类结果;再对该四类结果分别进行连通域分析,删除背景和噪音两个区域,获取最终的场景文本。

目前,在背景复杂和光照多变的情况下,户外视频场景文本的获取非常困难。本发明作为一种创新的自动获取视频中的户外场景文本的方法,它的技术关键是提出如何获取一种全新的视频帧特征摘要图,用作视频中的场景文本自动获取的视觉表征与基础,本发明方法能够很好地删除视频中的背景和噪声的干扰,显著提高场景文本的检测和提取的精准度和完整度;同时采用基于视频帧特征摘要图和色度、饱和度、明度hsv(huesaturationvalue)的色彩空间进行k均值颜色聚类,再分别执行基于字符笔划宽度的连通域和基于几何形状的连通域的分析处理,删除背景区域和噪音区域后,就能够快速、自动地获得最终的视频场景文本。

经过多次的仿真实施试验证明,本发明较好地解决了现有技术的缺陷,能够在户外视频处于背景复杂、透视变形、颜色多样,光照不均匀或强烈变化、以及字体复杂和笔划宽度不同的环境下,依然能够快速和准确地自动检测和提取场景文本,而且,该方法操作步骤比较简单、计算复杂度低、容易实现,能够适应实时识别和获取的户外场景文本的需求,因此,本发明具有很好的推广应用前景。

附图说明

图1是本发明基于特征摘要图的视频中的户外场景文本自动获取方法的操作步骤流程图。

图2是本发明户外场景文本自动获取方法的步骤1操作步骤流程图。

图3是本发明户外场景文本自动获取方法的步骤2操作步骤流程图。

图4(a)、(b)、(c)分别是本发明户外场景文本自动获取方法实施例的原始图像、视频帧特征摘要图和获取的场景文本实施例的三个步骤示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明作进一步的详细描述。

参见图1,介绍本发明基于特征摘要图的视频中的户外场景文本自动获取方法的具体操作步骤:

步骤1,获取场景文本的视频帧图像,并基于该视频帧图像的红绿蓝rgb色彩空间生成视频帧特征摘要图:首先在rgb色彩空间上分别提取包括水平方向、垂直方向、45度方向和135度方向的四个卷积图,得到用于表征rgb色彩空间的四个方向特征向量;再将该四个方向特征向量分别进行两两向量的乘积运算,以获得分别代表不同方向视频帧的十个显著图;然后对该不同方向的十个显著图进行融合计算,得到视频帧特征摘要图,作为后续获取视频中的场景文本的视觉表征,并删除背景和噪声干扰,提高识别精准度。

其中在rgb色彩空间上分别提取的包括水平、垂直、45度和135度四个方向的四个卷积图中,水平卷积图采用的水平方向卷积核是索贝尔sobel算子中计算水平方向微分的计算模板:垂直卷积图采用的垂直方向卷积核是sobel算子中计算垂直方向微分的计算模板:45度卷积图采用的45度方向卷积核是计算45度方向微分的计算模板:135度卷积图采用的135度方向卷积核是计算135度方向微分的计算模板:本发明采用的基于卷积核的卷积图特征提取方法特点是算法简单、运算速度快、有利于工程实现,且提取的卷积特征不容易受到户外场景中的光照变化影响。

步骤2,自动获取场景文本:首先基于该视频帧特征摘要图和rgb色彩空间进行k均值颜色聚类计算,将该视频帧摘要图细分为分别表示背景、前景文字字符、字符轮廓和噪音的四个区域的四类结果;再对该四类结果分别进行连通域分析,删除背景和噪音两个区域,获取最终的场景文本。

本发明采用的k均值聚类算法中的颜色聚类计算是在视频摘要图、色度、饱和度和明度的四维空间内,分别依据每个像素与该四个聚类中心点的夹角余弦距离进行四维聚类计算实现的。因为在户外环境中的光照变化剧烈,使得每个文字字符在视频帧上呈现不同颜色,严重影响提取的字符笔划完整性;因此采用上述四维进行聚类,并且,区别于通常的欧氏距离、采用不注重数值本身差异的夹角余弦距离函数计算,能够显著降低因户外环境的光照变化对字符颜色的影响。

下面参照图2,先详细说明上述两个操作步骤中的步骤1具体操作内容:

(11)先分别在红色通道上分别提取水平方向卷积图rh、垂直方向卷积图rv、45度方向卷积图rl和135度方向卷积图rr,在绿色通道上分别提取水平方向卷积图gh、垂直方向卷积图gv、45度方向卷积图gl和135度方向卷积图gr,在蓝色通道上分别提取水平方向卷积图bh、垂直方向卷积图bv、45度方向卷积图bl和135度方向卷积图br;再将上述各个方向卷积图按照rgb色彩空间排列,得到用于表征rgb色彩空间的四个方向特征向量:水平方向特征向量h={rh,gh,bh},垂直方向特征向量v={rv,gv,bv},45度方向特征向量l={rl,gl,bl},135度方向特征向量r={rrgr,br}。

(12)将该四个方向特征向量分别进行两两向量的乘积运算,获得代表视频帧的不同方向的十个显著图,以便在保留多个设定方向边缘特征的同时,删除其余方向的背景和噪音干扰,并获取场景文本多种方向的笔划特征,有助于自动提取场景文本。该步骤(12)又细分为下列操作内容:

(120)按照公式shh={rh,gh,bh}×{rh,gh,bh}计算水平方向特征向量的自乘之积,得到水平方向显著图shh,用于保留和强化水平方向的边缘特征,并弱化其他方向边缘特征。

(121)按照公式svv={rv,gv,bv}×{rv,gv,bv}计算垂直方向特征向量的自乘之积,得到垂直方向显著图svv,用于保留和强化垂直方向的边缘特征,并弱化其他方向边缘特征。

(122)按照公式sll={rl,gl,bl}×{rl,gl,bl}计算45度方向特征向量的自乘之积,得到45度方向显著图sll,用于保留和强化45度方向的边缘特征,并弱化其他方向边缘特征。

(123)按照公式srr={rr,gr,br}×{rr,gr,br}计算135度方向特征向量的自乘之积,得到135度方向显著图srr,用于保留和强化135度方向的边缘特征,并弱化其他方向边缘特征。

(124)按照公式shv={rh,gh,bh}×{rv,gv,bv}计算水平与垂直两个方向特征向量的相乘之积,得到水平垂直方向显著图shv,用于保留和强化水平垂直方向的边缘特征,并弱化其他方向边缘特征。

(125)按照公式shl={rh,gh,bh}×{rl,gl,bl}计算水平与45度两个方向特征向量的相乘之积,得到水平45度方向显著图shl,用于保留和强化水平45度方向的边缘特征,并弱化其他方向边缘特征。

(126)按照公式shr={rh,gh,bh}×{rr,gr,br}计算水平与135度两个方向特征向量的相乘之积,得到水平135度方向显著图shr,用于保留和强化水平135度方向的边缘特征,并弱化其他方向边缘特征。

(127)按照公式svl={rv,gv,bv}×{rl,gl,bl}计算垂直与45度两个方向特征向量的相乘之积,得到垂直45度方向显著图svl,用于保留和强化垂直45度方向的边缘特征,并弱化其他方向边缘特征。

(128)按照公式svr={rv,gv,bv}×{rr,gr,br}计算垂直与135度两个方向特征向量的相乘之积,得到垂直135度方向显著图svr,用于保留和强化垂直135度方向的边缘特征,并弱化其他方向边缘特征。

(129)按照公式slr={rl,gl,bl}×{rr,gr,br}计算45度与135度两个方向特征向量的相乘之积,得到45度135度方向显著图slr,用于保留和强化45度135度方向的边缘特征,并弱化其他方向边缘特征。

(13)对该不同方向的十个显著图进行融合计算,得到视频帧特征摘要图,为后续获取视频中的场景文本提供视觉表征,并删除背景和噪声干扰,提高场景文本自动获取结果的精准度和完整度。

在该步骤(13)中,对不同方向的十个显著图进行融合计算的操作内容:基于步骤(12)提取的不同方向的十个显著图,分别进行其中每个图像中的相同坐标像素的最大值、最小值和平均值的对应运算,并将该运算结果叠加后,获得最终的视频帧摘要图fsg。下面具体介绍该步骤(13)的下列操作内容:

(131)选取该不同方向十个显著图中位于同一坐标的每个像素最小值进行融合计算,构成最小特征显著图smin(x,y)=min(pi(x,y)),式中,pi(x,y)是每个显著图的坐标(x,y)像素值,下标i是显著图类别,且i∈{shh,svv,sll,srr,shv,shl,shr,svl,svr,slr},函数min是提取像素pi(x,y)最小值的运算符号。

(132)选取该不同方向十个显著图中位于同一坐标的每个像素的最大值进行融合计算,构成最大特征显著图smax(x,y)=max(pi(x,y)),式中,函数max是提取像素pi(x,y)最大值的运算符号。

(133)选取该不同方向十个显著图中位于同一坐标的每个像素的平均值进行融合计算,构成平均特征显著图smean(x,y)=mean(pi(x,y)),式中,函数mean是提取相同位置像素pi(x,y)平均值的运算符号。

(134)为了使视频帧摘要图尽量保留字符在每个方向的边缘特征完整性,同时减少户外环境视频中容易出现的光照变化影响,利用上述能够保持设定不同方向边缘特征的最小、最大和平均三种特征显著图,按照公式进行融合计算:得到最终的视频帧特征摘要图fsg。

再参照图3,详细说明上述两个操作步骤中的步骤2具体操作内容:

(21)基于k均值聚类算法对视频帧特征摘要图的色度、饱和度、明度的色彩空间hsv(huesaturationvalue)进行颜色聚类计算:将该视频帧特征摘要图区分为分别表示背景、前景文字字符、字符轮廓和噪音四个区域的四类k均值颜色聚类结果。

(22)基于笔划宽度的连通域处理:对上述四类k均值颜色聚类结果,分别计算每个连通域的边缘像素笔划宽度,再基于笔划宽度分析每个连通域,删除背景区域及噪音区域。该步骤(22)中,包括下列操作内容。

(221)基于步骤1中的十个显著图,计算视频帧摘要图中的每个像素的梯度方向角θ:

(222)因为字符区域不会出现在视频图像边界或与视频图像边界相连接,故删除视频摘要图中与图像的上下左右四周边界相连的连通域;

(223)获取每个连通域的边界像素,再对每个边界像素按照其梯度方向角θ向前搜索,直到找到另一个边界像素时,将该两个边界像素中的像素值设置为该两个像素的笔划宽度。

(224)先计算同一个连通域的所有边界像素的笔划宽度,再计算所有边界像素的笔划宽度的方差;如果计算方差的结果数值小于0.5,则认为该连通域的边界像素笔划宽度值接近实际数值,并保留作为候选的字符区域(如此操作的依据是因为西文和中文字符的区域长宽比是比较恒定的设定数值,即西文或中文的字符笔划宽度值是相近的);否则,对于连通域中的长宽比较大的区域,就认为不属于字符而删除之。

(23)对于步骤(22)处理后仍然遗留的较小噪音区域,执行基于几何形状的连通域处理:分别计算字符图像中各个连通域的面积大小、即该连通域所包含的像素数量,删除其中被视为噪音区域的比值较小的连通域,以改善目标图像质量。连通域处理的具体操作方法是计算其主轴长度,如果主轴长度大于视频帧特征摘要图图像宽度的三分之一或小于十分之一,就认为该连通域太大或太小,不属于字符区域而删除之。

(24)获取场景文本区域:分析该四个聚类结果中的所有连通域,将所有聚类保留的最终连通域合并为一个图像,再按照每个连通域的距离和笔划宽度两个测度,将相近的连通域判定为同一区域,从而获得最终的视频场景文本。

本发明方法已经进行了多次仿真实施试验,试验的结果是成功的。参见图4的(a)、(b)、(c),该三图分别是本发明方法一实施例中的原始视频帧、步骤1得到的视频帧特征摘要图和步骤2的操作结果:获取的视频视频中的户外场景文本的实例示意图。也就是说,输入为含有场景文本的视频帧,经过本发明方法的处理后,输出为获取的完整场景文本,能够用于后续场景文本识别。因此,本发明能够很好地实现发明目的,具有很好地推广应用前景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1