基于稀疏表达的视频图像文字检测方法

文档序号：7746552阅读：112来源：国知局

专利名称：：基于稀疏表达的视频图像文字检测方法
技术领域：
：本发明属于图像理解与图像检索范畴，具体涉及一种快速而准确的视频文字检测方法与系统实现。
背景技术：
：随着多媒体技术和互联网的飞速发展，多媒体信息的数量呈爆炸式的增长。越来越多的数据库中除了包括图像和文本信息外还包括视频信息。视频信息是多媒体信息中最普遍的一种，它可以通过多种方式获得，如电视、网络等。如何从大量的视频信息中检索到所关注的信息这引起了国内外学者的兴趣。在视频理解和检索中，文字可以为视频提供十分丰富的语义信息，是一个十分重要的组成部分。例如新闻节目中的文字标题，体育节目中比赛的得分，广告中商品和生产厂家的名称。当今许多视频数据库都是通过人工对图片进行注释产生的文本信息进行索引和检索的。人工对图片进行文本注释时不但速度慢而且非常枯燥，因此需要开发有效的计算机算法对视频图像自动进行注释。通过一些算法，可以用从视频图像中直接提取的特征来进行索引和检索。视频图像中的文字可以分为两类字幕文字、场景文字。字幕文字是人工后期加在视频图像为了帮助观看者理解，因此这种文字具有对比度高，光照均勻等特点。由于字幕文字是经过精心安排后期加入视频的，通常带有重要的视频内容信息。场景文字是作为视频场景的一部分出现的，并和场景一道被拍摄成视频，场景文字绝大部分是偶然出现的，随着场景中物体的出现而出现，例如路标上的文字，商店的名称，视频中的人物衣服上的文字、广告牌上的文字等。从视频图像中检测文字信息已经存在的方法大致可以分为四类基于边缘，利用文字和背景通常具有较强的对比度拥有丰富的边缘信息；基于连通域，利用了文字成排、成列出现的特性；基于角点，利用文字区域相对于背景拥有丰富的角点；基于纹理，利用固定尺寸的滑动窗口，抽取每个窗口内的均值、二阶中心矩、三阶中心矩作为特征。由于视频中文字尺寸大小不一，字体类型和颜色多种多样，传统的方法存在效率较低、计算复杂、精确度不高等局限性。在本文中利用边缘密度检测的方法对视频图像进行快速粗检测，对于粗检测得到的候选文字区域，再利用稀疏表达的分类方法进行验证。实验结果表明这种方法可以克服传统方法的不足。
发明内容针对现有技术的不足，本发明目的是通过由粗到细的检测方法可以有效、准确、快速定位出复杂背景下的文本区域，为此，提出一种基于稀疏表达的视频图像文字检测方法。为了达到上述目的，本发明基于稀疏表达的视频图像文字检测方法的技术方案如下该方法包括步骤视频序列预处理、视频图像文字区域粗检测和视频图像文字细检测，具体步骤为步骤Si，视频图像序列预处理将视频序列进行重采样，获得彩色视频图像；并将彩色视频图像转换为灰度图像；对灰度图像进行多尺度变换得到多尺度灰度图像；步骤S2，视频图像文字区域粗检测首先对多尺度灰度图像采用改进索贝尔(Sobel)算子进行边缘检测和形态学闭算，获得边缘图像；其次对边缘图像进行边缘密度过滤；最后通过连通域分析、规则分析获得候选文字区域；步骤S3，视频图像文字细检测首先对粗检测得到的候选文字区域通过垂直投影和水平投影，再对垂直投影图像和水平投影像进行切分得到候选文字行，然后通过滑动窗口将候选文字行切分为小区域，对小区域提取边缘特征，然后采用基于稀疏表达(SparseRepresentation)的分类方法对每一个小区域分别进行分类，判断小区域是否为文字区域，根据小区域的判断结果，对候选文字行进行判断，得到并输出最终的文字行区域。本发明的效果在于与现有方法相比，本发明可以快速定位出文字区域，并且具有较高的召回率和准确率。可应用于视频分类和检索系统中。本发明的系统采用由粗的到细的多尺度文字检测框架，在粗检测阶段通过快速边缘密度过滤方法有效过滤掉大部分的非文字区域，在细检测阶段通过基于稀疏表达的分类方法有效区分文字和非文字区域，获得较高的准确率，多尺度处理可以检测出不同大小的文字。因此本方法在兼顾速度和召回率的前提下，提高了文字区域检测的准确度，并且不受字体大小、光照等影响。图1是本发明的检测算法框架图具体实施例方式下面结合附图和具体实施例对本发明作进一步详细的描述。如图1所示，本发明的一种由粗到细的基于稀疏表达的视频图像文字检测方法具体包括以下步骤1、视频序列预处理。(1)视频序列重采样根据统计，视频图像中的文字至少出现在连续的几十帧图像中。由于相邻两帧图像的差异特别小，采用同一套算法进行处理时，得到的结果也会非常相似。这种情况下，对所有帧进行独立的处理会带来计算效率低下。因此，在保证文字检测和抽取的准确性和高性能的基础上，我们对视频序列进行重采样，每10帧取1帧图像，这样能使系统的工作效率得到数倍的提高，并且不影响采样的准确性。(2)彩色图像转化为灰度图像首先将输入的彩色图像转化为灰度图像，其转换参见公式(1)fg(χ,y)=0.3R(χ,y)+0.59G(χ,y)+0.1IB(χ,y)(1)公式(1)*R(X，y)，G(X，y)，B(X，y)为输入彩色图像的R，G，B分量，x，y为像素的坐标值，fg(x,y)为变换后的灰度图像。由于视频图像中的文字大小不一，为了可以检测到大小不同的文字，对灰度图像进行多尺度变换，将原图像分解为不同分辨率的图像。然后在每个分辨率等级上进行文字检测，最后检测的结果映射到原图中，对不同尺度检测到的文字进行融合。小的字符在分辨率较高的子图上被检测到，而相对较大的字符在分辨率低的字图上被检测到。最后将结果综合起来。2、视频图像文字区域粗检测(1)视频图像边缘检测将上述步骤1中得到的多尺度灰度图像通过公式2进行改进的索贝尔(Sobel)算子边缘检测。具体步骤为采用表1的四个方向的算子和公式(2)计算图像边缘，表1如下所述ι1211IIiIo|-i|IoIi1212IiIo"οοο-~ιο丁Γ-"οΤ"-1-2-11~O-2-1O~0水平(Sh)竖直(Sv)左对角线(Sn))右对角线(Srd)E(x,y)=max(|Sh|,Sv|,|Sld|，|Sed|)+kX|S丄·χ|(2)公式(2)中max表示选择最大值，SpSPSu^Skd分别为水平方向、垂直、左对角线、右对角线的这四个方向上的索贝尔(Sobel)边缘强度值，S±MAX表示和最大梯度方向垂直的方向的梯度值，k是固定系数，E(x,y)是坐标为(x，y)的点的边缘强度值，ke(0,1)在这里k取0.5。由于计算后边缘E(x,y)的值有可能会超过255，因此需要将E(x，y)的值线性变化到之间。(2)形态学闭运算由于经过边缘检测的图像存在噪音的干扰，并且某些文字笔划断裂，存在很多小间隙和孤立的点。这将妨碍后面的连通域分析。因此需要将孤立的点去除，并将小间隙连接。对通过边缘检测得到的边缘图像进行形态学闭运算，可以有效的消除图像中的小间隙。(3)边缘密度过滤边缘密度过滤是指当以某个像素为中心的一个固定MXN窗口内的边缘密度低于某一值时，将这个窗口的边缘强度值设置为零，当大于某一值时，保持不变。由于文字的笔画特征使得文字区域的边缘密度相对于背景区域的边缘密度强，也就是在以某个像素为中心的一个固定MXN的窗口内，就边缘像素的数量来说，文本区域内窗口中像素的数量要大于背景区域(非文本区域)内窗口像素中的数量。对于步骤(2)中得到的边缘图像，进行边缘密度过滤。建立另外一幅和原图大小相同的新的图像FE，将新的图像FE的所有像素置零。通过公式(3)计算边缘图像中以像素i，j为中心大小为MXN的窗口内的象素数量EW(i，j)，如果EW(i，j)大于经验值T，Te(O,Smn)，Smn是大小为MXN窗口的面积，则将对于窗口内的像素点复制到FE的对应位置。得到边缘密度图像FE。<formula>formulaseeoriginaldocumentpage6</formula>其中E(x，y)为坐标为(x，y)的边缘强度值。窗口大小为MXN，Eff(i,j)为以坐标i，j中心的一个固定窗口MXN内的边缘密度值。为了加快公式(3)的计算速度我们采用公式(6)进行运算。首先通过公式⑷和(5)迭代求出IE(x，y)，IE(χ,y)是(χ，y)左上方的所有像素值的和，即i<x)<y/￡(x,>0=U>(z’J)，其中E(i，j)为坐标为(i，j)的边缘强度值。在通过公式(6)计算/=O7=0边缘密度EW(x，y)；s(X，y)=s(x,y-1)+E(χ,y)(4)IE(χ,y)=IE(x_l，y)+s(χ,y)(5)公式(4)中E(x，y)是坐标为(x，y)的点的边缘强度值，s(x，y)是坐标点(x，0)，(x，l)···(χ,y-1),(χ,y)边缘强度的累积值。公式(5)中IE(x,y)是s(0，y),s(l,y)...s(x-l,y),s(x,y)值的和。通过迭代公式(4)和公式(5)，初始值s(x，_1)=0，IE(_l，y)=0，IE(χ,y)的值可以通过彩色视频图像一次计算完成，任意一点边缘密度的值通过公式(6)可以快速计算得到，Eff(i,j)=IE(i+M/2,j+N/2)+IE(i-M/2,j-N/2)(6)-(IE(i+M/2,j-N/2)+IE(i-M/2,j+N/2))其中EW(i，j)为以坐标i，j中心的一个固定窗口MXN的边缘密度值。IE(X，y)可通过公式(4)、(5)迭代求出。(4)连通域分析对于步骤(3)中得到的图像进行8邻域连通域标定，标定出所有像素值连通的区域，即连通元。(5)规则分析通过步骤(4)连通域分析我们得到了很多连通元，利用连通元的尺寸、面积、长宽比和边缘像素比这些几何特征，将连通元判断为文字区域或者非文字区域，并将非文字区域抛弃。将剩余的连通元按照连通元间相交面积的大小进行合并，直到没有可以合并的连通块为止。对每个文本连通元的位置和尺寸进行分析，将在同一行或同一列的文本连通元组合，形成候选文字区域。3、将不同尺度下得到的候选文字本区域，按照几何关系进行融合，如果两个候选文字区域相交的区域大于一定的比例，两将这两个文字区域合并为一个文字区域。4、文字区域细检测(1)将步骤3获得的候选文字区域进行切分。对候选文字区域进行垂直投影和水平投影，根据投影图进行切分，从而定位出图片中的候选文字行。(2)对步骤(1)中定位到的候选文字行进行验证，将正确判断的文字行保留，将错误普安段的文字行过滤。通过滑动窗口将文字行切分为小区域，对于小区域进行特征提取。利用基于稀疏表达(SparseR印resentation)的分类方法对小区域进行分类，该方法分为训练和判断两个过程训练过程是预先进行的，在训练过程中，选取了大量文字区域的正样本和负样本，使用k均值聚类和奇异值分解(K-SVD)的方法进行训练；得到正词典DP，负词典Dn。词典D={Dp,DJ；在判断过程中，输出记为Z(w)，把步骤(1)中检测到的文字区域w通过正词典和负词典的重构误差进行判断，如果正词典的重构误差较小，判断为正确的文字区域，输出为+1，反之，如果正词典的重构误差比负词典的重构误差大，则判断为误判的文字区域，输出为-ι；然后利用公式(7)对文字行进行判断，将误判的文字行过滤，将正确的文字行保留，公式(7)中R表示文本行，w示NXN大小窗口，Z(w)表示窗口w中的图像区域通过基于稀疏表达的分类方法的判断结果，Clw表示窗口w中心到文本行R中心的距离，为变量(o^e(O,+-)),C(R)表示文本行R的分类结果，如果C(R)大于零，则R属于正确文本行，反之，R属于误判文本行，并被过滤掉。在本实施例中，具体过程如下。训练过程将步骤⑴中的文本行作为样本高度归一化到H，进行坎尼(Carmy)边缘检测。使用大小为NXN，步长为k的滑动窗口切分文本行，将NXN大小的图像块转化为向量yeIRnxn，通过K-SVD算法训练正词典Dp。选择背景区域做为负样本，训练负词典DN。将正词典和负词典合并得到D={Dp,DJ。判断过程样本处理如同训练过程，被高度归一化到H，使用大小为BXB，步长为k的滑动窗口w切分文本行，将NXN大小的图像块转化为向量yeIRnxn，通过匹配追踪(MatchingPursuit)算法得到稀疏系数χ={χΡ，χΝ}，分别计算误差Ep=|y-DPxP|2，EN=y-DNxNII2。如果EP>EN测试样本y属于负样本，对应窗口内的区域即属于误判文字区域，输出值为-1，如果EpSEn，样本y属于正样本，对应窗口内的区域即属于正确文字区域，输出值为+1。将输出结果标记为Z(w)，对于文本行R，由于越靠近中间对于R属于文字的贡献也就越大，因此采用公式(7)对文本行进行判断，将误判的文字行进行过滤，保留正确的文字行；式中R表示文本行，w表示NXN大小窗口，Z(W)表示采用基于稀疏表达的分类方法对窗口w中的图像区域的判断结果，4表示窗口w的中心到文本行R中心的距离，o^e(O,+-)为变量，C(R)表示候选文字行R的分类结果，如果C(R)大于零，则判断文本行R是正确的文字行，将其保留并输出，反之，如果C(R)小于零，则文字行R属于误判的文字行，则将误判文字行被过滤掉；C(R)=YZ(w)-7==-exp(7)下面，在微机WindowsXP环境下，采用面向对象的设计方法和软件工程规范，用C++语言实现，我们采用分辨率为480X360—段中文新闻视频来进行测试，对视频序列进行重采样，每10帧取1帧图像，将得到的视频图像通过公式(1)变换为灰度图像，然后通过多尺度变换将灰度图像分别缩放为0.3,0.5,0.7，1倍，输出多尺度灰度图像。通过公式(2)对多尺度灰度图像进行索贝尔(Sobel)算子边缘检测，得到边缘图像，将得到的边缘值归一化到W，255]。然后对边缘图像进行形态学闭运算，然后对边缘图像进行快速边缘密度过滤，设定窗口大小为29X19，接着对边缘密度过滤后的图像进行连通域分析得到连通元，通过利用几何规则，过滤和合并连通元，获得候选文字区域。将不同尺度获得的文本块按照几何关系进行融合，然后将这些候选文字区域进行细检测，首先通过将候选文字区域垂直投影和水平投影，切分为候选文字行。然后将这些候选文字行行高度归一化到16像素，选取16X16大小的滑动窗口，步长为8，将窗口中的图像进行坎尼(canny)边缘检测获得边缘强度值，获得256维的特征向量。利用匹配追踪(MatchingPursuitMP)算法通过已经训练的词典DP，Dn分别获得正词典系数Xp和负词典系数xN，分别计算误差Ep=Iy-DpXpI|2,En=Iy-DNxN|I20如果Ep>En测试样本y属于负样本，对应窗口内的区域即属于误判文字区域，输出值为-1，如果EpSEn，样本y属于正样本，对应窗口内的区域即正确文字区域，输出值为+1。将输出结果标记为ζ(W)，通过公式(7)对文本行进行判断。如果C(R)大于零则判断文本行R是正确的文字行，反之是误判的文字行，将被过滤掉。最后将正确判断的文本行区域输出。实验结果表二基于稀疏表达的文字检测实验结果<table>tableseeoriginaldocumentpage9</column></row><table>---总之，本发明充分考虑了视频图像文字检测性能和速度，能够快速准确的定位出文本区域，不受字体大小及语言的影响，具有很强的通用性。可以为视频图像的分类及检索等提供有利的支持工具。权利要求一种基于稀疏表达的视频图像文字检测方法，其特征在于，该方法包括步骤视频序列预处理、视频图像文字区域粗检测和视频图像文字细检测，具体步骤为步骤S1，视频图像序列预处理将视频序列进行重采样，获得彩色视频图像；并将彩色视频图像转换为灰度图像；对灰度图像进行多尺度变换得到多尺度灰度图像；步骤S2，视频图像文字区域粗检测首先对多尺度灰度图像采用改进索贝尔(Sobel)算子进行边缘检测和形态学闭算，获得边缘图像；其次对边缘图像进行边缘密度过滤；最后通过连通域分析、规则分析获得候选文字区域；步骤S3，视频图像文字细检测首先对粗检测得到的候选文字区域通过垂直投影和水平投影，再对垂直投影图像和水平投影像进行切分得到候选文字行，然后通过滑动窗口将候选文字行切分为小区域，对小区域提取边缘特征，然后采用基于稀疏表达的分类方法对每一个小区域分别进行分类，判断小区域是否为文字区域，根据小区域的判断结果，对候选文字行进行判断，得到并输出最终的文字行区域。2.如权利要求1所述的视频图像文字检测方法，其特征在于，所述边缘检测是采用改进的Sobel算法按照如下方式E(x，y)=max(|SH|,|SV|，SLD|,SKD|)+kX|S丄丽|得到，E(x,y)是灰度图像坐标为(x，y)点的边缘强度值，在灰度图像四个方向上的Sobel边缘强度值分别表示为水平SH、垂直Sv、左对角线Sm和右对角线SKD，max表示选择Sobel边缘强度的最大值，S±MAX表示灰度图像的最大梯度方向垂直的方向的梯度值，kG(0，1)。3.如权利要求1所述的视频图像文字检测方法，其特征在于，所述边缘密度是在以边缘图像的某个像素为中心的一个固定长宽尺寸为MXN的窗口内，计算这个窗口内边缘值的总和；按照如下公式计算<formula>formulaseeoriginaldocumentpage2</formula>式中s(x，y)是坐标点(x，0)，(x，l)…(x，y_l)，(x,y)边缘强度的累积值；E(x，y)是坐标为(x，y)的点的边缘强度值，IE(x，y)是s(0，y)，s(1，y)…s(x_l，y)，s(x，y)值的和，对上述s(x，y)公式和IE(x,y)公式进行迭代，设初始值为s(x,-1)=0、IE(_1，y)=0，IE(x,y)的值通过彩色视频图像一次计算完成，通过如下公式<formula>formulaseeoriginaldocumentpage2</formula>计算得到边缘图像的任意一点边缘密度值。4.如权利要求1所述的视频图像文字检测方法，其特征在于，采用基于稀疏表达的分类方法对每一个小区域分别进行分类，该分类包括训练和判断步骤，具体如下所述训练步骤预先对选取小区域的正样本和负样本进行训练，获得正词典和负词典；判断步骤对小区域通过正词典和负词典的重构误差进行判断，如果正词典的重构误差比负词典的重构误差小，则判断为正确的文字区域，反之，如果正词典的重构误差比负词典的重构误差大，则判断为误判的文字区域。5.如权利要求1所述的视频图像文字检测方法，其特征在于，对候选文字行进行判断是利用<formula>formulaseeoriginaldocumentpage2</formula>进行判断，将误判的文字行进行过滤，保留正确的文字行；式中R表示文本行，w表示NXN大小窗口，Z(w)表示采用基于稀疏表达的分类方法对窗口w中的图像区域的判断结果，4表示窗口w的中心到文本行R中心的距离，(0，+-)为变量，C(R)表示候选文字行R的分类结果，如果C(R)大于零，则文字行R属于正确的文字行，将其保留并输出文字行区域，反之，如果C(R)小于零，文字行R属于误判文字行，则将误判文字行过滤掉。全文摘要本发明是基于稀疏表达的视频图像文字检测方法，步骤S1，对视频序列重采样，获得并将彩色视频图像进行灰度变换和多尺度变换得到多尺度灰度图像；步骤S2，对多尺度灰度图像用改进Sobel算子进行边缘检测和形态学闭运算，获得并对边缘图像进行边缘密度过滤；通过连通域分析、规则分析获得候选文字区域；步骤S3，对候选文字区域通过垂直投影和水平投影，再对垂直投影图像和水平投影像进行切分得到候选文字行，通过滑动窗口将候选文字行切分为小区域，对小区域提取边缘特征，采用基于稀疏表达的分类方法对每一个小区域分别进行分类，判断小区域是否为文字区域，根据小区域的判断结果，对候选文字行进行判断，得到并输出最终的文字行区域。文档编号H04N5/445GK101833664SQ201010151779公开日2010年9月15日申请日期2010年4月21日优先权日2010年4月21日发明者张荣国,张阳,李心洁,王春恒,程刚,肖柏华申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王春恒;李心洁;程刚;张荣国;张阳;肖柏华
技术所有人：中国科学院自动化研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。