用于图像和视频ocr的文本定位的制作方法

文档序号:6594679阅读:174来源:国知局
专利名称:用于图像和视频ocr的文本定位的制作方法
用于图像和视频OCR的文本定位相关文献的交叉引用本申请与2008年9月30日提交的发明人为仇等人的美国临时专利申请 No. 61/190,992相关并要求其优先权,特此通过引用将该申请全部并入在此。本申请与发明 人均为Candelore的2/14/2007提交的美国专利申请No. 11/706, 919,2/14/2007提交的美 国专利申请No. 11/706,890、3/8/2007提交的美国专利申请No. 11/715,856以及2/14/2007 提交的美国专利申请No. 11/706,5 相关,特此通过引用将这些申请全部并入在此。著作权和商标通告本专利文献的公开的一部分包含受著作权保护的素材。著作权所有人不反对对专 利文献或专利公开以其出现在专利商标局专利文件或记录中的形式进行复制再现,但除此 之外保留一切著作权权利。商标是其各自的所有人的财产。
背景技术
在TV视频中,经常存在文本,这些文本提供了重要的内容信息,例如所广告的产 品的名称、相关信息的URL(通用资源定位符)、发言人或比赛者的姓名、事件的位置和日期 等等。被人工添加作为闭合字幕或者嵌入在场景中的文本可用于索引和检索图像和视频、 分析观看者对视频内容的兴趣、或者提供可从因特网访问的观看者相关内容。然而,嵌入在 普通电视或视频图像中的文本在文本标识和识别方面造成了特殊问题,而当在传统文档中 执行文本识别时是不存在这些问题的。


通过参考以下结合附图来理解的详细描述,可最好地理解例示出构造和操作方法 以及目的和优点的某些例示性实施例,附图中图1是符合本发明某些实施例的文本定位(text localization)过程的示例性流 程图。图2由图2A和图2B构成,是在以符合本发明某些实施例的方式进行处理之前和 之后的示例性图像。图3图示了在符合本发明某些实施例的示例性实现方式的合并组中使用的参数。图4示出了在以符合本发明某些实施例的方式预处理图2B的分割图像之后提取 的一些区域。图5由图5A和图5B构成,示出了以符合本发明某些实施例的方式使用的笔划 (stroke)宽度参数。图6由图6A至图6F构成,示出了符合本发明某些实施例的若干示例的二元化结果。参考文献在以下详细描述中参考以下文献[1]Rainer Lienhart. Video OCR :A survey and practitioner's guide,InVideoMining,Kluwer Academic Publisher,pp. 155—184,Oct.2003.[2] Keechul Jung, Kwang In Kim,and Anil K. Jain, Text informationextraction in images and video :a survey, Pattern Recognition,37, pp. 977-997,2004.[3]Jian Liang, David Doermann, and Huiping Li. Camera-basedanalysis of text and documents :a survey, IJDAR,vol 7,No 2-3,2005.[4]Anil K. Jain and Bin Yu.Automatic text location in images andvideo frames,Pattern Recognition, Vol. 31, No 12,1998.[5]Shio J. Ohya and S. Akamatsu. Recognizing characters in sceneimages, IEEE Trans. On Pattern Analysis and Machine Intelligence,Vol 16,No2,1994,pp 214-220.[6]C. M. Lee, A.Kankanhalli, Automatic extraction of characters incomplex images,Int. J. Pattern Recognition Art if. Intell. 9 (1),1995,pp67-82.[7]M. A. Smith, T. Kanade, Video skimming for quick browsing basedon audio and image characterization, Technical Report CMU-CS-95—186, Carnegie Mellon University, July 1995.[8]D. Chen,K. Shearer and H. Bourlard,Text enhancement withasymmetric filter for video OCR. Proceedings of International Conference onlmage Analysis and Processing,Palermo, Italy,2001,pp.192-197.[9]H. Li, D. Doermann, 0. Kia, Automatic text detection and trackingin digital video, IEEE Trans. Image Process. 9(1), 2001, pp.147-156.[10] D. Chen, H. Boulard, J-P. Thiran. Text identification in complexbackground using SVM, Proceedings of IEEE Conference on Computer Visionand Pattern Recognition, Vol. 2, 2001,pp.621-626.[11]Xiangrong Che, Alan LYuille,Detecting and reading text innatural scenes, Proceedings of IEEE Conference on Computer Vision andPattern Recognition,Vol. 2,2004,pp.366-373.[12]Edward K. Wong and Minya Chen,A new robust algorithm forvideo text extraction, Pattern Recognition. No. 36,2003,pp.1398-1406.[ 1 3] K. Subraman i an , P. Nataraj an , M. Decerbo and D. Castanon , Character-stroke detection for text-localization and extraction, Proceedings ofIEEE Document Analysis and Recognition. Vo. 1, 2007, pp.23-26.[14]Richard Nock and Frank Nielsen, Statistical Region Merging, IEEETrans. On Pattern Analysis and Machine Intelligence,Vol. 26, No. 11,2004, pp.1452-1458.[15] V. Vapnik, "Statistical learning theory", John Wiley and Sons, 1998.[16]Chih-Chung Chang and Chih-Jen Lin, LIB SVM :a library forsupport vector machines, 2001. Software available athttp://www. csie. ntu. edu. tw/~ cjlin/ libsv
[17]W. Niblack. An Introduction to Digital Image Processing, pp. 115-116, Prentice Hall,1986.[18]N. Otsu. A threshold selection method from gray-level histograms. IEEE Trans. On Systems, Man and Cybernetics, Vol. 9, No. 1,pp.62-66,1979.[ 19] S. D. Yanowitz and A. M. Bruckstein, A new method for imagesegmentation, Computer Vision,Graphics and Image Prcoessing CVGIP, Vol. 46, no. 1,pp.82-95,1989.[20] S. M. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong and R. Young. ICDAR 2003 robust reading competitions, In 7th InternationalConference on Document Analysis and Recognition-ICDAR2003,2003[21]S. M. Lucas,ICDAR 2005 Text locating competition results,ICDAR 2005, pp. 80-84.
具体实施例方式虽然本发明可允许许多不同形式的实施例,但是在附图中示出并且在这里将详细 描述特定的实施例,要理解这里对这种实施例的公开应被认为是原理的示例而并不意欲将 本发明限制到所示出和描述的特定实施例。在以下描述中,相似的标号在若干附图中用于 描述相同、相似或相应的部件。这里使用的术语“一”被定义为一个或多于一个。这里使用的术语“多个”被定义 为两个或多于两个。这里使用的术语“另一”被定义为至少另外一个或另外多个。这里使用 的术语“包括”和/或“具有”被定义为包含(即,开放语言)。这里使用的术语“耦合”被 定义为连接,但不一定是直接的,也不一定是机械式的。这里使用的术语“程序”(program) 或“计算机程序”(computer program)或类似术语被定义为被设计用于在计算机系统上执 行的指令序列。“程序”或“计算机程序”可包括被设计用于在计算机系统上执行的子例程、 函数、过程、对象方法、对象实现、可执行应用、小应用程序、小服务程序、源代码、目标代码、 共享库/动态加载库和/或其他指令序列。这里使用的术语“节目”(program)也可用在第 二上下文中(以上定义是针对第一上下文的)。在第二上下文中,该术语是在“电视节目” 的意义上使用的。在此上下文中,该术语用于指音频视频内容的任何连贯序列,例如在电子 节目指南(EPG)中将被解释和报告为单个电视节目的那些,无论内容是电影、体育赛事、多 部分系列剧的一段还是新闻广播等等。该术语也可被解释为涵盖插播的商业广告和其他类 似节目的内容,它们在电子节目指南中可能不会被报告为节目。本文献中提及“一个实施例”、“某些实施例”、“一实施例,,或类似术语的意思是联 系该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。从而,在整 个本说明书的各处出现的这种短语不一定都指的是同一实施例。另外,特定的特征、结构或 特性可以没有限制地在一个或多个实施例中以任何适当的方式被组合。这里使用的术语“或”应被解释为包含性或,意思是任何一个或任何组合。因此, “A、B或C”的意思是“以下各项中的任何一个=A ;B ;C ;A和B ;A和C ;B和C ;A、B和C”。此 定义的例外只出现在元件、功能、步骤或动作的组合在某些方面固有地相互排斥时。在整个 本文献中,各种阈值被用于某些过程中的比较。这里参考以上参考材料公开的阈值是为了联系当前给出的示例性实施例作为参考,而并不意欲限制符合其他实现方式的其他过程。在TV视频中,经常存在文本,这些文本提供了重要的内容信息,例如所广告的产 品的名称、相关信息的URL(通用资源定位符)、发言人或比赛者的姓名、事件的位置和日期 等等。被人工添加作为闭合字幕或者嵌入在场景中的文本可用于索引和检索图像和视频、 分析观看者对视频内容的兴趣、或者提供可从因特网访问的观看者相关内容。然而,嵌入在 普通电视或视频图像中的文本在文本标识和识别方面造成了特殊问题,而当在传统文档中 执行文本识别时是不存在这些问题的。即使是相对高清晰度的视频,文本也经常可能是以 相对低清晰度来呈现的,而与利用传统光学字符识别来识别打印文本的通常情况相比,机 器更难以识别这种以相对低清晰度呈现的文本。光学字符识别(OCR)技术可用于从文本文档中自动识别文本,在该文本文档中清 晰度足够高(例如高于300dpi),并且前景文本最好是在简单结构的白背景上呈黑色的。然 而,在图像或视频中,分辨率一般低得多(例如50dpi或甚至更低)。图像的恶劣质量也源 于由传感器引起的噪声、不均勻的光照或者压缩等等。除此之外,还存在由透视、广角镜头、 非平整表面、照明等等引起的失真。最终,文本可能在复杂的背景上,周围有运动的对象。简 言之,当处理诸如视频图像或其中的帧之类的图像时,存在传统的OCR技术无法解决的许 多变数。所有这些问题常常使得很难或者甚至不可能将OCR技术直接应用到图像和视频数 据。根据符合本发明的实施例,从图像和视频中识别文本时的第一个动作是准确地定 位文本在图像和视频中的位置。结果这是一个非常复杂的问题。在此之后,定位到的有可 能是低分辨率的文本可被提取、增强和二元化。最后,现有的OCR技术可被应用到被二元化 的文本以便识别。在图像和视频数据中定位文本的问题已被以若干种方式来处理。在以上参考文献 中有对文本定位和提取算法的综合评述。在以下的详细描述中参考以下文献上述的[1]、 [2]和[3]。方法经常被分类为基于区域的、基于边缘的和基于纹理的方法。在参考文献W]、[5]、W]中描述的基于区域的方法中,假定文本中的字符具有相 同颜色。通过连接成分分析、集群化或分割算法来生成区域。然后,采用诸如大小、区域的 高度/宽度比或者基线之类的试探(heuristics)来过滤掉非文本区域。最后,通过试探约 束或经训练的分类器来将剩余的区域分类为文本或非文本。参考文献[7]和[8]中描述的基于边缘的方法是基于观察到的以下事实文本在 背景上表现出强边缘,因此文本区域是边缘的集群,所以第一步是边缘检测。然后,通过平 滑和合并,边缘被集群化。最后,通过试探约束或经训练的分类器将这些集群分类为文本或 非文本。基于纹理的方法利用纹理特征来判定像素或区域是否属于文本。整个图像被逐像 素或逐块地扫描以提取纹理特征,例如局部空间方差、水平方差、二阶统计、频率特征、局部 能量或小波变换的高阶动差,等等。这些特征随后被馈送到分类器中(神经网络[9]、支持 向量机[10]或自适应增强[11]),以将像素或块分类为文本或非文本。最后,像素或块被合 并以生成最终文本区域。这里描述的技术可被广泛地表征为基于区域的文本定位方法。首先利用快速且有 效的图像分割算法来提取相似颜色的区域。在应用试探来过滤掉不应是文本的区域的预处理之后,分析每个区域的特征。基于文本中的笔划往往具有相似的宽度这个观察到的事实, 提取笔划特征。此外,减去重要的边缘特征和填充因子特征。最后,训练支持向量机(SVM) 分类器(分类器分离具有不同分组的对象)来将区域分类成文本和非文本。SVM被用于最 大化文本与非文本之间的差异。采用笔划特征来辅助标识文本。注意到一般来说文本中的笔划的宽度在水平和垂 直方向上都是相似的。在参考文献[12]和[13]中,也使用了笔划特征,然而为了文本检测 只检查了水平笔划宽度。在这里,提取了水平和垂直方向上的笔划宽度的特征。此外,结合 了边缘和其他重要特征来进行分类。1.系统和过程概述图1是符合某些实施例的视频OCR过程100的示例性流程图,其开始于104。此图 也可被看作是系统图,其中该图的每个块表示系统的功能块,该功能块可利用编程的处理 器和/或状态机和/或专用硬件来实现。在108,系统接收输入的图像或关键帧。然后,在 112,将图像分割成相似颜色的区域。如果这些区域被指派以代表性颜色,则所得到的图像 类似于以有限数目的颜色着色的那种图像,并且该图像在颜色区域的边界处具有块状的外 观。在预处理块116,通过诸如大小、宽高比、填充因子等等之类的试探约束来对这些区域进 行过滤。在120,提取剩余区域的特征。在124,将这些特征馈送到SVM分类器中,该分类器 将区域分类成文本区域和非文本区域。在128,对这些文本区域进行增强和二元化。最后, 在132,在可以以编程的处理器的形式实现的OCR引擎中执行OCR处理。OCR引擎作用于被 二元化的区域并且以识别出的文本的形式输出识别结果,并且过程在136结束。在下文中 更详细描述图1的各种要素。II.通过SVM进行的文本定位A.分割根据某些实现方式,将参考文献W]中描述的统计区域合并算法应用到输入图像 以得到相似颜色的区域,但是也可使用其他算法。就本文献而言,术语“相似颜色”当在这 里的一个示例性实现方式中使用时指的是两个区域的平均红、绿、蓝(R、G、B)值的绝对差 (其中一个区域由撇号标示,并且上划线表示平均值)在合并阈值内,这可以用公式表述如 下(R-R'j <Τ Θν,(δ-0^ <Tdev,{B-B'J CTdev其中TdCT是合并阈值,例如参考文献[14]中提供的那些。其他合并阈值和相似颜 色的其他定义在其他实现方式中也可能是适当的。与或多或少地使用了关于分布的限制性 假设的大多数其他已知分割算法不同,此算法在目前是优选的,因为它是基于只具有很少 假设的图像生成模型的,这使得该算法在所有种类的情形中都是有效的。该算法是在三个 阶段中执行的。第一阶段是计算相邻像素的颜色差。第二阶段包括根据其颜色差来整理像 素。第三阶段包括合并具有小于阈值的颜色差的像素以生成区域。已经证实,该算法只会 有过度合并误差,而很大概率会实现低的分割误差。最后,可以在线性时间/空间中高效地 近似该算法,从而带来了快速分割算法。以上引用的临时专利申请61/190,992的图2示出 了分割算法的示例性输出,并且在这里被再现为图2A和图2B。B.预处理在分割之后,获得相似颜色的区域。目标是将这些区域分类成文本区域和非文本区域。为了提高分类的效率,首先去除那些很不可能是文本的区域。因此在一种实现方式 中检查以下条件(1)如果 region_height (区域高度)小于某个阈值 T_low,或者 region_height 大于某个阈值T_high,则该区域被丢弃;(2)如果regi0n_area(区域面积)小于某个阈值T_area,则该区域被丢弃;(3)如果区域接触了图像边界的四边之一,并且其高度大于阈值T,则区域被丢 弃;(4)如果如下定义的fill_fact0r (填充因子)低于阈值乙打11,则其被丢弃。
权利要求
1.一种视频图像中的文本检测的方法,包括 在图像处理器处接收可能包含文本的视频帧; 将所述图像分割成具有相似颜色的区域;从具有相似颜色的区域中标识高可能性非文本区域并且丢弃所述高可能性非文本区域;合并剩余区域中的大小和颜色相似并且水平位置在阈值内的区域; 通过执行特征提取过程以提取笔划特征、边缘特征和填充因子特征,来利用特征描述 区域;以及使剩余区域经过经训练的二元分类器以获得最终文本区域,这些最终文本区域能够被 二元化并被OCR软件识别。
2.根据权利要求1所述的方法,还包括使经二元化的最高可能性文本区域经过光学字 符读取器。
3.根据权利要求1所述的方法,其中,将所述图像分割成相似颜色的区域是通过确定 两个区域的平均红、绿、蓝(R、G、B)值的绝对差均小于合并阈值来执行的。
4.根据权利要求1所述的方法,其中,所述分割包括计算相邻像素的颜色差;根据像素的颜色差来整理像素;以及合并具有小于阈值的颜 色差的像素,以生成区域。
5.根据权利要求1所述的方法,其中,所述二元分类器包括基于支持向量机(SVM)的分 类器。
6.根据权利要求1所述的方法,其中,如果笔划宽度在阈值内则认为笔划宽度值相似。
7.根据权利要求1所述的方法,其中,笔划宽度特征包括表示所述图像中的笔划宽度 的标准偏差在阈值内的邻域的百分比或者在垂直方向上具有相似的笔划宽度的邻域的百 分比的特征值。
8.根据权利要求1所述的方法,其中,笔划宽度特征包括表示如下行的百分比的特征 值这种行的水平笔划宽度的标准偏差在阈值内,或者这种行能够被集群化成群组并且每 个群组中的水平笔划宽度的标准偏差在阈值内,或者这种行具有相似的笔划宽度或相似笔 划宽度的集群。
9.根据权利要求1所述的方法,其中,笔划宽度特征包括当前笔划宽度与当前笔划到 相邻笔划的距离的平均比。
10.根据权利要求1所述的方法,其中,笔划宽度特征包括最频繁出现的两个笔划宽度 之比。
11.根据权利要求1所述的方法,其中,边缘特征是候选区域中的边缘的平滑性、边缘 的统一性和边缘的量的度量,其中边缘的平滑性由具有相同方向的邻域的百分比表示,边 缘的统一性是以最常出现的边缘方向的频率的形式来计算的,并且边缘的量是由总边缘长 度与区域面积之比来衡量的。
12.根据权利要求1所述的方法,其中,填充因子特征既是在整个候选图像中提取的也 是按邻域提取的。
13.根据权利要求1所述的方法,其中,通过以下步骤来决定有很高可能不是文本的区域(1)如果region_height小于某个阈值T_low,或者region_height大于某个阈值T_ high,或者(2)如果region_area小于某个阈值T_area,或者(3)如果区域接触图像边界的四边之一,并且其高度大于阈值T,或者(4)如果如下定义的fill_factor低于阈值f t 区域面积nn
14.根据权利要求1所述的方法,其中,二元化是利用多个二元化方法来执行的,其中 每个经二元化的输出被光学字符读取器处理以产生多个输出,这些输出被组合。
15.一种文本检测过程,包括通过利用统计区域合并进行分割以去除一定不是文本的区域并且基于如下定义的高 度相似性、颜色相似性、区域距离和水平对齐的标准对区域分组,从而来预处理图像謝目似性被定义为ZS: 二 <‘,,其中HEIGHT1和HEIGHT2是两个区域的高度; 颜色相似性被定义为
16.根据权利要求15所述的方法,其中填充因子特征既是在整个候选图像中提取的也 是按邻域提取的。
17.根据权利要求15所述的方法,其中预处理进行操作以确定(1)如果region_height小于某个阈值T_low,或者region_height大于某个阈值T_ high,或者(2)如果region_area小于某个阈值T_area,或者(3)如果区域接触图像边界的四边之一,并且其高度大于阈值T,或者(4)如果如下定义的fill_factor低于阈值,
18.根据权利要求15所述的方法,其中,二元化是利用多个二元化方法来执行的,其中 每个经二元化的输出被光学字符读取器处理以产生多个输出,这些输出被组合。
全文摘要
根据符合本发明的实施例,从图像和视频中识别文本时的第一个动作是准确地定位文本在图像和视频中的位置。然后,定位到的有可能是低分辨率的文本可被提取、增强和二元化。最后,现有的OCR技术可被应用到被二元化的文本以便识别。本摘要不应被认为是限制性的,因为其他实施例可偏离本摘要中描述的特征。
文档编号G06K9/34GK102144236SQ200980134487
公开日2011年8月3日 申请日期2009年8月31日 优先权日2008年9月3日
发明者珍-皮埃尔·古伊洛, 郁杨 申请人:索尼公司, 索尼电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1