估计文本颜色和图像的分割的制作方法

文档序号:6466623阅读:738来源:国知局
专利名称:估计文本颜色和图像的分割的制作方法
技术领域
本发明
背景技术
领域本发明一般地涉及图像中的文本定位和/或分割。
背景技术
目前在文本识别方面所做的工作主要集中于印刷或手写文件中的字符的光学识别(称为光学字符识别(OCR)),以满足对于办公自动化系统的文件阅读器的巨大市场需求。这些系统已经达到了很高的成熟度。在工业应用中可以看到进一步的文本识别工作,其中的大部分集中在非常窄的应用领域。一个例子是汽车牌照的自动识别。
人们已经提出一些关于检测复杂图像和视频中的文本以及从复杂图像和视频中提取文本的方案。但是,从这些方案的描述中可以看出,每种方案均在某些方面不具有通用性。另外,其中一些方案不包括将已定位的文本从其背景移去。
因此,人们需要一种通用的文本定位和分割方法。


从下面给出的对于本发明实施例的详细描述和附图可以更充分地理解本发明,但是,这些描述以及附图不应该被用来将本发明限制为所描述的特定实施例,而仅仅是为了说明和理解本发明。
图1中的流程图表示在本发明的一些实施例中完成的各种功能。
图2中的流程图表示在本发明的一些实施例中的定位的各个阶段的图像。
图3示出了在具有文本和背景的一个帧中的一个图像的初始界定方框7的例子。
图4示出了垂直和水平投影轮廓的例子。
图5示出了应用于图3的文本的一部分的垂直分割。
图6示出了应用于图3的文本的一部分的水平分割。
图7示出了网站上的一个图像,该图像具有文本和背景。
图8以部分方框图、部分流程图的方式表示出根据本发明一些实施例的通过量化来完成的颜色估计。
图9中的流程图表示根据本发明的一些实施例的视频监视和文本跟踪之间的关系。
图10中的方框图表示能实现根据本发明的一些实施例的功能的计算机。
具体实施例方式
1.简介本发明的各个实施例包括图像中文本的定位和/或分割,其中所述图像可以是静止的或运动的图像,例如视频或网页中的图像。网页可以包括视频或非视频图像。不要求文本处于图像中的特定位置或具有特定的颜色。另外,背景(也称为非文本)可以是简单的(例如单色的)或复杂的背景。
数字视频的高效索引和检索是多媒体数据库的一个重要的方面。视频中的文本对于检索来说是一种强大的高级索引。检测、提取和识别文本可以建立这样一种索引。它使得用户可以提交很复杂的查询条件,例如由约翰·韦恩主演或斯蒂芬·斯皮尔伯格导演的所有电影的列表。或者,该索引可以用来跳转到关于一个特定主题的新闻报道,因为新闻广播的标题经常提供其下面的新闻报道的高度概括。例如,可以通过搜索“财经新闻”一词来得到当天的财经新闻。该索引也可用来记录广告的播出时间和日期,从而为那些替他们的客户检查其广告是否已经按预定时间在预定的电视频道播出的人们提供帮助。如果可以自动地、可靠地识别数字视频中的文本,很多其他有用的高级用途是可以想象的。分割和识别网页的非文本部4分中的文本也是一个重要的问题。越来越多的网页在图像中显示文本。现有的文本分割和文本识别算法不能提取文本。因而,所有现有的搜索引擎都不能正确地对具有丰富图像的网页的内容进行索引。文本分割和文本识别也有助于为大显示器设计的网页自动转换成适合在小LCD上显示,因为图像中的文本内容可以被检索出来。
2.综述图1是一个流程图,示出了关于本发明的一些实施例的概况。图1包括一个文本定位块10和一个文本分割块14。说明书中提到“实施例”、“一个实施例”、“一些实施例”或“其他实施例”时,指的是所描述的与实施例有关的特定特征、结构或特性包括在本发明的至少一些实施例中,但不一定包括在所有实施例中。提到“实施例”、“一个实施例”或“一些实施例”时不一定总是指相同的实施例。
2.1文本定位数字输入信号(该信号通常包括一个图像)由文本定位块10的特征提取块20接收。在一些实施例中,在特征提取块20接收输入信号之前或同时,将任何ASCII或相关文本(例如HTML文本)移去。应注意,一个网页可能具有多个图像,这些图像被当作是独立的图像。文本定位块找到图像中文本的位置并用紧凑的文本界定方框来对其进行标记。在一些实施例中,这些界定方框应该仅包围一个文本列的一个文本行。但是,如下面所述,文本列不限于单个字符。在一些实施例中,定位包括以下步骤(1)特征提取(块20)从输入图像中提取特征,获取那些文本特有的特征。
(2)区域分类(块22)特征图像中的每个像素按照是否属于文本被分类。基于该信息生成初始文本界定方框。
(3)区域合并(块24)细化(refine)文本界定方框,使得每个方框仅包含一行及一列文本。
(4)文本跟踪(块26)如果输入为视频,则将本块加到处理过程中。这里我们利用视频的时间冗余性来提高文本界定方框的精度并消除很多错误警报。
(5)估计文本和最主要的背景颜色(块28)。
2.2文本分割文本分割阶段(块14)将背景(非文本像素)移去并生成一个输出信号。输出端44上的输出信号是一个图像文本表示。图像文本表示的一个例子是文本位图。所述文本位图例如可以包括白色背景上的黑色文本,而不管原来的文本和背景的颜色是什么。该位图可以被文本识别软件用来识别已经被块10和14定位和分割的特定文本。作为一个例子,文本识别软件可以是标准OCR软件,该软件预期白色背景上的黑色文本,不过本发明不限于产生这样一种输出信号。
为了改进分割,每个文本方框被按比例变换成其高度为例如100像素(块30)。接着,移去背景(块32和36)。对于背景像素的搜索在文本界定方框的边界上开始。对于视频,可以在该步骤之前对同一文本的位图进行子像素精确对准(块34)。其余的像素可以被二值化(块38)。如上面提到的,所得到的二元位图可以被送入标准OCR软件以将其内容转换为例如ASCII。
本发明不限于图1的特定块(10和14)。在不同的实施例中,这些块(20-38)的细节可以是不同的,另外,一些块可以被省去、被合并或具有不同的顺序。
3.其他的综述信息和概要文本定位和分割系统的一些实施例属于一种自顶向下的方法。在视频的情况下,通过利用其时间冗余性来细化可能的文本行(小节5)。象在文本定位中一样,文本分割也可以利用视频的时间冗余性来改进分割结果。几个基本的决定包含在一些实施例中。它们包括(1)仅考虑水平文本,因为99%以上的人工文本的出现属于这种情况。将任何书写方向都考虑在内的一些较早系统的经验表明,剩下的1%的文本出现率会带来高得多的错误警报率。只要是实现视频和图像中正确分割的文本大于90%这样一个性能仍然比较困难,则可以忽略非水平文本。
(2)非文本区域比文本区域的可能性大得多。因此,我们决定将粗略文本检测器训练成尽可能紧密(对于特定位置的特定大小的文本进行训练)。通过将我们的文本检测器应用在所有比例下的所有位置可以实现与比例和位置无关。
另一个决定是,只有当文本由至少两个字母或数字组成时才考虑该文本的出现。
但是,本发明不限于上面提到的特定细节。可以理解,对于某些特定的应用,将会使用垂直文本,在这种情况下,可以对本发明做出适应性修改。另外,如果关于该图像的其他信息是已知的,可以修改本发明的特定实施例以利用所述已知信息。
4.文本定位参见图2,图像50被按比例变换为不同大小的多个图像52、54、56、58和60。这些图像可以是静止图像或视频中的图像帧。虽然示出了五个图像,图像的数目可以多于或少于五。确定图像中的像素的边缘方位以生成特征图像62、64、66、68和70(见小节4.1)。使用一个固定比例文本适配器来对边缘方位图像中的像素进行分类,以生成图像72、74、76、78和80(见小节4.2)。图像72-80被整合为与一个图像相关的一个突出图形84(见小节4.3)。从该突出图形84生成初始文本界定方框(见小节4.4.1)。文本界定方框和一个与图像50相同或相似的相关图像由块86表示。修改块86的文本界定方框(例如合并)(见小节4.4.2)以生成修改后的文本界定方框,由块88表示,该块88也表示与块86相关的图像。应注意,文本界定方框不是所述图像的一部分,而是与所述图像相关。
4.1图像特征研究人员普遍地将人工文本的出现表征为具有高对比度和高频率的区域。有很多不同的方法来放大这些特征。一种方法是使用RGB(红、绿,蓝)输入图像I(x,y)=(Ir(x,y),Ig(x,y),Ib(x,y))的梯度图像来计算复值边缘方位图像E。E按如下方式定义令Ac(r,_)为颜色平面c的直角坐标系的微分图像_Ic(x,y)的角坐标表达式。则E被定义为 的直角坐标系的表达式。模180度用来将方向转换为方位。E是我们用于文本定位的特征。
另一种方法是使用图像带b的方向微分Dcx和Dcy来计算方向边缘强度Ex=Σc∈(r,g,b)|Dcx|]]>和Ey=Σc∈(r,g,b)|Dcy|.]]>及其总边缘强度E=1/3Σc∈(r,g,b)((Dcx)2+(Dcy)2)1/2.]]>4.2固定比例文本检测器在一些实施例中,使用一个固定比例文本检测器来根据边缘方位图像E中每个像素附近的局部区域来对所述每个像素进行分类,以确定其是否是一特定大小的文本区域的一部分。例如,给定边缘方位图像E中的一个20×10像素的区域,固定比例的文本检测器对于该区域是否包含特定大小的文本进行分类。有许多不同的技术来建立一个分类器。这些例子包括贝叶斯分类器(Bayes classifier),混合高斯分类器(Mixed-gaussianclassifier)和前馈型神经网络(其具有好的归纳能力)。对于我们的工作,我们将采用内曼-皮尔逊(Neyman-Pearson)标准的贝叶斯分类器的性能和实值与复值前馈型神经网络的性能进行了对比。具有双曲正切激活函数的复值神经网络可以提供更出色的性能。在一些实验中,在可比的命中率(90%)的情况下,其在验证集合上的错误命中(0.07%)比可比的实值网络低两倍多。
网络结构可以采用各种网络结构。在一些实施例中,由E中的20×10边缘方位区域馈送的200个复值神经元作为网络输入。该感受范围的大小在性能和计算的复杂性之间达到很好的折衷。30×15神经元的输入层不能获得更好的分类结果,但是计算上代价更高。另一方面,使用少于10行的输入层导致结果差得多。应注意,感受范围的行数决定了被检测的字体的大小,因为所有训练文本模型被按比例变换,使得字体的大小等于行数。输入层再与一个2复值神经元的隐藏层连接。同样,使用更多的隐藏神经元并不能导致任何性能的改进,而仅使用一个隐藏神经元将错误警报率增加到三倍。隐藏层被整合为一个实值输出神经元。
网络训练有多种方法完成网络训练。下面描述了一些方法,但是本发明并不限于此。训练和验证测试集合应该尽可能小,但仍然具有代表性。它应该包含所有典型的文本模型和非文本模型。理论研究表明,如果训练集合中的文本和非文本样本数目之间的关系对应于应用中二者之间的关系,神经网络将是最有效的。满足该条件的大量训练样本被获得。虽然怎样获得不同类型的文本的例子是易懂的,但是得到有代表性的非文本集合要更困难一些。
这个问题的一个解决方案是所谓的“自引导(bootstrap)”方法。训练集合的组成可能严重影响网络性能。在一些实施例中,收集到具有30180个文本模型和140436个非文本模型的有代表性的集合。最初的6000个文本模型和5000个非文本模型是为训练而随机选择的。仅允许非文本模型集合增加另外3000个通过“自引导”方法收集的模型。该方法由一个初始的非文本模型集合开始,以训练神经网络。然后,使用一个与训练集合不同的验证集合(这里所有模型减去训练集合)来估计经训练的网络。验证集合的一些错误分类的模型被随机地加到训练集合中,并用这种扩展的而且是改进的训练集合训练出一个新的、有望增强的神经网络。再次用验证集合对所得到的网络进行估计,并将仍错误分类的非文本模型加到训练集合中。重复该训练和定向加入新模型的操作,直到验证集合中的错误分类的模型的数目不再减少,或者,象我们的例子中那样,直到已经加入了3000个非文本模型(并且仅仅是非文本模型)。该迭代的训练过程保证了一个多样化的训练模型集合。
给出一个经正确训练的神经网络,一个20×10像素窗口滑过边缘方位图像E,并在每个位置被估计。当且仅当网络输出值超过thnetwork=0时(在-1与1之间),用该网络输出值来填充一个所谓的响应图像中的一个相关的20×10区域,由此将网络响应存储在所述响应图像中。由于步长为1可能使计算量大到不适合于大图像或高清晰度电视(HDTV)视频序列的程度,我们在x和y方向分别采用步长因子3和2。该子采样可以不降低精确度,但将速度提高至6倍。
在其他实施例中,使用一个实值网络,逻辑激活函数(logisticactivation function),在每个窗口位置,测试神经网络的输出是否超过了thnetwork=0.85(在0和1.0之间)。如果是,则可以将一个由神经网络输出值填充的20×10的方框加到响应图像中的相关位置。
4.3比例整合在一些实施例中,所有比例下的粗略固定比例文本检测结果(图像72-80)被整合为一个文本突出图形(saliency map),以便恢复初始文本界定方框。(见图2,方框82)。在很多情况下,文本位置的特点在于在多个比例下的正确命中,而错误警报在多个比例下的一致性较低。可以通过将文本置信度(confidence of being text)投影为该图像的原始比例来生成突出图形。(文本置信度的一个例子是神经网络输出的激活程度)。突出图形可以初始化为零。然后,对于在每个比例下检测到的界定方框,将其文本置信度值按照在原始图像比例下该界定方框的大小加入到突出图形中。在一个特定区内,某一给定比例的界定方框可能多于一个。在一些实施例中,突出图形可以反映一个特定区内的所有图像比例的界定方框的总数。
4.4文本界定方框的提取4.4.1初始文本界定方框有各种方法来生成文本界定方框。下面描述了一些实施例中采用的技术,但本发明不限于这些细节。为了生成一个初始的文本界定方框的集合,其中所述方框包围明显突出的区域,该算法开始在突出图形中搜索下一个尚未处理的、其值大于预定阈值thcore的像素。阈值的选择是由避免为非文本区域生成文本方框的目标而确定的。非文本区域应该不那么突出。对于我们的分类器,thcore=5.0工作得很好,但是,有时可能必须调整该阈值(例如,如果训练一个新的神经网络)。该阈值可以不是5.0。一旦在突出图形中找到一个其值P(x,y)>thcore的像素(称为核心像素),则将其作为一个高度和宽度分别为1的新文本方框的种子。然后以迭代的方式扩展该新文本方框。下面的伪码(称为伪码例1)给出初始文本方框生成算法的一个例子。
初始文本方框生成算法(伪码例1)(1)search for next core pixel and create a new text box of width and height 1(2)do(3)extendNorth(box)(4)extendEast(box)(5)extendSouth(box)(6)extendWest(box)(7)while(box changed)在整个边缘强度图像中该方框的总宽度上方相邻行的像素的平均亮度被当作在该方向增长的判断准则。如果平均亮度大于thregion=4.5,则将该行加到方框中。这个值被选择成比thcore略小一些,以便不是仅仅得到一个包括文本区域的核心的文本方框,而是要得到一个包括该文本的所有部分的文本方框。接着,使用同样的判断准则将方框向左方、下方和右方扩展。只要界定方框持续增长,则重复该迭代的方框扩展(见伪码例1)。
图3示出了视频帧110中的一个图像中的日期和时间和初始界定方框的例子,但本发明不限于这些特定的例子。帧110的背景可以是一种单一颜色(例如图中示出的白色)的背景,或是具有各种形状的不同颜色的更复杂的背景。文本界定方框用虚线表示。图像110中可以有其他的文本。
4.4.2修改的文本界定方框初始界定方框经常不能最恰当地给图像中的文本加上边框在实践中,一些方框不包含任何文本(错误警报);而另外一些方框则跨越多于一行和/或列文本,并且在很多情况下,背景占去很大一部分像素。好在通过一种利用包含在所谓的投影轮廓中的信息的迭代的后处理过程(iterative post-processing procedure)可以克服这些缺点。
一个图像区域的投影轮廓是空间像素内容分布的简洁表示,并且已经成功地应用在文件文本分割中。直方图仅获取例如像素亮度的某种图像特征的频率分布(丢失所有空间信息),而亮度投影轮廓能保留大致的空间分布,其代价是像素内容更加密集。水平/垂直投影轮廓可以定义为每一列/行上像素亮度和的矢量。
图4示出了一个例子,其中垂直和水平投影轮廓被绘制为沿特征图像的x和y轴的条线图。文本行上边界的标志是垂直投影轮廓中的陡然上升,而下边界的标志是陡然下降。类似地,文本对象的右和左边界的标志是水平投影轮廓中的陡然上升和下降。这些陡然的上升和下降可以被识别为轮廓图穿过一条自适应地设置的阈值线的位置。从下到上的转换由一条长线表示,从上到下的转换由一条短线表示(如图4中标出的那样)。
术语“文本对象”按下面的方式使用。在单个图像的情况下,一个文本对象是一个文本边界方框(包括已经经过修改处理的情形)。在视频的情况下,一个文本对象包括来自不同时间的帧的多个文本界定方框(包括已经经过修改处理的那些情形)。换言之,在视频的情况下,文本对象包括同一文本的不同例子,它们来自不同的帧(图像)。
垂直分割算法的一个例子在伪码例2中以伪码形式给出。水平分割算法的一个例子在伪码例3中以伪码形式给出。但是,本发明不限于伪码例2和3中所示的特定细节。其他方法也可实现本发明的实施例。应注意,在本小节中使用“分割”一词时,是与修改初始界定方框有关,而在小节6中,通常指的是从背景移去文本。
垂直分割算法(伪码例2)(1)expand box at the top and bottom by the minimum of half the height ofthe original text box and half the possible maximal text height(2)calculate vertical proj ection profile of the |E|(3)get minimum and maximum profile values(4)calculate the segmentation threshold(5)set change=false(6)for all rows of the profile(7)if(profile[current row]>threshold)(8)if(no upper boundary yet)
(9)set upperboundary=current row(10)else(11)if(no lower boundary yet)(12)setlower boundary=current row(13)if(upper boundary)(14)create new box using the values of upper and lower boundaries(15)unset current upper and lower boundaries(16)set change=true(17)delete processed box水平分割算法(伪码例3)(1)expand box at the left and right by the minimum of half the height of theoriginal text box and half the possible maximal text height(2)calculate horizontal projection profile of the |E|(3)get minimum and maximum profile values(4)calculate the segmentation threshold(5)for all columns of the profile(6)if(profile[current column]>threshold)(7)if(no left boundary yet)(8)set left boundary=current column(9)else if(right boundary)(10)if(gap between current column and right boundary is large enough)(11)create new box from left and right boundaries(12)unset left and right boundaries(13)else(14)unset right boundary(15)else if(no right boundary)(16)set right boundary=current column(17)if(left && no right boundary)
(18)right boundary=last column(19)if(left and right boundaries)(20)update processed box to current right/left boundaries(21)else(22)delete processed box参见伪码例2,在一些实施例中,应用到每个文本方框的垂直分割算法按下面的方式工作,但本发明不限于这些细节。在顶部和底部扩大该方框(伪码例2中的第(1)和(2)句)。该扩大是需要的,因为正确的边界可能位于当前方框的外部,因而初始边界偶尔可能切掉文本的一部分。为了正确地恢复这些边界,应该考虑原始方框外部的一些行。我们将顶部和底部的扩大量设定为原始文本方框高度的一半和最大可能的文本高度的一半中的较小者。原始文本方框高度的一半看起来是一个比较好的对于初始垂直边界中的缺陷的最差情况估计,而采用最大可能的文本高度的一半的限制条件是因为原始文本方框可能包含多于一行文本,因而造成文本方框高度的一半可能大于最大可能的文本高度的一半。
接着,计算特征图像|E|的扩大后的方框上的垂直投影轮廓和该轮廓中的最大和最小值maxprofile和minprofile。为了确定投影轮廓中的单个值是否属于一个文本行,可以将阈值threshtext计算为threshtext=minprofile+(maxprofile-minprofile)X 0.175。(注意伪码例2中的第(4)句)。因子0.175是用实验方法选择的,在其他实施例中可以不同。垂直轮廓值超过threshtext的每一行被分类为包含文本。
在伪码例2的第(6)-(8)句,算法开始从顶部搜索第一个从下到上的转换。这一行被标记为文本方框的可能的上边界(第9句)。然后,在投影轮廓中搜索下一个从上到下的转换(第13句)。如果找到的话,则生成一个具有当前的上及下边界的新文本方框。继续搜索新的一对从下到上和从上到下的转换,直到投影轮廓中的所有元素都被处理了。最后,可以删除原始文本方框。文本方框现在被分解为其文本行。见图5,示出了应用到图3的帧的一部分的垂直分割。应注意,可以对图5所示的界定方框进行额外的修改。
类似地,使用水平分割算法(伪码例3)来保证处于一行中但不属于一个整体的文本被分开。但是,在一些实施例中,伪码例2与例3相比可能有两个不同之处(1)在计算threshtext时使用因子0.25而不是0.175。实验表明这个值对于水平分割来说是非常好的。
(2)加入了一个间隔参数。与垂直分割不同,“相同”列中的单词不应该因为各个单词之间有小的间隔而被分开。因此,需要间隔参数来弥补这些较低的水平轮廓值(如果必要的话)。如果该算法已经找到了一对从下到上和从上到下的转换,也就是找到了一对可能的左及右边界,而且如果该找到的从上到下的转换与当前列之间的间隔足够大,则在当前列中找到的从下到上的转换被判断为一个新的文本对象的左边界,并且从先前找到的那对转换生成一个新的方框。当前列被标记为新的可能的左边界。如果间隔不够大,则该算法将轮廓中的凹部判断为太小,并因此将其忽略(删除到目前为止找到的可能的左边界)。该算法继续处理轮廓中的下一个值。本发明不限于这些细节。
图6给出了水平分割算法的结果的一个例子。应注意,对于更复杂的文本布局,可以对界定方框进行额外的修改。
图7示出了包括背景124的图像120中的文本“DOW JONESCommodities trading is risking and is not for everyone”。图像120在一个网页126中。背景124可以是单色的背景,或复杂的背景(例如,具有不同形状的很多颜色)。垂直分割算法可能不会一开始就将“Commoditiestrading is risking and is not for everyone.”的不同文本行分开。只要设想一下各文本方框的垂直投影轮廓是什么样子就可以理解这是为什么。左列中的文本方框可能会挡住右侧的较小文本的垂直轮廓,因而后者不能被分为两个文本行。另一方面,两个文本列之间的间隔足够大,从而在采用水平分割算法后能够被分开。实验中的结果是,对文本方框进行了几个周期的(或几次)垂直和水平分割后,几乎每种布局都可以被分为其文本行和列。
由于图像及视频帧中的文本高度是有限的,在一些实施例中,高度为height<mintextheight=8pt或height>maxtextheight=imageheight/2的方框被分类为非文本区域,并因此被丢弃。另外,由于水平分割确保文本方框包含诸如单词或文本行的文本对象,正确分割的文本方框的高度应该比其宽度小。结果,其高度大于宽度的方框也可以被丢弃。最后,那些具有相同上及下边界并且接近到互相接触或重叠程度的文本方框可以被加入到一个文本方框中。这样减小了复杂度,而且以后可以使得在整个处理过程中文本跟踪更稳定。
4.4.3估计文本颜色和背景颜色在一些实施例中,对于每个文本界定方框进行文本颜色和背景颜色估计。该估计可以用来确定一文本界定方框是包含常规文本(明亮背景上的深色文本)还是反向文本(深色背景上的明亮文本)。图像通常是多色的。即便是一个肉眼看上去是单色的区域,例如视频帧中的一个字符,也是由具有很多不同但相近颜色的多个像素构成的。因此,可以通过将颜色量化为例如四个最主要的颜色来降低每个文本界定方框中颜色分布的复杂度。可以使用多种矢量量化器。在我们的工作中,使用了快速矢量量化器,市场上很容易买到。
文本颜色直方图提供了一种量度,该量度表示出界定方框中文本所包括的量化颜色的量。该量度可以是文本的样本,例如,文本界定方框的四个中心行。由文本颜色直方图计量的颜色通常也可以包括混合在字母之间或某些字母(例如“o”)内部的某些背景。当然,除了所述四个中心行以外,文本的其他部分也可用于文本颜色直方图。
背景颜色直方图可以提供一种量度,该量度表示出背景的某些部分中包括的量化颜色的量。例如,这些部分可以是文本方框上面紧挨着的两行和下面紧挨着的两行(总共四行)。应注意,该背景颜色直方图可以包括来自两个背景颜色直方图(例如一个来自文本上方,另一个来自文本下方)的分量。或者,也可以只有一个来自文本上方的背景颜色直方图,或者一个来自文本下方的颜色直方图。
在一些实施例中,我们计算文本与背景直方图之间的差异直方图。差异直方图的最大颜色很可能对应于文本颜色,而差异直方图的最小颜色很可能对应于最主要的背景颜色。实验表明,该方法对于单色文本是很可靠的。当然,对于多色的文本,该方法可能失灵,但多色文本是很少见的。
根据估计的文本颜色和最主要的背景颜色,我们估计一个文本界定方框是包含常规文本还是反向文本,如上面所述。如果文本颜色的灰度值比最主要的背景低,我们则假定该文本为常规文本,否则为反向文本。
图8的方框图表示根据本发明的一些实施例,使用矢量量化器和使用颜色直方图来估计颜色。其他的实施例具有不同的细节。参见图8,块130表示一个矢量量化(VQ)前的被界定的文本方框及周围的背景。块134表示被界定的经矢量量化的文本信号和背景。在VQ后,包括背景的文本信号只有四种颜色。从例如通过文本中心的一个带状区(例如四个中心行)生成颜色文本直方图CHT。分别从文本上方的一个带状区(例如两行)和文本下方的一个带状区(例如两行)生成上部和下部颜色直方图CHU和CHL。在该例子中,允许有4种颜色。因此,颜色直方图表示出,在VQ之后包括在这些带状区中的每种颜色C1、C2、C3和C4的量。生成一个差异颜色直方图CHD,其中CHD=CHT-CHU-CHL。如上所述,在从CHT减去颜色直方图CHU和CHL之前可以将这两者相加。
应注意,可以按照下面小节6.2.2和6.3中所述来使用估计的颜色。但是,在小节5至小节6.2.1中和小节6.2.2的第一部分中,可以使用具有灰度颜色的图像(例如图2中的图像88)。
5.利用视频中的信息冗余性视频与静止图像和非视频网页的区别在于时间冗余性。通常,每个文本行在几个连续的帧中出现。该时间冗余性可以用来(1)提高定位文本的几率,因为相同的文本可能在不同的情况下逐帧出现,(2)消除单独的帧中的错误文本警报,因为在整个处理过程中它们通常是不稳定的,(3)将“偶然”丢失的文本行的位置插入单独的帧中,(4)通过一段时间内的位图整合来改进文本分割的效果。
但是,利用该冗余性在计算上可能是代价很大的,并且采用小节4中描述的我们的文本定位方案可能代价过高。为明白这一点,假设基于图像的文本定位器对于每个MPEG-I视频帧需要大约5秒钟。处理一分钟的视频一共需要2.5小时!MPEG指运动图像专家组。当前的和建议中的MPEG格式包括MPEG-1(“高达1.5Mbps的用于数字存储介质的运动图像和相关音频的编码”,ISO/IEC JTC 1 CD IS-11172(1992)),MPEG-2(“运动图像和相关音频的通用编码”,ISO/IEC JTC 1 CD 13818(1994)),和MPEG-4(“甚低比特率音频-视频编码”状态94年11月征求意见,96年11月作出草案)。有不同版本的MPEG-1和MPEG-2。也可以使用除MPEG以外的各种格式。
5.1文本对象在静止图像的情况下,所有已定位的文本界定方框通常是独立的,彼此无关。为了利用视频中固有的冗余性,连续帧中的相同内容的文本界定方框可以根据这些文本界定方框的视觉内容概括成一个文本对象。在视频的情况下,一个文本对象描述一段时间内的一个文本行,这是用该文本行在各帧中的图像文本表示(例如位图)、大小和位置以及它出现的时间范围来描述的。在两阶段处理过程中提取视频中的整个文本对象,以便降低计算的复杂度。下面描述了一些实施例中的操作,但本发明不限于此。在第一阶段,以一较粗的时间分辨率监视视频信号(见图9)。例如,仅对每个第20帧(例如,图9中的帧F80,F100,F120等)应用小节4中描述的基于图像的文本定位器。如果检测到文本(例如在帧120中),则将进入第二阶段即文本跟踪。在这个阶段,在监视阶段找到的文本行被(按时间)向后跟踪(例如帧F119)和向前跟踪(例如帧F121),直到其出现的第一帧(例如帧F115)和最后一帧(例如帧F134)。这个阶段结合使用基于特征谱(signature)的文本行搜索和基于图像的文本定位。基于特征谱的搜索的计算强度没有基于图像的文本定位的计算强度大(小节4)。基于特征谱的搜索可能包括将文本的边缘和某些区域与其他帧中的相应内容相比较。它可能包括边缘图(edge map)比较。也可以比较水平轮廓。
5.1.1对于文本出现的视频监视在一些实施例中,以一个较粗的时间分辨率来监视视频中出现的文本。为此,可以仅将基于图像的文本定位器应用到视频中的一个帧子集,其中这些帧是均匀间隔的。步长是根据不忽略任何文本行这一目标而确定的。但是,文本行是在其最初出现时、最后出现时、还是在其出现的中期被定位可能并不重要。在任何情况下,文本跟踪阶段将恢复每个文本行的实际时间范围。
最大可能的步长可以由文本行出现的最小假定持续时间来给出,我们假定其为1秒。视觉研究表明,人们需要2到3秒钟来处理整幅画面。因而,假定文本至少应该清楚地出现2/3秒以便能够容易地阅读,这看起来是合理的。对于30fps的视频,这换算成步长为20帧。
在一些实施例中,如果基于图像的文本定位器没有在帧t中找到任何文本行,则继续对帧t+20进行监视处理。但是,如果找到了至少一个文本行,则可以将基于图像的文本定位器应用到帧t-1和帧t+1。接着,对于帧t中的每个文本行,该算法在帧t-1和帧t+1中搜索一个对应的文本行。两个文本行之间的对应可以定义为在其各自的帧位置,其各自的界定方框的至少80%的区域重叠,不过也可以采用其他的值。如果A和B分别表示描述基准和第二界定方框的点的集合,则重叠的百分比可以被定义为overlap(重叠)=|A∩B|/|A|。结果,在这种情况下,如果两个对应的方框出现在连续帧中的相同位置,则它们的大小不能相差20%以上,并且/或者如果它们具有相同的大小,则只允许它们之间有微小的移位。对于非静止文本来说,微小的移位是常见的。如果在帧t-1和帧t+1中找到了帧t中的一个文本方框的对应方框,则生成一个新的文本对象(包括这些文本方框),并对其进行标记以便于按时间跟踪。伪码例4给出了视频监视处理的概要。
对于文本出现的视频监视算法(伪码例4)
(1)video={frame 0,...,frame T}(2)for t=0 to T step 2/3 seconds(3)localize text in frame t(4)if no text line found(5)continue with next t(6)localize text in frame t-1 and t+1(7)for all text lines in frame t which do not belong to any text object yet(8)search for corresponding text line in t-1,t+1(9)if search successful(10)create new text object(11)track textobject backward(12)track textobject forward5.1.2文本跟踪在一些实施例中,根据在视频监视阶段生成的文本对象中包含的信息,将每个文本对象扩展到包含相应文本行的所有帧。(这减少了将在图1中的导线44上提供的位图的数目)。可以按时间向后和向前进行文本跟踪。但是,我们仅描述了向前跟踪,因为除了通过视频的方向不同之外,向后跟踪与向前跟踪是相同的。我们的快速文本跟踪器背后的基本思想是,取得当前视频帧中的文本行,计算一个表征性的特征谱,该特征谱使得该文本行区别于具有其他内容的文本行,并且在下一视频帧中搜索与该基准特征谱能最好地匹配的相同尺寸的图像区域。
小节4.4.2中定义的垂直和水平投影轮廓用作简洁的并且是表征性的基准特征谱,不过也可以使用其他的特征谱。特征谱的中心可以定义为相关文本行的界定文本方框的中心。两个特征谱之间的相似度可以用特征谱逻辑乘(signature intersection)(例如这两个特征谱中相应元素中的最小值的和)来计量。在特征谱获取一个有关目标并改变背景的情况下,特征谱或直方图逻辑乘要优于L范数。为了找到一个文本行在下一帧中的精确位置,可以计算其中心落入围绕基准特征谱中心的一个搜索窗口的所有特征谱,并将其与基准特征谱进行比较。如果最佳匹配超过所要求的最小相似度,则可以确定找到了文本行并将其加入文本对象。如果最佳匹配没有超过所要求的最小相似度,则决定放弃基于特征谱的搜索(signature-baseddrop-out)。搜索半径的大小取决于最大的假定文本速度。在我们的实验中,我们假定文本在视频中从左侧移动到右侧至少需要2秒钟。在给定视频的帧大小和重放速率的情况下,这可以直接换算为以像素为单位的搜索半径。原则上,我们可以借助到目前为止包含在文本对象中的信息来预测位置,以缩小搜索空间,但是,这可能没有任何计算上的需要。
应注意,基于特征谱的穷尽搜索算法可以类似于用于运动估计的块匹配算法,不同之处在于,相似度的量度是基于一个从实际图像的特征图像导出的特征谱。
有可能的是,基于特征谱的文本行搜索不能检测到一个慢慢变弱的文本行,因为该搜索是基于先前帧中的文本行的特征谱,而不是基于一个固定的和导出的主/原型特征谱。帧间的变化可能小得不能被检测到。另外,基于特征谱的文本行搜索可能不能跟踪一些放大(zooming in)和缩小(zooming out)文本。为克服这些缺点,可以每隔x帧用基于图像的文本定位器来取代基于特征谱的搜索,以便重新校准文本行的位置和大小。但是,可以在这里丢弃新检测到的文本方框。
试验中,5帧的间隔被证明能在速度和可靠性之间取得很好的折衷,但也可以采用更大的间隔。同样,在一些实施例中,对应文本行的界定方框可以至少重叠80%。
由于视频中的缺陷,例如高噪声、有限的带宽(例如串色)、文本阻塞、压缩伪影(artifact)等,在严格的意义上(例如每帧)进行文本对象的连续识别经常是不可能或不实用的。因此,如果不能在下一帧中找到任何对应的文本行就终止跟踪可能不是一个好主意。代之以,只有当不能在一定数目的连续帧中找到任何对应的文本行时才终止跟踪。为此,可以采用两个阈值maxDropOutsingature-based和maxDropOutimage-based。每当一个文本对象不能被扩展到下一帧时,则将相应的计数器加1。每当相关的搜索方法成功时,则将相应的计数器复位为0。当这两个计数器中的一个超过其阈值maxDropOutsingature-based或maxDropOutimage-based时,立即终止该跟踪处理。在我们的实验中,基于图像的文本定位器的阈值被设置为maxDropOutimage-based=3,]]>但也可以采用其他值。这种放弃可能是由噪声很大的视频帧或暂时阻塞的文本造成的。基于特征谱的搜索的阈值被设置为maxDropOutsignature-based=4,]]>例如,两个完整的被定位的帧之间的距离,但也可以采用其他值。采用阈值4使得可以在基于特征谱的搜索非常困难,例如搜索放大或缩小文本的情况下跟踪文本行。下面的伪码例5给出了根据本发明一些实施例的视频监视过程的概要。但是,可以采用具有其他细节的本发明的其他实施例。
给定文本对象的向前文本跟踪算法(伪码例5)(1)sigBased_DropOuts=0(2)imageBased_ropOuts=0(3)while not(beginning or end of video‖sigBased_DropOuts>maxSigBased_DropOuts‖imageBased_DropOuts>maximageBased_DropOuts)(4)get next frame t(5)if(frame has to be localized)(6)localize text in frame t(7)search localized text box that matches to the box in the last frame of thetext object(8)if(search successful)(9)add text box to the text object(10)reset sigBased_DropOuts and reset imageBased_DropOuts(11)else(12)increment imageBased_DropOuts(13)else(14)calculate feature image for frame t(15)estimate search area a for the text line(16)create a window w with the dimension of the text box in frame t-1(17)get signature s1 ofthe text box in t-1
(18)for(each possible position of w in a)(19)calculate signature s2 for w(20)calculate error between s2 and s1(21)memorize minimal error(22)if(minimal error<threshold)(23)add text box to the text object(24)reset sigBased_DropOuts(25)else(26)increment sigBased_DropOuts5.1.3后处理为了准备一个用于文本分割的文本对象,可以将其削减到已经以较高置信度被检测出来的部分。因此,在一些实施例中,每个文本对象在时间上被削减为基于图像的文本定位器检测到文本行的第一帧和最后一帧。接着,如果发生以下情况则丢弃该文本对象,例如,(1)它出现的时间少于1秒钟,或者(2)它的放弃率大于25%。也可以采用其他值。第一种情况来自于我们的观察文本行通常需要至少1秒钟才能被看见,短于此时间的文本行通常是错误警报。第二种情况移去那些后续处理过程不能处理的、来自于不稳定跟踪的文本对象。不稳定跟踪可能是由强压缩伪影或非文本造成的。
最后,在一些实施例中,可以对于每个文本对象确定下面的一个或多个全局特征。在不同的实施例中,具体细节可能不同。
(1)文本对象的文本颜色假定同一文本行的文本颜色不随着时间的推移而改变,则将文本对象的文本颜色确定为每一帧的所有确定的文本颜色(例如,通过小节4.4.3获得的颜色)的中值。文本颜色并非必须被选择为中值。可以采用另一种平均或非平均的量。
(2)文本大小文本界定方框的大小可以是固定的,或者是随时间改变的。如果是固定的,我们通过宽度和高度的集合的中值来确定其宽度和高度。
(3)文本位置文本行可以在一个坐标轴或两个坐标轴方向上是静止的。如果文本行在每帧中的平均移动小于0.75像素,则将文本行看成在x和/或y方向上是静止的。平均移动是基于该文本行的第一次和最后一次文本出现的位置之间的差别由帧数归一化而计算的。
如果文本行是静止的,我们用中值文本界定方框取代所有文本界定方框。中值文本界定方框的左/右/上/下边界是所有左/右/上/下边界的中值。如果该位置仅在一个方向上固定,例如仅在x或y轴方向上固定,分别用中值来取代左和右或者上和下边界。
6.文本分割文本分割涉及从文本移去背景。这不应与小节4.4.2中的分割混淆。
6.1分辨率调整(见图1中的块30)可以对于再次改变比例的(rescaled)图像(例如,通过三次内插)进行文本分割操作,使得所考虑的文本对象的文本高度为固定的高度,例如为100像素,并且保留高宽比。再次改变比例的原因有两个(1)增强较小的字体尺寸(其能带来更好的分割结果)的分辨率当前的视频中的文本提取和文本识别的一个主要问题是其分辨率很低。对于MPEG-I编码的视频,各字符的高度经常小于12像素。虽然对于人来说在该分辨率下仍能够识别文本,但对于当今的标准OCR系统来说则比较困难。这些OCR系统被设计用来识别文件中的文本,这些文件是以至少200dpi至300dpi的分辨率扫描的,造成最小文本高度为至少40像素。为了用标准OCR系统获得好的结果,人们希望增强文本行的分辨率。
增强文本位图的视觉质量是按比例放大较小的文本位图的另一个并且是更重要的原因。该更高的分辨率使得能够进行小节6.2.2中的子像素精确文本对准(相对于原始分辨率)。
(2)对于较大的字体尺寸节省计算量大于固定高度(例如100像素)的文本高度不能改进分割或OCR性能。减小其尺寸可以显著降低计算复杂度。应注意,由于我们的方法事实上是多分辨率方法并且在网页和HDTV视频序列上以高达1920乘1280像素的分辨率工作,较大的字体尺寸是很可能的。100像素只是帧高度的1/12。
6.2移去背景(包括复杂背景)如上面所述,可以移去背景。(见图1中的块32)。复杂背景比简单背景具有更大的变化。但是,本发明不限于特定类型的背景(它可以是复杂和简单的背景)。但是,如上所述,如果关于图像背景的特定信息是已知的,可以修改本发明的实施例以便利用该信息。
6.2.1图像文本的出现应该与其背景形成反差,以便能容易地阅读。此处利用该特征来移去复杂背景的较大的部分。在一些实施例中是按下面所述的方式工作的,但本发明不限于此。基本的思想是增大文本界定方框,使得没有文本像素落在边界上,然后将文本界定方框边界上的每个像素当作种子,以便用背景颜色填充差别不大于thresholdseedfill的所有像素。(应注意,在一些实施例中,在一开始时仅仅是记录所述被填充像素的颜色的改变,即改变为背景颜色,而并不在位图上实际执行。可以在对于方框边界上的所有像素采用了种子填充(seed fill)之后实际执行。)对于反向文本来说背景颜色是黑的,而对于常规文本来说背景颜色是白的。由于边界上的像素不属于文本,而且由于文本与其背景形成反差,种子填充算法不会移去任何字符像素。(种子填充算法在本领域是公知的。)我们将这个新构建的位图称为Br(x,y)。
在我们的实验中,RGB颜色之间的欧几里德距离被用作距离函数,并且该种子填充算法利用4邻域。另外,为确保所有字母完全包含在文本界定方框中,我们将其在水平方向上扩展20%,在垂直方向上扩展40%。可以采用其他值。
不是所有背景像素都需要被删除,因为由种子算法填充的区域的大小可以受一个像素与其邻接像素之间的最大允许色差限制。可以利用其余颜色区域的大小,以便用背景颜色来填充背景的其余区域。在一些实施例中,每个像素可以是一个用于种子填充算法的种子。然后可以假想地将8邻域种子填充算法应用到Br(x,y),以便确定可以被填充的区域的尺寸。背景区域应该比文本字符区域小。因此,高度小于minheight像素且宽度小于minwidth或大于maxwidth的所有区域被删除,(设定为背景颜色)。
6.2.2视频图像视频文本对象与单个图像文本对象的区别在于,它包括同一文本行的多个而不仅是一个图像文本表示(例如位图)。在一些实施例中,使用下面的方法来利用该冗余性,以移去包围实际字符的复杂背景。但是,本发明不限于这些细节。该方法不但可以应用于静止文本,也可以应用于移动文本,因为我们已经解决了子像素精确文本行对准的问题。
可以以灰度格式重新装载原始图像。但是,可以如下所述用矢量量化的版本来确定哪个灰度颜色与估计文本颜色相同。
在一些实施例中,它如下工作。假设你将一个文本对象的各个位图堆叠起来,使得字符彼此精确地对准。属于文本的像素随着时间的推移仅仅有微小的改变,而属于非文本(背景)的像素经常随着时间的推移有很大的改变。由于文本位置因对准而成为静止的,其像素应该不会改变。(应注意,尽管文本应该是静止的,但各帧之间可能有微小的改变)。背景像素很可能因为背景中的运动或文本行的运动而改变。
我们对于每个文本对象导出一个代表性文本行位图。给定精确对准的位图堆,在一段时间内对于常规/反向文本的灰度图像进行最大化/最小化运算。应注意,不必使用文本对象的每个位图,因为在两个连续的帧中背景通常不会显著改变。结果是,选择大约40个在时间上均匀间隔的帧就足以获得很好的结果。例如,如果选择40帧并且共有200帧,则这40帧的间隔为5。如果有150帧,则这40帧的间隔为15/4,这表明该间隔可以四舍五入为一整数,或者该间隔可以不是恒定的,有时是3,但更多时候是4,以使平均值为15/4。还应注意,在文本对象的开始和结束时的一些帧可以被跳过,以避免渐强和渐弱效应带来的潜在问题。如上面所述,对某些帧使用基于图像的定位技术,以避免表征性文本颜色在渐强或渐弱中缓慢改变。仅基于特征谱的跟踪会导致在这样的情况下破坏分割。
下面描述了如何基本上精确地对准这些位图。首先,就象对图像和网页那样,可以扩展一个文本对象的所有界定文本方框,例如,在水平方向上扩展20%,在垂直方向上扩展40%。接着,可以将所有位图转换为灰度,因为灰度对于颜色压缩伪影更稳定。几乎所有的视频压缩算法所表示的亮度比例如著名的4∶2∶0采样方案中的颜色有更高的分辨率。
令B0(x,y),…BN-1(x,y)指代所考虑的N个位图,Br(x,y)表示要导出的代表性位图,并被初始化为Br0(x,y)=B0(x,y)。作为一个例子,N可以为40,于是有来自40帧的40个位图。然后,对于每个位图Bi(x,y),i∈{1,...,39},我们可以搜索最佳位移(dx,dy),该最佳位移使得对于文本颜色来说,Br(x,y)与Bi(x,y)之间的差异最小,例如,(dxtopt,dytopt)=argminΣ(x,y)∈Br⩓Bri-l(x,y)⊆textColor(Bri-l(x-y)-Bi(x+dx,y+dy))]]>这种块匹配搜索能见效的原因是,仅考虑具有文本颜色的像素,其中文本颜色可以是来自小节4.4.3的估计文本颜色。当且仅当一个像素与为文本对象确定的文本颜色的差别不大于一个特定量的时候,将该像素定义为具有该文本颜色。应注意,该距离是基于RGB值计算的。在每次迭代中,将Br(x,y)从前面列出的公式更新为对于常规文本Bri(x,y)=max(Bri-l(x,y),Bi(x+dxtopt,y+dytopt))对于反向文本Bri(x,y)=min(Bri-l(x,y),Bi(x+dxtopt,y+dytopt))。
应注意,如果一个文本对象已经在小节4.4.3中被识别为静止,找们小必搜索精确的转换。代之以,将各位图之间的转换均设置为无。
通过小节6.2.2的处理,对于常规文本来说,背景可能倾向于变得越来越亮,而对于反向文本来说,背景可能变得越来越暗。但是,第一帧可能分别是最亮和最暗的。
6.3二值化(见图1中的块38)现在准备文本位图Bri(x,y)以便由标准OCR工具识别。这里,可以将灰度文本位图转换为白色背景上的黑色文本。下面描述了一种找到合适阈值的方法,该值是区分文本和背景的一种很好甚至是最佳的值。从小节4.4.3,我们知道了估计的文本颜色,最主要的背景颜色,以及我们必须处理常规文本还是反向文本。由于在小节6.2中已经移去大部分背景,我们决定,对于反向文本,将背景颜色设置为黑色,而对于常规文本,将背景颜色设置为白色。然后,将文本颜色亮度与背景颜色亮度中间的亮度选择为二值化阈值是比较好的。对于常规文本,将文本位图中高于该二值化阈值的每个像素设置为白色,而对于反向文本,则将其设置为黑色。对于常规文本,将文本位图中低于该二值化阈值的每个像素设置为黑色,而对于反向文本,则将其设置为白色。最后,我们建议,通过以小节6.2.1中所述的方式丢弃较小的区域(设置为背景颜色)来清理二元位图。
其他信息对于上面的每个小节,本发明不限于其中提到的特定细节。
本发明的一些实施例不仅能定位文本的出现并将其分割为较大的二元图像,还能将图像或视频内的每个像素分为属于或不属于文本。因而,我们的文本定位和分割技术可以用于基于对象的视频编码。众所周知,与现有的压缩技术相比,基于对象的视频编码在固定比特率下能获得好得多的视频质量。但是,在大多数情况下,自动提取对象的问题尚未得到解决。对于视频中出现的文本,我们的文本定位和文本分割算法解决了该问题。
本发明的一些实施例涉及一种多分辨率方法,其中,文本定位和文本分割算法能成功地处理MPEG-1视频序列直到HDTV MPEG-2视频序列(1980×1280),而无需任何参数调整。作为一个例子,字符大小可以在8像素和帧高度的一半之间变化。
图10示出了具有处理器184和存储器188的计算机系统180。存储器188表示一个或多个各种类型的存储装置,包括RAM,硬盘驱动器,CDROM,和视频存储器等,这里只列举出了几种。存储器188包括机器可读的介质,可以在其上存储指令来完成上述的各种功能。存储器188也可以存储要处理的数据(例如数字视频信号)和处理的中间及最终结果。可以理解,图10是非常简略的,实际上可以包括很多其他公知的元件。
术语“帧”具有较宽的含义。例如,它并不限制于交错的或是非交错的帧。同样,术语“图像”和“视频”也应做较宽的解释。不要求任何特定的格式。
如果说明书中提到“可以”、“可”或“可能”包括一个元件、特征、结构或特性,则不要求必须包括该特定元件、特征、结构或特性。说明书或权利要求书中提到“一个”元素时,并不是指仅有这一个元素。说明书或权利要求书中提到“一个额外的”元素时,并不排除可以有多于一个所述额外的元素。
本领域的技术人员阅读了此处公开的内容后可以理解,可以在本发明的范围内对前面的说明书和附图的内容做出许多其他的改变。事实上,本发明不限于上述的细节。后附的权利要求限定了本发明的范围,这些权利要求包括了对本发明的任何修改。
权利要求
1.一种方法,包括接收包括文本和背景的数字图像;矢量量化数字图像,以使数字图像被划分为某些颜色;由文本的一部分和背景的第一部分生成文本颜色直方图;由背景的第二部分生成至少一个背景颜色直方图;和由文本颜色直方图和至少一个背景颜色直方图之间的差异生成差异颜色直方图,其中,从差异颜色直方图中得到估计的文本颜色。
2.如权利要求1所述的方法,其中,文本的第一部分和背景的第一部分包括穿过文本的狭长的行。
3.如权利要求1所述的方法,其中,背景的第一部分是与文本混合的背景。
4.如权利要求1所述的方法,其中,文本的第二部分包括文本上方的第一部分和文本下方的第二部分,所述的至少一个背景颜色直方图分别包括所述第一和第二部分的上层和下层背景颜色直方图。
5.如权利要求1所述的方法,其中,所估计的文本颜色是差异颜色直方图中主要的颜色。
6.如权利要求1所述的方法,其中,由文本颜色直方图减去至少一个背景颜色直方图生成差异颜色直方图。
7.如权利要求1所述的方法,其中,所估计的背景颜色是确定的。
8.如权利要求1所述的方法,其中,矢量量化器生成四种颜色。
9.如权利要求1所述的方法,其中,数字图像是具有多个连续的数字图像的视频信号,从中生成文本对象。
10.如权利要求9所述的方法,其中,对于文本对象的多个数字图像中的至少一些,权利要求1所述的方法被执行以获得这些数字图像的文本的估计颜色,其中,文本对象的估计颜色是各个文本对象的多个数字图像中至少一些的所估计的颜色的平均值。
11.如权利要求10所述的方法,其中,该平均值是所估计颜色值的中值。
12.如权利要求9所述的方法,其中,在分割中处理被执行以从各个文本对象中至少去除一部分背景,其中,对于该分割,至少一些文本对象的块通过最佳位移搜索来校准,该位移搜索中只有含有在所估计的文本颜色阈值之内的颜色的像素被考虑。
13.如权利要求1所述的方法,其中,在分割处理的准备阶段,数字图像被调整到一个固定的高度。
14.一种装置,包括机器可读介质,其上有在被执行时使处理器执行包括如下所述的方法的指令接收包括文本和背景的数字图像;矢量量化数字图像,以使数字图像被划分为某些颜色;由文本的一部分和背景的第一部分生成文本颜色直方图;由背景的第二部分生成至少一个背景颜色直方图;和由文本颜色直方图和至少一个背景颜色直方图之间的差异生成差异颜色直方图,其中,从差异颜色直方图中得到估计的文本颜色。
15.如权利要求14所述的装置,其中,文本的第一部分和背景的第一部分包括穿过文本的狭长的行。
16.如权利要求14所述的装置,其中,背景的第一部分是与文本混合的背景。
17.如权利要求14所述的装置,其中,文本的第二部分包括文本上方的第一部分和文本下方的第二部分,所述的至少一个背景颜色直方图分别包括所述第一和第二部分的上层和下层背景颜色直方图。
18.如权利要求14所述的装置,其中,所估计的文本颜色是差异颜色直方图中主要的颜色。
19.如权利要求14所述的装置,其中,所估计的背景颜色是确定的。
20.如权利要求14所述的装置,其中,数字图像是具有多个连续的数字图像的视频信号,从中生成文本对象。
21.如权利要求20所述的装置,其中,对于该文本对象的多个数字图像中的至少一些,权利要求14所述的方法被执行以获得这些数字图像的文本的估计颜色,其中,文本对象的估计颜色是各个文本对象的多个数字图像中至少一些的所估计的颜色的平均值。
22.如权利要求20所述的装置,其中,在分割中处理被执行以从各个文本对象中至少去除一部分背景,其中,对于该分割,至少一些文本对象的块通过最佳位移搜索来校准,该位移搜索中只有含有在所估计的文本颜色阈值之内的颜色的像素被考虑。
23.一种方法,包括接收包括视频信号中多个帧中的限定框的文本对象;估计限定框的文本的颜色;通过最佳位移搜索来校准表示限定框的块,在该位移搜索中只有含有在所估计的颜色阈值之内的颜色的像素被考虑。
24.如权利要求22所述的方法,其中,代表性的位图通过最佳位移搜索来更新。
25.如权利要求22所述的方法,其中,代表性的位图通过最小位移公式的结果来更新。
26.一种装置,包括机器可读介质,其上有在被执行时使处理器执行包括如下所述的方法的指令接收包括视频信号中多个帧中的限定框的文本对象;估计限定框的文本的颜色;通过最佳位移搜索来校准表示限定框的块,在该位移搜索中只有含有在估计颜色阈值之内的颜色的像素被考虑。
27.如权利要求26所述的装置,其中,代表性的位图通过最佳位移搜索来更新。
28.如权利要求26所述的装置,其中,代表性的位图通过最小位移公式的结果来更新。
29.一种方法,包括接收文本限定框中的数字图像;在分割处理的准备阶段,将数字图像的大小调整为固定高度,其中,如果该数字图像中某个特殊的图像的高度小于该固定高度,则该数字图像的高度增加,如果该数字图像中某个特殊的图像的高度大于该固定高度,则该数字图像的高度减少。
30.如权利要求29所述的方法,其中,数字视频图像中的多个来自一更大图像。
31.如权利要求29所述的方法,其中,所述高度是100个像素。
32.一种装置,包括机器可读介质,其上有在被执行时使处理器执行包括如下所述的方法的指令接收文本限定框中的数字图像;在分割处理的准备阶段,将数字图像的大小调整为固定大小,其中,如果该数字图像中某个特殊的图像的高度小于该固定高度,则该数字图像的高度增加,如果该数字图像中某个特殊的图像的高度大于该固定高度,则该数字图形的高度减少。
33.如权利要求32所述的装置,其中,数字视频图像中的多个来自一幅更大图像。
34.如权利要求32所述的装置,其中,所述固定高度是100个像素。
全文摘要
在一些实施例中,本发明包括接收包括文本和背景的数字图像。该方法包括矢量量化数字图像以使数字图像被划分为某些颜色,并由文本的一部分和背景的第一部分生成文本颜色直方图。本方法也包括由背景的第二部分生成背景颜色直方图,并由文本颜色直方图与至少一个背景颜色直方图之间的差异生成差异颜色直方图,其中,从差异颜色直方图得到估计的文本颜色。在其他实施例中,本发明包括接收包括视频信号中多个帧的限定框的文本对象。此外,该方法包括估计该限定框的文本的颜色和通过最佳位移搜索来校准表示限定框的块,该位移搜索中只有含有在所估计的颜色阈值之内的颜色的像素被考虑。本发明的一些实施例也包括接收文本限定框中的数字图像和在分割处理中将数字图像的大小调整为一个固定高度。
文档编号G06T5/00GK1419679SQ01806579
公开日2003年5月21日 申请日期2001年2月23日 优先权日2000年3月14日
发明者赖纳·W·林哈特, 阿克塞尔·韦尼克 申请人:英特尔公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1