一种图像中的文字定位方法和装置的制作方法

文档序号:6578147阅读:177来源:国知局
专利名称:一种图像中的文字定位方法和装置的制作方法
技术领域
本发明涉及数字图像处理领域,尤其涉及一种在图像中文字定位方法和装置。
背景技术
字幕作为视频图像中常见的文字信息被大量的应用新闻、卡拉0K、电影等视频场 合,并通常用来描述当前视频图像的重要内容,为人们理解视频提供了重要而凝练的注释, 所以相对于视频图像,其中的字幕文字更适宜用来做索引,所以从视频图像中提取字幕文 字可以有效地帮助进行基于内容的视频图像检索。从图像中提取文字重要是进行文字定位的操作。现有的文字定位方法包括连 通区域法、纹理分类法。其中连通区域法中假定文字颜色均勻,在颜色量化后,符合一定大 小、形状、空间对齐约束的单一颜色的连通区域作为文字被提取出来。该连通区域法在背 景均勻的情况下是有效的,但当背景比较复杂时,其有效性会下降。纹理分类法将文字区 域看作是一种特殊类型的纹理,基于纹理的方法比连通区域法性能更鲁棒。授予Zhang, Hongjiang 和 Zhong,Yu 的专利号为 US6, 185,329,名称为 “Automatic caption text detection andprocessing for digital images,,的美国专利中以及 Zhang,Hongjiang、 Zhong, Yu 和 Anil K. Jain 所著的"Automatic Caption Localization in Compressed Video," IEEE Transactions on Pattern Analysis and Machine Intelligence,vol. 22, No. 4,pp. 385-392,Apr. 2000”中公开了一种基于图像的纹理能量分类的方法来图像中的文 字定位算法,该算法第一次提出了首先在DCT (Discrete CosineTransformation,离散余弦 变换)域中得到图像块的DCT变换系数,利用部分水平第一行的变换系数幅值之和来表示 图像块的水平纹理能量,以部分垂直第一列的变换系数幅值之和来表示图像块的垂直纹理 能量,然后分别用水平纹理能量阈值和垂直纹理能量阈值对该图像块进行判断,对于水平 纹理能量和垂直纹理能量均高于相应的阈值的图像块初步判定为文字区域,之后在空间域 上检测图像的边缘,对边缘点数量进行阈值判决,进一步排除非文字区,完成精确定位文字 区。发明人在实现本发明的过程中,发现现有技术至少有以下缺陷由于图像中的文字区域背景的复杂程度未知,所以基于DCT变换系数计算的不同 图像中文字区域的纹理能量差异也很巨大,而现有技术中的方案中不论是水平纹理能量阈 值还是垂直纹理能量阈值都是预先定义好的,这样在对多个不同的图像中的文字区域判别 时,现有技术中用来判决的纹理能量阈值不具有普遍的适用性,造成判决结果的不准确。

发明内容
有鉴于此,本发明实施例的目的在于提供一种图像中的文字定位的方法和装置, 能够对不同图像具有普遍的适用性,判决结果准确。为实现上述目的,本发明实施例提供了如下技术方案一种图像中的文字定位的方法,包括
A.将图像划分成图像块,并对所述图像块进行离散余弦DCT变换,得到所述图像 块对应的DCT变换系数;B.根据所述图像块对应的DCT变换系数计算表示所述图像块内各个子块之间的
纹理能量值之间差异的纹理能量差异程度值;C.确定图像中图像块纹理能量差异程度值的最大值,根据所述图像块纹理能量差 异程度值的最大值确定第一阈值;D.将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要图像块;E.将重要图像块的组成的区域确定为文字区域。一种图像中的文字定位装置,包括变换单元,用于将图像划分图像块,并对图像块进行离散余弦DCT变换,得到所述 图像块对应的DCT变换系数;计算单元,根据图像块对应的DCT变换系数计算图像块的纹理能量差异程度值;阈值确定单元,用于确定图像中图像块纹理能量差异程度值的最大的值,根据图 像块纹理能量差异程度值的最大值确定第一阈值;标记单元,用于将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要 图像块;文字区域确定单元,用于将重要图像块的组成的区域确定为文字区域。由上述公开的技术方案可知,在本发明实施例中,在确定文字区域之前首先确定 重要图像块,而在判定重要图像块的时候,根据当前图像计算出的纹理能量差异程度值得 出判定用的第一阈值,这样对于每个图像在进行文字识别的时候,都可以根据该图像具体 的情况确定与其相应的第一阈值,从而使标定重要图像块的过程更准确,相对于现有技术 中采用预先设定的阈值进行判断,本发明实施例提供的方法对于不同的图像更具有普适 性,进一步地,本发明实施例中计算图像块的纹理能量差异程度值,发明人在实现本发明的 过程中,发现文字区域的纹理能量差异程度值比非文字区域的大很多,因此本发明实施例 相对于现有技术中通过纹理能量差异程度值这个量来定位文字区域更能体现出文字区域 的特性,使定位结果更准确。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 这些附图获得其他的附图。图1是本发明实施例提供的一种图像中的文字定位方法的流程图;图2是本发明实施例一提供的一种图像中的文字定位方法的流程图;图3是本发明实施例一中计算各个子块的亮度空间的纹理能量的方法流程图;图4是本发明实施例一中对重要图像块进行扩充的方法的流程图;图5是本发明实施例二提供的图像中的文字定位方法的流程图;图6是本发明实施例二中对重要图像块进行进一步扩充的一种方法的流程图;图7是本发明实施例二中对重要图像块进行进一步扩充的另一种方法的流程图8是本发明实施例三提供的一种图像中的文字定位装置的示意图;图9是本发明实施例三提供的另一种图像中的文字定位装置的示意图;图10是本发明实施例三提供的再一种图像中的文字定位装置的示意图。
具体实施例方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明实施例提供一种图像中的文字定位方法,如图1所示,该方法包括步骤SlOl 将图像划分分成图像块,并对所述图像块进行离散余弦DCT变换,得到 所述图像块对应的DCT变换系数;步骤S102 根据图像块对应的DCT变换系数计算表示所述图像块内各个子块之间 的纹理能量值之间差异的纹理能量差异程度值;步骤S103 确定图像中图像块纹理能量差异程度值的最大值,并根据该最大值确 定第一阈值;步骤S104:将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要图 像块;步骤S105 将重要图像块的组成的区域确定为文字区域。由此可见,本发明实施例提供的方法在确定文字区域之前首先确定重要图像块, 而在判定重要图像块的时候,根据当前图像计算出的纹理能量差异程度值得出判定用的第 一阈值,这样对于每个图像在进行文字识别的时候,都可以根据该图像具体的情况确定与 其相应的第一阈值,从而使标定重要图像块的过程更准确,相对于现有技术中采用预先设 定的阈值进行判断,本发明实施例提供的方法对于不同的图像更具有普适性,进一步地,本 发明实施例中计算图像块的纹理能量差异程度值,发明人在实现本发明的过程中,发现文 字区域的纹理能量差异程度值比非文字区域的大很多,因此本发明实施例相对于现有技术 中通过纹理能量差异程度值这个量来定位文字区域更能体现出文字区域的特性,使定位结 果更准确。下面以具体的例子详细说明本发明实施例。实施例一图2示出了本实施例提供的一种图像中的文字定位方法。其中,本实施例在对图 像块进行DCT变换时,首先将每个图像块分成若干个子块,然后分别对子块进行DCT变换, 相应的,在计算图像块的纹理能量差异程度值时,也是首先计算该图像块中的各个子块的 纹理能量,然后再根据各个子块的纹理能量计算图像块的纹理能量差异程度值。下面结合 图2详细说明本实施例。如图2所示,本实施例提供的图像中的文字定位方法包括步骤S201 将图像划分为若干个图像块,然后再将每个图像块划分成若干个子 块,对每个图像块内的每个子块进行DCT变换,得到各个子块对应的DCT变换系数,图像块 内的所有子块的DCT变换系数组成了图像块的DCT变换系数;
7
需要说明的是,本实施例中在对子块进行DCT变换时,不仅对子块亮度空间的亮 度值进行DCT变换,还对色度空间中的Cb空间的Cb值和Cr空间的Cr值进行DCT变换,即, 对子块中的亮度值、Cr值和Cb值分别进行DCT变换,得到子块亮度空间、Cb空间和Cr空间 中的DCT变换系数。可见,本实施例提供的方法相对于现有技术,增加了对色度空间的Cb 值和Cr值进行DCT变换,这样可以在后续计算纹理能量时也考虑色度空间的Cb值和Cr值 的影响,现有技术中在判别文字区域时,只利用图像的亮度信息,而发明人发现很多场合文 字区域与非文字区域的亮度十分接近,因此综合考虑亮度信息和色度空间的Cb值和Cr值 可以比较全面的反映图像的信息,从而为区分文字区域提供更细节的信息,有利于增加识 别文字区域的准确性。以下不妨以进行DCT变换时综合考虑亮度空间、Cb空间和Cr空间 为例详细说明本实施例的后续步骤。步骤S202 根据各个子块的亮度空间、Cb空间和Cr空间中的DCT变换系数,计算 各个子块中亮度空间、Cb空间和Cr空间的纹理能量;将每个子块中的亮度空间、Cb空间和 Cr空间的纹理能量相加作为该子块的纹理能量。其中,在计算各个子块的亮度空间的纹理能量时,如图3所示可以采用如下步 骤步骤S301 将子块的亮度空间中的DCT变换系数的第一行中的部分DCT变换系数 取幅值后求和,作为该子块的亮度空间中的水平纹理能量;这里取幅值就是取绝对值的过程。步骤S302 将该子块的亮度值对应的DCT变换系数的第一列中的部分DCT变换系 数取幅值后求和,作为该子块的亮度空间中的垂直纹理能量;步骤S303 将该子块的亮度空间的水平纹理能量和垂直纹理能量相加,得到该子 块的亮度空间中的纹理能量。因为在将图像的原始RGB信息转换成亮度空间、Cb空间和Cr空间中信息时,亮度 空间中的信息较多,细节信息更多,因此综合计算效率的因素,可以将分别将第一行和第一 列的部分变换系数取幅值后进行求和来反映亮度空间的水平纹理能量和垂直纹理能量,并 将水平纹理能量和垂直纹理能量相加得到亮度空间的纹理能量。所以根据上述方法在计算 的子块的亮度空间中纹理能量的过程中,不仅考虑到计算效率,还尽量符合亮度空间信息 细节多的特点。相对于亮度空间中的信息,Cb空间和Cr空间的信息相对较少,所以细节较少,这 样在一个子块的Cb空间和Cr空间中很多值的幅度值差别不大,此时反映各个子块的Cb空 间和Cr空间的纹理能量就可以近似通过该子块的Cb空间和Cr空间中的一个值的幅值来 反映。因此在计算子块的Cb空间和Cr空间中的纹理能量时,可以相对于亮度空间的计算 方法进行简化,本实施例中计算子块的Cb空间的纹理能量的过程可以包括将子块的Cb空 间的DCT变换系数中的第一行第一列位置处的DCT变换系数取幅值后作为子块的Cb空间 的纹理能量;同理,计算Cr空间的纹理能量的过程也可以包括将子块的Cr空间的DCT变 换系数中的第一行第一列位置处的DCT变换系数取幅值后作为子块的Cr空间的纹理能量。步骤S203 计算组成图像块的各个子块之间的纹理能量的差值的绝对值,求出上 述差值绝对值的最大值,将该最大值作为图像块的纹理能量差异程度值。可见,本实施例中的图像块的纹理能量差异程度值反映了图像块内各个子块的纹理能量差异程度。步骤S204 计算图像中的所有图像块的纹理能量差异程度值中的最大值,根据该 纹理能量差异程度值的最大值确定第一阈值。其中确定第一阈值可以通过将图像块的纹理能量差异程度值的最大值乘以预设 的比例系数得到,当然,可以将该比例系数设为1,这样此时只需要将图像块的纹理能量差 异程度值的最大值直接作为第一阈值即可。步骤S205 将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要图 像块;步骤S206 将重要图像块组成的区域确定为文字区域。在实际中,步骤S205中标记重要图像块的条件往往过于严格,因此可能会存在没 有被标记成重要图像块的文字区域部分。所以为了能够进一步减少文字区域的识别遗漏, 本实施例中在步骤S205和步骤S206之间还可以包括步骤S207 对重要图像块进行进一步 扩充,将那些满足预定条件的还没有标记成重要图像块的图像块,更新标记成重要图像块。具体地,对重要图像块进行扩充的一种方法,以下称为方法A,可以包括如下步骤 逐个判断未标记成重要图像块的图像块纹理能量差异程度值与所有已经标记成重要图像 块的图像块的纹理能量平均值之间的比值是否大于或等于预设的第二阈值,如果是,则将 该为标记成重要图像块的图像块标记成重要图像块。该方法的出发点在于如果是属于文字 区域的图像块,其纹理能量程度差异值就不应该比现有的重要图像块的纹理能量差异程度 值平均值小太多,所以通过二者的比值与预设的第二阈值进行比较,如果大于或等于第二 阈值时,可以认为该未标记成重要图像块的图像块比用来确定为文字区域的重要图像块的 纹理能量差异程度值相差不多,可以将该图像块重新标记为重要图像块。在上述逐个对未 标记成重要图像块的图像块进行判别的时候,可以优先对与已经标记成重要图像块的图像 块附近的图像块判别,从而使写图像块被优先重新标记成重要图像块,因为,在重要图像块 周围的图像块更有可能属于文字区域。另外,上述对重要图像块进行扩充的方法中,需要逐步对未标记成重要图像块的 所有图像块进行判别,并将满足条件的图像块更新标记为重要图像块,这样操作的图像块 的个数较多,而实际上,可能很多未被标记成重要图像块的图像块的纹理能量差异程度值 很低,例如低于整个图像的所有图像块的纹理能量差异程度平均值,对于这些图像块可以 用去判别,基于这样的考虑,本实施例中还可以采用另一个对重要图像块进行扩充的方法, 以下称为方法B,如图4所示,该方法包括步骤S401 统计所有图像块的纹理能量差异程度值的分布数目,根据统计结果确 定第三阈值;其中,上述统计所有图像块的纹理能量差异程度值的分布数目的过程可以是进 行统计求出纹理能量差异程度值的直方图,该直方图表示各个纹理能量差异程度值和分布 次数的关系。确定第三阈值的步骤可以具体包括将图像块的纹理能量差异值的分布数目进行 排序,将排在预定位置处的分布数目对应的纹理能量差异程度值作为第三阈值。上述确定第三阈值的方法是根据统计排序结果中的固定顺序位置来进行确定,另 外也可以根据统计结果的整体分布情况进行确定,例如可以在将将图像块的纹理能量差异值的分布数目进行排序后,按照最大的分布数目,将所有分布数目进行归一化,然后将分布 数目大于并且最接近第四阈值的图像块的纹理能量差异程度值作为第三阈值。例如,可以 定义第四阈值为0. 5,如果纹理能量差异程度值的统计结果以直方图的形式表示,并且该直 方图已经按照分布数目从小到大顺序排列,则可以将第一个分布数目大于分布数目最大值 0. 5倍的纹理能量差异程度值作为第三阈值。步骤S402 从纹理能量差异程度值大于或等于第三阈值的图像块中排除步骤 S205中标记的重要图像块,得到待定图像块。纹理能量差异程度值大于或等于第三阈值的图像块组成的区域中包括步骤S205 中获得重要图像块组成的区域,而且通过步骤S402获得的待定图像块要比步骤S205执行 以后还未标记成重要图像块的图像块要少。步骤S403 逐个判断步骤S402中获得的待定图像块的纹理能量差异程度值与重 要图像块组成的区域的纹理能量差异程度值平均值之间的比值是否大于或等于预设的第 二阈值,如果是,则将所述待定图像块标记为重要图像块。这样,由于在对未标记成重要图像块的图像块进行判别之前,首先利用第三阈值 从未标记成重要图像块的众多图像块中筛选出满足条件的待定图像块,然后只对这些待定 图像块进行判别,并进一步有选择的将其更新标记为重要图像块,所以方法B相对于方法A 可以减少被判别的图像块的个数,提高执行效率,并且更加合理。需要说明的是,本发明实施例中图像块和其中子块的划分优选为图像块的大小 为16x16像素,子块大小为8x8像素,这样划分图像块和图像子块有利于提高DCT变换运算 的效率。并且现有技术中对图像划分成8x8像素大小的图像块,并以该图像块为单位计算 纹理能量,进行文字区域的判别,发明人发现8x8像素大小的范围内无从谈及纹理,8x8像 素大小的范围内很容易只有一种边缘,而宏观上重复的边缘才能够构成纹理,因此纹理特 征是需要一定尺寸范围进行支撑的,本发明实施例中同时综合计算效率的因素,提出图像 块的大小优选为16x16像素。另外,在实际中在步骤S206执行之前得到的重要图像块中在某些场合仍然存在 不应该标记成文字区域的情况,例如,一个图像块中纹理能量差异程度值很大,满足步骤 S205中的判决条件,但是该图像块中可能只有一个方向的边缘点构成的边缘,例如,图像块 中只有一个严格的水平横线图形,该横线与相邻部分对比度很高,因此在计算纹理能量差 异程度值时会得到较大的值,这样该图像块在步骤S205或步骤S207中会被标记成重要图 形块,但是如果是该图像块如果属于文字区域,从常理上将应该既有横向的边缘点,又有纵 向的边缘点,所以这个图像块不属于文字区域。基于这样的考虑,本发明实施例提供的方法 中执行步骤S206之前还可以对重要图像块进行边缘点的检测,判断重要图像块的边缘点 是否满足边缘点的条件,如果满足,则将重要图像块标记为非重要图像块,从而将不满足边 缘点的重要图像块进行排除。上述边缘点的条件可以包括边缘点的数目大于或等于第四 阈值或者边缘点的空间排列分布满足预定的条件。综上所述,本实施例提供的方法可以根据该图像具体的情况确定与其相应的第一 阈值,从而使标定重要图像块的过程更准确,相对于现有技术中采用预先设定的阈值进行 判断,本发明实施例提供的方法对于不同的图像更具有普适性,并且本实施例中通过纹理 能量差异程度值这个量来定位文字区域更能体现出文字区域的特性,使定位结果更准确。
10
实施例二本实施例具体以图像块的大小为16x16像素、子块大小为8x8像素为例详细说明 实施例二的具体实现。如图5所示,本实施例提供的图像中的文字定位方法包括步骤S501 将图像以16x16像素为单位分割成图像块,然后再将每个16x16像素 的图像块分成四个8x8像素的子块。对每个8x8像素的子块的亮度空间、Cb空间和Cr空 间进行DCT变换,具体DCT变换的方法可以参照相关的资料,此处不再赘述。本本实施例中 相对现有技术综合考虑亮度信息和色度空间的Cb值和Cr值可以比较全面的反映图像的信 息,从而为区分文字区域提供更细节的信息,有利于增加识别文字区域的准确性。然后针对每个8x8像素子块都执行如下操作。步骤S502 将8x8像素子块的亮度空间中的DCT变换系数的第一行中的部分DCT 变换系数取幅值后求和,作为该子块的亮度空间中的水平纹理能量;步骤S503 将该8x8像素子块的亮度值对应的DCT变换系数的第一列中的部分 DCT变换系数取幅值后求和,作为该子块的亮度空间中的垂直纹理能量;步骤S504 将该子块的亮度空间的水平纹理能量和垂直纹理能量相加,作为该子 块的亮度空间中的纹理能量。步骤S505 将该8x8像素子块的Cb空间对应的DCT变换系数的第一行第一列位 置处的DCT变换系数取幅值后作为子块的Cb空间的纹理能量;步骤S506 将该8x8像素子块的Cr空间的DCT变换系数中的第一行第一列位置 处的DCT变换系数取幅值后作为子块的Cr空间的纹理能量。步骤S507 将步骤S502至步骤S506中得到的每个子块中的亮度空间、Cb空间和 Cr空间的纹理能量相加作为该子块的纹理能量。步骤S508 计算每个16x16像素图像块中的4个8x8像素子块的纹理能量之间的 差值的绝对值,取该差值绝对值中最大值作为该16x16像素图像块纹理能量差异程度值。 可见,本实施例中的图像块的纹理能量差异程度值反映了图像块内各个子块的纹理能量差 异程度。步骤S509 计算步骤S508中获得的所有图像块的纹理能量差异程度值中的最大 值,根据该纹理能量差异程度值的最大值确定第一阈值。具体地,可以确定第一阈值可以通过将图像块的纹理能量差异程度值的最大值乘 以预设的比例系数得到,当然,可以将该比例系数设为1,这样此时只需要将图像块的纹理 能量差异程度值的最大值直接作为第一阈值即可。该比例系数也可以根据需要进行设定, 例如,设置为0. 8时,表示将最大值的80%作为第一阈值。步骤S510 将纹理能量差异程度值大于或等于第一阈值的16x16像素图像块标记 为重要图像块;该重要图像块的作用在于最终将以重要图像块确定文字区域。在实际中,步骤S510中标记重要图像块的条件往往过于严格,因此可能会存在没 有被标记成重要图像块的文字区域部分。为了能够进一步减少文字区域的识别遗漏,本实 施例优选地,在步骤S510后执行步骤S511 对重要图像块进行进一步扩充。具体的扩充方法可以采用如下几种方法
方法A 如图6所示,包括步骤S601 逐个判断未标记成重要图像块的图像块纹理能量差异程度值与所有 已经标记成重要图像块的图像块的纹理能量平均值之间的比值是否大于或等于预设的第 二阈值,如果是,则执行步骤S602 将该未标记成重要图像块的图像块标记成重要图像块。 如果否,则不做处理。该方法A的出发点在于,如果是属于文字区域的图像块,其纹理能量程度差异值 就不应该比现有的重要图像块的纹理能量差异程度值平均值小太多,该第二阈值应该是小 于1的,具体的可以在考虑扩充重要图像块程度的基础上选择该第二阈值,例如如果要多 扩充一些未标记成重要图像块的图像块为重要图像块,则可将适当减小该第二阈值的大 小,使得满足步骤S601中的判定条件的图像块增多。在上述逐个对未标记成重要图像块的图像块进行判别的时候,可以优先对与已经 标记成重要图像块的图像块附近的图像块判别,从而使写图像块被优先重新标记成重要图 像块,因为,在重要图像块周围的图像块更有可能属于文字区域。方法B 该方法考虑到利用A方法需要逐步对未标记成重要图像块的所有图像块 进行判别,并将满足条件的图像块更新标记为重要图像块,这样进行判定的图像块的个数 较多,而实际上很多未被标记成重要图像块的图像块的纹理能量差异程度值很低,以至于 这些图像块属于文字区域的可能性很低,因此方法B中只对未标记成重要图像块中的部分 图像块进行判别,如图7所示,该方法包括步骤S701 统计所有图像块的纹理能量差异程度值的直方图,该直方图表示各个 纹理能量差异程度值和分布数目的关系;根据统计直方图确定第三阈值;具体地,可以将图像块的纹理能量差异值的分布数目进行排序,将排在预定位置 处的分布数目对应的纹理能量差异程度值作为第三阈值。例如,对排在中间位置出的分布 数目对应的纹理能量差异程度值作为第三阈值,或者将排在从分布数目最小值到最大值的 四分之一位置处的纹理能量差异程度值作为第三阈值。上述方式是直方图中的某一位置 来确定第三阈值,也可以按照最大的分布数目,现将将所有分布数目进行归一化,并进行小 到大顺序排列,然后通过归一化后的分布数目最大值乘以一个比例系数(可以称为第四阈 值)计算确定第三阈值。这种方式是利用分布数目最大值来计算第三阈值,例如可以设置 第四阈值为0.5,则第三阈值就是分布数目最大值的50%,本方式与采用固定位置处来确 定第三阈值不同。步骤S702 从纹理能量差异程度值大于或等于第三阈值的图像块中排除步骤 S510中标记的重要图像块,得到待定图像块。步骤S703 逐个判断步骤S702中获得的待定图像块的纹理能量差异程度值与重 要图像块组成的区域的纹理能量差异程度值平均值之间的比值是否大于或等于预设的第 二阈值,如果是,则将所述待定图像块标记为重要图像块。这样,由于在对未标记成重要图像块的图像块进行判别之前,首先利用第三阈值 从未标记成重要图像块的众多图像块中筛选出满足条件的待定图像块,然后只对这些待定 图像块进行判别,并进一步有选择的将其更新标记为重要图像块,所以方法B相对于方法A 可以减少被判别的图像块的个数,提高执行效率,并且更加合理。在执行步骤S511后,执行步骤S512 对执行步骤S511后标记的重要图像块确定为文字区域。实施例二本实施例二提供一种图像中的文字定位装置,如图8所示,该装置800包括变换单元801,用于将图像划分图像块,并对所述图像块进行离散余弦DCT变换, 得到所述图像块对应的DCT变换系数;计算单元802,根据所述图像块对应的DCT变换系数计算所述图像块的纹理能量
差异程度值;阈值确定单元803,用于确定图像中图像块纹理能量差异程度值的最大的值,根据 图像块纹理能量差异程度值的最大值确定第一阈值;标记单元804,用于将纹理能量差异程度值大于或等于第一阈值的图像块标记为 重要图像块;文字区域确定单元805,用于将重要图像块的组成的区域确定为文字区域。另外,如图9所示,该装置800还可以包括第一判断单元806,用于逐个判断未标记成重要图像块的图像块的纹理能量差异 程度与重要图像块组成区域的纹理能量差异程度平均值之间的比值是否大于或等于预设 的第二阈值;第一扩充单元807,用于将所述第一判断单元806判断结果为是的未标记成重要 图像块的图像块标记为重要图像块。或者,如图10所示,该装置800还可以包括统计单元808,用于统计所有图像块的纹理能量差异程度值的分布数目,并根据统 计结果确定第三阈值;待定图像块确定单元809,用于从纹理能量差异程度值大于或等于第三阈值的图 像块中排除所述标记单元标记的重要图像块,得到待定图像块;第二判断单元810,用于逐个判断待定图像块确定单元809得到的待定图像块的 纹理能量差异程度值与重要图像块组成区域的纹理能量差异程度平均值之间的比值是否 大于或等于预设的第二阈值;第二扩充单元811,用于将所述第二判断单元810判断结果为是的未标记成重要 图像块的图像块标记为重要图像块。可选地,本实施例提供的装置800还可以包括第一边缘点检测单元,用于检测重要图像块的边缘点;第三判断单元,用于判断所述重要图像块中是否具有边缘点,;第一更新单元,用于将第三判断单元判断结果为否的重要图像块标记为非重要图 像块。或者可选地,本实施例提供的装置800还可以包括第二边缘点检测单元,用于检测重要图像块的边缘点;第四判断单元,用于判断所述重要图像块是否同时具有水平方向边缘点和竖直方 向边缘点;第二更新单元,用于将第四判断单元判断结果为否的重要图像块标记为非重要图 像块。
13
本实施例提供的装置能够根据该图像具体的情况确定与其相应的第一阈值,从而 使标定重要图像块的过程更准确,相对于现有技术中采用预先设定的阈值进行判断,本发 明实施例提供的装置对于不同的图像更具有普适性,并且本实施例中通过纹理能量差异程 度值这个量来定位文字区域更能体现出文字区域的特性,使定位结果更准确。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可 以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存 储介质可以包括只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应 视为本发明的保护范围。
权利要求
一种图像中的文字定位方法,其特征在于,包括A.将图像划分成图像块,并对所述图像块进行离散余弦DCT变换,得到所述图像块对应的DCT变换系数;B.根据所述图像块对应的DCT变换系数计算表示所述图像块内各个子块之间的纹理能量值之间差异的纹理能量差异程度值;C.确定图像中图像块纹理能量差异程度值的最大值,根据所述图像块纹理能量差异程度值的最大值确定第一阈值;D.将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要图像块;E.将重要图像块的组成的区域确定为文字区域。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括,在步骤D和步骤E之间, 逐个判断未标记成重要图像块的图像块的纹理能量差异程度与重要图像块组成区域的纹 理能量差异程度平均值之间的比值是否大于或等于预设的第二阈值,如果是,则将所述未 标记成重要图像块的图像块标记为重要图像块。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括在步骤D和步骤E之间 中还包括F.统计所有图像块的纹理能量差异程度值的分布数目,根据统计结果确定第三阈值;G.从纹理能量差异程度值大于或等于第三阈值的图像块中排除步骤D中标记的重要 图像块,得到待定图像块;H.逐个判断步骤G中获得待定图像块的纹理能量差异程度值与重要图像块组成区域 的纹理能量差异程度平均值之间的比值是否大于或等于预设的第二阈值,如果是,则将所 述待定图像块标记为重要图像块。
4.根据权利要求3所述的方法,其特征在于,所述根据统计结果确定第三阈值具体包括将所述图像块的纹理能量差异程度值的分布数目进行排序,将排在预定位置处的分布 数目对应的纹理能量差异程度值作为第三阈值。
5.根据权利要求3所述的方法,其特征在于,所述根据统计结果确定第三阈值具体包括将所述图像块的纹理能量差异程度值的分布数目进行排序; 按照最大的分布数目,将所有分布数目进行归一化; 根据归一化后的分布数目选择第四阈值;将所述大于预设的第四阈值并且最接近第四阈值的分布数目对应的图像块的纹理能 量差异程度值作为第三阈值。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述步骤A中对所述图像 块进行离散余弦DCT变换具体包括将所述图像块分割成子块,对所述子块中的亮度空间 的亮度值、Cb空间的Cb值和Cr空间的Cr值分别进行DCT变换,得到亮度空间、Cb空间和 Cr空间中的DCT变换系数;所述步骤B中计算所述图像块的纹理能量差异程度具体包括 根据所述子块的亮度空间、Cb空间和Cr空间对应的DCT变换系数,计算所述子块中亮 度空间、Cb空间和Cr空间的纹理能量;将所述亮度空间、Cb空间和Cr空间的纹理能量相加,得到所述子块的纹理能量;将组成所述图像块中各个子块的纹理能量差值绝对值中的最大值作为所述图像块的纹理能量差异程度。
7.根据权利要求6所述的方法,其特征在于,所述计算子块中亮度值对应的纹理能量 具体包括将亮度空间的DCT变换系数中的第一行中的部分DCT变换系数取幅值后求和,作为所 述子块的亮度空间的水平纹理能量;将亮度空间的DCT变化系数中的第一列中的部分DCT变换系数取幅值后求和,作为所 述子块的亮度空间的垂直纹理能量;将所述子块的亮度空间的水平纹理能量和垂直纹理能量相加,得到所述子块的亮度空 间的纹理能量。
8.根据权利要求6所述的方法,其特征在于,所述计算子块中的Cb空间的纹理能量具 体包括将所述Cb空间的DCT变换系数中的第一行第一列处的DCT变换系数取幅值后作为所 述子块的Cb空间的纹理能量;所述计算子块中的Cr空间的纹理能量具体包括将所述Cr空间的DCT变换系数中的第一行第一列处的DCT变换系数取幅值后作为所 述子块的Cr空间的纹理能量。
9.根据权利要求6所述的方法,其特征在于,所述图像块的大小为16x16像素,所述子 块的大小为8x8像素。
10.根据权利要求1至5中任意一项所述的方法,其特征在于,所述步骤C中根据图像 块纹理能量差异程度值的最大值确定第一阈值具体包括将所述图像块纹理能量差异程度值的最大值乘以预设的比例系数,得到所述第一阈值。
11.根据权利要求1至5中任意一项所述的方法,其特征在于,所述方法还包括 在步骤E之前,检测重要图像块的边缘点,判断所述重要图像块是否具有边缘点,如果不具有,则将所述重要图像块标记为非重要图像块。
12.根据权利要求1至5中任意一项所述的方法,其特征在于,所述方法还包括 在步骤E之前,检测重要图像块的边缘点,判断所述重要图像块是否同时具有水平方向边缘点和竖直方向边缘点,如果否,则将所述重要图像块标记为非重要图像块。
13.一种图像中的文字定位装置,其特征在于,包括变换单元,用于将图像划分图像块,并对所述图像块进行离散余弦DCT变换,得到所述 图像块对应的DCT变换系数;计算单元,根据所述图像块对应的DCT变换系数计算表示所述图像块内各个子块之间 的纹理能量值之间差异的纹理能量差异程度值;阈值确定单元,用于确定图像中图像块纹理能量差异程度值的最大的值,根据所述图 像块纹理能量差异程度值的最大值确定第一阈值;标记单元,用于将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要图像块;文字区域确定单元,用于将重要图像块的组成的区域确定为文字区域。
14.根据权利要求13所述的装置,其特征在于,还包括第一判断单元,用于逐个判断未标记成重要图像块的图像块的纹理能量差异程度与重 要图像块组成区域的纹理能量差异程度平均值之间的比值是否大于或等于预设的第二阈 值;第一扩充单元,用于将所述第一判断单元判断结果为是的未标记成重要图像块的图像 块标记为重要图像块。
15.根据权利要求13所述的装置,其特征在于,还包括统计单元,用于统计所有图像块的纹理能量差异程度值的分布数目,并根据统计结果 确定第三阈值;待定图像块确定单元,用于从纹理能量差异程度值大于或等于第三阈值的图像块中排 除所述标记单元标记的重要图像块,得到待定图像块;第二判断单元,用于逐个判断待定图像块确定单元得到的待定图像块的纹理能量差异 程度值与重要图像块组成区域的纹理能量差异程度平均值之间的比值是否大于或等于预 设的第二阈值;第二扩充单元,用于将所述第二判断单元判断结果为是的未标记成重要图像块的图像 块标记为重要图像块。
16.根据权利要求13至15中任意一项所述的装置,其特征在于,还包括 第一边缘点检测单元,用于检测重要图像块的边缘点;第三判断单元,用于判断所述重要图像块中是否具有边缘点;第一更新单元,用于将第三判断单元判断结果为否的重要图像块标记为非重要图像块。
17.根据权利要求13至15中任意一项所述的装置,其特征在于,还包括 第二边缘点检测单元,用于检测重要图像块的边缘点;第四判断单元,用于判断所述重要图像块是否同时具有水平方向边缘点和竖直方向边 缘占.第二更新单元,用于将第四判断单元判断结果为否的重要图像块标记为非重要图像块。
全文摘要
本发明实施例公开了一种图像中的文字定位的方法和装置,该方法包括将图像划分成图像块,并对所述图像块进行离散余弦DCT变换,得到所述图像块对应的DCT变换系数;根据所述图像块对应的DCT变换系数计算所述图像块的纹理能量差异程度值;确定图像中图像块纹理能量差异程度值的最大的值,根据所述图像块纹理能量差异程度值的最大值确定第一阈值;将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要图像块;将重要图像块的组成的区域确定为文字区域。根据本发明实施例,能够提高检测文字区域的准确度。
文档编号G06K9/32GK101887520SQ20091013867
公开日2010年11月17日 申请日期2009年5月12日 优先权日2009年5月12日
发明者刘源, 李凯, 王静, 赵嵩 申请人:华为终端有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1