文本图像中文本行的定位方法

文档序号:10489390阅读:406来源:国知局
文本图像中文本行的定位方法
【专利摘要】本发明公开了一种文本图像中文本行定位的方法。其中,所述方法包括:通过图像灰度矩阵计算所述文本图像局部对比度矩阵;将所述局部对比度矩阵使用最大熵分割法进行二值划分,得到二值图像;对所述二值图像进行连通域的提取、合并和删除操作,获取字符连通域;对提取的字符连通域,依据其左侧水平坐标的大小进行排序;对排序后的字符连通域,进行文本行的定位工作,获取所有文本行的起始列和结束列信息;依据所述文本行的起始列和结束列信息及其包含的字符个数,对其进行删除和排序工作,从而实现所述文本行的定位。通过本发明实现了文本图像在光照不均、对比度低等复杂情况下有效的文本行的定位工作。
【专利说明】
文本图像中文本行的定位方法
技术领域
[0001] 本发明涉及图像处理中光学字符识别技术领域,特别是涉及一种文本图像中文本 行的定位方法。
【背景技术】
[0002] 文本图像的0CR(0ptical Character Recognition,光学字符识别)技术是图像处 理领域中的一个重要分支,有着广泛的应用。OCR的基本原理是利用各种模式识别算法分析 文字形态特征,判断出汉字的标准编码,并存储在文本文件中。将文本图像里的文字进行提 取和识别,对于文本图像内容的分析和理解有着重要的意义。其中,从文本图像中定位出文 本行的意义重大。
[0003] 有鉴于此,特提出本发明。

【发明内容】

[0004] 本发明提供一种文本图像中文本行的定位方法,以解决如何有效地定位出文本图 像中的文本行的技术问题。
[0005] 为了实现上述目的,提供以下技术方案:
[0006] -种文本图像中文本行定位的方法,其特征在于,所述方法包括:
[0007] 通过图像灰度矩阵计算所述文本图像局部对比度矩阵;
[0008] 将所述局部对比度矩阵使用最大熵分割法进行二值划分,得到二值图像;
[0009]对所述二值图像进行连通域的提取、合并和删除操作,获取字符连通域;
[0010]对提取的字符连通域,依据其左侧水平坐标的大小进行排序;
[0011]对排序后的字符连通域,进行文本行的定位工作,获取所有文本行的起始列和结 束列信息;
[0012] 依据所述文本行的起始列和结束列信息及其包含的字符个数,对其进行删除和排 序工作,从而实现所述文本行的定位。
[0013] 本发明通过采用上述技术方案,利用文本图像的二值化技术,连通域分析技术,实 现了文本图像在光照不均、对比度低等复杂情况下有效的文本行的定位工作。本发明的方 法是一种无参数的快速算法,可用在大规模文本图像OCR的批量处理中,也可用于在线实时 OCR处理系统中。
【附图说明】
[0014] 图1为根据本发明实施例的文本图像中文本行的定位方法的流程示意图;
[0015] 图2a为根据本发明一实施例的依据字符连通域进行文本行定位的示意图;
[0016] 图2b为根据本发明另一实施例的依据字符连通域进行文本行定位的示意图;
[0017] 图2c为根据本发明再一实施例的依据字符连通域进行文本行定位的示意图;
[0018] 图2d为根据本发明又一实施例的依据字符连通域进行文本行定位的示意图;
[0019] 图2e为根据本发明又一实施例的依据字符连通域进行文本行定位的示意图。
【具体实施方式】
[0020] 下面结合附图对本发明实施例提供的文本图像中文本行的定位方法进行详细描 述。
[0021] 图1为本发明实施例提供的文本图像中文本行的定位方法的流程图。如图1所示, 该方法包括步骤SlOl至步骤S106。
[0022]步骤S101:通过图像灰度矩阵计算文本图像局部对比度矩阵。
[0023]步骤S102:将局部对比度矩阵使用最大熵分割法进行二值划分,得到二值图像。 [0024]步骤S103:对二值图像进行连通域的提取、合并和删除操作,获取字符连通域。 [0025]步骤S104:对提取的字符连通域,依据其左侧水平坐标的大小进行排序。
[0026] 步骤S105:对排序后的字符连通域,进行文本行的定位工作,获取所有文本行的起 始列和结束列信息。
[0027] 步骤S106:依据文本行的起始列和结束列信息及其包含的字符个数,对其进行删 除和排序工作,从而实现文本行的定位。
[0028]本发明实施例通过将文本图像进行二值化处理,然后采用连通域分析技术,对二 值图像进行连通域的提取、合并和删除操作,获取字符连通域。再基于字符连通域获取所有 文本行的起始列和结束列信息。最后,依据所述文本行的起始列和结束列信息及其包含的 字符个数,对其进行删除和排序工作,从而实现所述文本行的定位。由此,本发明实施例实 现了有效地定位出文本图像中的文本行的技术效果。
[0029] 优选地,在计算文本图像局部对比度矩阵时,根据以下公式计算文本图像局部对 比度数值:
[0030]
[0031]
[0032]其中,I (i,j)表示位置(i,j)处的灰度值,Imax( i,j)和Imin( i,j)分别表示以(i,j) 为中心的局部邻域内的最大和最小灰度值,ae (〇,1),其为可调参数,ε为无穷小量,其用于 防止分母为〇,Con(i,j)表示(i,j)处的局部对比度数值。
[0033] 在实际实施过程中,需要确定局部滤波窗口宽度的大小,例如可以设置局部滤波 窗口宽度为3。
[0034] 局部对比度的计算公式中,a的计算方式为:
[0035]
[0036]
[0037] 在上述实施例中,在使用最大熵对局部对比度矩阵进行二值划分时,首先选取某 个阈值k,根据该阈值把局部对比度的数值分为两个部分,分别计算出这两个部分的概率密 度函数口(1|?〇4 = 1,2,分别统计两个部分的概率分布直方图口(1|〇1)和口(1|(〇2),进而 求得这两部分熵之和(其定义为目标函数),即:
[0038]
[0039] 其中,i取1和2。
[0040] 根据最大熵原理,认为H(p I ω i)最大时对应的阈值点k为最优阈值,即阈值的选取 方式为
[0041]
[0042]上述二值矩阵中,1表示字符点,0表示背景点。
[0043] 对二值图像进行连通域的提取、合并和删除操作,获取字符连通域具体可以包括: 对二值图像进行连通域的分析,提取文本图像的连通域;删除不符合预定尺寸要求的连通 域;将重叠区域比例较大的二连通域,合并成一连通域。
[0044] 具体地,对二值矩阵中的字符点进行连通域分析,例如以8个像素点的邻域表示连 通域,记录二值矩阵中每个连通域的信息[cc_right_col,cc_lef t_col,cc_up_row,cc_ down_row, cc_pixel_num],其cc_left_col和cc_right_col分别表不连通域最小外包矩形 的左、右边界的横坐标,c c_up_r ow和c c_down_r ow分别表示连通域最小外包矩形的上、下边 界的纵坐标,cc_p i xe l_num表示连通域中包含的字符点的个数;对不符合尺寸的连通域进 行删除,以此来消除噪声点和非字符连通域的影响;对重叠区域比例较大的两个连通域,合 并成一个连通域。上述方法过滤后剩余的连通域被认为是字符连通域。
[0045] 得到字符连通域之后,对字符连通域进行遍历,针对每一字符连通域执行以下操 作中的至少之一,以确定文本行的起始列和结束列:
[0046] 若字符连通域中的字符的text_up_row和text_down_row所确定的区域和当前存 在的行没有重叠,贝1J仓Il建一行,并将该行的信息设置为:line_up_row = text_up_row, line_ down_row = text_down_row ;
[0047] 若字符的text_up_row和text_down_row所确定的区域和当前存在的某一行有重 叠,贝1J认为所述字符属于该行,并更新该行的信息:line_up_row=min(text_up_row,line_ up_row), line_down_row=max( text_down_row, line_down_row);
[0048] 若字符的text_up_row和text_down_row所确定的区域包含在某一行的区域内,则 所述字符属于该行,且不更新行的坐标信息;
[0049] 若字符的text_up_row和text_down_row所确定的区域与某两行都存在重叠区域, 则把该字符放到重叠区域较多的一行中,并对该行进行信息更新;
[0050] 其中,line_up_row和line_down_row分别表示文本行的起始列和文本行的结束 列;text_up_row和text_down_row分别表示连通域最小外包矩形的起始行坐标和最小外包 矩形的结束行坐标。
[0051 ]由于每一个字符连通域包含信息[text_up_row,text_down_row,text_lef t_col, text_right_col],其中:text_up_row和text_down_row分别表示该连通域最小外包矩形的 起始行坐标和最小外包矩形的结束行坐标,text_left_col和text_right_col分别表示该 连通域最小外包矩形的起始列坐标和最小外包矩形的结束列坐标;所以,本发明实施例根 据字符连通域的信息来进行文本行的定位。
[0052] 根据以下过滤准则对字符连通域进行过滤:
[0053] (a)cc_down_row-cc_up_row〈5 并且 cc_right_col_cc_left_col〈5 ;
[0054] (b)cc_down_row-cc_up_row>50|i!ccc_right_col-cc_left_col>50 ;
[0055] (c)cc_pixel_num<10〇
[0056] 如果连通域满足(a)、(b)、(c)中任意一个条件,则进行删除,剩余的连通域作为字 符连通域,每个字符连通域包含的信息为[text_up_row, text_down_row, text_left_col, text_right_col];依据字符连通域的左边界的横坐标(left_col)进行从小到大的排序。 [0057]然后,依据字符连通域进行文本行的定位,具体的方式为:
[0058] 对字符连通域进行遍历,将字符连通域所占用的纵坐标的区域[teXt_Up_r0W, text_down_row]与每一个行所占用的纵坐标的区域[I ine_up_row,I ine_down_row]进行对 比,若没有重叠(如图2a、图2e所示),则新创建一个行,并设置[line_up_row = text_up_ row, line_down_row = text_down_row];
[0059] 若字符连通域所占用的纵坐标的区域与某一行所占用的纵坐标区域有重合(如图 2b、图2d所示),则将当前字符归结到当前行中,并更新该行的信息,更新方式为:
[0060] [ line_up_row = min(text_up_row, line_up_row), line_down_row=max( text_ down_row,line_down_row)];
[0061] 若字符连通域所占用的纵坐标的区域与某一行所占用的纵坐标区域不仅重合,且 前者被后者所包含,如图2c所示,则将当前字符归结到当前行中,行信息不进行更新;
[0062] 当完成对字符连通域的遍历,即完成了文本行的初步定位工作。
[0063] 在一个优选的实施例中,依据文本行的起始列和结束列信息及其包含的字符个 数,对其进行删除和排序工作,获取最终的文本行信息包括:若文本行的宽度小于宽度阈 值,或文本行内包含字符个数小于个数阈值,则删除该行;对删除操作之后的文本行按行的 起始列数大小进行排序。
[0064] 具体地,可以按照以下方式进行文本行的筛选和排序工作。
[0065] 对文本行的筛选准则为:文本行的宽度小于宽度阈值,或文本行内包含字符个数 小于个数阈值。例如:
[0066] (a)line_down_row-line_up_row<10
[0067] (b)包含的字符连通域个数小于5
[0068] 若文本行满足(a),(b)条件之一,则进行删除,剩余文本行为最终选取的文本行;
[0069] 对筛选后的文本行按line_up_row从小到大的顺序排序,进行输出,即完成了文本 图像中文本行的定位的方法。
[0070] 以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
【主权项】
1. 一种文本图像中文本行定位的方法,其特征在于,所述方法包括: 通过图像灰度矩阵计算所述文本图像局部对比度矩阵; 将所述局部对比度矩阵使用最大赌分割法进行二值划分,得到二值图像; 对所述二值图像进行连通域的提取、合并和删除操作,获取字符连通域; 对提取的字符连通域,依据其左侧水平坐标的大小进行排序; 对排序后的字符连通域,进行文本行的定位工作,获取所有文本行的起始列和结束列 信息; 依据所述文本行的起始列和结束列信息及其包含的字符个数,对其进行删除和排序工 作,从而实现所述文本行的定位。2. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 根据W下公式计算所述文本图像局部对比度数值:其中,所述I(i,j)表示位置(i,j)处的灰度值,所述Imax(i,j)和所述I"in(i,j)分别表示 W(i,j)为中屯、的局部邻域内的最大和最小灰度值,所述ae(〇,l),其为可调参数,所述ε为 无穷小量,其用于防止分母为0,所述Con(i,j)表示(i,j)处的局部对比度数值。3. 根据权利要求2所述的方法,其特征在于,所述方法还包括: 选定一阔值; 根据所述阔值将所述局部对比度数值分为二部分; 分别统计所述二部分的概率分布直方图; 根据所述二部分的概率分布直方图,计算所述二部分的赌之和; 基于所述二部分的赌之和,并利用最大赌原理,确定最优阔值。4. 根据权利要求1所述的方法,其特征在于,所述对所述二值图像进行连通域的提取、 合并和删除操作,获取字符连通域,具体包括: 对所述二值图像进行连通域的分析,提取所述文本图像的连通域; 删除不符合预定尺寸要求的连通域; 将重叠区域比例较大的二连通域,合并成一连通域。5. 根据权利要求4所述的方法,其特征在于,所述获取所有文本行的起始列和结束列信 息包括: 对所述字符连通域进行遍历,针对每一所述字符连通域执行W下操作中的至少之一, W确定所述文本行的起始列和结束列: 若所述字符连通域中的字符的text_w_;row和text_down_;row所确定的区域和当前存 在的行没有重叠,贝包I建一行,并将该行的信息设置为:line_up_;row = text_up_;row, line_ down_row = text_down_row; 若所述字符的text_up_;row和text_down_;row所确定的区域和当前存在的某一行有重 叠,则认为所述字符属于该行,并更新该行的信息:line_up_;row=min(text_up_;row,line_ up_row),line_down_row=max(text_down_row,line_down_row); 若所述字符的text_up_;row和text_down_;row所确定的区域包含在某一行的区域内,则 所述字符属于该行,且不更新所述行的坐标信息; 若所述字符的text_up_;row和text_down_;row所确定的区域与某两行都存在重叠区域, 则把该字符放到重叠区域较多的一行中,并对该行进行信息更新; 其中,所述line_up_;row和所述line_down_;row分别表示所述文本行的起始列和文本行 的结束列;所述text_up_;row和所述text_down_;row分别表示所述连通域最小外包矩形的起 始行坐标和最小外包矩形的结束行坐标。6.根据权利要求1所述的方法,其特征在于,所述依据所述文本行的起始列和结束列信 息及其包含的字符个数,对其进行删除和排序工作,获取最终的文本行信息,具体包括: 若所述文本行的宽度小于宽度阔值,或所述文本行内包含字符个数小于个数阔值,贝U 删除该行; 对删除操作之后的文本行按行的起始列数大小进行排序。
【文档编号】G06K9/20GK105844275SQ201610178271
【公开日】2016年8月10日
【申请日】2016年3月25日
【发明人】刘辉, 石胜坤, 陈李江
【申请人】北京云江科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1