一种表格图像几何畸变的数字校正方法

文档序号:6558527阅读:240来源:国知局
专利名称:一种表格图像几何畸变的数字校正方法
技术领域
本发明涉及计算机信息领域的图像处理技术,特别涉及一种对畸变的表格图像校正的方法。
背景技术
畸变表格的校正是一种非常有用的图像处理技术,一般有两类校正方法一类是通过分析表格图像,得出表格倾斜角度,根据倾斜角度校正;另一类是分析表格图像,得到并拟合畸变的表格线,然后把畸变的表格线校正为直线。
对于前一类,一般的做法是通过一定的方法,在图像上得到表格线的倾斜角度,作为校正的依据,比如分析得到表格线和水平直线的夹角α,然后根据tanα计算表格线上每一点的偏移量,从而进行校正。如文献“基于游程的倾斜表格图像的快速检测和校正”[作者管继斌,明德烈,华中科技大学学报,文章编号是1671.4512(2005)08-0069]。
对于后一类,由于对非特定畸变的表格,只通过分析表格倾斜角度来校正难度极大,所以需要分析表格畸变的特征来进行后期处理。
对于将表格文稿扫描为图像而言,其目的大多是用于资料保存、文字识别(OCR)等场合。在OCR的运用中,对于扫描时已经展开的文稿或者书本,只是因放置不正而引起的表格倾斜,由于不会改变表格的直线表达,因此可以使用第一类方法解决;对于扫描时没有展开的文稿或者书本,数码相机拍摄的图像以及其它途径得到的图像,极有可能会改变表格原来的直线表达,可以用第二类方法解决这类问题。
在OCR的运用中,表格区域的畸变不仅影响到美观,更会严重影响表格识别、表格内文字的行切分等图像处理的准确性,甚至使这些操作无法进行,如弯曲严重的表格基本无法进行识别,更不要说分离其内部文字并识别这些文字。因此表格校正质量的好坏,不仅影响到表格的主观质量评价,还会直接影响到对表格后续处理的环节。此外,由于在OCR运用中表格和表格内容都需要识别,因此在OCR中,不但对表格进行校正同时也要对表格内容进行校正,避免影响对表格内容的识别。
表格图像的来源最常见的有两类通过扫描仪对文稿进行扫描或通过数码相机、拍照手机、摄像头等对文稿进行拍照获得。用扫描仪进行扫描时,通过将书稿拆开或展平后进行再扫描,一般可避免图像产生畸变。但在实际操作过程中,其畸变很难避免,而且其畸变的形式要复杂得多,比如弯曲的程度可能很严重。弯曲不仅发生在书籍,在其它区域也普遍存在;弯曲的方向不是只有凸或只有凹状弯曲,而是在同一条文本行中呈现多处凸凹相间的弯曲;畸变可能呈现放射性、不平行性。如图2的上部区域呈凸状弯曲,而下部呈凹状弯曲。这些现象会导致现有技术中分析表格的方法完全失效(1)由于表格线不呈直线,很难找到准确的表格直线,更不要说找倾斜角度了。(2)由于寻找表格直线不准确,则很难确定表格内容的位置,进而无法进行表格内容的识别。
可见,现有技术只有对纯文本畸变图像校正,而对表格图像畸变无法校正,现有技术只处理了工整的、弯曲程度轻微或者单纯倾斜的表格图像,而无法处理弯曲程度严重的表格图像。

发明内容
为了克服上述缺陷,本发明的目的在于提出一种对几何畸变的表格图像进行数字校正的方法,即利用采样表格线校正带动表格内容进行校正。
为达到上述目的,本发明一种表格图像几何畸变的数字校正方法,包括以下步骤(1)对表格图像进行二值化预处理,通过版面分析获得表格区域;(2)确定有效表格线段的最小长度,并根据该长度,在二值化表格图像的表格区域中进行搜索,得到N条有效表格线段,其中N为正整数;(3)根据有效表格线段的位置信息合并有效表格线段并形成表格线域;(4)根据所述表格线域中包含的有效表格线段信息,计算出与采样表格线域对应的采样表格线;(5)确定采样表格线要校正到的目标位置,将采样表格线映射到该目标位置;(6)表格内其他像素在采样表格线校正带动下校正。
其中,所述步骤(4)具体为a)选择垂直方向上任意一条表格线域为采样表格线域或最上面和最下面的两条表格线域为采样表格线域;b)根据所述采样表格线域包含的有效表格线段信息,计算出与采样表格线域对应的采样表格线。
其中,所述步骤b)具体为求出采样表格线域中有效线段集合的水平方向上的上下外轮廓,即曲线的上下沿,对每一对上下沿求平均值,得到中点,这些相邻的中点连接起来形成采样表格线域的采样表格线,若采样表格线不连续,则采用曲线拟合方式连接,其中,所述的曲线拟合方式为多项式拟合、贝塞尔曲线拟合、B样条拟合或椭圆曲线拟合。
其中,在所述步骤(3)和步骤(4)之间,还有一步骤删除不满足表格线特征的表格线域及其包含的有效线段。
其中,所述步骤(2)具体为有效表格线段的长度为表格图像中汉字宽度的四分之一,并根据该长度在二值化表格图像的表格区域中进行搜索,得到N条有效表格线段,其中N为正整数。
其中,所述步骤(3)具体为,若有效表格线段左右并且上下相邻则合并,有效表格线段合并后形成表格线域的个数为一个或一个以上,每个表格线域具有上、下沿和宽度,表格线域是属于它的有效表格线段的集合。
其中,所述步骤(5)具体为目标位置确定是采用采样表格线上每一点到水平边框的垂直距离的平均值,目标位置确定后,再将采样表格线映射到该目标位置。
其中,所述步骤(6)具体为根据采样表格线拟合后的位置来定位并以平移或插值填充的方式来校正采样表格线外的区域。
采用本发明所述的方法,原来畸变的表格图像通过使用该方法,表格被很好得校正过来,提高了表格主观质量,特别是在OCR的运用中,保证表格内容的完整性,从而对后续识别做了很好的准备,有效提高OCR的识别率。


图1是本发明一种表格图像几何畸变的数字校正方法的流程图;图2是待校正的畸变表格图像;图3是图2二值化后左上角表格线的放大效果图;图4是在图3所示的效果图上搜索有效表格线段示意图;图5是在图4上求出表格线域的上下沿示意图;图6是在图5上求出表格线域的中点示意图;图7是图2校正之后的表格图像;图8是待校正的畸变表格图像;图9是图8校正之后的表格图像。
具体实施例方式
下面结合附图对本发明实施方式作进一步详细的描述。
本发明的基本原理是首先将对表格图像进行二值化处理,通过对二值化表格图像的分析,粗略确定表格线域,取垂直方向上的最上和最下两条表格线域作为采样域,或者仅取垂直方向上任意一条表格线域作为采样域,进行表格线采样,得到与采样表格线域对应的采样表格线,然后对采样表格线做拟合和校正。表格内的其他像素在采样表格线的带动下进行校正。
如图1所示,本发明的具体实施步骤如下1、对表格图像进行二值化处理和版面分析。对非二值化的表格图像(如图2所示),先进行表格图像的自动阈值二值化处理;对已经是二值化的图像,则无需进行二值化处理。然后对二值化图像进行版面分析,获得二值化图像中的表格区域。
2、确定有效表格线段长度,在二值化的表格图像中搜索有效表格线段,获得n条有效表格线段。一般情况下,有效表格线段长度可以为表格图像中汉字宽度的四分之一,汉字的宽度可由版面分析获得,如果版面分析不能获得汉字宽度,就采用经验值,经验值为6像素左右。有效线段的搜索就是,对图像的某一行从左至右扫描,记录连续的黑像素,确定一个固定长度值,经验值为6像素左右,认为连续的黑像素长度大于等于这个固定长度值的线段为有效线段,如图4中的黑色线段就是对图3进行扫描搜索得到的7条有效线段。
3、合并有效表格线段,得到一系列水平表格线域列表。按先左后右,先上后下的顺序检查分析有效表格线段,即对每一条有效表格线段,看它与前面的有效表格线段的位置关系,以确定是否需要合并(如图4、图5所示)。有效表格线段合并为表格线域的步骤如下a)创建一条表格线域,里面包含第一条有效表格线段。
b)对于下一条有效表格线段,看它是否与某一表格线域呈被包含或相邻关系,表格线域将有效表格线段在水平方向上包含进来,或与该有效表格线段在水平方向上相邻,就是比较当前有效表格线段和所有表格线域中的有效表格线段的位置关系。
位置关系的判断方法为对于两条水平方向的有效表格线段,设两条有效表格线段A、B的位置(即y方向坐标)分别为Apos、Bpos,两条有效表格线段的起始点(x方向的坐标)分别为Astart、Bstart,终止点分别为Aend、Bend。如两条有效表格线段满足下列关系式Apos-1<=Bpos&&Bpos<=Apos+1(1)(Astart<=Bend+α&&Astart>=Bstartα)||(Bstart<=Aend+α&&Bstart>=Astart-α)(2)则认为两条有效表格线段同属于一条表格线域。其中,α是0或正整数常数,表示可合并的两条有效表格线段之间的在x方向上的最小间距。经验值一般为不要超过有效表格线段长度的一半。
c)如果当前有效表格线段不与任何表格线域中的有效表格线段属于同一表格线域,则创建一个新的表格线域,里面包含这条线段。
d)如果当前有效表格线段与其中一个表格线域中的有效表格线段属于同一表格线域,则将此线段加入该表格线域。
e)如果当前有效表格线段与多个表格线域中的有效表格线段属于同一表格,则合并这些表格线域,然后将此线段加入合并后的表格线域。
f)重复步骤b)至步骤e),直到所有的有效表格线段都存在于一个表格线域中。表格线域是一个有效线段的集合,具有宽度和高度,一个表格线域包括n条有效线段;这些表格线域互不相交,即一条有效表格线段只存在于一个表格线域内。
另外,还要删除不满足表格线特征的表格线域及其包含的有效表格线段。
4、当表格图像中的上下两条表格线弯曲趋势大致相同时(如图2所示),选取最长的或任意一条表格线域作为采样表格线域,求出该采样表格线域的上下沿及中点序列,连接中点序列中的所有中点形成一条曲线,该曲线就是该采样表格线域的采样表格线(如图5、图6所示)。
当表格图像上下两条表格线严重弯曲时,比如,表格线畸变呈放射状的表格图像,或表格线呈波浪形畸变,此时,需要选择垂直方向上最上面的一个表格线域和最下面的一个表格线域作为采样域进行分析,根据表格线域包含的有效线段位置信息和实际图像中的位置信息,求它们的上、下沿和中心线。中心线上的点序列就是采样点集,而一个表格线域中的采样点集能够反映该表格线的弯曲趋势。表格线域的中心线是畸变表格的采样表格线。以下是获得采样表格线的具体步骤I)分析表格线域集合,对于不满足表格线特征的表格线域进行删除(如长度太短);选取任意一条或者在垂直方向上位置最小和最大的两条表格线域作为采样表格线。
II)根据选中的表格线域中的线段集合,可以获得一条连续(或者中间有部分断裂)的曲线,即表格线域的中心线。
获得上述曲线的具体方法如下设表格线域内所有线段的横坐标最大、最小值分别为X1、X0,对于每一个x(X0<=x<=X1),找到包含x的每一条线段,统计这些线段的最大、最小垂直方向的坐标值(即表格线该x坐标上的上沿和下沿),求最大、最小的平均值,作为表格线在该x坐标上对应的y坐标值。当所有的x坐标都求到了相应的y坐标的值,就形成了上述的曲线。
III)上述曲线如果连续,即所有x都有相对应的正确y值,这条曲线就是一条采样线;如果中间有断裂,则可通过曲线拟和的方式求出那些缺失的点。
具体可采用的拟合形式为(自适应)多项式拟合、贝塞尔曲线拟合、B样条拟合、椭圆曲线等,本实施例中采用3阶多项式拟合,在采用多项式拟合时,若采用固定阶数的多项式拟合,则阶数不宜定得过高,否则易发生震荡现象,一般3阶就足够描述实际图像中严重弯曲的区域了。
5、计算采样表格线要校正到的目标位置,将表格线校正到该目标位置。
该步骤中,计算采样表格线要校正到的目标位置的计算方法为取表格线域的中心线上采样点的平均Y值,做为其在Y方向的缺省目标位置。确定目标位置后,将表格线校正到目标位置设校正的目标Y值为yd,则采样表格线上所有点x坐标不变,y坐标均改为yd。
6、求出目标位置后,表格内的其他像素在校正采样表格线的带动下,按照平移或插值填充的方式校正。
当只有一条表格线为参考时,采用平移的方式校正设表格线中的任意一个需要被校正的点坐标为(x,y),表格线的校正目标为yd,任意相同x处的表格区域上点的坐标为(x,yf),则该点在校正后的坐标为(x,yf+(yd-y))。
当有两条表格线为参考时,则采用插值的方式来填充两条表格线之间的区域。当表格线弯曲严重时候,两条采样表格线在原图中的距离D1和校正后之间的距离D2可能会不相等,因此使用插值算法,填补空缺的部分。设表格中任意垂直方向上,两表格线相应的点坐标为(x,y1)、(x,y2),表格线的校正目标为yd1、yd2,任意相同x处的表格区域上点的坐标为(x,yf),则该点在校正后的坐标为(x,yd1+(yf-y1)(yd2-yd1)/(y2-y1))。由其校正后的结果图,如图7和图9所示,效果很理想。
通过本实施例可以看到,原来畸变的表格图像(如图2和图8)通过使用该方法,表格被很好得校正过来(如图7和图9)。本发明的方法提高了表格主观质量,特别是在OCR的运用中,保证表格内容的完整性,从而对后续识别做了很好的准备,有效提高OCR的识别率。
权利要求
1.一种表格图像几何畸变的数字校正方法,其特征在于,包括以下步骤(1)对表格图像进行二值化预处理,通过版面分析获得表格区域;(2)确定有效表格线段的最小长度,并根据该长度,在二值化表格图像的表格区域中进行搜索,得到N条有效表格线段,其中N为正整数;(3)根据有效表格线段的位置信息合并有效表格线段并形成表格线域;(4)根据所述表格线域中包含的有效表格线段信息,计算出与采样表格线域对应的采样表格线;(5)确定采样表格线要校正到的目标位置,将采样表格线映射到该目标位置;(6)表格内其他像素在采样表格线校正带动下校正。
2.按照权利要求1所述的表格图像几何畸变的数字校正方法,其特征在于,所述步骤(4)具体为a)选择垂直方向上任意一条表格线域为采样表格线域或最上面和最下面的两条表格线域为采样表格线域;b)根据所述采样表格线域包含的有效表格线段信息,计算出与采样表格线域对应的采样表格线。
3.按照权利要求2所述的表格图像几何畸变的数字校正方法,其特征在于,所述步骤b)具体为求出采样表格线域中有效线段集合的水平方向上的上下外轮廓,即曲线的上下沿,对每一对上下沿求平均值,得到中点,这些相邻的中点连接起来形成采样表格线域的采样表格线,若采样表格线不连续,则采用曲线拟合方式连接,其中,所述的曲线拟合方式为多项式拟合、贝塞尔曲线拟合、B样条拟合或椭圆曲线拟合。
4.按照权利要求1、2或3所述的表格图像几何畸变的数字校正方法,其特征在于,在所述步骤(3)和步骤(4)之间,还有一步骤删除不满足表格线特征的表格线域及其包含的有效线段。
5.按照权利要求4所述的表格图像几何畸变的数字校正方法,其特征在于,所述步骤(2)具体为有效表格线段的长度为表格图像中汉字宽度的四分之一,并根据该长度在二值化表格图像的表格区域中进行搜索,得到N条有效表格线段,其中N为正整数。
6.按照权利要求4所述的表格图像几何畸变的数字校正方法,其特征在于,所述步骤(3)具体为,若有效表格线段左右并且上下相邻则合并,有效表格线段合并后形成表格线域的个数为一个或一个以上,每个表格线域具有上、下沿和宽度,表格线域是属于它的有效表格线段的集合。
7.按照权利要求4所述的表格图像几何畸变的数字校正方法,其特征在于,所述步骤(5)具体为目标位置确定是采用采样表格线上每一点到水平边框的垂直距离的平均值,目标位置确定后,再将采样表格线映射到该目标位置。
8.按照权利要求4所述的表格图像几何畸变的数字校正方法,其特征在于,所述步骤(6)具体为根据采样表格线拟合后的位置来定位并以平移或插值填充的方式来校正采样表格线外的区域。
全文摘要
本发明涉及计算机信息领域的图像处理技术,具体涉及一种表格图像几何畸变的数字校正方法。为解决现有技术中只能有效的对畸变文本行进行校正,当文稿中出现畸形表格非文本区域时,无法进行后续识别的问题而发明。本发明所述的方法通过对表格图像进行分析,在二值化图像上搜索并分析有效表格线段,得到属于表格的采样表格线,分析、拟合采样表格线,并将其映射到目标位置,由采样表格线带动表格内部文字而很好地校正。本发明不但能准确地校正畸形表格,而且对于表格内部文字的矫正也达到很好的效果。
文档编号G06T5/00GK101064007SQ20061007899
公开日2007年10月31日 申请日期2006年4月29日 优先权日2006年4月29日
发明者刘芝, 康凯, 杜鹏飞 申请人:北大方正集团有限公司, 北京北大方正技术研究院有限公司, 北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1