一种表格图像的自动切分方法

文档序号:8318932阅读:491来源:国知局
一种表格图像的自动切分方法
【技术领域】
[0001] 本发明涉及表格图像处理技术领域,特别是一种表格图像的自动切分方法。
【背景技术】
[0002] 传统对手写文稿录入都采用人工手段,而且手写文稿的书写多样化、复杂化,使得 员工的劳动强度高,录入效率却很低,这给工作带来了很大的麻烦,为此研究者们开发了许 多的应用软件,希望能从根本上解决手写文稿快速录入问题。
[0003] 根据中国专利【CN103020619A】"一种自动切分电子化笔记本中手写条目的方法", 如图2所示,⑴拍摄需要电子化的笔记本的纸质页面图像;(2)通过图像中的直线检测方 法确定所述纸质页面图像的四条边缘线,并将四条边缘线所限定的页面区域校正为方形区 域;(3)根据所述纸质页面图像确定所述纸质页面的类型,获得预先保存的所述类型笔记 本的纸质页面空白切分模板,所述空白切分模板由若干文字块组成;(4)确定所述方形区 域中用户手写笔迹所在的文字块,以文字块为单位自动切分提取处于任意一个文字块中的 用户手写笔迹。该发明对模板与手写文本的重合度只是简单的判别不能达到精确定位,同 时对参杂有表格在内的手写文本区域不能有效处理。

【发明内容】

[0004] 本发明的目的在于:针对现有技术中存在的上述技术问题,提供一种结合了知识 驱动信息和数据驱动信息的图像区域精确定位技术以及基于表格图像准确自动切分的表 格数据自动智能处理系统,能有效提高录入效率的表格图像的自动切分方法。
[0005] 本发明是通过以下技术方案实现的:
[0006] -种表格图像的自动切分方法,包括如下步骤:(1)在表格文档内获取表格实体; (2)扫描或拍摄表格实体获得表格图像;(3)对表格图像数据自动分析与学习,获取应用于 手写体文本区域切分的数据驱动信息;(4)表格定制,将表格及其区域信息都存入表格模 板库;(5)从表格模版库,得到应用于区域切分的知识驱动信息;(6)区域分析综合数据驱 动信息和知识驱动信息,对表格图像进行区域分析与定位,得到切分区域的位置等区域信 息;(7)区域切分利用区域信息,对表格图像进行切分,得到最后输出的区域图像。
[0007] 进一步的是,对表格图像数据自动分析与学习,获取应用于手写体文本区域切分 的数据驱动信息,其中包括区域的位置和类型信息;对表格图像数据自动分析与学习步骤 如下:
[0008] (A)首先将表格图像二值化;系统中,采用自适应的二值化方法,结合Otsu方法和 Niblack方法,得到的图像为两种二值化方法得到图像的"与";设p(x,y)为最后输出的二 值化图像点(X,y)的值,P Qtsu(X,y)为OtSU方法得到的值,Pmblaek(X,y)为Niblack方法得 到的值,则有
[0009] p(x, y) = Potsu(x, y) &pNiblack (x, y)
[0010] 其中,p(x, y) = I表示黑点(前景字符),p(x, y) = 0表示白点(背景);
[0011] (B)通过连通域分析得到表格图像相应的各个区域,然后需要对区域进行判别; 在混合层次上对手写体进行判别,即处理的单元为一些连通域的合并块,手写体特性的不 确定性,采用的一种基于增量学习的Fisher线性判别(Fisher Linear Discriminant,FLD) 分类器,经典FLD算法的投影矩阵(向量)为
[0012]
【主权项】
1. 一种表格图像的自动切分方法,其特征在于,包括如下步骤: (1) 在表格文档内获取表格实体; (2) 扫描或拍摄表格实体获得表格图像; (3) 对表格图像数据自动分析与学习,获取应用于手写体文本区域切分的数据驱动信息; (4) 表格定制,将表格及其区域信息都存入表格模板库; (5) 从表格模版库获取应用于区域切分的知识驱动信息; (6) 区域分析综合数据驱动信息和知识驱动信息,对表格图像进行区域分析与定位,得 到区域信息; (7) 区域切分利用区域信息,对表格图像进行切分,得到最后输出的区域图像。
2. 根据权利要求1所述的一种表格图像的自动切分方法,其特征在于:对表格图像数 据自动分析与学习,获取应用于手写体文本区域切分的数据驱动信息,其中包括区域的位 置和类型信息;对表格图像数据自动分析与学习进行如下: (A) 首先将表格图像二值化;系统中,采用自适应的二值化方法,结合Otsu方法和 Niblack方法,得到的图像为两种二值化方法得到图像的"与";设p(x,y)为最后输出的二 值化图像点(X,y)的值,P Qtsu(X,y)为OtSU方法得到的值,Pmblaek(X,y)为Niblack方法得 到的值,则有 p(x, y) = Potsu(x, y)&pNi black (χ, y) 其中,p(x, y) = I表示黑点(前景字符),p(x, y) = 0表示白点(背景); (B) 另外,通过连通域分析得到表格图像相应的各个区域,然后需要对区域进行判别; 在混合层次上对手写体进行判别,即处理的单元为一些连通域的合并块;手写体特性的不 确定性,采用的一种基于增量学习的Fisher线性判别(Fisher Linear Discr iminant, FLD)分类器,经典FLD算法的投影矩阵(向量)为 W = S~\mx -m2) 其中,Sw = CJC2为类内离散度矩阵,HIi为各类样本均值向量; 利用序列SKL变换算法(Sequential Karhunen-Loeve Algorithm,SKL)增量形式更新 Ci, SKL算法通过K个最大特征值组成的Di和相应的特征向量组成的Ui来估计Ci O - UiDiUf 其中,Di是一个KXK维的正交矩阵,Ui是具有K列的矩阵; 在手写体判别中,使用的特征向量维数比较少,所以随着新样本的不断增加,直接使用 奇异解分解(Singular Value Decomposition,SVD)来更新 Di 和 Ui ; 在该增量型分类器中,利用一种自适应过滤器方式来更新Hli mnew _ Q _ a)mj + OXi 其中,α是一个平均常数因子,一般可设为0. 05,而Xi为增量学习中第i类的新样本。
3. 根据权利要求1所述的一种表格图像的自动切分方法,其特征在于:区域分析综合 数据驱动信息和知识驱动信息,如果数据驱动信息手写体文本区域位置和知识驱动信息手 写体文本区域位置重合度高于50%,则利用数据驱动信息得到的手写体文本区域作为最终 的切分区域,而对于其它类型的文本区域,则以来自于表格模版库中的知识驱动信息为主, 进行切分区域的定位。
【专利摘要】本发明公开一种表格图像的自动切分方法,包括表格及其区域信息的录入,在表格图像中自动分析、检测与定位手写体文本区域以及切分区域的最终定位,其步骤如下:a、对已知表格中需要切分、识别或人工录入的区域进行事先标定,通过模版定制,将表格及其区域信息都存入表格模板库,获取知识驱动信息;b、对扫描或拍摄的表格图像进行自动分析、检测与定位文本区域,获取数据驱动信息;c、综合知识驱动信息和数据驱动信息,比较两者吻合程度,对最终切分区域的定位。本发明结合了知识驱动信息和数据驱动信息的图像区域精确定位技术以及基于表格图像准确自动切分的表格数据自动智能处理系统。
【IPC分类】G06F9-32, G06F9-54
【公开号】CN104636117
【申请号】CN201310557566
【发明人】殷绪成
【申请人】江苏奥博洋信息技术有限公司
【公开日】2015年5月20日
【申请日】2013年11月12日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1