提取表格特征的方法及装置的制作方法

文档序号:6397845阅读:164来源:国知局
专利名称:提取表格特征的方法及装置的制作方法
技术领域
本发明涉及表格处理技术领域,尤其涉及一种提取表格特征的方法及装置。
背景技术
目前,将通过扫描仪等设备扫入系统的表格图像进行分类存储时,表格类型的识别通常是由工作人员来实现的。为此,本发明的发明人提出了一种自动识别表格类型的方法,以进行分类存储,在该方法中十分重要的一步就是从表格中提取表格特征来标识表格的类型;而本发明就是在上述基础上,关于选取什么样的特征作为标识表格类型的特征,如何提取这样的特征的方案。

发明内容
有鉴于此,本发明提供了一种提取表格特征的方法及装置。可以快速、准确地从表格中提取出标识表格类型的图像特征。本发明提供了一种提取表格特征的方法,包括如下步骤:步骤a、对表格进行预处理;步骤b、从预处理后的表格中提取标识表格类型的图像特征。进一步,所述标识表格类型的图像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD和SUME, SUMX表示表格中中轴线条数,SUMA, SUMB, SUMC和SUMD分别表示A、B、C和D四个区域内的中轴线条数,SUME表示矩形区域E内的中轴线条数,其中A、B、C和D四个区域为在表格的宽和高的中点处,将表格分为的2行2列的四个面积相等的区域,矩形区域E与表格有相同的中心,且宽和高均为表格的宽和高的三分之一。进一步,所述步骤b包括:步骤bl、从预处理后的表格中提取水平线段和垂直线段,且所述步骤bl包括:对表格以水平方向直线线段结构元素在水平方向上腐蚀,然后以膨胀结构元素为模板在垂直方向上进行膨胀,水平方向直线线段结构元素的长度值为表格的宽度的五分之—■
---,对表格以垂直方向直线线段结构元素在垂直方向上腐蚀,然后以所述膨胀结构元素为模板在水平方向上进行一次膨胀,垂直方向直线线段结构元素的长度值为表格的单元格高度的七分之五。进一步,所述步骤b还包括:步骤b2、合并步骤bl提取的水平线段和垂直线段得到表格框架;步骤b3、对步骤b2得到的表格框架依次进行取反和细化处理;步骤b4、从步骤b4处理后的表格框架中提取标识表格类型的图像特征。进一步,所述步骤b4包括:
步骤b41、计算细化后的表格框架中的中轴线条数SUMX ;步骤b42、计算表格的宽和高,在宽和高的中点处,把表格分成2行2列的四个面积相等的区域:A、B、C和D,并计算A、B、C和D四个局域内的中轴线的条数分别为:SUMA、SUMB, SUMC 和 SMD ;步骤b43、在表格内部选取一个矩形区域E,该矩形区域E和表格有相同的中心,且高和宽为表格的高和宽的三分之一,并计算该矩形区域E内中轴线的条数SUME。相应地,本发明还提供了一种提取表格特征的装置,包括:预处理模块,用于对表格进行预处理;特征提取模块,用于从预处理后的表格中提取标识表格类型的图像特征。进一步,所述特征提取模块提取的标识表格类型的图像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD和SUME,SUMX表示表格中中轴线条数,SUMA, SUMB、SUMC和SUMD分别表示A、B、C和D四个区域内的中轴线条数,SUME表示矩形区域E内的中轴线条数,其中A、B、C和D四个区域为在表格的宽和高的中点处,将表格分为的2行2列的四个面积相等的区域,矩形区域E与表格有相同的中心,且宽和高均为表格的宽和高的三分之一。进一步,所述特征提取模块包括:线段提取单元,用于从预处理后的表格中提取水平线段和垂直线段,且所述线段提取单元具体用于:对表格 以水平方向直线线段结构元素在水平方向上腐蚀,然后以膨胀结构元素为模板在垂直方向上进行膨胀,水平方向直线线段结构元素的长度值为表格的宽度的五分之 对表格以垂直方向直线线段结构元素在垂直方向上腐蚀,然后以所述膨胀结构元素为模板在水平方向上进行一次膨胀,垂直方向直线线段结构元素的长度值为表格的单元格高度的七分之五。进一步,所述特征提取模块还包括:线段合并单元用于合并线段提取模块提取的水平线段和垂直线段,得到表格框架;取反和细化处理单元,用于对线段合并单元得到的表格框架依次进行取反和细化处理;特征提取单元,用于从取反和细化处理单元处理后的表格框架中提取标识表格类型的图像特征。进一步,所述特征提取单元具体用于:计算细化后的表格框架中的中轴线条数SUMX ;计算表格的宽和高,在宽和高的中点处,把表格分成2行2列的四个面积相等的区域:A、B、C和D,并计算A、B、C和D四个局域内的中轴线的条数分别为:SUMA、SUMB、SUMC和SUMD ;在表格内部选取一个矩形区域E,该矩形区域E和表格有相同的中心,且高和宽为表格的高和宽的三分之一,并计算该矩形区域E内中轴线的条数SUME。本发明的有益效果:通过对表格进行预处理,然后提取其中的标识表格类图像特征,可以快速、准确地从表格中提取出标识表格类型的图像特征,以有利于进一步依据该图像特征对表格进行分类存储。
进一步,选择SUMX、SUMA、SUMB、SUMC、SUMD和SUME作为标识表格类型的图像特征。这些特征可以很好地反应不同类型表格的结构特点而且易于从表格中提取,因此在依据这些特征对表格进行分类时,可以保证分类的准确性。进一步,在提取标识表格类型的图像特征的图像特征时,其中一步是提取表格中的水平线段和垂直线段,并且经过反复实验证时,在提取水平线段时,采用水平方向直线线段结构元素的长度值为表格的宽度的五分之三,在提取垂直线段时,采用垂直方向直线线段结构元素的长度值为表格的单元格高度的七分之五时,可以保证能够很好地提取到水平线段和垂直线段,从而保证提取的SUMX、SUMA, SUMB, SUMC, SUMD和SUME准确性。


下面结合附图和实施例对本发明作进一步描述:图1是本发明的提取表格特征的方法的实施例的流程示意图。图2是图1中步骤Sll的实施例的流程示意图。图3是表格的结构示意图。图4是图3预处理后的结构示意图。图5是从图3中提取的水平线段。图6是从图3中提取的垂直线段。图7是图5和图6合并后得到的表格的结构示意图。图8是图7取反后的结构示意图。图9是图8细化后得到的中轴线的结构示意图。图10是本发明的提取表格特征的装置的实施例的结构示意图。图11是图10中的特征提取模块的实施例的结构示意图。
具体实施例方式请参考图1,是本发明提供的提取表格特征的方法的实施例的流程示意图。该方法包括:步骤S11、对表格进行预处理。其中,预处理包括但不限于:分割、二值化和滤波处理。具体地,首先对表格进行分割处理提取其中的纯表格图像,即去除表格周围的文字部分。然后对纯表格图像进行二值化处理,得到二值化图像;优选地,采用局部二值化方法对纯表格图像进行处理,局部
二值化方法的步骤主要包括:第一、计算每一点的阈值.
权利要求
1.种提取表格特征的方法,其特征在于:包括如下步骤: 步骤a、对表格进行预处理; 步骤b、从预处理后的表格中提取标识表格类型的图像特征。
2.权利要求1所述的提取表格特征的方法,其特征在于:所述标识表格类型的图像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD和SUME,SUMX表示表格中中轴线条数,SUMA, SUMB,SUMC和SUMD分别表示A、B、C和D四个区域内的中轴线条数,SUME表示矩形区域E内的中轴线条数,其中A、B、C和D四个区域为在表格的宽和高的中点处,将表格分为的2行2列的四个面积相等的区域,矩形区域E与表格有相同的中心,且宽和高均为表格的宽和高的三分之一。
3.权利要求1或2所述的提取表格特征的方法,其特征在于:所述步骤b包括: 步骤bl、从预处理后的表格中提取水平线段和垂直线段,且所述步骤bl包括: 对表格以水平方向直线线段结构元素在水平方向上腐蚀,然后以膨胀结构元素为模板在垂直方向上进行膨胀,水平方向直线线段结构元素的长度值为表格的宽度的五分之三;对表格以垂直方向直线线段结构元素在垂直方向上腐蚀,然后以所述膨胀结构元素为模板在水平方向上进行一次膨胀,垂直方向直线线段结构元素的长度值为表格的单元格高度的七分之五。
4.权利要求3所述的提取表格特征的方法,其特征在于:所述步骤b还包括: 步骤b2、合并步骤bl提取的水平线段和垂直线段得到表格框架; 步骤b3、对步骤b2得到的表格框架依次进行取反和细化处理; 步骤b4、从步骤b4处理后的表格框架中提取标识表格类型的图像特征。
5.权利要求4所述的提取表格特征的方法,其特征在于:所述步骤b4包括: 步骤b41、计算细化后的表格框架中的中轴线条数SUMX ; 步骤b42、计算表格的宽和高,在宽和高的中点处,把表格分成2行2列的四个面积相等的区域:A、B、C和D,并计算A、B、C和D四个局域内的中轴线的条数分别为:SUMA、SUMB、SUMC 和 SMD ; 步骤b43、在表格内部选取一个矩形区域E,该矩形区域E和表格有相同的中心,且高和宽为表格的高和宽的三分之一,并计算该矩形区域E内中轴线的条数SUME。
6.种提取表格特征的装置,其特征在于:包括: 预处理模块,用于对表格进行预处理; 特征提取模块,用于从预处理后的表格中提取标识表格类型的图像特征。
7.权利要求6所述的提取表格特征的装置,其特征在于:所述特征提取模块提取的标识表格类型的图像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD和SUME,SUMX表示表格中中轴线条数,SUMA, SUMB, SUMC和SUMD分别表示A、B、C和D四个区域内的中轴线条数,SUME表示矩形区域E内的中轴线条数,其中A、B、C和D四个区域为在表格的宽和高的中点处,将表格分为的2行2列的四个面积相等的区域,矩形区域E与表格有相同的中心,且宽和高均为表格的宽和高的三分之一。
8.权利要求6或7所述的提取表格特征的装置,其特征在于:所述特征提取模块包括: 线段提取单元,用于从预处理后的表格中提取水平线段和垂直线段,且所述线段提取单元具体用于:对表格以水平方向直线线段结构元素在水平方向上腐蚀,然后以膨胀结构元素为模板在垂直方向上进行膨胀,水平方向直线线段结构元素的长度值为表格的宽度的五分之三;对表格以垂直方向直线线段结构元素在垂直方向上腐蚀,然后以所述膨胀结构元素为模板在水平方向上进行一次膨胀,垂直方向直线线段结构元素的长度值为表格的单元格高度的七分之五。
9.权利要求8所述的提取表格特征的装置,其特征在于:所述特征提取模块还包括: 线段合并单元用于合并线段提取模块提取的水平线段和垂直线段,得到表格框架; 取反和细化处理单元,用于对线段合并单元得到的表格框架依次进行取反和细化处理; 特征提取单元,用于从取反和细化处理单元处理后的表格框架中提取标识表格类型的图像特征。
10.权利要求9所述的提取表格特征的装置,其特征在于:所述特征提取单元具体用于: 计算细化后的表格框架中的中轴线条数SUMX ; 计算表格的宽和高,在宽和高的中点处,把表格分成2行2列的四个面积相等的区域:A、B、C和D,并计算A、B、C和D四个局域内的中轴线的条数分别为:SUMA、SUMB、SUMC和SUMD ; 在表格内部选取一个矩形区域E,该矩形区域E和表格有相同的中心,且高和宽为表格的高和宽的三分之一,并计算该矩形区域E内中轴线的条数SUME。
全文摘要
本发明提供的一种提取表格特征的方法及装置。其中方法包括对表格进行预处理;从预处理后的表格中提取标识表格类型的图像特征。装置包括执行上述步骤的预处理模块和特征提取模块。进一步,标识表格类型的图像特征包括SUMX、SUMA、SUMB、SUMC、SUMD和SUME,SUMX表示表格中中轴线条数,SUMA、SUMB、SUMC和SUMD分别表示A、B、C和D四个区域内的中轴线条数,SUME表示矩形区域E内的中轴线条数,其中A、B、C和D四个区域为在表格的宽和高的中点处,将表格分为的2行2列的四个面积相等的区域,矩形区域E与表格有相同的中心,且宽和高均为表格的宽和高的三分之一。采用该方法及装置,可以快速、准确地从表格中提取出标识表格类型的图像特征。
文档编号G06K9/20GK103093227SQ201310013028
公开日2013年5月8日 申请日期2013年1月14日 优先权日2013年1月14日
发明者余建桥, 况远春, 郭加旋, 胡迎春 申请人:西南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1