一种文档图像的配准及特征点选取方法

文档序号:6610240阅读:576来源:国知局
专利名称:一种文档图像的配准及特征点选取方法
技术领域
本发明涉及图像处理学科技术领域,特别是一种文档图像的配准及 特征点选取方法。
背景技术
文档图像是纸质文档的数字图像形式,也是将纸质文档纳入计算机 管理的重要方式。文档图像处理其目标往往在于为处理文档中所包含的 内容提供图像处理支持,是办公自动化技术的重要组成部分,如,从文 档图像中提取文字图像并提交给文字识别技术以实现文字信息的识别 等。文档图像配准是文档图像处理中一项重要的内容。图像配准是指对 一幅图像进行一定的几何变换而映射到另一幅图像中,使得两幅图像中 的相关点达到空间上的一致。这两幅图像一般分别被称为配准图像和参 考图像,而对应的几何变换为配准变换。这些几何变换对应于两幅图像 采集过程中在旋转、位移、尺度缩放、甚至变形等方面的差异。对于文 档图像配准而言,图像的相关点就是指两幅图像间重复的内容图像元 素,其目标就在于找到一种几何变换能将一幅图像映射到另一幅图像 上,使得两幅图像中重复的文档内容图像元素能够准确吻合。其最主要 的用途在于发现或提取两幅文档图像之间的内容差别,将填写了内容的 文档图像与未填写内容的文档图像进行配准,即可将填写的内容提取出 来。这在一些数据报表、档案信息表、调查问巻、票据表单、考试答巻 等文档图像的处理中广泛使用。
通常,文档图像的配准主要有以下几种方法-
1)模板匹配方法从文档图像中抽取部分图像内容构成模板,通 过分析模板之间的匹配关系,获得文档图像的配准变换参数。这种方法 适合于位移变换的获取,对于存在旋转变换的情况则往往需要结合图像 倾斜检测的方法共同完成配准变换的获取。这种方法由于需要进行图像 像素匹配,效率不高,且对于存在缩放和变形的图像也不适用。
2)点映射方法分别在两幅图像中各找一些点作为配准特征点, 通过确定点之间的匹配关系计算配准变换参数。但如果配准特征点选取 不恰当或点集间匹配关系计算不合理,则对配准方法的准确性和可靠性 影响较大。在一些实际应用中,为了提高配准的可靠性和效率,往往在 文档中预先印制设定一些特殊的定位标志,如十字架、方块等,专门用 于帮助确定配准变换。这在信息填涂卡中尤为常见。但是,这种方式只 能针对特定文档,对于很多文档而言,并不会提供这些定位标志,使得 配准方法不能通用。

发明内容
为了解决现有技术的问题,本发明的目的是采用自动的方式寻找合 适的特征点,同时确保能正确计算配准变换,能胜任不同类型和情况文 档图像的配准,并且在效率和鲁棒性上表现良好,为此本发明提出一种 鲁棒的具有良好推广性能的文档图像配准方法,具体而言,涉及一种采 用扫描仪或照相机获取的文档图像的配准及特征点选取方法,是包含表 格表单、试巻等类型文档的关键处理技术。
为了实现所述的目的,本发明的第一方面是提供一种文档图像配准 方法,采用自动方式从文档图像中选取配准特征点,并以配准特征点的 匹配关系为基础计算图像配准变换,其包括以下步骤
步骤Sl:对参考图像和配准图像进行图像配准特征点选取操作;
步骤S2:基于参考图像与配准图像间配准特征点匹配关系,计算图 像配准变换。
1) 提出了一种基于文档轮廓的配准特征点选取方法。该方法以文 档的轮廓点作为候选点,采用自动的方式从中挑选出部分点作为配准特 征点。配准变换的计算将基于这些特征点之间的匹配关系进行。
2) 提出了一种基于射影不变量和轮廓形状匹配的文档图像配准计 算方法。以轮廓匹配作为文档图像配准的优化目标函数,同时以射影不 变量筛选特征点组成的点集来减少配准变换参数的搜索空间。
为了实现所述的目的,本发明的第二方面是提供一种文档图像配准特征点选取方法,包括以下步骤
SU:对文档图像连通域分析与过滤,获得字符的位置与尺寸信息; S12:对文档图像轮廓点扫描与计算,获取轮廓点信息; S13:选取文档图像配准特征点。
根据本发明的实施例,在步骤S2中,所述基于配准特征点计算图 像配准变换,包括以下步骤
S21:对配准特征点点集进行组合与过滤,生成参考图像和配准图 像的有效点集组合;
S22:对配准特征点点集的射影不变量进行计算,生成参考图像和
配准图像的配准特征点点集射影不变量值;
S23:将参考图像和配准图像的配准特征点集两两组合成点集对,
计算点集对内射影变换误差,筛选生成候选点集对;
S24:对候选特征点集对的点进行配准并计算射影变换,生成候选 配准变换;
S25:对候选配准变换进行轮廓匹配计算,选取最优配准变换。 根据本发明的实施例,在步骤S13中所述配准特征点的选取是以文 档图像轮廓点为候选点;选取特征点的指导准则是,能在特征点集中找 到其它特征点构成凸多边形,且相互间相对于中心点尽可能散布开来。 根据本发明的实施例,在步骤S21所述的特征点点集组合中,若采 用交比射影不变量,则以五个点构成一个点集;在特征点点集过滤中, 以射影不变量的稳定性为优化目标,将对稳定性有负面影响的点集过滤 掉,则要求点集构成凸多边形,且点集内任意三点不能构成或接近构成 三点共线。
根据本发明的实施例,在步骤S23所述的候选特征点点集对是从特 征点点集对中筛选而来,特征点集对由参考图像和配准图像的点集组合
而成,筛选依据为点集对内两点集对应的射影不变量误差,最小的若干 个点集对被选为候选特征点集对。
根据本发明的实施例,在步骤S24所述的候选配准变换是由候选特 征点集对内点的一一匹配对应关系计算而来。
根据本发明的实施例,在步骤S25中,所述从候选配准变换中选取最优配准变换的优化目标是满足轮廓匹配最优。
本发明的优越性和特点在于能够自动选取配准特征点,从而避免 了手工选取或预先设置配准标志所带来的额外工作,提高配准方法的易 用性和通用性。以文档轮廓匹配作为最终配准目标函数具有较高的鲁棒 性,采用射影不变量属性对特征点集匹配进行初判断能极大减小配准变 换搜索空间,因此,本发明提出的基于射影不变量和轮廓匹配的配准方 法很好地兼顾了配准速度和鲁棒性两方面的性能。
本发明的原理在于图像配准归根结底是要找到一个几何变换,能 使两幅图像上对应的点通过变换后能够达到空间上的一致,或者说能够 准确吻合。因此,若能找到图像上某些对应点之间的几何变换关系,也 就得到了整幅图像配准所对应的几何变换。那么正确寻找到具有对应关 系的点是这种配准方法的关键。同时,最恰当的点对还要求能够满足计 算出最准确的配准变换的要求,因此,噪声或其他因素对点坐标精度的 影响都是需要考虑的问题。通过扫描仪和照相机获取文档图像是文档图 像获取的两个基本途径,从文档到数字图像本质上是一个满足射影几何 变换的过程,往往发生了旋转、位移、縮放、剪切等变换。因此,文档 图像之间的配准变换也就属于射影变换。基于射影几何的理论,某些几 何属性能够在射影变换中保持不变,这些属性被称为射影不变量。若发 现两幅图像上存在具有相同射影不变量的点集对,并能够为该点集对各 点之间建立一一匹配对应关系,则可确定两点集对之间存在一个射影变 换,从而可以用来计算配准变换。但是,仅基于射影不变量并不能正确 唯一地确定点集对之间的匹配对应关系。在两图像间, 一些不正确匹配 的点集对之间也可能满足射影不变量相等的条件,这些点集对对应的是 合法的但同时又是错误的配准变换。其本质原因在于,基于点集对之间 的射影关系进行配准,仍然是一个基于局部信息进行全局配准的问题, 满足局部配准并不能够必然满足全局配准要求。由于文档图像以文字内 容为主,文档图像的轮廓清晰稳定,是描述文档空间信息的有效全局信 息。文档图像轮廓间的匹配能够唯一准确确定文档图像之间的全局配准 关系。以轮廓点代表文档图像轮廓,如果某变换能够使两幅图像的轮廓 点能够一一匹配,则表明该变换是满足文档图像全局配准的变换。然而,
轮廓点数目较多,整个配准变换参数的搜索空间非常庞大,采用穷举搜 索的方式效率过低,缺乏可用性。因此,本发明基于尽可能保留射影不 变量稳定性较高的点的准则,首先从图像轮廓点中选取部分射影不变量 稳定性能较好的点作为特征点。然后,利用射影不变量属性,在这些较 少的点集之间寻找满足合法射影变换条件的点集对,并将相应的变换作 为候选配准变换。这大大縮小了变换参数的搜索空间。最后,以这些变 换分别对配准文档图像的轮廓点进行几何变换,并以轮廓匹配函数作为 目标函数,找出最优匹配的配准变换作为最终配准变换。所得到的配准 变换也是能够唯一准确地确定文档图像配准所需变换。


图1是本发明所述文档图像配准方法的处理流程图
图2是本发明所述文档图像配准特征点选取方法的处理流程图 图3是本发明所述文档图像配准变换计算方法的处理流程图 图4是文档图像填写内容抽取实施例的处理流程图
具体实施例方式
以下介绍本发明的优选实施例,该部分仅仅是对本发明的举例说 明,而非对本发明及其应用或用途的限制。根据本发明得出的其它实施 方式,也同样属于本发明的技术创新范围。方案中有关参数的设定也并 不表明只有举例值可以使用。
实施例
该实施例子以文档图像填写内容抽取为例,描述文档图像配准方法 在其中的实施方法。在文档图像填写内容的抽取中,首先通过图像配准
方法将配准图像与参考图像进行配准,然后比较配准图像与参考图像的 差异,不同之处即为用户填写的内容,可将其抽取出来做进一步的处理。 参考图像指用户未填写内容的文档,印有指导用户填写内容的表格或说 明文字等。配准图像为用户填写了内容的文档图像,即除了和参考图像 中相同的预先印制的内容外还有用户填写的内容。本实施例说明中,参 考图像和配准图像均以二值图像为例,若原始图像为彩色或灰度图像,
均需要先转化为二值图像再做进一步处理。
图l是本发明所述文档图像配准方法的处理流程图。其中,文档图 像配准特征点选取方法(步骤S1)和文档图像配准变换计算方法(步骤
S2)的处理流程图分别如图2和图3所示。文档图像填写内容抽取的实 施例流程如图4所示,在文档图像配准方法后面新增加了填写内容抽取
步骤S3。具体实施包括以下步骤 步骤S1:配准特征点选取
以文档图像轮廓作为文档图像配准特征,用轮廓点来表示文档图像 轮廓。那么第一步就是获取图像的轮廓。文档图像区别于普通图像的特 点就在于其主要内容由文字行或文字列组成。因此,文档图像的轮廓是 由文字行(列)的两端字符的外轮廓构成。左轮廓由文字行最左的字符 构成,右轮廓由文字行最右的字符构成,上轮廓由顶端的文字行构成, 下轮廓由底部的文字行构成,或者也可理解为上轮廓由文字列最上的字 符构成,下轮廓由文字列最下的字符构成。考虑到轮廓形状的平滑性, 一般对于每行(列)对应的轮廓用一个点表示,取最外围字符的边框中 点来代表该行(列)的轮廓点,将这些点逐点相连即构成了文档图像的 轮廓。而字符的位置和尺寸信息可通过连通域分析获取。
配准特征点的选取是对文档图像连通域分析与过滤,获得字符的位
置与尺寸信息;对文档图像轮廓点扫描与计算,获取轮廓点信息;选取 文档图像配准特征点;具体流程包括以下几步 Sll: 连通域分析与过滤
对文档图像进行连通域分析,并滤除噪声或其它不适合文档图像轮 廓分析的连通域。尺寸过小的连通域往往是噪声,过大的连通域则不适 合于文档图像的轮廓分析,都将被剔除。在图像扫描中经常出现的黑边
也需要被剔除。本实施例中,以300dpi扫描分辨率的图像为例,尺寸 小于8或大于100的连通域均被滤除,长宽比大于10或小于0. 1的连 通域被视为线条元素而滤除,紧贴图像最外边框的黑色条状连通域被视 为扫描黑边也被滤除。
S12:轮廓点扫描与计算
对图像进行逐行或列扫描,行或列端点所在的连通域为轮廓连通
域,轮廓点由连通域位置和尺寸信息生成,可取连通域的相对于行或列 的外框中点作为轮廓点。参考图像的轮廓点集用C,.、,表示,配准图像 的轮廓点集用C,,表示。 S13:配准特征点选取
配准特征点的选取也以这些轮廓点为候选点。为满足筛选的指导原 则一一尽可能将构成点集后射影不变量稳定性最好的点保留下来,选取 特征点的指导准则是,能在特征点集中找到其它特征点构成凸多边形, 且相互间相对于中心点尽可能散布开来。本实施例采取这样的处理办 法从文档图像四个顶角方向上和各边中点附近各选取3个点,若没有 缺失,则最多共有24个点。然后,对这些点进行检査,若无法找到其 它特征点构成凸多边形,或者构成凸多边形的点中有三点接近共线则从 候选特征点集中剔除。三点接近共线的衡量标准在本实施例中为三点 组成的三角形最小内角小于10度。
步骤S2:图像配准变换计算
基于射影不变量和轮廓匹配的文档图像配准变换计算方法。通过寻 找特征点之间最优匹配关系,得到图像配准变换。通过特征点选取方法, 在参考图像和配准图像上均选取了一定数目的配准特征点后,将从这些 特征点中寻找匹配点对,进行图像配准变换计算。以轮廓匹配作为文档 图像配准的优化目标函数,同时以射影不变量筛选特征点组成的点集对
来减少配准变换参数的搜索空间。其中交比(cross-ratio)是最具推 广性和稳定的射影不变量, 一般可以选用交比作为射影不变量。图像配 准变换计算方法按照以下步骤实现 S21:特征点点集组合与过滤;
对配准特征点点集进行组合与过滤,生成参考图像和配准图像的有 效点集组合;从两图像特征点中构建点集组合,以射影不变量的稳定性
为优化目标,将对稳定性有负面影响的点集过滤掉。选用交比射影不变 量,点集由五点组成,各点集要求能够构建凸多边形,不满足凸多边形 条件的将被剔除。若点集内存在三点构成或者接近构成三点共线情况的 点集也被剔除。最后分别得到参考图像和配准图像的有效点集组合。令
S(p)表示参考屈像中的第p个点集,S^)表示配准图像中的第q个点集。
S22:特征点点集射影不变量计算;
对配准特征点点集的射影不变量进行计算,生成参考图像和配准图 像的配准特征点点集射影不变量值;计算各点集内的交比射影不变量, 交比值由五点确定,可以用式(1)来表示,
<formula>formula see original document page 11</formula> ~~ (1)
力C网
其中,|^)| = 5><^,即以E点为参考点的两向量外积,lscl,hcl,lsz)l
计算方法类似。
在式(1)中第五点E为参考点,在点集内不同的参考点得到的交 比值是不同的,在五点点集中轮流取一点作为交比计算中的第五点,共 计算得到五个交比值。由于相对于第五点,其它四点的顺序不同对交比 计算也是有影响的,而这种顺序最多产生24种组合,根据交比性质, 其最多可以产生6个不同的值,因此,可以采用这6个值的代数最小值 作为射影不变量值,其用式(2)来表示<formula>formula see original document page 11</formula>
(2)
更换参考点,依次可计算得到其他几个不变量值,则点集对应的5
个不变量值,如表达式(3)所示 〃2 = v(爿,5,C,五D)<formula>formula see original document page 11</formula>(3)
S23:候选特征点点集对筛选;
将参考图像和配准图像的配准特征点集两两组合成点集对,计算点 集对内射影变换误差,筛选生成候选点集对;候选特征点点集对是从特 征点点集对中筛选而来,特征点集对由参考图像和配准图像的点集组合
而成,筛选依据为点集对内两点集对应的射影不变量误差,最小的若干 个点集对被选为候选特征点集对。将两图像的点集两两组合成点集对, 计算各点集对之间射影不变量误差,取出误差最小的或低于一定阈值的 -若干个点集对作为候选点集对。本实施例取误差最小的前10%数目的点
集对作为候选点集对。为了保证各点之间的最佳匹配,还需要遍历对点 集对内点的两两匹配关系,计算最小误差的匹配为最佳匹配,并以该匹 配下计算出的误差为点集对的射影变换误差。
点集对内点的两两匹配搜索空间可用式(4)表示,尸/代表排列运
算,为点集内点的不重复匹配关系总数,在第i个匹配关系表示中,参 考图像点集的j点对应配准图像点集的—o.)点。
<formula>formula see original document page 12</formula>(4)
令Z和^分别代表参考图像和配准图像中的点集对应射影不变量 叫点集对的射影变换误差的计算过程可以用式(5)表示
值,
<formula>formula see original document page 12</formula>
(5)
S24:候选配准变换计算;
对候选特征点集对的点进行配准并计算射影变换,生成候选配准变 换;根据候选点集对内点的两两匹配关系,计算其对应的射影变换,作 为候选配准变换。匹配的点集对内点的两两对应匹配关系用式(6)表 示,射影变换计算过程用式(7)表示,V代表配准图像上点集各点坐标, v代表参考图像上点集各点坐标,如式(8)所示。G表示射影变换,由 射影变换矩阵和坐标位移向量构成,M代表对应的射影变换矩阵,T代 表坐标位移向量。
<formula>formula see original document page 12</formula>(6)
<formula>formula see original document page 12</formula>(8)
S25:候选配准变换轮廓匹配计算,选取最优配准变换; 从候选配准变换中选取最优配准变换的优化目标是满足轮廓匹配 最优。最优配准变换的选取是以轮廓匹配为优化目标函数,寻找最优配 准变换的过程如式(9)所示。将所有候选配准变换对配准图像的轮廓 点进行变换操作,形成新的轮廓点集C,^,,并分别与参考图像的的轮
廓点集进行匹配,轮廓匹配程度最优的变换作为最终配准变换G'。
<formula>formula see original document page 13</formula> (9)
轮廓匹配基于轮廓点集之间的匹配,本实施例中采用Hausdorff距 离来衡量两图像轮廓点集之间的匹配度,其过程用式(10)表示
<formula>formula see original document page 13</formula> (10)
步骤S3:文档图像填写内容抽取
根据获得的最终配准变换,对配准图像进行几何变换操作,得到配 准后图像,与参考图像进行图像减操作,删除与参考图像重复的预先印 制的内容,即获得文档中用户填写的内容。
以上所述,仅为本发明中的具体实施方式
,但本发明的保护范围并 不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理 解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发 明的保护范围应该以权利要求书的保护范围为准。
权利要求
1. 一种文档图像配准方法,其特征为采用自动方式从文档图像中选取配准特征点,并以配准特征点的匹配关系为基础计算图像配准变换,其包括以下步骤步骤S1对参考图像和配准图像进行图像配准特征点选取操作;步骤S2基于参考图像与配准图像间配准特征点匹配关系,计算图像配准变换。
2. —种文档图像配准特征点选取方法,包括以下步骤Sll:对文档图像连通域分析与过滤,获得字符的位置与尺寸信息; S12:对文档图像轮廓点扫描与计算,获取轮廓点信息; S13:选取文档图像配准特征点。
3. 如权利l所述的文档图像配准方法,其特征为,在步骤S2中, 所述基于配准特征点计算图像配准变换,包括以下步骤S21:对配准特征点点集进行组合与过滤,生成参考图像和配准图 像的有效点集组合;S22:对配准特征点点集的射影不变量进行计算,生成参考图像和配准图像的配准特征点点集射影不变量值;S23:将参考图像和配准图像的配准特征点集两两组合成点集对, 计算点集对内射影变换误差,筛选生成候选点集对;S24:对候选特征点集对的点进行配准并计算射影变换,生成候选 配准变换;S25:对候选配准变换进行轮廓匹配计算,选取最优配准变换。
4. 如权利2所述的文档图像配准特征点选取方法,其特征为在 步骤S13中配准特征点的选取是以文档图像轮廓点为候选点;选取特征 点的指导准则是,能在特征点集中找到其它特征点构成凸多边形,且相 互间相对于中心点尽可能散布开来。
5. 如权利要求1和3所述的文档图像配准方法,其特征为在步 骤S21的特征点点集组合中,若采用交比射影不变量,则以五个点构成一个点集;在特征点点集过滤中,以射影不变量的稳定性为优化目标, 将对稳定性有负面影响的点集过滤掉,则要求点集构成凸多边形,且点 集内任意三点不能构成或接近构成三点共线。
6. 如权利要求3所述的文档图像配准方法,其特征为在步骤S23 的候选特征点点集对是从特征点点集对中筛选而来,特征点集对由参考 图像和配准图像的点集组合而成,筛选依据为点集对内两点集对应的射 影不变量误差,最小的若干个点集对被选为候选特征点集对。
7. 如权利要求3所述的文档图像配准方法,其特征为在步骤S24的候选配准变换是由候选特征点集对内点的一一匹配对应关系计算而来。
8. 如权利要求3所述的文档图像配准方法,其特征为在步骤S25中,从候选配准变换中选取最优配准变换的优化目标是满足轮廓匹配最 优。
全文摘要
本发明涉及图像处理学科技术领域,特别是一种通用型文档图像的配准及特征点选取方法。该方法以图像轮廓作为文档图像配准特征,并以轮廓点表示文档图像轮廓。方法过程为首先,以文档图像轮廓点为候选点,通过特征点选择方法分别在参考图像和配准图像中自动选取若干点作为图像配准特征点;然后,以射影变换不变量作为相似度量,在特征点集中寻找若干个候选的匹配点集对,并计算出点集对对应的几何变换作为候选配准变换;最后,以轮廓匹配度为度量,从候选配准变换中寻找最优匹配的变换,作为最终配准变换,对文档图像进行配准。该方法能胜任不同类型文档图像的配准,并且在效率和鲁棒性上表现良好。
文档编号G06T3/00GK101377847SQ200710121080
公开日2009年3月4日 申请日期2007年8月29日 优先权日2007年8月29日
发明者戴汝为, 朱远平, 王春恒, 肖柏华 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1