文档图像分割系统的制作方法

文档序号:6603874阅读:183来源:国知局
专利名称:文档图像分割系统的制作方法
技术领域
本发明涉及计算机图像技术领域。特别地,本发明涉及文档图像的分割。定义在说明书中,下面的术语具有旁边给出的下述定义。这些是对本领域给出的通常 定义的附加定义。颜色量化-颜色量化是指当保持图像的整体外观的同时,减少该图像中的颜色值 的数量的过程。灰度图像_灰度图像是指颜色通过各种色度的灰来表示的图像。水平能量-水平能量是指在水平方向上的同现向量(cooccurrencevector)的平 方总禾口。垂直能量_垂直能量是指在垂直方向上的同现向量的平方总和。二值化-二值化是指通过阈值化前景和背景像素,将灰度图像转换成仅仅具有两 种颜色即黑色和白色(二值化图像)的图像的过程。色调、饱和度和纯度(HSV)颜色空间-HSV颜色空间将颜色描述成圆柱体内的点, 其中心轴范围从底部的黑色至顶部的白色,它们之间为中间色。绕着轴的角度对应于颜色 的“色调”分量,离开这写轴的距离对应于颜色的“饱和度”分量,以及沿着这些轴的距离对 应于颜色的“亮度”、“纯度(value) ”、或者“明度”分量。色调,饱和度和纯度颜色空间转换-色调,饱和度以及纯度颜色空间转换是指将 图像转换成三个图像的转换,每一个图像包含仅仅一个颜色分量,即色调分量、或饱和度分 量、或纯度分量。高宽比-图像的高宽比是指图像的宽度和其高度的比率。加粗的和连接的图像_加粗的和连接的图像是指在前景像素的边界上具有额外 像素的图像,从而将邻近的前景像素彼此连接。
背景技术
文档图像通常由一些段组成,像文本形式的段以及图片形式(图像)的段。先前的 研究主要集中于通过阈值化灰度图像,使用光学字符识别OCR从文档图像中提取文本段, 因为文本经常被假定为在白色背景上以黑色印刷。OCR是研究模式识别、人工智能和机器图像的领域。尽管这个领域的学术研究在继 续进行,OCR的关注焦点已经转移到了检验技术(proventechniques)的实现。已有的系统所面临的问题是根据一些均一性标准,将图像分割为多个区域(图像 段),其中主要的问题出现在从图像(半色调)识别出文本区域上,将它们两者从白色背景 上提取出来相对容易一些。US6, 473, 522B1公开了一种用于图像中文本分割的方法,其中该图像是静止的或 者是运动的,例如视频或网页。该方法包括接收包括文本和背景的数字图像,该接收的图像被量化以减少颜色的数量以及仅仅用某一些颜色来定义图像,文本颜色直方图从该文本以 及背景的一些部分而获得。该文献没有提供任何图像分割的方法。1999 年 8 月 3 号公布,标题为 “Method for segmentation of digitalcolour images”的美国专利US5933524公开了一种方法,其中用数字化的彩色直方图表示彩色对 象,该直方图用于数字彩色图像的分割。彩色直方图的二进制值决定像素是否属于给定的 对象段。类似的,2001年1月9号公布,标题为“Image Segmentation”的美国专利 US6173077公开了一种分割装置,用于根据预定的标准,将图像像素指派到区域。对于上述两个专利里实现的分割方法,从复杂的彩色图像(例如,⑶封套,广告 等)里提取嵌入式文本或图像变得非常困难,该彩色图像经常使用花式字形、不同的语言、 不均勻的文本大小以及不同的方向。因此,需要有一种文档图像分割系统适于·对于任意类型的复杂彩色图像进行图像分割;·捕获在文档图像里示出的所有重要的区域和组;·从任意复杂的彩色图像里提取文本,其中文本可以是统一的或者具有均勻的文 本大小,例如花式字形、书法风格或具有不同的方向;·提取出现在图像中的不同图像部分;以及 有效地找到图像段。

发明内容
本发明的目的在于提供一种文档图像分割系统,其能够对任意类型的复杂的彩色 图像执行图像分割。本发明的另一个目的在于提供一种文档图像分割系统,其能够捕获在文档图像里 示出的所有重要的区域和组,不考虑它们的内容,例如文本、图形或图像。本发明的另一个目的在于提供一种文档图像分割系统,其能够从复杂的彩色图像 里识别出文本段,该彩色图像包括具有花式字形、书法风格或具有不同方向的图形和文本。本发明的另一个目的在于提供一种能够进行图像匹配的文档图像分割系统。本发明的再一个目的在于提供一种能够有效地找到图像段文档图像分割系统。本发明提供了一种文档图像分割系统,能够从任意复杂的彩色图像中识别一个或 多个公司标志、产品标记和商标,并将它们和数据库中的标志、产品标记和商标进行匹配, 其中该标志、产品标记和商标可以包括图形和文本,有统一的字形,不均勻的字形,书法风 格以及在不同的方向上。本发明设想了一种用于文档图像分割的系统以形成不同的图像段,该系统包括·输入装置,适于输入文档图像;·图像预处理装置,适于通过保持高宽比来预处理文档图像,所述预处理装置包括 颜色量化装置来提供预处理后的量化图像;·颜色空间转换装置,适于接收预处理后的量化图像并且为所述量化图像提供色 调、饱和度和纯度颜色空间转换,以获得仅仅包括量化后图像的饱和度分量的转换图像; 第一图像能量计算装置,适于接收该转换后的图像并且计算所述转换图像的水平和垂直能量,以通过累积两种计算出的转换图像的能量来提供第一能量图像;·灰度图像转换装置,适于接收该预处理后的量化图像,并且对所述量化图像执行 灰度转换操作,以提供灰度图像;·第二图像能量计算装置,适于接收所述灰度图像并且计算所述灰度图像的水平 和垂直能量,以通过累积两种计算出的灰度图像的能量来提供第二能量图像;·计算装置,适于接收第一能量图像和第二能量图像以计算两种能量的最大值并 且提供最大能量图像;· 二值化装置,适于接收所述最大能量图像并且提供二值化的黑白图像;·扩张装置,适于接收所述二值化的图像并且执行扩张操作以提供扩张的图像;·簇集装置(clustering means),适于接收所述扩张的图像并且基于扩张区域的 密度来制订不同的簇(clusters),并且提供簇集的图像;以及·框产生装置,适于产生包围簇集的图像里的每一个簇的边界框,以形成具有图像 段的文档图像。该系统也包括分析单元,用于利用公司标志、产品标记和商标来分析文档图像,该 分析单元包括·数据库,包含标志、产品标记和商标的图像以及多个公司的公司和产品信息;·索引装置,适于索引存储在标志数据库中的标志、产品标记和商标的图像;·接收装置,适于接收文档的不同的图像段以分析文档;·匹配装置,适于将不同的图像段和存储在数据库中的标志、产品标记和商标的图 像进行匹配,以提供匹配图像段;·提取装置,适于接收该匹配图像段并且提取对应于每一个匹配图像段的公司和 产品信息;以及·和匹配装置共同运作的附加装置,适于将包含新标志、产品标记和商标的非匹配 图像段以及公司或产品的相关信息附加到数据库中。典型地,量化图像的每一个像素由四位表示。典型地,图像预处理装置还包括噪音消除装置。典型地,扩张装置适用于在黑色像素的边界上增加像素,从而提供加粗的和连接 的图像。典型地,为了计算累积能量,使用均方根即(x2+y2)"2或者几何平均数即O^y)1气 其中‘X’和 是纯粹的水平和垂直能量或和像素相邻的熵。典型地,簇集装置使用DBSCAN技术来计算簇。按照本发明的另一方面,提供了一种用于文档图像分割的方法,方法包括以下步 骤 输入文档图像;·通过保持高宽比以及执行颜色量化预处理该文档图像以提供量化图像;·为该量化图像提供色调、饱和度和纯度颜色空间转换;·获得仅仅包括量化后图像的饱和度分量的转换图像;·计算该转换图像的水平和垂直能量以及累积两种计算出的能量;·提供第一能量图像;
·将量化图像转换为灰度图像;·计算该灰度图像的水平和垂直能量,以及累积两种计算出的能量;·提供第二能量图像;·计算两种能量图像的最大能量;·提供最大能量图像· 二值化最大能量图像; 扩张该二值化的图像;·基于扩张区域的密度来制订不同的簇;以及·产生包围簇集的图像里的每一个簇的边界框;以及·形成具有图像段的文档图像。同样的,在计算不同的簇以及形成图像段的步骤之后,通过执行以下的步骤来执 行文档图像分析 提供数据库,该数据库包含标志、产品标记和商标的图像以及多个公司的公司和
产品信息;·索引存储在数据库中的标志、产品标记和商标的图像;·接收文档的不同的图像段;·将不同的图像段和存储在数据库中的标志、产品标记和商标的索引图像进行匹 配,并且提供匹配图像段;·从匹配图像段的数据库中提取公司和产品信息;以及·将包含新标志,产品标记或商标的非匹配图像段以及公司或产品的相关信息附 加到数据库中。典型地,预处理步骤还包括噪音消除步骤。典型地,簇集步骤使用DBSCAN技术来计算簇。


现在参考附图来描述本发明,其中图1示出了根据本发明的用于文档图像分割的系统的框图。图2示出了根据本发明的分析单元的框图。图3示出了根据本发明的用于文档图像分割的方法的流程图。图4示出了根据本发明的文档图像分析的步骤的流程图。
具体实施例方式附图和说明仅仅是说明性的文档图像分割系统,是发明的例示,并且决不限制其 范围。根据本发明的优选实施例,提供了一种文档图像分割系统。通过在文档图像里形 成不同的簇以及用框将这些簇框起来,获得图像段。这些簇是图像里示出的对象的基本组, 它们有一点类似。图1示出了用标记100表示的文档图像分割系统,其获得从输入装置102输入的 文档,并且将它发送给图像预处理装置104,图像预处理装置104适于通过保持高宽比预处
7理输入图像,系统包括颜色量化装置104A来执行颜色量化以提供量化的4位图像。执行量 化以减少图像的颜色,同时保持图像的外观。现在量化图像被提供给颜色空间转换装置106,其对于量化图像执行色调、饱和度 和纯度颜色空间转换,也就是说得出三个图像,第一图像仅仅示出图像颜色的色调分量,第 二图像仅仅示出图像颜色的饱和度分量,以及第三图像示出图像颜色的纯度分量。仅仅从 中选出具有饱和度分量的图像并发送给第一图像能量计算装置108,其计算转换后图像的 水平和垂直能量并且累积两种计算出的能量以提供第一能量图像。量化图像也被提供给灰度图像转换装置110,其对量化图像执行灰度转换操作。灰度图像被提供给第二能量计算装置112,其计算灰度图像的水平和垂直能量并 且累积两种计算出的能量以提供第二能量图像。为了计算累积能量,我们使用均方根即(x2+y2)"2或者几何平均数即(x*y)"2,其中 ‘χ’和 是纯粹的水平和垂直能量或熵。进一步地,使用计算装置114,来计算第一能量图像和第二能量图像的最大值,该 计算装置提供最大能量图像,例如最大能量图像可以是第一能量图像和第二能量图像的最 大值,并且因此在每一个点,两个图像中更高的累积能量被选择。最大能量图像被提供给二值化装置116,其首先在范围
里标准化的能量值, 接着提供Otsu的方法以提供二值化的图像(也就是说黑白图像)。该二值化的图像接着 使用2X2结构元,使用扩张装置116来扩张,该扩张装置通过在黑色像素的边界增加像素 来使得二值化图像的黑色区域变粗,并且提供扩张后的图像(加粗的和连接的图像)。该 扩张图像接着被发送给簇集装置118,其使用DBSCAN算法基于扩张区域的密度制订不同的 簇。进一步地,使用框创建装置120来创建边界框,以包围簇集的图像的每一个簇来形成具 有图像段的文档图像。根据图2,示出了本发明的另一方面,根据该方面,图像段一旦形成,接着被发送以 进行进一步的处理,以便基于标志、产品标记和商标能进行文档图像分析,也就是说,对报 纸或杂志广告执行图像分割,接着根据图像上示出的公司标志、商标和产品标记,图像段被 用于分析文档图像。为了分析文档,使用维持数据库202的分析单元200,数据库包括公司标志、商标 和产品标记的图像以及不同公司的公司和产品信息,例如公司名,公司地址,产品名,产品 价格,产品特征以及这样的其他细节,按照本发明特定实施例的需求。数据库202中的标 志、商标和产品标记的图像使用索引装置204被索引。要被匹配的文档图像的图像段通过 接收装置206接收,接着被发送给匹配装置208,匹配装置208使用匹配的PCA-SIFT技术将 不同的图像段和数据库202中存储的标志、产品标记和商标进行匹配,并且提供匹配图像 段给提取装置210,用于从对应于每一个匹配图像段的数据库中提取公司和产品信息。在数 据库没有匹配的情况下,标志被发送给附加装置212,附加装置212将人工地附加通过人工 检查确认的包含新标志、产品标记或商标图像的非匹配图像段以及公司和产品信息。参照图3,提供了一种用于文档图像分割的方法,该方法包括以下步骤 输入文档图像,301;·通过保持高宽比以及执行颜色量化预处理该输入图像以提供量化图像,303 ;·为该量化图像提供色调、饱和度和纯度颜色空间转换,305 ;
·获得仅仅包括量化后图像的饱和度分量的转换图像,307 ;·计算该转换图像的水平和垂直能量,以及累积两种计算出的能量,309 ; 提供第一能量图像,311 ;·将量化图像转换为灰度图像,313 ;·计算该灰度图像的水平和垂直能量以及累积两种计算出的能量,315 ; 提供第二能量图像,317;·计算能量图像的最大能量,319 ; 提供最大能量图像,321 二值化最大能量图像,323 ;·扩张该二值化的图像,325 ;·基于扩张区域的密度来制订不同的簇,327 ;·产生包围簇集的图像里的每一个簇的边界框,329 ;以及·形成具有图像段的文档图像,331。在图像分割之后,图像段被用于文档图像的分析,其使用图4所示的步骤来实现 提供数据库,该数据库包含标志、产品标记和商标的图像以及多个公司的公司和 产品信息,402 ; 索引存储在数据库中的标志。产品标记和商标的图像,404;·接收文档的不同的图像段,406 ;·将不同的图像段和存储在标志数据库中的标志、产品标记和商标的索引图像进 行匹配,并且提供匹配图像段,408 ;·从对应于每一个匹配图像段的数据库中提取公司和产品信息,410 ;以及·将包含新标志、产品标记或商标的非匹配图像段以及公司或产品的信息附加到 数据库中,412。技术进步本发明的技术进步在于提供了一种文档图像分割系统,适于·对于任意类型的复杂彩色图像进行图像分割;·捕获在文档图像里示出的所有重要的区域和组;·识别在文档里示出的一个或多个公司标志、产品标记以及商标,并且使用图像处 理技术将它们和数据库示出的标志,产品标记和商标的图像进行匹配;·识别包括文本或图形的标志、产品标记或商标,其中文本可以是统一的或者具有 不均勻的文本大小,例如花式字形、书法风格或具有不同的方向;以及 有效地找到图像段。尽管相当多的重点放在本发明的特定特征上,应该意识到的是不同的修改可以被 作出,并且在优选实施例里可以作出许多改变,而不背离发明的原则。这些或其他属于发明 或优选实施例的性质的修改对于本领域技术人员来说从这里公开的内容看来是显而易见 的,由此显然可以理解前述的内容仅仅作为发明的示例而不是作为限制来解释。
权利要求
一种用于文档图像分割的系统,所述系统包括·输入装置,适于输入文档图像;·图像预处理装置,适于通过保持高宽比来预处理所述文档图像,所述预处理装置包括颜色量化装置以提供预处理后的量化图像;·颜色空间转换装置,适于接收所述预处理后的量化图像并且为所述量化图像提供色调、饱和度和纯度颜色空间转换,以获得仅仅包括所述量化图像的饱和度分量的转换图像;·第一图像能量计算装置,适于接收所述转换图像并且计算所述转换图像的水平和垂直能量,以通过累积两种计算出的转换图像的能量来提供第一能量图像;·灰度图像转换装置,适于接收所述预处理后的量化图像,并且对所述量化图像执行灰度转换操作,以提供灰度图像;·第二图像能量计算装置,适于接收所述灰度图像并且计算所述灰度图像的水平和垂直能量,以通过累积两种计算出的能量和所述灰度图像来提供第二能量图像;·计算装置,适于接收所述第一能量图像和第二能量图像以计算两种能量的最大值并且提供最大能量图像;·二值化装置,适于接收所述最大能量图像并且提供二值化的图像;·扩张装置,适于接收所述二值化的图像并且执行扩张操作以提供扩张的图像;·簇集装置,适于接收所述扩张的图像并且基于扩张区域的密度来制订不同的簇,并且提供簇集的图像;以及·框产生装置,适于产生包围簇集的图像里的每一个簇的边界框,以形成具有图像段的文档图像。
2.如权利要求1所述的系统,其中所述系统包括文档图像分析单元,所述分析单元包括 数据库,包含标志、产品标记和商标的图像以及多个公司的公司和产品信息; 索引装置,适于索引存储在所述数据库中的标志、产品标记和商标的图像; 接收装置,适于接收文档的不同的图像段以分析文档; 匹配装置,适于将所述不同的图像段和存储在所述数据库中的标志、产品标记和商标 的图像进行匹配,以提供匹配图像段; 提取装置,适于接收所述匹配图像段并且提取对应于每一个匹配图像段的公司和产 品信息;以及 和匹配装置共同运作的附加装置,适于将包含新标志、产品标记和商标的非匹配图像 段以及公司或产品信息附加到数据库中。
3.如权利要求1所述的系统,其中所述量化图像的每一个像素由四位表示。
4.如权利要求1所述的系统,其中所述扩张装置适用于在二值化图像里的黑色像素的 边界上增加像素,从而提供加粗的和连接的图像。
5.如权利要求1所述的系统,其中所述图像预处理装置还包括噪音消除装置。
6.如权利要求1所述的系统,其中所述簇集装置适合于使用DBSCAN技术来计算簇。
7.一种用于文档图像分割的方法,所述方法包括 输入文档图像; 通过保持高宽比以及执行颜色量化来预处理输入图像以提供量化图像; 为所述量化图像提供色调、饱和度和纯度颜色空间转换; 获得仅仅包括量化后图像的饱和度分量的转换图像; 计算所述转换图像的水平和垂直能量,以及累积两种计算出的能量; 提供第一能量图像; 将量化图像转换为灰度图像; 计算所述灰度图像的水平和垂直能量,以及累积两种计算出的能量; 提供第二能量图像; 计算两种能量图像的最大能量; 提供最大能量图像; 二值化所述最大能量图像; 扩张所述二值化的图像; 基于扩张区域的密度来制订不同的簇; 产生包围簇集的图像里的每一个簇的边界框;以及 形成具有图像段的文档图像。
8.如权利要求7所述的方法,进一步包括 提供数据库,所述数据库包含标志、产品标记和商标的图像以及多个公司的公司和产 品信息; 索引存储在所述数据库中的标志、产品标记和商标的图像; 接收文档的不同的图像段; 将所述不同的图像段和存储在所述标志数据库中的标志、产品标记和商标的索引图 像进行匹配,并且提供匹配图像段; 从对应于每一个所述匹配图像段的所述数据库中提取公司和产品信息;以及 将包含新标志、产品标记或商标的非匹配图像段以及公司或产品信息附加到数据库中。
9.如权利要求7所述的方法,其中预处理步骤包括噪音消除的步骤。
10.如权利要求7所述的方法,其中簇集步骤包括使用DBSCAN技术来计算簇的步骤。
全文摘要
公开了一种用于文档图像分割的系统和方法。通过在文档图像里形成不同簇获得图像段。文档图像可能包括公司标志、产品标记或商标的图像。本发明能够对于任意类型的复杂的彩色图像执行图像分割,并且能够识别包括文本或图形的标志,产品标记或商标,其中文本可以是统一的字形或不均匀的字形,例如花式字形、书法风格或具有不同的方向。
文档编号G06K9/32GK101901484SQ20101019512
公开日2010年12月1日 申请日期2010年4月2日 优先权日2009年5月13日
发明者G·希兰梅, J·皮尼特, K·阿布什 申请人:塔塔咨询服务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1