用于文档图像的畸变校正方法和设备的制造方法_4

文档序号：9691237阅读：来源：国知局

伸至左文档边界上的对应延伸交点。延伸可遵循一些特定准则（例如，特定曲线函数）。各网格线的曲线函数基于文本区域网格线的结点以及基准点被确定。例如，存在两种方法来确定该曲线函数。第一方法是样条插值法（例如，自然三次方样条插值），并且另一方法是曲线拟合（例如，多项式拟合）。这里，使用第一方法。
[0202] 接下来，将为延伸网格线添加结点。其准则是所添加的结点数量在不同延伸网格线之间相同，并且所添加的结点的间隔在一个网格线内是相似的。
[0203] 更具体而言，首先，对于文本区域中的要被延伸的每一网格线，在延伸网格线中要被添加的结点数基于延伸网格线的长度以及文本区域网格线的结点间隔被确定。首先，延伸网格线的长度基于如上所述确定的曲线函数被计算。
[0204] 然后，文本区域网格线的结点间隔的统计值通过结点间隔分布被确定。例如，结点间隔的直方图被构建，并且峰值位置处的值被选择。在一种实现中，统计值可以是文本区域网格线的结点间隔的平均值、中值等。
[0205] 接下来，延伸网格线的长度根据文本区域网格线的结点间隔的统计值被划分以得到添加的结点数量。
[0206] 接下来，可基于左侧边界区域中的各个延伸网格线的所有添加的结点数量的统计值来确定左侧边界区域中的所有延伸网格线的均匀添加结点数量。统计值可例如为各个网格线的所有添加的结点数量的平均值、最大值或最小值。均匀的结点数量可根据被添加的结点数量的统计值以多种方式被获得。例如，均匀结点数量可通过对该统计值进行取整而获得。
[0207] 接下来，可基于各延伸网格线的均匀添加结点数量来确定添加结点的位置。在一种实现中，延伸网格线被划分成具有相同长度的片段，片段数量等于该均匀添加结点数量 + 1 〇
[0208] 左边界区域中的被添加了结点的延伸网格线如图13中所示。
[0209] 然后，相邻网格线上的被添加的结点被相应地连接以生成左侧边界区域的延伸网格。然后，包含文本区域网格和该延伸网格的第一网格可被获得，并且作为用于获得包括右侧边界区域的延伸网格的下一网格的基础，如图14Α所示。
[0210] 右侧边界区域的延伸网格可被以与上文所述的获得左侧边界区域的延伸网格的方式类似的方式获得，然后，包含文本区域网格和该左侧边界区域的延伸网格以及右侧边界区域的延伸网格的第二网格可被获得，如图14Β所示。
[0211] 然后，类似的，上部边界区域的延伸网格以及下部边界区域的延伸网格可被相继获得，并且整个文档图像的网格将最终被确定，如图14C和14D所示。
[0212] 应指出，在图14C的情况中，用于确定文档图像的上边界上的基准延伸交点的基准网格线将为左侧边界区域和右侧边界区域中的新确定的网格线（几乎与文档图像的边界相同），然后基准延伸交点将被简单地确定为文档图像的对应的边界拐点，而不需要执行步骤S801中的处理。图14D的情况类似于对于图14C描述的情况。
[0213] 下文，将描述图像网格形成的另一示例，然后，该示例与前一示例的不同之处在于水平方向上的两个延伸过程和垂直方向上的两个延伸过程将被依次执行，而不是交错地执行。
[0214] 因此，四个文档边界区域被分别处理，并且包含8个序列（例如左_>右_>上_> 下、右_>左_>下_>上、上_>下_>左_>右等等）。延伸顺序可如上所述根据文档边界与文本区域网格边界之间的距离确定。下文，将按左_>右_>上_>下的顺序来描述延伸处理以便有助于其透彻理解。
[0215] 左、右、上、下延伸中的每一个将被以与前一示例中的方式类似的方式执行，并且延伸将被简要描述。
[0216] 基于文本区域的网格的左侧延伸如图15A中所示。
[0217] 基于文本区域的网格的右侧延伸如图15B中所示。
[0218] 然后，左延伸网格和右延伸网格与文本区域网格相组合以便获得水平延伸的网格，如图15C中所示。
[0219] 基于水平延伸的网格的上部延伸如图15D中所示。
[0220] 然后，上部延伸网格和下部延伸网格与文本区域网格相组合以便获得垂直延伸的网格，如图15F中所示。
[0221] 下文将描述畸变校正步骤（S400)中的处理。在一种实现中，当畸变信息被以网格形式获得时，畸变校正将是针对扭曲网格的每个栅格进行的，产生变换映射图，并且使用双线性插值将畸变图像中的每个点映射至去扭曲图像。
[0222] 对于扭曲网格的每个栅格，将产生变换映射图，该变换映射图可将畸变图像中的每个点映射至去扭曲图像。例如，通过参照边界插值技术，可根据获得的扭曲网格构建从输入的畸变文档图像到校正后的图像的图像映射。在获得变换映射图之后，通过对原始文档区域中的像素进行双线性插值来生成校正后图像。由此，文档图像的畸变校正可通过这样的映射被实现，如图16所示。
[0223] 应指出，对于校正步骤的描述仅仅是示例性的，并且在关于文档图像的畸变的信息被以任何其它方式表示的情况下，根据本发明的第一实施例的方法的校正步骤可被以与文中描述的方式不同的方式来实现。
[0224] 现在将参照图17描述文档图像的畸变校正设备，图17是根据第一实施例的畸变校正设备的框图。
[0225] 畸变校正设备1700可包括边界检测单元1701，被配置用于检测文档图像的边界；文本区域畸变信息获得单元1702,被配置用于获得文本区域的畸变信息；图像畸变信息确定单元1703,被配置用于基于文本区域的畸变信息以及所检测的文档图像的边界确定整个文档图像的畸变信息；以及校正单元1704,被配置用于基于所获得的整个文档图像的畸变信息来校正文档图像。
[0226] 在畸变信息为包含网格线的网格的形式的情况下，图像畸变信息确定单元1703 可进一步被配置用于延伸文本区域的网格中包含的网格线至文档图像的对应边界，以确定文档图像的对应非文本区域的网格。
[0227] 优选地，图像畸变信息确定单元1703可包括延伸交点确定单元1703-1，被配置用于确定网格线与对应边界的延伸交点；网格线延伸单元1703-2,被配置用于将网格线延伸至该延伸交点；结点定位单元1703-3,被配置用于在从网格线到该延伸交点的延伸线中定位结点，以及结点连接单元1703-4,被配置用于连接各个延伸线中的对应结点以形成对应非文本区域的网格。
[0228] 优选地，延伸交点确定单元1703-1可进一步包括被配置用于确定基准网格线与对应边界的基准延伸交点的单元1703-11 ;以及单元1703-12,该单元1703-12被配置用于对于除基准网格线之外的其余网格线中的每一个，从基准网格线之一开始，依次基于该网格线的端点与前一水平网格线的对应端点之间的距离来计算该网格线与该边界的延伸交点。
[0229] 这里，其余网格线中的每一个的交点被计算为使得该交点与前一网格线和文档图像的边界的交点之间的距离与该文档图像的该边界的长度的比率对应于网格线的最接近边界的端点与前一网格线的对应端点之间的距离和该文本区域的对应边界的长度的比率，并且其中，该文档图像的边界的长度是基于所确定的基准交点被确定的。
[0230] 优选地，延伸交点确定单元1703-1可进一步包括被配置用于确定平行于且最接近于对应边界的网格线与平行于且最接近于基准网格线的文档边界的辅助交点的单元 1703-13，其中，该基准交点和辅助交点可被确定为使得该基准交点、辅助交点、对应边界的最接近端点和文本区域的网格的最接近拐点构成平行四边形。
[0231] 优选地，结点定位单元1703-3可进一步包括单元1703-31，该单元1703-31被配置用于对于从网格线到对应延伸交点的每一延伸网格线，基于延伸网格线的长度和文本区域中的网格线中的平均结点间隔确定要在延伸网格线中添加的结点的数量；单元1703-32，该单元1703-32被配置用于基于各个延伸网格线的各自结点数量的统计值来确定延伸网格线中的均匀结点数量；以及单元1703-33,该单元1703-33被配置用于根据所确定的均匀结点数量确定要在各个延伸网格线中添加的结点的位置。
[0232] [良好效果]
[0233] 通过上文描述的本发明的解决方案的处理，确定的文本区域的畸变信息（诸如网格）可被扩展以由其确定非文本区域的畸变信息，从而整个文档图像的畸变信息可被准确地确定，因此整个文档图像的畸变可被准确校正。
[0234] 图18A至18C示出了通过现有技术的基于文本区域的方法、现有技术的基于边界的方法以及本发明的解决方案分别实现的畸变文档图像的不同校正结果。从如图18A中所示的这样的畸变图像，很清楚，对于文档图像中的文本区域，本发明的解决方案可实现如下这样的效果：其明显好于基于边界的方法的效果，并且至少类似于现有技术的基于文本区域的方法的效果，如图18B所示，而对于文档图像中的非文本区域（诸如，文档图像中的图片），现有技术的基于文本区域的方法甚至不能校正这样的非文本区域的畸变，而本发明的解决方案可实现好于基于边界的方法的效果，如图18C所示，。
[0235] [第二实施例]
[0236] 下文将参照附图描述根据本发明的第二实施例，除了文档图像中的文本区域的畸变信息形成之外，本发明的第二实施例与本发明的第一实施例基本相同。为了清楚起见，第二实施例中的与第一实施例中相同的元件和步骤被用相同的附图标记指示，并且它们的描述将被省略。
[0237] 现有技术的形成文档图像中包含的文本区域的网格的基于文本区域的方法通常假设文档图像的文本区域中包含的大部分文本行是长的且完整的，从而在此基础上确定并校正文档的文本区域的畸变。
[0238] 但是，通过这样的方法，当文档图像的文本区域实际包括远小于其它文本行的多个短文本行（非常短的行）时，这些短文本行将被作为噪声直接丢弃而不会进行任何处理，然而文本区域的左边界和右边界的确定将受所丢弃的短文本行影响，并且被丢弃的短文本行附近的局部畸变不能被准确地估计，从而这样的基于文本的方法不能准确地确定文本区域的畸变信息，并且不能对文本图像进行有效地校正。因此，现有技术的基于文本的方法不能应对在文档图像的文本区域中具有多个短文本行的情况。
[0239] 图19示出了通过现有技术对其中文本区域包括多个短文本行的文档图像进行校正的结果，并且现有技术中的校正方法忽略了如图19中的左侧圆圈所示的具有短文本行的区域，因此文本区域的对应边界将不准确，如图19中的右侧圆圈所示。因此，对于该区域的对应校正将是不准确的，诸如一些文字仍将被丢弃，甚至一些短的文字（诸如标题文字）将丢失。
[0240] 第二实施例被提出以更适当地应对现有技术的基于文本区域的网格形成处理中的上述缺陷，并且第二实施例主要关注于文档图像的文本区域网格形成的改进，特别地，根据本发明的第一实施例的步骤S200中的处理。
[0241] 在获得文本区域的诸如网格的文本区域畸变信息的处理中，根据第二实施例，首先提取文档图像中包含的文本区域中的文本行的基线，其中每个文本行对应于一条基线；然后，基于所提取的基线中包含的长基线来延伸所提取的基线中包含的短基线；其中，文本区域的网格线基于所提取的长基线和经延伸的短基线形成，从而获得文本区域的网格。也就是说，第二实施例的解决方案的特征在于：延伸从文档图像中包含的文本区域提取的短文本行，从而可基于这样的经延伸的短文本行准确地确定文档图像的文本区域的畸变信肩、。
[0242] 此实施例中的基线提取处理以及网格形成处理可与诸如如上所示的现有技术中的处理类似，从而它们的细节将被省略。
[0243] 下文，将参照图20描述根据本发明的第二实施例的方法的基线延伸步骤中的处理。
[0244] 对于基线延伸，从文档图像的文本区域提取的所有基线将首先划分成两个子集：长基线和短基线。在一种实现中，长基线是所提取的基线中的其长度长于或者等于特定阈值（下文被称为"第一阈值"）的线，而短基线是所提取的基线中的其长度小于该特定阈值的线。基于这样的定义，文档图像的文本区域中提取的所有基线中的短基线可被识别以便延伸，以用于估计文档图像的文本区域的畸变。
[0245] 例如，长基线和短基线的这样的分类可被如下地实现。
[0246] 首先，从文档图像的文本区域提取的所有基线（例如，N是基线的数量）将根据它们的长度被归类。例如，基线的长度可指的是基线中包含的在对应文本行的方向上的像素的数量。
[0247] 然后，最长基线可被选择以被添加到候选集合中，并且对于其余基线i (i = 2, 3,…Ν)将执行重复处理。
[0248] 在重复处理的各步骤中，对于当前基线i，当前基线的长度（Li)和当前候选集合的平均长度（Avg)被比较。如果Li>a*Avg(a是经验值，〇. 7〈α〈=1，例如，α =〇. 9), 则当前基线可被看作长基线，并且将被添加到当前候选集合中，从而更新后的候选集合的 Avg将被相应地更新。然后，将对下一基线进行该处理，直至所有被提取的基线已被分类。最后，最终候选集合中的基线将是长基线，而其余基线是短基线。
[0249] 在上述处理中，值a *Avg将对应于上述特定阈值。应指出，这样的特定阈值在这里作为示例被描述，并且在分类时该特定阈值可采用其它值，例如恒定阈值。
[0250] 应指出，这样的分类仅是示例性的，并且其它分类方式也是可能的，诸如针对短基线进行分类。
[0251] 在基线延伸中，在步骤S2010(还被称为子区域划分步骤）中，从所提取的长基线中的第一长基线开始，文本区域可被划分成至少一个子区域，其中每个子区域由所提取的长基线中的每两个相邻长基线限定。
[0252] 在步骤S2020 (还被称为子区域基线延伸步骤）中，对于该至少一个子区域中的每一个，在该子区域包含至少一个短基线的情况下，该子区域中包含的短基线可基于该子区域中包含的长基线被延伸。
[0253] 在步骤S2030中，对于位于文本区域的顶部或底部的短基线，可基于所提取的长基线和经延伸的短基线的全部中的与该短基线紧邻的两条基线来延伸该短基线。应指出，步骤S2030中的这样的处理是可选的，并且当在文档图像的文本区域中不存在任何顶部或者底部短基线时，步骤S2030中的步骤不需要执行。
[0254] 下文将详细描述各步骤中的处理。
[0255] 在子区域划分步骤中，通常，当文档图像中的文本行在水平方向上时，第一长基线是所提取的基线中包含的最接近文档图像的文本区域的顶部（即，文本区域的开头）的长基线，因此从文档图像的文本区域的顶部到其底部依次执行子区域划分。
[0256] 基于所确定的候选集合中的长基线，文本区域可至少被划分成小的文本区域（还被称为子区域）。在各子区域中，开始的基线和结尾的基线应分别为长基线。在一种实现中，两个相邻子区域应共用一条长基线，例如子区域的结尾基线和与其相邻的下一子区域的开始基线应是同一基线，并且子区域的这样的划分在图21中被示出，其中四个子区域（子区域1至4)被划分出并且被以不同的线型示出，而子区域的底部基线和与其相邻的下一子区域的顶部基线是同一基线，例如长基线1被子区域1和紧接在子区域1之前的子区域（图 21中未示出）共用，长基线2被子区域1和子区域2共用，长基线3被子区域2和子区域3 共用7等等。
[0257] 应指出，这样的子区域划分并不局限于这样的顺序，并且可被以其它顺序执行，诸如子区域划分可从文本区域的底部到文本区域的顶部执行，从文本区域的中部分别到文本区域的顶部和底部执行等等

完整全部详细技术资料下载

当前第4页1 2 3 4 5 6