用于文档图像的畸变校正方法和设备的制造方法_5

文档序号：9691237阅读：来源：国知局

，只要文档图像的文本区域可被划分成至少一个子区域（每个子区域应包括两个相邻的长基线）即可。即使当文档图像中的文本行处于其它方向（诸如垂直方向、倾斜方向）时，子区域划分也可被类似地执行。
[0258] 下文，将参照图22详细描述根据第二实施例的方法中的子区域基线延伸步骤的处理。这样的处理将对于被划分的至少一个子区域中的每一个顺序执行，并且可被按任何顺序执行，例如从顶部到底部、从底部到顶部等，只要所有子区域将被处理即可。
[0259] 在子区域基线延伸中，对于每个子区域，如果在该子区域中存在至少一条短基线，将从该子区域中包含的至少一条短基线的全部中选择具有最大长度的短基线，否则该处理将进行至下一子区域。这里，所选择的短基线的长度将如上那样类似地限定。
[0260] 然后，所选择的短基线基于当前子区域中包含的两个长基线（即，开始长基线和结尾长基线）被延伸。
[0261] 这里，将参照图23描述延伸子区域中的短基线的处理，其中为了描述起见，文本区域中的文本行已被假定为左对齐，因此延伸短基线指示的将短基线的右端点延伸至右边界。
[0262] 如图23所示，从当前短基线的右端点起，短基线可被以固定步长（这里，X轴上的步长为1个像素，当然，其它步长也是可能的）延伸至右侧文本区域边界，如图23中的虚线椭圆所示。在各延伸位置处，该位置的y轴位置被确定为满足以下条件：
[0264] 这里，dl和d2是短基线的当前端点分别与该子区域的顶部和底部长基线之间的距离（在y轴上测量），并且dl'和d2'是该短基线的当前端点将一步延伸到的位置分别与该子区域的顶部和底部长基线之间的距离。
[0265] 延伸位置的水平坐标X'被定义为：
[0267] 这里，xtop和Xbc]ttM1分别是顶部长基线和底部长基线的点的X轴坐标，该点对应于延伸位置并且具有如上定义的y轴坐标。
[0268] 因此，短基线将逐步延伸，直至其最终延伸点（H)将基于顶部长基线和底部长基线的对应端点的坐标（xl，yl)和（x2, y2)被确定。
[0269] 应指出，这样的描述仅是示例性的，并且该处理可等同地应用于其中短基线的左端点将被延伸至左边界的右对齐情况，其中短基线的右端点和左端点将分别被延伸至右边界和左边界的中央对齐情况。
[0270] 然后，当前子区域将通过经延伸的短基线被划分成两个新子区域，其中该两个新子区域之一由该两个长基线之一（例如，顶部长基线）和经延伸的短基线限定（这两个基线将作为该新子区域的顶部长基线和底部长基线），而该两个新子区域中的另一个由该经延伸的短基线和该两个长基线中的另一个（例如，底部长基线）限定（这两个基线将作为该新子区域的顶部长基线和底部长基线）。
[0271] 图24示出基于子区域中的经延伸的基线来分割子区域的示例。如图24中所示，图21中所示的子区域1被划分成两个新子区域（子区域11和12)。在划分的新子区域11 中，其顶部长基线是子区域1的原始顶部长基线（图21中所示的长基线1)，而其底部长基线是当前的经延伸的基线，如实线矩形框所示，而在划分的新子区域12中，其顶部长基线是当前的经延伸的基线，而底部长基线是子区域1的原始底部长基线（图21中所示的长基线2)。
[0272] 接下来，对于该新子区域中的每一个，将类似地并且顺序地执行上述选择、延伸和划分处理，直至该新子区域中包含的所有短基线已被延伸。由此，当前子区域中包含的所有短基线将被延伸。此后，上述的选择、延伸和划分处理将进行至下一子区域，直至所有子区域已被处理，从而所有子区域中的短基线（即，文本区域中的所有短基线）已被延伸。
[0273] 图25示出其中短基线已被延伸的文本区域的结果。
[0274] 应指出，这样的描述仅是示例性的，并且这样的短基线延伸处理可等同地应用于其中短基线的左端点将被延伸至左边界的右对齐情况（即，短基线的左侧是留白区域的情况），其中短基线的右端点和左端点将分别被延伸至右边界和左边界的中央对齐情况（即，短基线的左右两侧都是留白区域的情况）。
[0275] 考虑文本区域的顶部或底部基线可能是短基线的特定情况。由于这样的短基线将不被包含在上述划分的子区域中，这样的短基线可能不经受上述基线延伸处理。因此，这样的短基线将被单独地延伸。
[0276] 这样的顶部或底部短基线的延伸将基于其相邻的长基线，并且将参照图26被描述，图26示意性地示出底部短基线的延伸（示意性地对应于步骤S2030)。
[0277] 如图26所示，文本区域的基线（L0)是短基线。
[0278] 在延伸处理中，将选择与该短基线最接近的两个长基线（L1和L2)。在一种实现中，最接近的两个长基线将在与该短基线相邻的并且已经受了上述子区域延伸的子区域中被选择，因此该最接近的两个长基线将是被提取的长基线和经延伸的短基线的全部中的两个最接近的基线。
[0279] 从当前短基线的右端点起，该短基线将被以固定步长（这里，X轴上的步长为1个像素，当然，其它步长也是可能的）延伸至右侧文本区域边界。在各延伸位置处，该位置的 y轴位置被确定为满足以下条件：
[0281] 这里，hM和1!。2是在该短基线的当前端点处该短基线与该第一最接近长基线之间的距离以及第一最接近长基线与第二最接近长基线之间的距离（在y轴上测量），并且h Q1 ' 和hffi'是在该短基线的当前端点将一步延伸到的位置处该短基线与该子区域的第一最接近长基线之间的距离以及该第一最接近长基线和第二最接近长基线之间的距离。
[0282] 延伸位置的水平坐标X'被定义为
[0284] 这里，xl和x2分别是该第一和第二最接近长基线的点的X轴坐标，该点对应于该延伸位置并且具有如上定义的y轴坐标。
[0285] 因此，短基线将逐步延伸，直至其最终延伸点（H)将基于该第一和第二长基线的对应端点的坐标被确定。
[0286] 应指出，上述的底部基线延伸处理可等同地应用于为短基线的顶部基线。顶部和底部短基线的延伸结果在图27中被示出。
[0287] 此外，与上文所述类似的，尽管上述底部基线延伸处理在左对齐情况下被执行，但是其可等同地应用于其中短基线的左端点将被延伸至左边界的右对齐情况（即，短基线的左侧是留白区域的情况），其中短基线的右端点和左端点将分别被延伸至右边界和左边界的中央对齐情况（即，短基线的左右两侧都是留白区域的情况）。
[0288] 应指出，上述的短基线延伸方式（即，短基线的延伸点的坐标的确定方式）仅是示例性的，并且这样的延伸主要旨在延伸短基线以便遵循参考长基线（子区域延伸中的顶部和底部长基线，或者顶部和底部短基线延伸中的两个最接近的长基线），由此延伸方式并不局限于所示出的方式，并且其它延伸方式也是可能的，参考长基线也可以是除了上述的长基线之外的其它基线。
[0289] 因此，基于包括原始提取的长基线和经延伸的短基线的所有获得的基线，文本区域的网格可如上所述地形成，并且这样的网格将作为根据本发明的第一实施例的图像畸变校正处理的基础。
[0290] 由于网格形成利用了经延伸的短基线，而不是如现有技术中那样忽略这样的短基线，文档图像的文本区域的边界继而网格可被准确地获得，即使这样的获得方法是现有技术。
[0291] 下文，将参照图28描述根据本发明的第二实施例的畸变校正设备，考虑到畸变校正设备与第一实施例的不同之处主要在于文本区域畸变信息获得单元，尤其是基线延伸单元，图28主要示出了根据本发明的第二实施例的文本区域畸变信息获得单元，其对应于根据本发明的第一实施例的文本区域信息获得单元1702,而该畸变校正设备中的与第一实施例相同的其它组件将从图中省略。
[0292] 文本区域畸变信息获得单元2800可包括基线提取单元2801，被配置用于提取文档图像中包含的文本区域中的文本行的基线，其中各文本行对应于一条基线；以及基线延伸单元2802,被配置用于基于所提取的基线中包含的长基线延伸所提取的基线中包含的短基线；其中基于所提取的长基线和经延伸的短基线形成网格从而获得文本区域的网格。
[0293] 优选地，基线延伸单元2802可包括子区域划分单元2802-1，被配置用于将文本区域划分成至少一个子区域，其中从所提取的长基线中的第一长基线开始，该至少一个子区域中的每一个由所提取的长基线中的每两个相邻长基线限定；以及子区域基线延伸单元 2802-2,被配置用于对于所述至少一个子区域中的每一个，在该子区域包括至少一个短基线的情况下，基于该区域中包括的两个长基线来延伸该子区域中包含的所述至少一个短基线。
[0294] 优选地且可选地，基线延伸单元2802可包括单元2802-3,其被配置用于对于位于文本区域的顶部或底部的短基线，基于所提取的长基线和经延伸的短基线的全部中的紧邻该短基线的两个基线来延伸该短基线的。
[0295] 优选地，子区域基线延伸单元2802-2可进一步包括被配置用于选择该子区域中包含的至少一个短基线中的具有最大长度的短基线的单元；被配置用于基于该子区域中包含的两个长基线来延伸所选择的短基线的单元；以及被配置用于通过经延伸的短基线将该子区域划分成两个新子区域的单元，其中，该两个新子区域中的一个由该两个长基线之一和该经延伸的短基线限定，并且该两个新子区域中的另一个由该经延伸的短基线和该两个长基线中的另一个限定，
[0296] 其中，对于该两个新子区域中的每一个，顺序执行所述选择、延伸和划分，直至该子区域中包含的所述至少一个短基线全部被延伸.
[0297] 在第二实施例中，基线延伸单元2802可位于根据第一实施例的文本区域畸变信息获得单元中，或者可在位于获得单元外部的情况下与根据第一实施例的文本区域畸变信息获得单元交互。基线延伸单元2802甚至可位于根据第一实施例的畸变校正设备外部。
[0298] [有利效果]
[0299] 如上所述，已经提出了本发明的一种解决方案，其延伸从文档图像的文本区域中提取的至少一条短基线来确定关于文档图像的文本区域的畸变的信息，然后基于这样的畸变信息来进行校正。
[0300] 与现有技术的基于文本的方法进行比较，本发明的解决方案有效地利用了通常被忽略的短文本行，从而更准确地确定文档图像的文本区域的畸变信息以用于校正。
[0301] 因此，对于可能包含多个短文本行（包括多短文本行、顶部短文本行以及段落结尾的短行）的文档图像，本发明的该解决方案可通过延伸短文本行的短基线来准确和有效地确定和校正该文档图像的畸变。
[0302] 图29示出了通过现有技术和根据本发明的第二实施例的方法获得的畸变校正结果之间的比较。如图29中所示，对于具有一些极短文本行（诸如标题行"诞生背景（宋体 14)"）的原始输入文档图像，如图29中的中间视图所示，现有技术的方法将丢失这样的标题行，而如图29中的右侧视图所示，本发明的解决方案可准确地检测到这样的标题行。
[0303] [第三实施例]
[0304] 下文将参照附图描述根据本发明的第三实施例，除了文本区域畸变信息获得步骤之外，本发明的第三实施例与本发明的第一或第二实施例基本相同。为了清楚起见，第三实施例中的与第一或第二实施例中相同的元件和步骤被用相同的附图标记指示，并且它们的描述将被省略。
[0305] 为了校正文本区域的畸变（例如，通过构建文本区域的扭曲网格），文档图像中的文本区域的边界（例如，当文本行在水平方向上时的文本区域的左边界和右边界）应被确定。现有技术假定段落的左边界和右边界为近似直线，可通过霍夫变换被建模，但是这种假设在垂直畸变为非线性的情况下不能成立。
[0306] 通过此现有技术方法，当文档图像的文本区域的垂直畸变实际为非线性时，这样的方法不能准确地确定文本区域的边界，因此不能准确地确定文本区域的畸变信息，从而不能对文档图像进行有效的校正。因此，这样的方法不能应对垂直畸变为非线性的情况。
[0307] 图30示出了通过现有技术对于其中垂直边界实际上是非线性的文档图像进行校正的结果，并且如图30所示，现有技术中的校正方法简单地假设垂直畸变是线性的，因此对于该文档图像的对应校正将是不准确的，诸如特别由在文本区域的边界处的符号所表示地，文本区域的边界在一些位置将不整齐（例如，没有对齐），边界的畸变未被充分校正。
[0308] 根据第三实施例的方法针对于此情况被提出，并且其特征在于文档图像的文本区域的基线的端点被进一步修正以便准确地确定文档图像的文本区域的边界，从而所确定的文档图像的文本区域的边界可用于更准确地获得文本区域的畸变的信息以用于校正。艮P，第三实施例主要关注于文档图像的文本区域网格形成的改进，尤其是根据本发明的第一或第二实施例的步骤S210或S220中的处理。
[0309] 在一种实现中，这样的修正可被直接应用于基线（该基线可通过现有技术中的处理被从文本区域提取）的端点，以获得文本区域的更准确的边界，从而与现有技术中的那些方法（其中没有执行这样的修正）相比，文本区域的畸变仍可如上所述地基于所提取的基线和所获得的边界被校正，诸如对于文本区域可能不包括短基线的情况尤其有效。
[0310] 在这样的情况中，文本区域网格获得处理可提取文档图像中包含的文本区域中的文本行的基线；识别所有提取的基线中的其端点为未对齐端点的基线；对于所识别的其端点为未对齐端点的基线中的每一个，基于所有提取的基线中的紧邻该识别的基线的两个正常基线来修正所识别的基线的未对齐端点，并且利用包含修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。因此，网格线基于所提取的基线和所生成的文本区域边界形成以便获得文本区域的网格。
[0311] 在一种优选实现中，在文本区域包括至少一条短基线的情况下，这样的修正可在如在第二实施例中所述的基线延伸之后被执行，即，第二实施例和第三实施例的解决方案可组合以获得更有利的效果。
[0312] 在这样的情况的文本区域网格获得处理中，在基线已被提取并且其中的短基线已经如第二实施例中那样被延伸之后，第三实施例的处理将操作以识别所提取的长基线和经延伸的短基线的全部中的其端点为未对齐端点的基线；对于所识别的其端点为未对齐端点的基线中的每一个，基于所提取的长基线和经延伸的短基线的全部中的紧邻该识别的基线的两个正常基线来修正所识别的基线的未对齐端点，并且利用包含修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。因此，网格线基于所提取的长基线、经延伸的短基线和所生成的文本区域边界形成以便获得文本区域的网格。
[0313] 此实施例中的基线提取处理以及网格形成处理可与上文所述的类似，因此它们的细节将被省略。
[0314] 下文，将参照图31描述根据本发明的第三实施例的方法的文本边界确定步骤的处理。
[0315] 在步骤S3110 (还被称为未对齐基线识别步骤）中，识别所有获得的基线中的其端点为未对齐端点的基线。当文本边界确定步骤被应用于第二实施例时，所有获得的基线将是如第二实施例中那样获得的提取的长基线和经延伸的短基线。
[0316] 在未对齐基线识别处理中，对于所有获得的基线中的每一个，生成基于所有获得的基线中的与该基线相邻的预定数量的基线的端点的裁定线，然后基于生成的裁定线识别该基线的端点是否是未对齐端点。
[0317] 该裁定线可通过直接连接或者拟合紧接在该基线之前和之后的基线的端点来生成。在另一实现中，该裁定线可通过拟合与该基线相邻的预定数量的基线的端点来生成。拟合可以是现有技术中的任何方式的数学拟合。
[0318]

完整全部详细技术资料下载

当前第5页1 2 3 4 5 6