文档图像二值化方法与流程

文档序号：11951777阅读：来源：国知局

技术特征：

1.一种用于对多比特文档图像进行二值化的方法，包括：

(a)对所述文档图像进行多次二值化，每次使用多个不同的二值化阈值中的一个，以产生多个对应的二值图像；

对于所述二值图像中的每个二值图像，

(b)将连通分量分析应用于该二值图像以识别该二值图像中的连通分量；

(c)识别该二值图像中的大于阈值大小并且具有比填充率阈值高的填充率的所有连通分量，并移除包含在识别的连通分量的边界框中的所有连通分量；和

(d)对该二值图像中的具有等于或大于第一阈值大小的大小的连通分量的第一数量进行计数，并且对该二值图像中的具有等于或小于第二阈值大小的大小的连通分量的第二数量进行计数；

(e)基于每个二值图像的第一数量和第二数量，选择所述二值图像中的一个二值图像作为最佳二值图像；和

(j)输出所述最佳二值图像。

2.根据权利要求1所述的方法，其中，在移除步骤(c)中，所述阈值大小是150×150个像素，阈值填充率是50％。

3.根据权利要求1或2所述的方法，其中，在计数步骤(d)中，所述第一阈值大小是6个像素，所述第二阈值大小是2个像素。

4.根据权利要求1至3中的任一项所述的方法，其中，所述选择步骤(e)包括：

(f)从所述多个二值图像定义多组二值图像，其中所述多个二值化阈值形成递增或递减序列，并且其中每个组包括与所述序列中的连续的二值化阈值对应的多个二值图像；

(g)对于每个组，计算第一平均值和第二平均值，所述第一平均值是第一数量的平均，所述第二平均值是第二数量的平均；

(h)基于所述多个组的第一平均值和第二平均值，选择所述组中的一个组作为最佳组；和

(i)在所述最佳组内，基于每个二值图像的第一数量和第二数量，选择所述二值图像中的一个二值图像作为最佳二值图像。

5.根据权利要求4所述的方法，其中，选择步骤(h)包括：

(h1)如果所述多个组的第二平均值仅具有一个局部最小值，则选择与该第二平均值对应的组作为最佳组；和

(h2)如果所述多个组的第二平均值具有两个或更多个局部最小值，则

(h3)选择分别与所述局部最小值中的第一个局部最小值和第二个局部最小值对应的第一组和第二组；

(h4)如果第一组的第二平均值远大于第二组的第二平均值，或者如果第一组的第二平均值小于第二组的第二平均值并且第一组的第一平均值远小于第二组的第一平均值，则选择第二组作为最佳组；和

(h5)否则选择第一组作为最佳组。

6.根据权利要求5所述的方法，其中，选择步骤(h4)包括：

如果第一组的第二平均值大于第二组的第二平均值的1.25倍，或者如果第一组的第二平均值小于第二组的第二平均值并且第一组的第一平均值小于第二组的第一平均值的三分之二，则选择第二组作为最佳组。

7.根据权利要求4至6中的任一项所述的方法，其中，选择步骤(i)包括：

对每个二值图像计算第一数量和第二数量的差值；和

选择所述二值图像中的具有最大差值的一个二值图像作为最佳二值图像。

8.根据权利要求4至7中的任一项所述的方法，其中，在二值化步骤(a)中，使用16个二值化阈值对所述文档图像进行16次二值化，并且其中定义步骤(f)定义7组二值图像。

9.一种数据处理装置，所述数据处理装置包括处理器，所述处理器被配置为执行用于对多比特文档图像进行二值化的处理，所述处理包括：

(a)对所述文档图像进行多次二值化，每次使用多个不同的二值化阈值中的一个，以产生多个对应的二值图像；

对于所述二值图像中的每个二值图像，

(b)将连通分量分析应用于该二值图像以识别该二值图像中的连通分量；

(c)识别该二值图像中的大于阈值大小并且具有比填充率阈值高的填充率的所有连通分量，并移除包含在识别的连通分量的边界框中的所有连通分量；和

(e)基于每个二值图像的第一数量和第二数量，选择所述二值图像中的一个二值图像作为最佳二值图像；和

(j)输出所述最佳二值图像。

10.根据权利要求9所述的数据处理装置，其中，在移除处理(c)中，所述阈值大小是150×150个像素，阈值填充率是50％。

11.根据权利要求9或10所述的数据处理装置，其中，在计数处理(d)中，所述第一阈值大小是6个像素，所述第二阈值大小是2个像素。

12.根据权利要求9至11中的任一项所述的数据处理装置，其中，选择处理(e)包括：

(f)从所述多个二值图像定义多组二值图像，其中，所述多个二值化阈值形成递增或递减序列，并且其中每个组包括与所述序列中的连续的二值化阈值对应的多个二值图像；

(g)对于每个组，计算第一平均值和第二平均值，所述第一平均值是第一数量的平均，所述第二平均值是第二数量的平均；

(h)基于所述多个组的第一平均值和第二平均值，选择所述组中的一个组作为最佳组；和

(i)在所述最佳组内，基于每个二值图像的第一数量和第二数量，选择所述二值图像中的一个二值图像作为最佳二值图像。

13.根据权利要求12所述的数据处理装置，其中，选择处理(h)包括：

(h1)如果所述多个组的第二平均值仅具有一个局部最小值，则选择与该第二平均值对应的组作为最佳组；和

(h2)如果所述多个组的第二平均值具有两个或更多个局部最小值，则

(h3)选择分别与所述局部最小值中的第一个局部最小值和第二个局部最小值对应的第一组和第二组；

(h5)否则选择第一组作为最佳组。

14.根据权利要求13所述的数据处理装置，其中，选择处理(h4)包括：

15.根据权利要求12至14中的任一项所述的数据处理装置，其中，选择处理(i)包括：

对每个二值图像计算第一数量和第二数量的差值；和

选择所述二值图像中的具有最大差值的一个二值图像作为最佳二值图像。

16.根据权利要求12至15中的任一项所述的数据处理装置，其中，在二值化处理(a)中，使用16个二值化阈值对所述文档图像进行16次二值化，并且其中定义处理(f)定义7组二值图像。

完整全部详细技术资料下载

当前第2页1 2 3