用于图像辨识的自适应阈值处理的制作方法_2

文档序号：8367440阅读：来源：国知局

10,并且将所辨识文本自动提供给所述应用程序。
[0026] 在一个实施方案中，设备可能未在文本的一部分内辨识出感兴趣的数据对象。在此状况下，设备可被编程来：为用户提供各种其它选项，如执行网络搜索；或搜索插件，用来辨识未经辨识的模式。可提示用户选择文本的一部分以将文本复制/粘贴到电子邮件、记事本或各种其它应用程序中。
[0027] 各个实施方案提供对于照明、阴影遮蔽、对比度和其它此类方面的变化具有稳健性的方法来检测并辨识图像中的文本。例如，图5示出可使用计算设备的照相机捕获（或以其他方式获得）的图像的一部分500实施例。示例性图像部分500对应于以上参照图 3所述的"Good Food Caf6"URL的一部分。所示出的图像部分500包括字母"〇" 502a和 502b的两个实施例。如所示出，所捕获的图像部分包括位于所述字母之一 502b的一部分上的阴影区域504。对于这个实施例来说，将假设部分500是灰度图像，但是所述图像也可以是彩色图像或已转换成灰度图像的彩色图像以及其它此类选项。如果将所述区域逻辑上分成多个片段506,那么可以看出，在阴影区域外部并且不具有文本字符的一部分的片段大致上是白色（例如，颜色值例如为1)，其中黑色文本字符的颜色值将为0 (以及其它此类选项）。然而，在阴影区域504内的片段中，背景颜色不显现为白色，而是显现为灰色。因此，在一个实施例中，黑色值可能在所有区域处保持大致上相同（例如，〇)，但背景颜色值可能大致上在非阴影区域（例如，颜色值为0)与阴影区域504(例如，颜色值为0.5)之间改变。在使用可能使用单个阈值的常规阈值处理方法的情况下，阈值〇. 4对于非阴影区域将是足够的，但将会使阴影区域中的所有片段都被确定为包括背景，因为所有颜色值均高于截止阈值，使得信息的一部分将会丢失。
[0028] 因此，根据各个实施方案的方法可分析图像上的多个片段或区域中的一些或全部，以便试图确定适合于那些片段或区域的局部阈值。此类自适应方法可在明显的照明变化、着色变化、阴影遮蔽变化或其它此类变化的情况下提供改进的图像中文本检测。如所论述，一种此类方法可将图像（或例如被确定可能包括文本的图像部分）分割成多个片段，但是在其它方法中，或者可以选择图像上的多个位置区域以及其它此类选项。
[0029] 在图像被分割成多个片段的实施例中，可分析每个片段以试图确定所述片段是否包括可能对应于字符或文本的边缘区域。例如，考虑图6中用放大图600示出的片段508。所述片段包括两个主要部分：背景部分602和对应于字母"〇"的一部分的字符部分604。在这个实施例中，背景部分602与字符部分602之间存在明显的边缘边界，但是由于图形保真、模糊和其它此类问题，过渡常常不会这么离散。可分析图像片段的一组梯度，其中梯度表示所述片段的像素606之间的颜色值变化量。在这个实施例中，在各区域之间的过渡附近将会存在一组大梯度值。因此，可选择这个片段作为候选来分析它是否包括文本部分。在至少一些实施方案中，可设置梯度阈值来确定将片段指定为文本候选需要多大的变化。如所论述，在分析之前可将图像转换成灰度图像或单色图像，以便辅助所述确定。
[0030] 对于被确定为包括边缘位置的每个片段或区域来说，可确定各个像素的颜色值 (或"像素值"）的采样，其中所述采样包括边缘边界的每一侧上的像素。例如，可确定选择所述边缘的第一侧上的许多像素和选择所述边缘的另一侧上的许多像素（相同或不同）。这可以包括例如以边缘区域为中心的20x20像素阵列、在边缘的给定距离内的随机选择，等等。像素的数目、距边缘区域的距离和其它此类方面可在实施方案之间改变。可分析像素值以试图确定片段的背景像素值和片段的字符像素值。例如，如果理想背景是为值1的白色，那么边缘的背景侧上的像素值可能返回在0. 4到0. 8的范围中的值。类似地，文本侧上的像素值可能返回接近〇.〇的值。因此，系统可确定，背景值是那些像素值的最大值（例如，0.9)(或平均值、加权值等等），并且文本值约为0.0。因此，阈值0.5可能不足以使文本与背景区域分离。在这个实施例中，算法可以将阈值设定成所述值之间差值的百分比。在一些实施例中，算法可能将阈值设定成极端值之间的中点，在这里将颜色值设置为约0. 4。在系统希望是保守的并且排斥作为背景的较少数据的实施方案中，可将阈值设置得较高，并且反之亦然。接着可分析包括边缘区域的片段的每个像素，并且可取决于对应的像素值是否各自满足、超过或小于片段阈值（取决于如色标等等的因素）来将像素指定为文本像素或背景像素。
[0031] 分割基于如下假设来工作：照明和其它此类方面在图像的更小区域上将会更均匀。然而，片段或像素邻域的大小必须足够大来覆盖足够范围的前景像素和背景像素，否则可能选择不佳的阈值。另一方面，选择太大的区域可能限制过程充分顾及变化的能力，其中大区域可能包括明显的变化。
[0032] 图7A、图7B和图7C示出针对穿过可根据各个实施方案来产生的不同图像片段的扫描线、像素行或其它此类横截面可以获得的示例性像素值。在各个实施方案中，像素值指灰度像素强度值、彩色像素强度值、像素饱和度值、像素饱和度等级等等。表示存储在计算机中的图像的每个像素具有像素值，这个像素值描述所述像素有多亮和/或像素应当是什么颜色。对于灰度图像来说，像素值通常是表示像素的亮度的单个数字。例如，常见像素格式是字节图像，其中像素值数字被存储为8位整数，从而给出可能值的范围为0到255。在这个实施例中，零被视为黑色，255被视为白色，并且介于两者之间的值构成不同深浅度的灰色。图7A是灰度图像的示例性距离对强度图，这个图示出水平穿过图5的区域508的各个像素所测量的强度变化。例如，从左边开始并向右移动的区域508(如图5中的线所表示）以高强度白色像素区域开始并且以对应于字符的一部分的低强度暗像素或黑色像素区域结束。为了简便起见，以下实施例的可能像素值的范围将由〇到1的值表示。参照图 700A，白色像素区域的强度大致上可接近被完全照明并且将用值I. 0来表示。在区域508 上进一步向右移动，最终出现强度的急剧下降，所述强度对应于接近0. 0的等级。在这个实施例中，可选择为0. 5的阈值702A，使得任何高于强度0. 5的强度被认为是图像背景的一部分，并且任何低于0. 5的强度被认为是可能是文本的感兴趣对象的一部分。
[0033] 现在参照对应于图5的区域510的图7B。在这个实施例中，区域510的最左侧在阴影区域504中开始，所述阴影区域相对高于最右端的文本区域，但由于所述阴影区域，强度相较于参照图7A所述的初始强度来说没有初始强度高。参照图700B，较浅的像素区域的强度由于所述区域接近阴影区域504而强度较低，从而使它的初始值为0. 5。在区域510上进一步向右移动，最终出现强度的急剧下降，所述强度对应于接近0. 0的值。在这个实施例中，可选择为〇. 3的阈值702B，使得任何高于强度0. 3的强度被认为是图像背景的一部分，并且任何低于0. 3的强度被认为是可能是文本的感兴趣对象的一部分。由于像素强度的较低相对变化，阈值因此相对于区域508的阈值有所降低。
[0034] 图7C以图形方式示出水平移动穿过图5的区域512的各个像素所测量的强度变化。在这个实施例中，图700C示出区域512的初始强度值1.0,并且在区域512上进一步向右移动，再次出现强度的急剧下降，所述强度对应于接近〇.〇的强度值。继续向右，在字符区域的另一侧上出现强度的另一猛增，从而再次产生约I. 0的强度值。向区域512的右侧移动，当线到达阴影区域504时，强度再次下降，如图7C所示出。在这个实施例中，选择具有强度值〇. 4的阈值702C，因为在照亮的区域与较暗的字符区域之间仍然存在足够明显的对比度。应当注意，如果已将全局阈值处理应用于图5的实施例，并且例如已针对整个图像部分选择阈值〇. 5,那么图像的右侧上的区域（包括区域512)将会被过滤为0. 0值。然而，利用自适应阈值处理技术允许正确识别字符区域和背景区域。
[0035] 图8示出可根据各个实施方案使用的用于将文本数据提供给文本识别算法或引擎的示例性过程800。应当理解，在各个实施方案的范围内，对于本文所述的任何过程都可以存在按类似或替代次序执行或者并行地执行的另外步骤、更少步骤或替代步骤，除非另外说明。在这个实施例中，获得由便携式计算设备的照相机捕获的图像802。在至少一些实施方案中，可将所述图像转换成灰度图像，并且可执行如本领域已知的其它此类预处理来实现文本辨识和其它此类目的。分析图像中多个区域的图像强度梯度以识别一组边缘位置 804。将边缘看作在许多像素上发生的强度变化，边缘检测算法可例如通过计算这种强度变化的导数并选择计算出的值满足或超过边缘选择阈值的区域来确定所述边缘。分析与所述组边缘位置中的每一个相邻或在其确定距离内的像素值806。确定多个区域的至少一部分的图像的字符部分和背景部分的相对像素值808。至少部分基于所述相对像素值，确定多个区域的至少一部分的字符阈值（或背景阈值）810。接着至少部分基于像素值至少满足相应像素的阈值的像素来确定字符区域812。
[0036] 在使用自适应局部阈值来确定潜在的字符区域之后，可使用连通组件算法 (connected component algorithm)将所述区域组装成多个连通组件。连通组件可以是基于例如像素强度和感兴趣像素之间的预定义距离加以连接的像素。因此，所述区域内包括小标记或瑕点的片段将可能不与相邻区域中的边缘连接，因为所述标记不与其它区域中具有类似强度或颜色值的像素相连。一旦确定了连通组件，连通组件算法或其它此类过程也可分析连通组件，以便确定每个连通组件是否满足至少一个字符约束。所述约束可包括如形状和尺寸的信息，并且可至少部分基于相邻文本的性质。可假设相邻文本字符共享某些性质，如此类字符之间相对一致的间隔、类似的纵横比和类似的垂直和水平对齐等等。例如，可通过确定相邻连通组件的质心（或每个字符的顶部或底部）是否大致上沿着同一条线、相邻字符的高度和宽度是否在高度与宽度的比率的特定范围内和字符之间的间隔是否大致上类似，来检查共享的性质。用来作出这些决定的参数是根据经验或可以根据经验来确定。基于刚才所述的性质和技术，连通组件算法也可大致上确定图像中并不是从所述图像前面

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6