检测图像中所含文本的方法、装置和计算机可读记录介质与流程

文档序号：11583506阅读：175来源：国知局

本发明涉及检测图像中包含的文本的方法、装置和计算机可读记录介质，更具体地涉及包括如下步骤的方法、装置和计算机可读记录介质：在获得输入图像时，基于将所述输入图像中包含的像素的特征值，在所述输入图像中检测至少一个候选文本，或对此进行协助；基于在包含所检测出的候选文本的区域内所选择的至少一个像素的特征值或所述特征值的转换值，(i)将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本，或对此进行协助，且(ii)将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本，或对此进行协助；以及基于所述强文本和所述弱文本的相关信息，判断是否将所述弱文本分类为所述强文本，或对此进行协助。
背景技术：
：：图像内的文本经常提供有意义的信息，因此认为在诸如图像和视频检索(imageandvideoretrieval)、多语言翻译、汽车援助(automotiveassistance)等各种计算机视觉应用中检测并识别场景文本(scenetext)是重要的。场景文本检测算法为用于在图像中检测文本(字符)的算法，根据候选文本提取方法大致可分为滑动窗口(slidingwindow)方式和连通域分析(connectedcomponentanalysis)方式。滑动窗口方式为在图像的所有位置中多尺度移动窗口以检测场景图像的文本的技术。该技术具有彻底地搜索输入图像因此表示检测了多少文本区域的查全率(recallrate)高的优点。然而，由于彻底的窗口扫描而不可避免地造成大量的计算量，且许多候选文本可以造成大量的误检(falsepositive)。因此，滑动窗口方式不适用于实时应用。在x.chen和a.l.yuille的detectingandreadingtextinnaturalscenes(inproc.cvpr2004,第366–373页，2004)等中介绍了窗口滑动方式。因此，由于滑动窗口方式需要大量的计算量，因此近来的趋势是大量使用连通域分析方式。连通域分析方式为了从输入图像提取作为共享类似文本特性的像素的集合的候选文本且抑制非候选文本而执行检测候选文本的工作。笔画宽度变换(strokewidthtransform，swt)和最大稳定极值区域(maximallystableextremalregion，mser)是连通域分析的代表性技术。这些方法在场景文本检测中提供最先进的性能。在b.epshtein、e.ofek和y.wexler的detectingtextinnaturalsceneswithstrokewidthtransform(inproc.cvpr2010,第2963–2970页,2010)等中介绍了连通域分析方式。然而，在连通域分析方式中，在检测候选文本时使用的一般的约束条件具有在检测许多真文本时进行限制性的评估且结果示出低的查全率的局限性。因此，需要在图像中检测文本时发挥最佳性能的同时也能够具有高的查全率的文本检测技术。技术实现要素：技术问题本发明的目的在于解决所有上述问题。此外，本发明的另一目的在于提供在发挥最佳性能的同时也能够具有高的查全率的文本检测技术。此外，本发明的又一目的在于提供能够通过利用多阈值将候选文本分类为强文本、弱文本和非文本而具有高的查全率的文本检测技术。此外，本发明的又一目的在于提供能够通过在将候选文本分类为强文本和弱文本后，基于强文本和弱文本的位置信息、大小信息、颜色信息、笔画宽度信息中的至少一部分，来将弱文本编入强文本中，而具有高的查全率的文本检测技术。技术方案为了实现上述目的的本发明的代表性的结构如下。根据本发明的一方面，提供一种检测图像中包含的文本的方法，包括：步骤a：装置在获得输入图像时，基于所述输入图像中包含的像素的特征值，在所述输入图像中检测至少一个候选文本，或对此进行协助；步骤b：所述装置基于在包含所检测出的候选文本的区域内选择的至少一个像素的特征值或所述特征值的转换值，(i)将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本，或对此进行协助，且(ii)将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本，或对此进行协助；以及步骤c：所述装置基于所述强文本和所述弱文本的相关信息，判断是否将所述弱文本分类为所述强文本，或是否对此进行协助。根据本发明的另一方面，提供一种检测图像中包含的文本的装置，包括：通信部，所述通信部获取图像；以及处理器，所述处理器在获得所述图像时，(i)基于所述输入图像中包含的像素的特征值，在所述输入图像中检测至少一个候选文本，或对此进行协助，(ii)基于在包含所检测出的候选文本的区域内选择的至少一个像素的特征值或所述特征值的转换值，将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本，或对此进行协助，且将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本，或对此进行协助，(iii)基于所述强文本和所述弱文本的相关信息，判断是否将所述弱文本分类为所述强文本，或对此进行协助。此外，本发明还提供一种计算机可读记录介质，所述计算机可读记录介质用于记录用于实施实现本发明的其他方法、装置和所述方法的计算机程序。有益效果本发明具有如下效果。本发明具有提供在发挥最佳性能的同时也能够具有高的查全率的文本检测技术的效果。此外，本发明具有能够通过利用多阈值将候选文本分类为强文本、弱文本和非文本而在文本检测时实现高的查全率的效果。此外，本发明具有能够通过在将候选文本分类为强文本和弱文本后，基于强文本和弱文本的位置信息、大小信息、颜色信息、笔画宽度信息中的至少一部分，来将弱文本编入强文本中，从而在文本检测时实现高的查全率的效果。附图说明图1是示出根据本发明的一实施例的用于检测图像中包含的文本的装置的结构的框图。图2是示出根据本发明的一实施例的装置检测图像中包含的文本的过程的流程图。图3是示出根据本发明的一实施例的er树的示例的图。图4是示出mlbp转换的示例的图。图5是示出在利用根据本发明的文本检测方法在示例性图像中检测文本的各过程中的中间结果的图。图6至图8是示出其他文本检测技术和本发明的性能的比较实验结果。具体实施方式后述的对本发明的详细说明参照示例性地示出能够实施本发明的特定实施例的附图。对这些实施例进行充分详细的说明，以使本领域的技术人员能够实施本发明。应当理解，本发明的各种实施例虽然彼此不同，但无需相互排斥。例如，本说明书中对于一实施例所记载的特定形状、结构和特性在不脱离本发明的精神和范围的情况下可以以其它实施例实现。此外，应理解为，各个所公开的实施例内的个别组成部分的位置或配置在不脱离本发明的精神和范围的情况下可进行变更。因此，后述的详细说明并不是限定性的，如果合理地说明，则本发明的保护范围仅通过所附的权利要求来限定，且包含与该权利要求所主张的范围等同的所有范围。在附图中，相似的附图标记在多个方面表示相同或相似的功能。本发明提出考虑下列标准的文本检测技术。本发明人将满足下列标准的根据本发明的检测器命名为canny文本检测器。用于满足各标准的本发明的结构在对相应结构的说明中详细提及。1.查全率(recall)：应检测尽可能多的文本区域。2.精度(precision)：检测结果不应包括非文本区域。3.唯一性(uniqueness)：所检测出的文本应只被标记一次。4.紧密性(compactness)：所检测出的区域(边界框)应在最小化额外的空白区域的同时包括文本区域。以下，将详细说明满足上述标准的、根据本发明的各种实施例的用于检测图像中包含的文本的装置和方法。图1是示出根据本发明的一实施例的用于检测图像中包含的文本的装置的结构的框图，图2是示出根据本发明的一实施例的装置检测图像中包含的文本的过程的流程图。参照图1，根据本发明的一实施例的用于检测图像中包含的文本的装置100包括通信部110、处理器120和存储部130。通信部110被配置成与外部装置收发数据或在内部部件之间收发数据。尤其是，通信部110可以获取用于文本检测的输入图像(步骤s210)。处理器120被配置成执行各种数据运算。首先，处理器120可以在获得所述输入图像时，基于所述输入图像中包含的像素的特征值，在所述输入图像中检测至少一个候选文本，或对此进行协助(步骤s220)。此时，当输入图像的预定区域中所包含的所有像素的特征值大于所述预定区域的外部边界区域的特征值时，处理器120可以将所述预定区域检测为一个候选文本，或对此进行协助。这可以通过下列等式来表示。〈等式1〉其中，x和y是针对单通道图像i的像素索引，t是为了提取候选文本区域而使用的阈值，b(rt)是rt的边界区域像素的集合。当然，在相反的情况下，即当输入图像的预定区域中所包含的所有像素的特征值小于所述预定区域的外部边界区域的特征值时，也可以将所述预定区域检测为一个候选文本，或对此进行协助。此外，接下来，也可以利用极值区域(extremalregion，er)配置er树。也就是说，处理器120可以改变所述预定区域的像素强度水平以检测所述至少一个候选文本，或对此进行协助，且在所检测出的所述至少一个候选文本中，可以将(i)所述预定区域的像素强度水平相对大的低等级候选文本中所述预定区域的像素强度水平最大的候选文本以及(ii)包含所述低等级候选文本的区域且所述预定区域的像素强度水平相对小的高等级候选文本中所述预定区域的像素强度水平最大的候选文本分别分配至子节点和母节点以配置树，或对此进行协助。图3是示出根据本发明的一实施例的er树的示例的图。从图3所示的示例可知，强度水平为136的候选文本和包括所述强度水平为136的候选文本的区域且强度水平为133的候选文本分别被分配至子节点和母节点。然后，处理器120可以执行多阈值分类，或对此进行协助(步骤s240)。也就是说，处理器120可以基于在包含所检测出的候选文本的区域内选择的至少一个像素的特征值或其转换值，将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本，或对此进行协助，且将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本，或对此进行协助。例如，处理器120可以使用由adaboost算法所训练的分类器对所检测出的候选文本进行分类，或对此进行协助。其中，包含所检测出的候选文本的区域可以是额外的空白区域被最小化且包含所检测出的候选文本的边界框区域。此外，强文本指的是所检测出的候选文本实际为文本的可能性相对高的候选文本。相反，弱文本指的是所检测出的候选文本实际为文本的可能性低于强文本的候选文本，非文本指的是所检测出的候选文本实际为文本的可能性非常低的候选文本。此外，第一阈值可以为高阈值，第二阈值可以为低阈值。不同的阈值可以满足不同的查准率，例如，第一阈值可以满足99％的查准率，第二阈值可以满足90％的查准率。因此，第二阈值示出比第一阈值低的查准率，但是可以示出相对高的查全率。此外，处理器120可以基于在包含所检测出的候选文本的区域内选择的像素的特征值的平均局部二进制模式(meanlocalbinarypattern，mlbp)转换值，执行所述分类操作，或对此进行协助。图4是示出mlbp转换的示例的图。参照图4，首先计算围绕在包含所检测出的候选文本的区域内选择的像素的8个相邻像素(3×3块内的相邻像素)的平均值。而且，将除所选择的中央像素之外的其他8个相邻像素和所计算的平均值进行比较，若特定相邻像素的值大于平均值，则向相应的相邻像素分配1，若特定相邻像素的值小于平均值，则向相应的相邻像素分配0。而且，从左上方的相邻像素开始沿顺时针方向读取新分配的值，以编码成由8个比特组成的2进制数。从图4所示的示例可知，mlbp值为二进制数00110101(2)。然而，在本发明中可使用的特征不限于mlbp，也可以使用各种其他特征。此外，候选文本可以经由两个步骤与两个阈值比较而进行分类(这被称为双阈值分类)。也可以经由两个步骤以上来执行分类。也就是说，在所述第一阈值和所述第二阈值之间可以存在至少一个中间阈值。在该情况下，处理器120(ii-1)可以将分类成非强文本的候选文本与所述中间阈值进行比较以将分类成非强文本的候选文本分类为所述强文本或次弱文本，或对此进行协助，(ii-1)将所述次弱文本与所述第二阈值进行比较以将所述次弱文本分类为所述弱文本或所述非文本，或对此进行协助。此外，处理器120也可以在执行多阈值分类之前执行非极大值抑制，或对此进行协助(步骤s230)。也就是说，在所检测出的候选文本为多个时，处理器120可以识别包括包含所检测出的多个候选文本的区域以预定比率以上彼此重叠的候选文本的至少一个候选文本组且针对所识别的各候选文本组选择满足预定条件的候选文本，或对此进行协助。在该情况下，处理器120可以基于在包含满足所述预定条件的候选文本的区域中选择的至少一个像素的特征值或其转换值，(i)将满足所述预定条件的候选文本与所述第一阈值比较以将该候选文本分类为所述强文本或所述非强文本，或对此进行协助，且(ii)将分类为所述非强文本的候选文本与所述第二阈值比较以将分类为所述非强文本的候选文本分类为所述弱文本或所述非文本，或对此进行协助。如上所述，在mser和er中经常出现包含候选文本的区域相互重叠的情况。在er树的情况下，为了确保唯一性标准，可以抑制重复的er(节点)，且仅选择具有最大稳定性的一个er。如下更详细地说明在配置er树时的非极大值抑制过程，(a)针对上述er树中的特定节点，包含与所述特定节点对应的候选文本的区域以及包含与祖先节点对应的候选文本的区域以预定比率以上重叠的情况出现预定次数以上时，(b)处理器120可以选择与包含候选文本的区域相比于自身的特定祖先节点的变化量相对最小的节点相对应的候选文本，或对此进行协助，其中，所述与祖先节点对应的候选文本包含与所述特定节点对应的候选文本的区域且所述预定区域的像素强度水平相对小。可以使用下列等式对(a)进行判定。〈等式2〉其中，rt-k指的是er树中rt的母节点。|r|指的是r的边界框区域(包括候选文本的区域)。例如，在o(rt-k,rt)>0.7的情况出现5次以上时可以执行(b)。(b)可以表示选择稳定性最大的er，稳定性可以由下列等式表示。〈等式3〉例如，在等式2中可以设置成k＝2。在该情况下，可以针对特定节点和特定节点的祖父母节点考虑稳定性。作为参考，在稳定性相同的er存在两个以上时，可以选择er的区域(边界框区域)最小的er。由此可以满足唯一性和紧密性。此外，在rt中重叠的次数大于3且rt没有通过非极大值抑制而去除时，可以将rt考虑为候选文本。然而，在候选文本具有过大或多小的纵横比时，可以去除该候选文本。在该情况下，处理器120可以基于在包含所选择的候选文本的区域中选择的至少一个像素的特征值或其转换值，(i)将满足所述预定条件的候选文本与所述第一阈值比较以将该候选文本分类为所述强文本或所述非强文本，或对此进行协助，且(ii)将分类为所述非强文本的候选文本与所述第二阈值比较以将分类为所述非强文本的候选文本分类为所述弱文本或所述非文本，或对此进行协助。再次参照图2，处理器120可以考虑滞后(hysteresis)来执行文本追踪，或对此进行协助(步骤s250)。也就是说，处理器120可以判断是否基于上述分类的强文本和弱文本的相关信息，将所述弱文本分类为所述强文本，或是否对此进行协助。更具体地，处理器120可以基于所述强文本和所述弱文本的相关信息，将所述弱文本分类为所述强文本或所述非文本，或对此进行协助。如上所述，分类为强文本的候选文本实际为文本的可能性高。然而，分类为弱文本的候选文本实际也可能是文本。因此，在本发明中，在弱文本与强文本的特征相似时，将该弱文本编入强文本中。也就是说，在强文本附近找到分类为弱文本的候选文本，且在该候选文本具有与强文本类似的特征时，将该弱文本转换为强文本。因此可以实现高的查全率。为了判断强文本和弱文本是否具有相似的特征而考虑的强文本和弱文本的相关信息可以包括所述强文本和所述弱文本的位置信息、大小信息、颜色信息、笔画宽度信息中的至少一部分。然后，处理器120可以将通过与所述第一阈值比较而分类的强文本和从所述弱文本编入的强文本归组，或对此进行协助(步骤s260)。此外，在将第一强文本和从与该第一强文本相邻的第一弱文本编入的第二强文本归组，且基于所述第二强文本和与其相邻的第二弱文本的相关信息，将所述第二弱文本分类为第三强文本时，处理器120可以将所述第三强文本与所述第一强文本和所述第二强文本归组在一起，或对此进行协助。此外，为了输出紧密的边界框，可以计算最小面积包围矩形。可以使用字符像素的2d坐标在2d图像空间中计算包围所归组的文本的最小矩形。图5是示出在利用根据本发明的文本检测方法在示例性图像中检测文本的各过程中的中间结果的图。在获得图5的(a)的输入图像的情况下，(b)示出执行非极大值抑制而选择的er。(c)示出利用高阈值对候选文本进行分类而得到的结果，可知分类成比较少数的强文本。(d)示出利用低阈值进行附加分类以将许多候选文本分类为弱文本的结果。(e)示出文本追踪结果。其结果是许多弱文本被编入强文本中。(f)示出文本归组后的最终结果。此外，处理器120执行控制上述通信部110和后述存储部130之间的数据流动的功能。也就是说，处理器120通过控制在输入数据中检测文本的装置100的各部件间的数据流动，控制通信部110和存储部130以使通信部110和存储部130各自执行其自身的功能。处理器120可以包括微处理单元(microprocessingunit，mpu)、中央处理单元(centralprocessingunit，cpu)、高速缓冲存储器(cachememory)、数据总线(databus)等硬件配置。此外，还可以包括操作系统、执行特定目的的应用程序的软件配置。存储部130被配置成存储各种数据。尤其是，存储部130可以存储在文本检测的各步骤中算出的中间结果数据。此外，可以存储操作系统、执行特定目的的应用程序的软件。以下，简略示出本发明人利用上述文本检测方法和装置进行实验的结果。图6至图8是示出其他文本检测技术和本发明的性能的比较实验结果。图6是示出针对关于icdar2011数据集的字符等级的查全率，m.-c.sung、b.jun、h.cho和d.kim的scenetextdetectionwithrobustcharactercandidateextractionmethod(inproc.icdar2015,第426–430页,2015)中提出的最新候选文本检测方法和本发明的比较结果的表。从图6可知，与sung等相比，本发明在er树中利用非极大值抑制以减小候选文本的数量，且初始er是sung等的约1/3。本发明的最终定位结果可以被评价为在将相关性下降的候选文本降低90％以上的同时，实现相当高的查全率。图7是示出针对icdar2013数据集，本发明和另一技术的查准率、查全率和调和平均数的评估结果的表。从图7可知，与x.-c.yin、x.yin、k.huang和h.-w.hao的robusttextdetectioninnaturalsceneimages(ieeetrans.patternanalysismachineintelligence,36(5):970–983,2014年5月)中提出的算法相比，本发明的调和平均数等也更优异。图8是示出针对y.-f.pan、x.hou和c.-l.liu的ahybridapproachtodetectandlocalizetextsinnaturalsceneimages(ieeetrans.imageprocessing,20(3):800–813,2011)中提出的多语言数据集的实验结果的表。从图8可知，本发明相比其他算法示出提高的查全率、查准率和调和平均数。此外，上述根据本发明的实施例可以以可通过各种计算机组成部分执行的程序指令的形式实现并存储在计算机可读记录介质中。上述计算机可读记录介质可单独或组合包括程序指令、数据文件、数据结构等。存储在上述计算机可读记录介质中的程序指令也可以是为了本发明而特别设计并配置的指令或计算机软件领域中的技术人员公知且能够使用的指令。作为计算机可读记录介质的例，包括如硬盘、软盘、诸如磁带的磁介质、如只读存储光盘(cd-rom)、数字多功能光盘(dvd)的光记录介质、如光磁软盘(flopticaldisk)的磁-光介质(magneto-opticalmedia)以及如只读存储器(rom)、随机存取存储器(ram)、闪存等的以存储并执行程序指令的方式特别配置的硬件装置。在程序指令的例中，不仅包括如由编译器编译的机器代码，而且还包括因使用解释程序等而能由计算系统执行的高级语言代码。上述硬件装置可以以为了执行根据本发明的处理而作为一个以上的软件模块来运行的方式配置，反过来也相同。以上，通过如具体组成部分等的特定事项和被限定的实施例及附图，对本发明进行了说明，但这仅为了有助于本发明的更全面的理解而提供的，本发明并不限定于上述实施例，如果是本发明所属
技术领域：
：的技术人员则能从这种记载中试图多种修正及变形。因此，不能局限于上述说明的实施例来确定本发明的技术思想，不仅是所附权利要求书而且与该权利要求书均等或等价变形的所有内容应属于本发明的技术思想范围内。[附图标记的说明]100：检测包含在图像中的文本的装置110：通信部120：处理器130：存储部当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵浩辰
技术所有人：斯特拉德视觉公司
我是此专利的发明人

上一篇：一种气基竖炉和电炉联用的系统的制造方法与工艺
上一篇：一种复合型编织纤维绳缆的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。