一种文本定位方法及装置与流程

文档序号：17624523发布日期：2019-05-10 23:30阅读：210来源：国知局

本发明涉及图像处理技术领域，尤其涉及一种文本定位方法及装置。

背景技术：

数字图像中一般会包含文本内容，在很多应用场合中，需要从数字图像中定位出文本内容，例如在图像文本识别场景中，需要首先从图像中定位出文本，然后对定位的文本进行内容识别。

最准确的文本定位就是由人工来主动框选图像中的文本区域。而人工主动框选文本区域，需要用户与设备交互多次，才能将图像中的文本区域标注明确，这些交互过程主要集中在调整标记框位置、大小等。显然利用人工框选文本区域，其实现过程复杂，需要用户操作较多，用户体验不佳。并且，随着移动设备的普及，用户更希望能够在移动设备上实现自动化的图像文本定位。

技术实现要素：

基于上述现有技术现状，本发明提出一种文本定位方法及装置，能够实现自动化的图像文本定位，并且可以应用到移动设备。

一种文本定位方法，包括：

提取得到输入图像的特征向量；

根据所述特征向量，从所述图像中选择出至少一个文本预选区域；

利用经过训练的卷积神经网络调整所述至少一个文本预选区域，得到至少一个文本区域；

将所述至少一个文本区域进行合并，确认所述图像中的文本区域的位置。

优选地，所述根据所述特征向量，从所述图像中选择出至少一个文本预选区域，包括：

将所述特征向量输入区域推荐网络，使所述区域推荐网络根据所述特征向量从所述图像中选择出至少一个文本预选区域。

优选地，对所述卷积神经网络的训练，包括：

循环执行以下操作，直到计算得到的运算误差小于设定阈值：

将包含至少一个文本预选区域，以及与所述至少一个文本预选区域对应的已标注的至少一个文本区域的图像输入卷积神经网络，使所述卷积神经网络按照预设运算参数，调整所述图像中的至少一个文本预选区域，得到至少一个文本区域；

将所述卷积神经网络调整得到的至少一个文本区域与所述已标注的至少一个文本区域进行对比，得到所述卷积神经网络的运算误差；

判断所述运算误差是否小于设定阈值；

如果所述运算误差不小于设定阈值，则根据所述运算误差，调整所述卷积神经网络的运算参数。

优选地，所述将所述至少一个文本区域进行合并，包括：

将所述至少一个文本区域按照行方向进行合并。

优选地，所述提取得到输入图像的特征向量，包括：

将图像输入vgg16卷积神经网络，利用所述vgg16卷积神经网络提取得到所述图像的特征向量。

一种文本定位装置，包括：

特征提取单元，用于提取得到输入图像的特征向量；

区域选择单元，用于根据所述特征向量，从所述图像中选择出至少一个文本预选区域；

区域调整单元，用于利用经过训练的卷积神经网络调整所述至少一个文本预选区域，得到至少一个文本区域；

区域合并单元，用于将所述至少一个文本区域进行合并，确认所述图像中的文本区域的位置。

优选地，所述区域选择单元根据所述特征向量，从所述图像中选择出至少一个文本预选区域时，具体用于：

将所述特征向量输入区域推荐网络，使所述区域推荐网络根据所述特征向量从所述图像中选择出至少一个文本预选区域。

优选地，所述区域调整单元还用于对所述卷积神经网络进行训练；

所述区域调整单元对所述卷积神经网络进行训练时，具体用于：

循环执行以下操作，直到计算得到的运算误差小于设定阈值：

将所述卷积神经网络调整得到的至少一个文本区域与所述已标注的至少一个文本区域进行对比，得到所述卷积神经网络的运算误差；

判断所述运算误差是否小于设定阈值；

如果所述运算误差不小于设定阈值，则根据所述运算误差，调整所述卷积神经网络的运算参数。

优选地，所述区域合并单元将所述至少一个文本区域进行合并时，具体用于：

将所述至少一个文本区域按照行方向进行合并。

优选地，所述特征提取单元提取得到输入图像的特征向量时，具体用于：

将图像输入vgg16卷积神经网络，利用所述vgg16卷积神经网络提取得到所述图像的特征向量。

采用本发明技术方案提出的文本定位方法，首先提取得到输入图像的特征向量，然后根据提取的特征向量从图像中选择出至少一个文本预选区域，然后利用卷积神经网络对文本预选区域进行调整得到至少一个文本区域，最后将文本预选区域进行合并，即可确认得到的文本区域的位置。上述过程为自动化的文本定位处理过程，全程不需要人工参与，实现了文本定位的自动化。并且，上述方法可以适用于移动设备运行，不存在不能被移动设备系统平台加速运行的处理过程，可以在移动设备上实现快速的图像文本定位。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例提供的一种文本定位方法的流程示意图；

图2是本发明实施例提供的包含文本的图像以及图像文本预选区域的示意图；

图3是本发明实施例提供的图像文本区域的标示示意图；

图4是本发明实施例提供的对卷积神经网络进行训练的流程示意图；

图5是本发明实施例提供的一种文本定位装置的结构示意图。

具体实施方式

在图像识别领域，有相当大一部分需求是识别图像中的文本内容。对图像中文本内容的识别，需要首先能够准确定位图像中的文本位置，然后对定位的文本位置区域的图像进行内容识别，确认图像中的文本内容。因此，可以看出，对图像中文本内容的定位是实现图像中文本识别的必要处理工作。

一般来说，最准确的图像文本定位方法是由人工来框选图像中的文本区域。但是随着人工智能的发展，人们希望能够由机器来完成图像中文本内容的定位，以省去对人工的依赖，提升用户体验。

当前效果比较好的自动化图像文本定位方法是连接文本推荐网络(connectionisttextproposalnetwork，ctpn)。ctpn是基于深度学习的文本定位方法，首先利用vgg16卷积神经网络提取图像特征，然后利用区域推荐网络(regionproposalnetwork，rpn)初步选取文本区域，再利用长短期记忆网络(longshort-termmemory，lstm)进行文本区域合并，最终确定图像文本位置。

ctpn在pc上被广泛使用，pc计算能力强，可以快速地实现图像文本定位。但是，由于ctpn的计算量较大，如果在移动设备上运行ctpn算法，由于移动设备运算能力相对于pc较弱，需要较长的运算时间，大概在7秒以上，一般用户无法接受这么长时间的等待，用户体验很差。可以说，将ctpn算法直接应用到移动设备上，其运算速度可能还不如用户手动框选图像文本区域更快，并不能提升用户体验。因此，如何实现在移动设备上的快速图像文本定位，成为提升用户体验的重要途径。

高通平台配备的神经网络处理引擎(snapdragonneuralprocessingengine，snpe)能够对运行的算法程序进行加速，提高运算速度。如果在高通平台上运行ctpn算法，利用其snpe技术对ctpn算法进行加速运行，应该可以提高ctpn算法运算速度，提高图像文本定位在高通平台移动设备上的处理速度。但是，事实上，ctpn算法中的lstm算法是无法被snpe加速的，因此对于利用snpe全面加速ctpn算法执行速度的思想，还存在技术实现上的瓶颈。

本发明实施例提出一种自动化的文本定位方法，能够实现自动地对图像中的文本内容进行定位，且对执行设备没有要求，可以方便地被snpe加速运行，能够提升用户体验。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种文本定位方法，该方法可应用于移动设备，参见图1所示，该方法包括：

s101、提取得到输入图像的特征向量；

具体的，上述输入图像，是指输入本发明实施例提出的文本定位算法，希望利用本算法定位其中的文本位置的图像。例如图2所示，可以作为输入图像，图像中包含英文文本，本发明实施例公开的文本定位方法能够实现将图2所示图像中的英文文本进行定位。

众所周知，计算机并不认识图像，只认识数字，为了使计算机能够“理解”图像，应当从图像中提取有用的数据或信息，得到图像的“非图像”的表示或描述，如数值、向量和符号等。这一过程就是特征提取，而提取出来的这些“非图像”的表示或描述就是特征。有了这些数值或向量形式的特征就可以通过训练过程教会计算机如何懂得这些特征，从而使计算机具有识别图像的本领。

特征是某一类对象区别于其他类对象的相应(本质)特点或特性，或是这些特点和特性的集合。特征是通过测量或处理能够抽取的数据。对于图像而言，每一幅图像都具有能够区别于其他类图像的自身特征，有些是可以直观地感受到的自然特征，如亮度、边缘、纹理和色彩等；有些则是需要通过变换或处理才能得到的，如矩、直方图以及主成份等。我们常常将某一类对象的多个或多种特性组合在一起，形成一个特征向量来代表该类对象，如果只有单个数值特征，则特征向量为一个一维向量，如果是n个特性的组合，则为一个n维特征向量。

基于上述理论，为了能够使计算机程序识别或“理解”图像，首先对输入图像的特征向量进行提取。本领域常用的图像特征向量提取方法多种多样，理论上，任意的可以提取得到图像特征向量的方法都可以被本发明实施例所采用。本发明实施例步骤s101主要目的在于提取得到能够量化表示图像的图像特征向量，并不对特征向量提取方法进行严格限定。

在本发明的另一个实施例中公开了，上述提取得到输入图像的特征向量，具体包括：

将图像输入vgg16卷积神经网络，利用所述vgg16卷积神经网络提取得到所述图像的特征向量。

具体的，vggnet是牛津大学计算机视觉组(visualgeometrygroup)和googledeepmind公司的研究员一起研发的深度卷积神经网络。vggnet探索了卷积神经网络与其性能之间的关系，通过反复堆叠3×3的小型卷积核和2×2的最大池化层，vggnet成功地构筑了16～19层深的卷积神经网络。vggnet的错误率大幅下降，同时拓展性很强，迁移到其它图片数据上的泛化性非常好。vggnet经常被用来提取图像特征，其模型参数在其官方网站上是开源的，可用来在图像分类任务上进行再训练，因此被用在了很多地方。

vgg16是由13个卷积层和3个全连接层构成的深度卷积神经网络，本发明实施例将该网络用于图像特征向量提取。具体的，将待处理图像(具体为包含文本内容的图像)输入vgg16卷积神经网络，vgg16的前5层卷积层输出该图像的特征向量。例如，将一个640×640大小的图像输入vgg16卷积神经网络，该网络的前5层卷积层输出一个向量[40,40,512]，该向量即为输入图像的特征向量，表示512张40宽，40高的特征图。

s102、根据所述特征向量，从所述图像中选择出至少一个文本预选区域；

具体的，上述文本预选区域，是指上述图像中，可能是文本区域的预选区域。在提取得到输入图像的特征向量后，本发明实施例利用该特征向量，对图像进行区域划分，将其划分为多个子图像区域，这些子图像区域综合起来构成整个图像区域。可以理解，由于该图像本身包含文本内容，因此在将图像进行子区域划分后，图像中的文本内容必定包含在各个子图像区域中，这些子图像区域作为该图像的文本预选区域。

步骤s102的处理主要是对输入图像进行区域划分，划分出的上述至少一个文本预选区域，可以是相互邻接的图像区域，也可以是存在重叠部分的图像区域。

本发明实施例利用神经网络来实现对输入图像的区域划分，具体的，任意可以实现对图像进行区域划分的神经网络，都可以被本发明实施例所采用。

在本发明的另一个实施例中，具体公开了上述根据所述特征向量，从所述图像中选择出至少一个文本预选区域，包括：

将所述特征向量输入区域推荐网络，使所述区域推荐网络根据所述特征向量从所述图像中选择出至少一个文本预选区域。

可以明确，该实施例公开了利用区域推荐网络从图像中选择出至少一个文本预选区域。

区域推荐网络(regionproposalnetwork,rpn)先通过对输入图像的数层卷积得到一个特征图像，然后在特征图像上生成候选区域，做法是使用一个n×n(n＝3)的滑动窗口，将局部的特征图像转换成一个低维特征,预测k个区域(cls层，2k个输出)是否为候选区域和对应的k个边框(reg层，4k个输出)。这里的k个区域被称为锚(anchor)，对应着与滑动窗口具有相同的中心的不同大小和不同长宽比的矩形框。假设卷积后的特征图像大小为w×h,那么一共有个whk个锚。

例如，假设对步骤s101提取得到的特征向量[40,40,512]进行文本预选区域选择时，将该向量[40,40,512]输入rpn网络，rpn网络将40×40个像素中，每个像素位置，映射到原始输入图像，相当于每个像素对应原始图像的16个像素，在原始输入图像对应位置上(每16像素中心点位置)，按照不同比例生成一系列的方框，即选择出至少一个文本预选区域，这些方框基本覆盖了整个图片区域，且数量不定，具体如图2中的方框所示。由于此时只是生成了一些固定位置的框，位置并不是和真正的文字所在区域重叠的，所以需要与接下来的步骤一起进行训练，从而让这些固定位置的框逐渐能正确的包含文字区域。

需要说明的是，上述rpn网络是经过事先训练的文本预选区域选择网络，即在应用该网络之前，首先利用已经标注了文本预选区域的图像对该网络进行训练，使该网络具有从为标注文本预选区域的图像中自主地选择出文本预算区域。

进一步的，在rpn网络具备从图像中选择出文本预选区域的能力后，还可以进一步对其选择精度进行训练，使其从图像中选择出文本预选区域的精度更高，以便于后期精确地确定文本位置。具体训练过程可参照下文对卷积神经网络的训练过程执行。

可以理解，当将其它可用的文本预选区域选择网络应用于本发明实施例时，也可以按照上述训练方式对网络进行训练，以提高算法整体执行效率。

s103、利用经过训练的卷积神经网络调整所述至少一个文本预选区域，得到至少一个文本区域；

具体的，上述文本区域，是指相对于上述文本预选区域，更精确地包含文本内容的图像区域，是对上述文本预选区域的进一步精细化处理结果。

上述卷积神经网络，具体是指一个卷积核大小为1×1的卷积神经网络。本发明实施例中1×1的卷积相当于全连接的作用，这个网络对图像中的文本预选区域进行调整，逐渐靠近真实的文本位置。

为了使上述卷积神经网络能够实现上述功能，需要对该网络进行功能训练，即利用已经标注真实文本位置和文本预选区域的图像对上述网络进行训练，使网络不断地自主对文本预选区域进行调整，直到其调整结果与上述标注的真实文本位置的差异足够小，则认为上述网络具备从文本预选区域中得到真实的文本区域的能力。

将上述经过训练的卷积神经网络用于对图2所示的已经标记文本预选区域的图像的调整，可以得到如图3所示的调整结果。可以看出，经过步骤s103的处理，得到的文本框更小，更逼近文本的真实位置。通过图3可以看出，采用上述卷积神经网络对文本预选区域进行调整得到文本区域的同时，还可以得到非文本区域的框，即图3所示上下两排图像框两端的框。这些框是应当被删除的文本框，即确定肯定不是文本的图像区域。上述卷积神经网络还可以对调整后的文本区域的框进行打分，分数高低代表其是文本区域的概率大小，对于文本区域，其得分相对较高，而对于非文本区域，其得分则相对较低，以此分数作为依据可以进一步确定图像中的文本区域。

需要说明的是，本发明实施例上述的处理步骤s101和s102与现有技术中的ctpn算法的前期处理步骤相同，都是首先利用vgg16卷积神经网络提取图像特征，然后利用rpn初步选取文本区域。与ctpn不同的是，本发明实施例利用一个卷积核大小1×1的卷积神经网络代替了ctpn算法的lstm算法。并且，本发明实施例所采用的卷积核大小为1×1的卷积神经网络可用于对任意大小的图像的文本预选区域调整，这与lstm算法的处理能力是完全相同的，能够完全替代lstm算法。可以理解，上述卷积神经网络的卷积核大小可以根据实际情况而改变，只是非1×1大小的卷积核会导致卷积神经网络对图像大小的适用范围变小，但并不会影响算法运行。

需要特别说明的是，由于lstm算法不能被高通平台的snpe加速，因此直接将ctpn算法应用于移动设备对于移动设备上实现快速的图像文本定位贡献并不大。而本发明实施例中的卷积神经网络却是可以被snpe加速的算法，利用卷积核大小为1×1的卷积神经网络代替lstm算法，再结合上述步骤s101和s102介绍的与ctpn算法相同的前期处理过程，可以得到类似于ctpn的算法的，能够应用到高通平台被加速运行的图像文本定位方法。经过试验验证，利用卷积核大小1×1的卷积神经网络执行步骤s103相对于现有技术中的lstm算法的处理过程，其处理速度提升了7倍。

s104、将所述至少一个文本区域进行合并，确认所述图像中的文本区域的位置。

具体的，将步骤s103中得到的至少一个文本区域进行合并，得到的更大范围的图像区域，即为最终确认的图像文本区域，该文本区域在图像中的位置，即图像文本位置。确认上述图像文本区域在上述图像中的位置，即确认了上述图像中的文本位置，实现了图像文本定位。

其中，对于图像中文本区域的定位，可以根据文本区域所占据的图像像素位置而确定，也可以根据文本区域所占据的坐标范围而确定，或者以任意一种确定图像中子图像区域位置的方法而确定，本发明实施例不做严格限定。

例如，将图3所示的各个文本区域进行合并，并将非文本区域删除，即可得到最终确认的文本区域范围，即确认了图像中的文本位置，实现了文本定位。

在本发明的另一个实施例中公开了，上述将所述至少一个文本区域进行合并，包括：

将所述至少一个文本区域按照行方向进行合并。

参见图3所示，在本发明实施例中是将文本区域以行的方式进行合并，得到上下两行文本区域。可以理解，在实际实施本发明实施例技术方案时，可以自由选择文字区域的形状，以及根据实际情况选择合并文本区域的方向，本发明实施例并不做严格限定。

通过上述介绍可见，采用本发明实施例技术方案首先提取得到输入图像的特征向量，然后根据提取的特征向量从图像中选择出至少一个文本预选区域，然后利用卷积神经网络对文本预选区域进行调整得到至少一个文本区域，最后将文本预选区域进行合并，即可确认得到的文本区域的位置。上述过程为自动化的文本定位处理过程，全程不需要人工参与，实现了文本定位的自动化。并且，上述方法可以适用于移动设备运行，不存在不能被移动设备系统平台加速运行的处理过程，可以在移动设备上实现快速的图像文本定位。

可选的，在本发明的另一个实施例中，公开了对上述技术方案中所采用的卷积神经网络的训练过程，参见图4所示，对上述卷积神经网络的训练过程，具体包括：

s401、将包含至少一个文本预选区域，以及与所述至少一个文本预选区域对应的已标注的至少一个文本区域的图像输入卷积神经网络，使所述卷积神经网络按照预设运算参数，调整所述图像中的至少一个文本预选区域，得到至少一个文本内容区域；

具体的，上述包含至少一个文本预选区域，以及与所述至少一个文本预选区域对应的已标注的至少一个文本内容区域的图像，是指已经由人工或其他方式，准确地标记出至少一个文本预选区域，以及与文本预选区域对一个的文本区域的图像，这些图像作为训练样本，对上述卷积神经网络进行训练。

将上述包含至少一个文本预选区域，并且已标记至少一个文本区域的图像输入上述卷积神经网络，上述卷积神经网络会根据自身参数设置，自主地对输入图像中的文本预选区域进行调整，得到文本区域。

s402、将所述卷积神经网络调整得到的至少一个文本区域与所述已标注的至少一个文本区域进行对比，得到所述卷积神经网络的运算误差；

具体的，上述卷积神经网络对于训练样本的处理是依据自身参数调整图像中的文本预选区域，其调整结果并不一定与标注的文本区域完全吻合，即会存在误差。本发明实施例中，将上述卷积神经网络的调整结果与标注的文本区域进行对比，计算得到上述卷积神经网络处理得到的文本区域与标注的文本区域的差异，也就是得到上述卷积神经网络的运算误差。

s403、判断所述运算误差是否小于设定阈值；

如果所述运算误差不小于设定阈值，则执行步骤s404、根据所述运算误差，调整所述卷积神经网络的运算参数；

具体的，如果上述计算得到的运算误差不小于设定阈值，则说明上述卷积神经网络的运算误差较大，此时本发明实施例根据上述运算误差，对上述卷积神经网络的运算参数进行调整，以使上述卷积神经网络的运算误差减小。

在调整上述卷积神经网络的运算参数后，返回执行步骤s401，再次执行步骤s401～s404，直到判断运算误差小于设定阈值时，结束上述循环过程，即完成了对上述卷积神经网络的训练。

本发明实施例还公开了一种文本定位装置，参见图5所示，该装置包括：

特征提取单元100，用于提取得到输入图像的特征向量；

区域选择单元110，用于根据所述特征向量，从所述图像中选择出至少一个文本预选区域；

区域调整单元120，用于利用经过训练的卷积神经网络调整所述至少一个文本预选区域，得到至少一个文本区域；

区域合并单元130，用于将所述至少一个文本区域进行合并，确认所述图像中的文本区域的位置。

其中，所述区域选择单元110根据所述特征向量，从所述图像中选择出至少一个文本预选区域时，具体用于：

将所述特征向量输入区域推荐网络，使所述区域推荐网络根据所述特征向量从所述图像中选择出至少一个文本预选区域。

所述区域调整单元120还用于对所述卷积神经网络进行训练；

所述区域调整单元120对所述卷积神经网络进行训练时，具体用于：

循环执行以下操作，直到计算得到的运算误差小于设定阈值：

将所述卷积神经网络调整得到的至少一个文本区域与所述已标注的至少一个文本区域进行对比，得到所述卷积神经网络的运算误差；

判断所述运算误差是否小于设定阈值；

如果所述运算误差不小于设定阈值，则根据所述运算误差，调整所述卷积神经网络的运算参数。

所述区域合并单元130将所述至少一个文本区域进行合并时，具体用于：

将所述至少一个文本区域按照行方向进行合并。

所述特征提取单元100提取得到输入图像的特征向量时，具体用于：

将图像输入vgg16卷积神经网络，利用所述vgg16卷积神经网络提取得到所述图像的特征向量。

具体的，上述实施例介绍的文本定位装置的各个单元的具体工作内容，请参见上述方法实施例的内容，此处不再赘述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩冰天;丛国华
技术所有人：北京字节跳动网络技术有限公司
我是此专利的发明人

上一篇：基于节点分区的含电动汽车的主动配电网运行调度方法与流程
上一篇：转运装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。