文字检测方法、装置、终端及存储介质与流程

文档序号：15493172发布日期：2018-09-21 21:03阅读：144来源：国知局

本发明涉及通信技术，尤其涉及一种文字检测方法、装置、终端及存储介质。

背景技术：

随着计算机视觉的飞速发展，文字识别逐渐渗透到人类生活的各个领域。有效且高效的文字检测可以极大程度地辅助文字识别进而完成整个图片向文字的转化，文字检测技术对于图像内容理解、图像翻译、自动驾驶都具有较大的意义。

相关技术中，进行文字检测采用大型深度神经网络(如resnet、googlenet)，并令深度学习任务运行在图形处理器(gpu，graphicsprocessingunit)集群上，这些大型深度神经网络参数多、计算量大，对设备的计算能力有很高的要求，而在一些应用场景下，例如：识别银行卡上的账号、手机截屏所得图片到文字的转化等场景下文字的检测，用户更希望在本地设备或者移动终端上能够实现，然受限于计算资源，或是文字检测的效率、准确率低，或是无法实现文字检测。

技术实现要素：

本发明实施例提供一种文字检测方法、装置、终端及存储介质，能够准确的实现文字检测，且文字检测效率高。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种文字检测方法，包括：

对目标图像进行特征提取处理，得到所述目标图像的特征数据；

根据所述特征数据，得到所述目标图像的多个文字候选框；

对所述多个文字候选框沿着文字的排列方向进行组合，得到至少一个文本框。

在一些实施例中，所述目标图像的特征数据指示下列中的至少一项：

所述目标图像的多个区域中每个区域包含文字的概率、所述多个区域中每个区域与文字的边界在高度方向上的距离。

在一些实施例中，所述根据所述特征数据，得到所述目标图像的多个文字候选框，包括：

基于所述区域与文字的边界在高度方向上的距离，对所述区域在高度方向上进行尺寸调整处理，得到所述文字候选框。

在一些实施例中，所述文字候选框的宽度为固定宽度；和/或

所述文字候选框的高度与文字高度相匹配。

在一些实施例中，所述基于所述多个文字候选框的信息，对所述多个文字候选框沿着文字的排列方向进行组合，得到至少一个文本框，包括：

基于所述多个文字候选框的信息，对所述多个文字候选框进行筛选，得到至少一个目标文字候选框；

对所述至少一个目标文字候选框沿着文字的排列方向进行组合，得到至少一个文本框。

在一些实施例中，所述基于所述多个文字候选框的信息，对所述多个文字候选框进行筛选，得到至少一个目标文字候选框，包括：

确定所述多个文字候选框中的第一文字候选框与所述多个文字候选框中的第二文字候选框的交并比；

在所述交并比超过第一比值阈值的情况下，从所述第一文字候选框和所述第二文字候选框中确定所述目标文字候选框。

在一些实施例中，所述从所述第一文字候选框和所述第二文字候选框中确定所述目标文字候选框，包括：

将所述第一文字候选框和所述第二文字候选框中包含文字的概率较高的文字候选框确定为所述目标文字候选框。

在一些实施例中，所述基于所述多个文字候选框的信息，对所述多个文字候选框沿着文字的排列方向进行组合，得到至少一个文本框，包括：

确定所述多个文字候选框中的第三文字候选框和第四文字候选框的水平距离、以及所述第三文字候选框和所述第四文字候选框在高度方向上的交并比；

在所述水平距离小于预设距离阈值、且所述高度方向上的交并比超过第二比值阈值的情况下，将所述第三文字候选框及所述第四文字候选框进行组合，得到第一子文本框；

将所述第一子文本框与所述多个文字候选框中除所述第三文字候选框及所述第四文字候选框之外的文字候选框进行组合，得到至少一个文本框。

在一些实施例中，所述得到至少一个文本框之后，所述方法还包括：

确定所述至少一个文本框中每个文本框的高度与在文字排列方向上的长度的比值；

基于所述至少一个文本框中每个文本框的高度与在文字排列方向上的长度的比值，对所述至少一个文本框进行过滤，得到至少一个目标文本框。

在一些实施例中，所述基于所述至少一个文本框中每个文本框的高度与在文字排列方向上的长度的比值，对所述至少一个文本框进行过滤，得到至少一个目标文本框，包括：

将所述至少一个文本框中高度与在文字排列方向上的长度的比值不小于第三比值阈值的文本框确定为所述目标文本框。

在一些实施例中，所述方法还包括：

采用预设的显示效果，在图形界面中显示所述至少一个文本框。

在一些实施例中，所述对目标图像进行特征提取处理之前，还包括：

调整所述目标图像的显示分辨率至预设值。

第二方面，本发明实施例提供一种文字检测装置，包括：

特征提取单元，用于对目标图像进行特征提取处理，得到所述目标图像的特征数据；

处理单元，用于根据所述特征数据，得到所述目标图像的多个文字候选框；

组合单元，用于对所述多个文字候选框沿着文字的排列方向进行组合，得到至少一个文本框。

在一些实施例中，所述目标图像的特征数据指示下列中的至少一项：

所述目标图像的多个区域中每个区域包含文字的概率、所述多个区域中每个区域与文字的边界在高度方向上的距离。

在一些实施例中，所述处理单元，还用于基于所述区域与文字的边界在高度方向上的距离，对所述区域在高度方向上进行尺寸调整处理，得到所述文字候选框。

在一些实施例中，所述文字候选框的宽度为固定宽度；和/或

所述文字候选框的高度与文字高度相匹配。

在一些实施例中，所述组合单元，还用于对所述多个文字候选框进行筛选，得到至少一个目标文字候选框；

对所述至少一个目标文字候选框沿着文字的排列方向进行组合，得到至少一个文本框。

在一些实施例中，所述组合单元，还用于确定所述多个文字候选框中的第一文字候选框与所述多个文字候选框中的第二文字候选框的交并比；

在所述交并比超过第一比值阈值的情况下，从所述第一文字候选框和所述第二文字候选框中确定所述目标文字候选框。

在一些实施例中，所述组合单元，还用于将所述第一文字候选框和所述第二文字候选框中包含文字的概率较高的文字候选框确定为所述目标文字候选框。

在一些实施例中，所述组合单元，还用于确定所述多个文字候选框中的第三文字候选框和第四文字候选框的水平距离、以及所述第三文字候选框和所述第四文字候选框在高度方向上的交并比；

将所述第一子文本框与所述多个文字候选框中除所述第三文字候选框及所述第四文字候选框之外的文字候选框进行组合，得到至少一个文本框。

在一些实施例中，还包括：

过滤单元，用于确定所述至少一个文本框中每个文本框的高度与在文字排列方向上的长度的比值；

基于所述至少一个文本框中每个文本框的高度与在文字排列方向上的长度的比值，对所述至少一个文本框进行过滤，得到至少一个目标文本框。

在一些实施例中，所述过滤单元，还用于将所述至少一个文本框中高度与在文字排列方向上的长度的比值不小于第三比值阈值的文本框确定为所述目标文本框。

在一些实施例中，还包括：

显示单元，用于采用预设的显示效果，在图形界面中显示所述至少一个文本框。

在一些实施例中，还包括：

调整单元，用于调整所述目标图像的显示分辨率至预设值。

第三方面，本发明实施例提供一种文字检测装置，包括：

存储器，用于存储可执行程序；

处理器，用于执行所述存储器中存储的可执行程序时，实现上述的文字检测方法。

第四方面，本发明实施例提供一种终端，所述终端包括所述文字检测装置。

第五方面，本发明实施例提供一种存储介质，存储有可执行程序，所述可执行程序被处理器执行时，实现上述的文字检测方法。

应用本发明上述实施例，通过特征提取得到目标图像的特征数据，根据特征数据，得到目标图像的多个文字候选框，进而通过沿着文字的排列方向进行组合，得到至少一个文本框，实现了对目标图像中文字的准确定位。

附图说明

图1为本发明实施例提供的卷积神经网络中一个可选的滤波器的示意图；

图2a为本发明实施例提供的采用分组卷积的网络结构示意图；

图2b为本发明实施例提供的在分组卷积的基础上引入组间信息交换的网络结构示意图；

图2c为本发明实施例提供的引入通道洗牌后的网络结构示意图；

图3为本发明实施例提供的终端的硬件结构示意；

图4为本发明实施例提供的文字检测方法的一个可选的流程示意图；

图5为本发明实施例提供的调整子区域得到文字候选框的示意图；

图6为本发明实施例提供的存在重叠关系的文字候选框的示意图；

图7为本发明实施例提供的合并文字候选框得到文本框的示意图；

图8为本发明实施例提供的进行文字候选框组合得到子文本框的示意图；

图9为本发明实施例提供的文字检测方法的一个可选的流程示意图；

图10为本发明实施例提供的文字检测装置的一个可选的组成结构示意图；

图11为本发明实施例提供的文字检测装置作为硬件实体的一个示例图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本发明，并不用于限定本发明。另外，以下所提供的实施例是用于实施本发明的部分实施例，而非提供实施本发明的全部实施例，在不冲突的情况下，本发明实施例记载的技术方案可以任意组合的方式实施。

需要说明的是，在本发明实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素，而且还包括没有明确列出的其他要素，或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元，例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。

例如，本发明实施例提供的文字检测方法包含了一系列的步骤，但是本发明实施例提供的文字检测方法不限于所记载的步骤，同样地，本发明实施例提供的文字检测装置包括了一系列单元，但是本发明实施例提供的装置不限于包括所明确记载的单元，还可以包括为获取相关信息、或基于信息进行处理时所需要设置的单元。

另外，本发明实施例中所记载的“第一”、“第二”、“第三”和“第四”仅用于区分不同的对象，不代表顺序或者优先级的差异，可以理解，在不冲突的情况下，“第一”、“第二”、“第三”和“第四”所代表的对象可以互换。

对本发明实施例进行进一步详细说明之前，首先对本发明实施例的卷积神经网络进行说明。

卷积神经网络是一种前馈(bp，backpropagation)神经网络，人工神经元可以响应周围单元，可以进行图像处理。卷积神经网络包括卷积层(即卷积计算层，用于线性乘积求和)和池化层(用于取区域平均或最大)；其中，卷积层为卷积神经网络的核心，所执行的操作为卷积操作。

这里，卷积操作为：对图像(不同的数据窗口数据)和滤波矩阵(一组固定的权重；因为每个神经元的多个权重固定，所以又可以看作一个恒定的滤波器)做内积(逐个元素相乘再求和)的操作。图1为本发明实施例提供的卷积神经网络中一个可选的滤波器的示意图，参见图1，图1中编号11所示可以理解为一个滤波器，即带着一组固定权重的神经元，多个滤波器叠加便成了卷积层。采用卷积神经网络进行图像处理时，提取图像的不同特征采用不同的滤波器，不同的滤波器会得到不同的输出数据，比如颜色深浅、轮廓等。

在实际应用中，卷积神经网络可以包含多个卷积层，把目标图像表示为像素的向量进行输入，第一个卷积层进行卷积运算，并将卷积结果作为第二个卷积层的输入值，以此类推，前一个卷积层的输出值作为下一个卷积层的输入值，通过多个卷积层的处理，最后一个卷积层通过对上一个卷积层的输入值进行卷积运算，得到目标图像的特征图。

在一实施例中，实施文字检测方法所进行的图像处理可以采用卷积神经网络模型(cnn，convolutionalneuralnetwork)，例如可以采用shufflenet，相较于大型神经网络模型resnet、googlenet来说，shufflenet是一种轻量级的卷积神经网络模型，它在减少网络参数的同时也能够获得较好的精度，接下来对shufflenet进行说明。

shufflenet的核心思想是分组卷积后增加通道信息的融合，即对不同的通道(channels)进行随机混合/洗牌，参见图2a至图2c，其中，图2a为本发明实施例提供的采用分组卷积的网络结构示意图，图2b为本发明实施例提供的在分组卷积的基础上引入组间信息交换的网络结构示意图，图2c为本发明实施例提供的引入通道洗牌后的网络结构示意图，在图2a中，信息流被分割在各个组内，组与组之间没有信息交换，输出通道只和输入的某些通道有关，导致全局信息流通不畅，网络表达能力不足；在图2b中，在使用分组逐点卷积的同时，引入组间信息交换的机制，也就是说，对于第二层卷积而言，每个卷积核需要同时接收各组的特征作为输入，使得信息可以在不同组之间流转，实现均匀的shuffle；在图2c中，引入通道洗牌(channelshuffle)以实现组间信息交换的机制。

在本发明实施例中，采用shufflenet对目标图像进行处理时，相应的输入即为目标图像rgb三个通道，例如3×1024×768的高维数组，经shufflenet的多个卷积层的处理(特征提取)，输出特征图，该特征图包含多个特征点，特征点与目标图像中的子区域存在映射关系，特征点携带目标图像的特征数据，特征数据指示以下信息至少之一：对应的子区域包含文字的概率、对应的子区域与文字的上边界的距离、对应的子区域与文字的下边界的距离。

当本发明实施例的文字检测方法采用上述shufflenet实现对目标图像的特征提取时，该文字检测方法可在终端(移动终端)或服务器上运行，以文字检测方法在终端上运行为例，接下来对本发明实施例中运行文字检测方法的终端的硬件结构进行说明。参见图3，图3为本发明实施例提供的终端100的硬件结构示意，如图3所示，终端100可以包括：rf(radiofrequency，射频)单元101、wifi模块102、音频输出单元103、a/v(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。这里需要说明的是，上述rf单元、音频输出单元、a/v输入单元等并非终端的必要组成部分，在实际应用中，可根据实际需要进行选择。

下面结合图3对终端中可包括的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。

wifi属于短距离无线传输技术，终端通过wifi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。

音频输出单元103可以在终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等模式下时，将射频单元101或wifi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。音频输出单元103可以包括扬声器、蜂鸣器等。

a/v输入单元104用于接收音频或视频信号。a/v输入单元104可以包括图形处理器(graphicsprocessingunit，gpu)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。

终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(liquidcrystaldisplay，lcd)、有机发光二极管(organiclight-emittingdiode，oled)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括触控面板1071以及其他输入设备1072。

接口单元108用作至少一个外部装置与终端100连接可以通过的接口。

存储器109可用于存储软件程序以及各种数据。可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。

终端100还可以包括给各个部件供电的电源111(比如电池)，尽管图3未示出，终端100还可以包括其它功能模块等，在此不再赘述。

参见图4，图4为本发明实施例提供的文字检测方法的一个可选的流程示意图，可选地，该文字检测方法可应用于图3所示的终端或服务器等，涉及步骤201至步骤203，以下分别进行说明。

步骤201：对目标图像进行特征提取处理，得到所述目标图像的特征数据。

在实际实施时，可采用卷积神经网络模型对目标图像进行处理，得到目标图像的特征数据，特征数据指示以下信息至少之一：对应的子区域包含文字的概率、对应的子区域与文字的上边界的距离、对应的子区域与文字的下边界的距离。例如，该特征数据可以具体为特征图，特征图包括多个特征点；其中，目标图像由多个大小相同或不同的子区域构成，特征点与目标图像的子区域存在映射关系，每个特征点对应目标图像的一个子区域，特征点的特征向量包含对应子区域的概率信息和/或在高度方向上与文字的距离，等等，本公开实施例不限于此。

在一实施例中，所述卷积神经网络模型可以为shufflenet，采用shufflenet对目标图像进行处理后得到对应目标图像的特征图，该特征图包括对应目标图像的多个特征点，每个特征点对应目标图像中的一个子区域(例如8*8的正方形区域)，例如经shufflenet进行特征提取后，得到如下特征数据：目标图像的每个子区域包含文字的概率(如0.8)，子区域与文字的上边界的距离，文字的下边界与子区域的距离。

在一实施例中，在对目标图像进行特征提取之前，可以对目标图像进行如下预处理：调整所述目标图像的显示分辨率至预设值。示例性地，降低目标图像的显示分辨率，例如目标图像的长边为3000个像素，降低显示分辨率后目标图像的长边为1024个像素。这样，可以将目标图像调整至预设尺寸，例如进行裁剪或缩放等，可以加快卷积神经网络模型进特征提取时的处理速度，进而提高文字检测的效率。可选地，在实际应用中，所述预处理还可以包括其它操作，如去除噪声、平滑处理等。

步骤202：根据所述特征数据，得到所述目标图像的多个文字候选框。

在一实施例中，可以通过如下方式得到文字候选框：

基于所述子区域与文字的边界在高度方向上的距离，对所述子区域在高度方向上进行尺寸调整处理，得到所述文字候选框。

这里，文字候选框的宽度为固定宽度，例如，与所述子区域的宽度(当子区域为正方形时即边长)相同；和/或，所述文字候选框的高度与文字高度相匹配。

在一实施例中，在对子区域进行调整处理之前，还可以基于每个子区域包含文字的概率信息，去除所述目标图像中包含文字的概率小于预设概率阈值的子区域。

这里，在实际应用中，可预先设置对应包含文字的概率的一个概率阈值，用于判断子区域是否包含文字，例如，设置概率阈值为0.7，则当子区域包含文字的概率达到0.7时，确定该子区域包含文字，相应的，当子区域包含文字的概率小于0.7时，确定该子区域不包含文字，进而可对不包含文字的子区域进行过滤，去除目标图像中包含文字的概率小于0.7的子区域。

在去除目标图像中包含文字的概率小于预设概率阈值的子区域后，对剩余的子区域的高度进行调整，生成宽与子区域的宽度相同，文字候选框的高与文字的高度匹配的多个文字候选框。以子区域为8像素×8像素的正方形为例进行说明，图5为本发明实施例提供的调整子区域得到文字候选框的示意图，参见图5，编号51所示为调整前的子区域，该子区域为正方形，确定该正方形51中包含文字(如图中所示“国”)的概率达到0.7(如0.8)，调整正方形的上边界至所包含的文字的上边界，调整正方形的下边界至所包含的文字的下边界，如此，得到宽与正方形的宽度(边长)相同，长与文字的高度相同的文字候选框，如图5中编号52所示为调整后得到的文字候选框。

步骤203：对所述多个文字候选框沿着文字的排列方向进行组合，得到至少一个文本框。

在实际应用中，当基于每个子区域包含文字的概率信息及文字的高度信息对目标图像中的子区域进行调整后，得到的多个文字候选框中会存在相互重叠的文字候选框，图6为本发明实施例提供的存在重叠关系的文字候选框的示意图，为了能够更加清楚的识别文字候选框的重叠关系，该图中省略了子区域(文字候选框)中包含的文字，如图6所示，对目标图像中正方形61、62、63进行调整得到存在重叠关系的文字候选框64、65、66。因此，可对存在重叠关系的文字候选框进行筛选，以提高文字检测的准确度，在一实施例中，可对所述多个文字候选框进行筛选，得到至少一个目标文字候选框；以对所述至少一个目标文字候选框沿着文字的排列方向进行组合，得到至少一个文本框。

在实际应用中，可采用非极大抑制(nms，non-maximum-suppression)算法对多个文字候选框进行筛选，确定所述多个文字候选框中的第一文字候选框与所述多个文字候选框中的第二文字候选框的交并比；在所述交并比超过第一比值阈值的情况下，从所述第一文字候选框和所述第二文字候选框中确定所述目标文字候选框，如将所述第一文字候选框和所述第二文字候选框中包含文字的概率较高的文字候选框确定为所述目标文字候选框；具体地，可通过如下方式对存在重叠关系的文字候选框进行筛选：

按照每个文字候选框包含文字的概率由大到小的顺序，对多个文字候选框进行排序；然后，从所述多个文字候选框中，选取包含文字的概率最高的文字候选框作为第一文字候选框；遍历选取第一文字候选框后剩余的文字候选框，删除与第一文字候选框的重叠面积符合第一预设条件的文字候选框；

对执行所述删除操作后剩余的文字候选框迭代进行上述处理(文字候选框排序、文字候选框选取、遍历剩余文字候选框并删除符合第一预设条件的文字候选框)，直至不再剩余文字候选框。

在一实施例中，可通过如下方式删除与第一文字候选框的重叠面积符合第一预设条件的文字候选框：

从选取第一文字候选框后剩余的文字候选框中选取(如随机选取)第二文字候选框；获取第一文字候选框与第二文字候选框的面积交与面积并的比值(iou，intersectionoverunion)；确定所述面积交与面积并的比值超过第一比值阈值(可依据实际需要进行设定)时，删除第二文字候选框。如此，可准确的删除与第一文字候选框存在重叠关系的文字候选框，提高文字检测的精度。以图6所示的文字候选框为例进行说明，假如基于包含文字的概率进行排序后，图6中的三个文字候选框中文字候选框65包含文字的概率最大，则将文字候选框65作为第一文字候选框，并分别计算剩余的文字候选框与文字候选框65的面积交与面积并的比值，若比值超过第一比值阈值(如0.6)时将其删除，如经计算文字候选框64与文字候选框65的面积交与面积并的比值达到0.65，则删除文字候选框64。

在一实施例中，还可通过如下方式删除与第一文字候选框的重叠面积符合第一预设条件的文字候选框：

删除文字候选框中与第一文字候选框的重叠面积的比例(重叠面积与第一文字候选框的面积的比值)达到预设重叠阈值(可依据实际需要进行设定，如0.65)的文字候选框。仍以图6所示的文字候选框为例进行说明，经计算文字候选框65包含文字的概率最大，将文字候选框65作为第一文字候选框，并分别计算文字候选框64、66与文字候选框65的重叠面积的比例，得到文字候选框64与文字候选框66的重叠面积的比例为0.75，文字候选框66与文字候选框65的重叠面积的比例为0.2，则删除文字候选框64。

在一实施例中，对所述多个文字候选框沿着文字的排列方向进行组合，得到至少一个文本框，可以包括：

确定所述多个文字候选框中的第三文字候选框和第四文字候选框的水平距离、以及所述第三文字候选框和所述第四文字候选框在高度方向上的交并比；

将所述第一子文本框与所述多个文字候选框中除所述第三文字候选框及所述第四文字候选框之外的文字候选框进行组合，得到至少一个文本框。

在一实施例中，获取所述多个文字候选框中相邻文字候选框间的水平距离后，还可通过如下方式得到文本框：

从多个文字候选框中选取第三文字候选框；

遍历选取所述第三文字候选框后剩余的文字候选框，将与所述第三文字候选框的水平距离符合第二预设条件、且长度符合第三预设条件的文字候选框与所述第三文字候选框进行组合，得到第一子文本框；

遍历得到所述第一子文本框后剩余的文字候选框，将与第一子文本框的水平距离符合第二预设条件、且高度符合第三预设条件的文字候选框与所述第一子文本框进行组合，得到第二子文本框；

基于所述第二子文本框，迭代进行上述处理，直至不再剩余文字候选框，得到至少一个文本框；如此，通过并查集的方式实现多个文字候选框的组合。参见图7，图7为本发明实施例提供的合并文字候选框得到文本框的示意图，通过并查集的方式对文字候选框进行组合，得到图中所示多个文本框，如图7中71、72所示，实现对文本框内文字的定位，以进行文字识别。

这里，在实际实施时，对第三文字候选框的选取可以为随机选取多个文字候选框中一个作为第三文字候选框。

在一实施例中，可以通过如下方式得到第一子文本框：

从多个文字候选框中选取(按顺序或随机选取)第四文字候选框；

获取第四文字候选框与所述第三文字候选框的水平距离，以及所述第四文字候选框与所述第三文字候选框在高度方向上的交并比；确定所获取的所述水平距离小于预设距离阈值(依据实际需要进行设定)，且所述在高度方向上的交并比超过第二比值阈值(依据实际需要进行设定)时，对所述第四文字候选框与所述第三文字候选框进行组合，得到所述第一子文本框。图8为本发明实施例提供的进行文字候选框组合得到子文本框的示意图，参见图8，经计算，文字候选框81与文字候选框82间的水平距离小于预设距离阈值，且在高度方向上的交并比超过第二比值阈值，将文字候选框81与文字候选框82进行组合，得到子文本框83；如此，可以将水平距离较近，且高度相差无几的两个文字候选框进行组合，实现处于同一行的文字候选框的合并。

在实际应用中，得到多个文本框之后，可以对文本框进行过滤，以去除明显不包含文字的文本框，在一实施例中，可通过如下方式实现对文本行的过滤：确定所述至少一个文本框中每个文本框的高度与在文字排列方向上的长度的比值；基于所述至少一个文本框中每个文本框的高度与在文字排列方向上的长度的比值，对所述至少一个文本框进行过滤，得到至少一个目标文本框。

具体地，将所述至少一个文本框中高度与在文字排列方向上的长度的比值不小于第三比值阈值的文本框确定为所述目标文本框，也即，确定所述第一文本框的高度与在文字排列方向上的长度小于第三比值阈值(可依据实际需要进行设定，如1)时，删除所述第一文本框。

这里，在实际实施时，由于得到的文本行通常是长方形，也即长宽比大于1，因此，若检测得到一个文本框的高度与在文字排列方向上的长度的比值小于1，如0.3，则可知该文本框中定不是文本行，如是一个小竖条，则删除该文本框。

在一实施例中，得到文本框之后，为了便于用户查看，可采用预设的显示效果(如高亮、虚线、特定颜色等)，在图形界面中显示所得到的至少一个文本框。

在实际实施时，为了进一步提高文字检测的检测效率及检测准确度，在一实施例中，所述目标图像中的文字为呈水平排列的文字，或者为倾斜程度小于预设阈值的文字。

应用本发明实施例，可采用如shufflenet的小型神经网络进行文字检测，如此，降低了计算复杂度，进而可提高文字检测的效率，降低对执行设备的计算能力的要求，使得该文字检测方法可应用于移动终端，同时，文字检测的准确度也有极大提高，实施表明，采用手机对一张图片进行文字检测的时间不大于0.2秒。

图9是本发明实施例提供的文字检测方法的一个可选的流程示意图，该文字检测方法可应用于图3所示的终端，如图9所示，本发明实施例的文字检测方法包括：

步骤301：调整目标图像的显示分辨率至预设值。

这里，在实际实施时，降低目标图像的显示分辨率，例如目标图像的长边为3000个像素，降低显示分辨率后目标图像的长边为1024个像素。如此，可以加快卷积神经网络模型进特征提取时的处理速度，进而提高文字检测的效率。

步骤302：采用卷积神经网络模型对目标图像进行特征提取，得到目标图像的特征数据。

这里，目标图像由多个大小相同的正方形区域构成，卷积神经网络模型可以为shufflenet，采用shufflenet对目标图像进行处理后得到对应目标图像的特征图，特征图包括多个特征点，特征点与目标图像的正方形区域存在映射关系，每个特征点对应目标图像的一个正方形区域，特征点携带目标图像的特征数据，特征数据指示以下信息至少之一：对应的正方形区域包含文字的概率、对应的正方形区域与文字的上边界的距离、对应的正方形区域与文字的下边界的距离。

步骤303：去除目标图像中包含文字的概率小于预设概率阈值的正方形区域。

可预先设置对应包含文字的概率的一个概率阈值，用于判断正方形区域是否包含文字，例如，设置概率阈值为0.7，则当正方形区域包含文字的概率达到0.7时，确定该正方形区域包含文字，相应的，当正方形区域包含文字的概率小于0.7时，去除该正方形区域。

步骤304：根据目标图像的特征数据，对目标图像的正方形区域进行调整处理，得到多个文字候选框。

这里，在去除特征图中包含文字的概率小于预设概率阈值的正方形区域后，根据目标图像的特征数据，对目标图像中剩余的正方形区域的高度进行调整，得到宽与正方形区域的边长相同，文字候选框的高与文字的高度相同的多个文字候选框。

步骤305：采用非极大抑制算法对得到的多个文字候选框进行筛选。

在一实施例中，可通过如下方式对得到的文字候选框进行筛选：

对执行所述删除操作后剩余的文字候选框迭代进行上述处理，直至不再剩余文字候选框。

其中，删除与第一文字候选框的重叠面积符合第一预设条件的文字候选框，包括：从文字候选框中选取(如随机选取)第二文字候选框；获取第一文字候选框与第二文字候选框的面积交与面积并的比值，确定所述面积交与面积并的比值超过第一比值阈值(可依据实际需要进行设定)时，删除第二文字候选框。

步骤306：对进行所述筛选后的文字候选框进行组合，得到至少一个文本框。

在一实施例中，获取所述多个文字候选框中相邻文字候选框间的水平距离后，可通过如下方式得到文本框：

从多个文字候选框中选取第三文字候选框；

遍历选取所述第三文字候选框后剩余的文字候选框，将与所述第三文字候选框的水平距离符合第二预设条件、且高度符合第三预设条件的文字候选框与所述第三文字候选框进行组合，得到第一子文本框；

遍历得到所述第一子文本框后剩余的文字候选框，将与第一子文本框的水平距离符合第二预设条件、且长度符合第三预设条件的文字候选框与所述第一子文本框进行组合，得到第二子文本框；

基于所述第二子文本框，迭代进行上述处理，直至不再剩余文字候选框，得到至少一个文本框；如此，通过并查集的方式实现多个文字候选框的组合。

在一实施例中，可以通过如下方式得到第一子文本框：

从多个文字候选框中选取(按顺序或随机选取)第四文字候选框；

获取第四文字候选框与第三文字候选框的水平距离，以及所述第四文字候选框与第三文字候选框在高度方向上的交并比；确定所获取的所述水平距离小于预设距离阈值(依据实际需要进行设定)，且在高度方向上的交并比超过第二比值阈值(依据实际需要进行设定)时，对第四文字候选框与第三文字候选框进行组合，得到第一子文本框。

步骤307：获取所得到的每个文本框的高度与在文字排列方向上的长度的比值，并过滤高度与在文字排列方向上的长度的比值小于第三比值阈值的文本框。

步骤308：采用预设的显示效果，在图形界面中显示所述过滤后的文本框。

这里的显示效果可以为高亮、虚线、特定颜色等；如此方便用户进行查看。

图10为本发明实施例提供的文字检测装置的一个可选的组成结构示意图，该文字检测装置可由图3所示的终端实现，如图10所示，本发明实施例的文字检测装置包括：

特征提取单元91，用于对目标图像进行特征提取处理，得到所述目标图像的特征数据；

处理单元92，用于根据所述特征数据，得到所述目标图像的多个文字候选框；

组合单元93，用于对所述多个文字候选框沿着文字的排列方向进行组合，得到至少一个文本框。

在一实施例中，所述目标图像的特征数据指示下列中的至少一项：

所述目标图像的多个子区域中每个子区域包含文字的概率、所述多个子区域中每个子区域与文字的边界在高度方向上的距离。

在一实施例中，所述处理单元，还用于基于所述子区域与文字的边界在高度方向上的距离，对所述子区域在高度方向上进行尺寸调整处理，得到所述文字候选框。

在一实施例中，所述文字候选框的宽度为固定宽度；和/或

所述文字候选框的高度与文字高度相匹配。

在一实施例中，所述组合单元，还用于基于所述多个文字候选框的信息，对所述多个文字候选框进行筛选，得到至少一个目标文字候选框；

对所述至少一个目标文字候选框沿着文字的排列方向进行组合，得到至少一个文本框。

在一实施例中，所述组合单元，还用于确定所述多个文字候选框中的第一文字候选框与所述多个文字候选框中的第二文字候选框的交并比；

在所述交并比超过第一比值阈值的情况下，从所述第一文字候选框和所述第二文字候选框中确定所述目标文字候选框。

在一实施例中，所述组合单元，还用于将所述第一文字候选框和所述第二文字候选框中包含文字的概率较高的文字候选框确定为所述目标文字候选框。

在一实施例中，所述组合单元，还用于确定所述多个文字候选框中的第三文字候选框和第四文字候选框的水平距离、以及所述第三文字候选框和所述第四文字候选框在高度方向上的交并比；

将所述第一子文本框与所述多个文字候选框中除所述第三文字候选框及所述第四文字候选框之外的文字候选框进行组合，得到至少一个文本框。

在一实施例中，还包括：

过滤单元，用于确定所述至少一个文本框中每个文本框的高度与在文字排列方向上的长度的比值；

基于所述至少一个文本框中每个文本框的高度与在文字排列方向上的长度的比值，对所述至少一个文本框进行过滤，得到至少一个目标文本框。

在一实施例中，所述过滤单元，还用于将所述至少一个文本框中高度与在文字排列方向上的长度的比值不小于第三比值阈值的文本框确定为所述目标文本框。

在一实施例中，本发明实施例的文字检测装置还可以包括：

显示单元，用于采用预设的显示效果，在图形界面中显示所述至少一个文本框。

在一实施例中，本发明实施例的文字检测装置还可以包括：

调整单元，用于调整所述目标图像的显示分辨率至预设值。

本发明实施例还提供了一种文字检测装置，该文字检测装置可由图3所示的终端实现，装置包括：

存储器，用于存储可执行程序；

处理器，用于执行所述存储器中存储的可执行程序时，实现本发明实施例上述的文字检测方法。本发明实施例的文字检测装置作为硬件实体的一个示例如图11所示。所述文字检测装置包括处理器41、存储器42以及至少一个外部通信接口43；其中，存储器42中存储有存储介质421；所述处理器41、存储器42以及外部通信接口43均通过总线44连接。

本发明实施例还提供了一种存储介质，存储有可执行程序，所述可执行程序被处理器执行时，实现本发明实施例上述的文字检测方法。

这里需要指出的是：以上涉及文字检测装置的描述，与上述文字检测方法描述是类似的，同方法的有益效果描述，不做赘述，基于文字检测装置的描述，与上述文字检测方法描述是类似的，同方法的有益效果描述，不做赘述。对于本发明所述文字检测装置实施例中未披露的技术细节，请参照本发明方法实施例的描述。

实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、随机存取存储器(ram，randomaccessmemory)、只读存储器(rom，read-onlymemory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ram、rom、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王赢绪;刘学博;梁鼎
技术所有人：北京市商汤科技开发有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。