文字检测方法和装置、及文字检测训练方法和装置与流程

文档序号：12272285阅读：来源：国知局

技术特征：

1.一种文字检测方法，包括：

使用卷积神经网络从包括文字区域的图像提取特征图；

采用多个锚矩形对所述特征图分别进行横向截取，得到多个建议区域；

将每个建议区域通过所述卷积神经网络进行分类和回归，其中，通过所述分类来确定每个建议区域是否对应于包括文字的区域，通过所述回归来确定每个建议区域对应所述图像中的位置；以及

将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接，以得到文字区域检测结果。

2.根据权利要求1所述的文字检测方法，所述区域横向拼接包括：根据通过回归确定的所述各建议区域分别对应所述图像中的位置，将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接，由此得到所述文字区域检测结果。

3.一种文字检测训练方法，包括：

使用卷积神经网络从包括文字区域的训练图像提取特征图；

采用多个锚矩形对所述训练图像的特征图进行横向截取，得到多个建议区域；

将每个锚矩形截取的建议区域通过所述卷积神经网络进行分类和回归，其中所述分类确定每个建议区域是否对应于包括文字的区域，所述回归确定每个建议区域的位置；以及

根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异，迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。

4.根据权利要求3所述的文字检测训练方法，其中，在所述卷积神经网络的每次迭代训练中，根据所述预测文字区域与所述对应的真实文字区域在竖直方向上的交并比，确定所述真实文字区域和所述预测文字区域之间的差异。

5.一种文字检测装置，包括：

图像特征提取模块，使用卷积神经网络从包括文字区域的图像提取特征图；

建议区域截取模块，采用多个锚矩形对所述特征图分别进行横向截取，得到多个建议区域；

分类模块，将每个建议区域通过所述卷积神经网络进行分类，以确定每个建议区域是否对应于包括文字的区域；

回归模块，将每个建议区域通过所述卷积神经网络进行回归，以确定每个建议区域对应所述图像中的位置；以及

检测结果拼接模块，将所述分类模块确定的对应于包括文字的区域的各建议区域根据所述回归模块确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接，以得到文字区域检测结果。

6.根据权利要求5所述的文字检测装置，所述区域横向拼接包括：根据通过回归确定的所述各建议区域分别对应所述图像中的位置，将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接，由此得到所述文字区域检测结果。

7.一种文字检测训练装置，包括：

图像特征提取模块，使用卷积神经网络从包括文字区域的训练图像提取特征图；

建议区域截取模块，采用多个锚矩形对所述训练图像的特征图进行横向截取，得到多个建议区域；

分类模块，将每个建议区域通过所述卷积神经网络进行分类，以确定每个建议区域是否对应于包括文字的区域；

回归模块，将每个建议区域通过所述卷积神经网络进行回归，以确定每个建议区域对应所述训练图像中的位置；以及

训练模块，根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异，迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。

8.根据权利要求7所述的文字检测训练装置，其中，在所述卷积神经网络的每次迭代训练中，根据所述预测文字区域与所述对应的真实文字区域在竖直方向上的交并比，确定所述真实文字区域和所述预测文字区域之间的差异。

9.一种文字检测装置，包括：

存储器，存储有可执行指令；以及

一个或多个处理器，与所述存储器通信以执行所述可执行指令从而执行以下操作：

使用卷积神经网络从包括文字区域的图像提取特征图；

采用多个锚矩形对所述特征图分别进行横向截取，得到多个建议区域；

10.一种文字检测训练装置，包括：

存储器，存储有可执行指令；以及

一个或多个处理器，与所述存储器通信以执行所述可执行指令从而执行以下操作：

使用卷积神经网络从包括文字区域的训练图像提取特征图；

采用多个锚矩形对所述训练图像的特征图进行横向截取，得到多个建议区域；

完整全部详细技术资料下载

当前第2页1 2 3