文字区域边界检测方法、设备、存储介质及装置与流程

文档序号：24412107发布日期：2021-03-26 19:46阅读：110来源：国知局

1.本发明涉及图像识别技术领域，尤其涉及一种文字区域边界检测方法、设备、存储介质及装置。

背景技术：

2.现有技术为实现任意形状场景文字的检测，通常致力于探究任意形状文字的表达形式，例如，如何更好地学习像素点或文字片段的属性及之间的关系以区分文字区域，或者是致力于增强特征表达，例如，结合不同粒度的特征或者学习上下文特征等。
3.但是，现有技术中无法精确识别任意形状文字的区域边界，从而导致任意形状场景文字的检测准确率低、可靠性差。
4.上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现要素：

5.本发明的主要目的在于提供一种文字区域边界检测方法、设备、存储介质及装置，旨在解决如何优化文字的区域边界检测过程的技术问题。
6.为实现上述目的，本发明提供一种文字区域边界检测方法，所述文字区域边界检测方法包括以下步骤：获取待处理图像，并通过预设主干网络对所述待处理图像进行特征提取，获得图像特征；根据所述图像特征以及预设区域建议网络确定初始候选区域，并对所述初始候选区域进行池化处理，获得第一固定特征和第二固定特征；通过预设文字区域调整网络对所述第一固定特征进行分析，获得特征分析结果；根据预设文字掩码分割网络以及所述第二固定特征确定初始文字区域边界检测结果；根据所述特征分析结果对所述初始文字区域边界检测结果进行调整，获得目标文字区域边界检测结果。
7.优选地，所述根据所述特征分析结果对所述初始文字区域边界检测结果进行调整，获得目标文字区域边界检测结果的步骤，具体包括：从所述特征分析结果中获取置信度和位置偏移，并根据所述初始文字区域边界以及所述位置偏移确定初始文字掩码；根据所述初始文字掩码确定文字掩码重叠率，并根据所述文字掩码重叠率以及所述置信度确定目标文字掩码；对所述目标文字掩码进行边界检测，获得检测结果，并根据检测结果确定目标文字区域边界检测结果。
8.优选地，所述根据所述初始文字掩码确定文字掩码重叠率，并根据所述文字掩码
重叠率以及所述置信度确定目标文字掩码的步骤，具体包括：根据所述初始文字掩码确定文字掩码重叠率，并判断文字掩码重叠率是否大于预设阈值；在所述文字掩码重叠率大于预设阈值时，根据所述置信度对所述初始文字掩码进行排序，获得排序结果；根据所述排序结果对所述初始文字掩码进行筛选，获得目标文字掩码。
9.优选地，所述根据所述图像特征以及预设区域建议网络确定初始候选区域，并对所述初始候选区域进行池化处理，获得第一固定特征和第二固定特征的步骤，具体包括：根据所述图像特征以及预设区域建议网络确定初始候选区域；通过预设形变兴趣区域池化模型对所述初始候选区域进行分析，获得形变偏移量；根据所述形变偏移量对所述初始候选区域进行池化处理，获得第一固定特征和第二固定特征。
10.优选地，所述获取待处理图像，并通过预设主干网络对所述待处理图像进行特征提取，获得图像特征的步骤之前，所述文字区域边界检测方法还包括：获取初始样本图像，并对所述初始样本图像进行尺度调整，获得待处理样本图像；通过预设滑动窗口对所述待处理样本图像进行图像提取，获得待处理样本子图像；对所述待处理子图像进行特征分析，获得正例样本子图像和负例样本子图像；根据所述正例样本子图像以及所述负例样本子图像对初始区域建议网络进行训练，获得预设区域建立网络。
11.优选地，所述对所述待处理子图像进行特征分析，获得正例样本子图像和负例样本子图像的步骤，具体包括：获取所述待处理子图像的图像尺寸，并查找所述图像尺寸对应的阈值范围；对所述待处理子图像进行分析，获得文字包围框；获取所述文字包围框的各边界长度，并根据所述边界长度以及所述阈值范围确定正例样本子图像和负例样本子图像。
12.优选地，所述根据预设文字掩码分割网络以及所述第二固定特征确定初始文字区域边界检测结果的步骤之前，所述文字区域边界检测方法还包括：根据所述待处理图像确定形状结构约束函数；根据所述形状结构约束函数对初始文字掩码分割网络进行训练，获得预设文字掩码分割网络。
13.此外，为实现上述目的，本发明还提出一种文字区域边界检测设备，所述文字区域边界检测设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文字区域边界检测程序，所述文字区域边界检测程序配置为实现如上文所述的文字区域边界检测方法的步骤。
14.此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有文字区域边界检测程序，所述文字区域边界检测程序被处理器执行时实现如上文所述的文字区域边界检测方法的步骤。
15.此外，为实现上述目的，本发明还提出一种文字区域边界检测装置，所述文字区域边界检测装置包括：获取模块、处理模块、分析模块、检测模块和调整模块；所述获取模块，用于获取待处理图像，并通过预设主干网络对所述待处理图像进行特征提取，获得图像特征；所述处理模块，用于根据所述图像特征以及预设区域建议网络确定初始候选区域，并对所述初始候选区域进行池化处理，获得第一固定特征和第二固定特征；所述分析模块，用于通过预设文字区域调整网络对所述第一固定特征进行分析，获得特征分析结果；所述检测模块，用于根据预设文字掩码分割网络以及所述第二固定特征确定初始文字区域边界检测结果；所述调整模块，用于根据所述特征分析结果对所述初始文字区域边界检测结果进行调整，获得目标文字区域边界检测结果。
16.相较于现有的只通过探究任意形状文字的表达形式或增强特征表达进行场景文字检测的方式，本发明中，通过获取待处理图像，并通过预设主干网络对待处理图像进行特征提取，获得图像特征，根据图像特征以及预设区域建议网络确定初始候选区域，并对初始候选区域进行池化处理，获得第一固定特征和第二固定特征，通过预设文字区域调整网络对第一固定特征进行分析，获得特征分析结果，根据预设文字掩码分割网络以及第二固定特征确定初始文字区域边界检测结果，根据特征分析结果对初始文字区域边界检测结果进行调整，获得目标文字区域边界检测结果，克服了现有技术中无法精确识别任意形状文字的区域边界的缺陷，从而能够优化文字的区域边界检测过程，提高文字区域边界检测的准确性、可靠性，以满足场景文字检测的需求。
附图说明
17.图1是本发明实施例方案涉及的硬件运行环境的文字区域边界检测设备的结构示意图；图2为本发明文字区域边界检测方法第一实施例的流程示意图；图3为本发明文字区域边界检测方法第二实施例的流程示意图；图4为本发明文字区域边界检测方法第三实施例的流程示意图；图5为本发明文字区域边界检测装置第一实施例的结构框图。
18.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
19.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
20.参照图1，图1为本发明实施例方案涉及的硬件运行环境的文字区域边界检测设备结构示意图。
21.如图1所示，该文字区域边界检测设备可以包括：处理器1001，例如中央处理器（central processing unit，cpu），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（display），可选用户接口1003还可以包括标准的有线接口、无线接口，对于用户接口
1003的有线接口在本发明中可为usb接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（wireless
‑
fidelity，wi
‑
fi）接口）。存储器1005可以是高速的随机存取存储器（random access memory，ram）存储器，也可以是稳定的存储器（non
‑
volatile memory，nvm），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
22.本领域技术人员可以理解，图1中示出的结构并不构成对文字区域边界检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
23.如图1所示，认定为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文字区域边界检测程序。
24.在图1所示的文字区域边界检测设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接用户设备；所述文字区域边界检测设备通过处理器1001调用存储器1005中存储的文字区域边界检测程序，并执行本发明实施例提供的文字区域边界检测方法。
25.基于上述硬件结构，提出本发明文字区域边界检测方法的实施例。
26.参照图2，图2为本发明文字区域边界检测方法第一实施例的流程示意图，提出本发明文字区域边界检测方法第一实施例。
27.步骤s10：获取待处理图像，并通过预设主干网络对所述待处理图像进行特征提取，获得图像特征。
28.应当理解的是，本实施例的执行主体是所述文字区域边界检测设备，其中，所述文字区域边界检测设备可为电脑以及服务器等电子设备，还可为其他可实现相同或相似功能的设备，本实施例对此不作限制，在本实施例以及下述各实施例中，以文字区域边界检测设备为例对本发明文字区域边界检测方法进行说明。
29.需要说明的是，待处理图像可以是用户通过文字区域边界检测设备的用户交互界面输入的场景图像，也可以是用户通过预先与文字区域边界检测设备建立通信连接的终端设备输入的场景图像，本实施例对此不加以限制。
30.预设主干网络是用户预先设置的图像特征提取网络，在本实施例中，以嵌入形变卷积的resnet
‑
101网络为例进行说明，本实施例对此不加以限制。
31.在具体实现中，例如，获取待处理图像，利用嵌入形变卷积的resnet
‑
101网络作为主干网络提取图像特征。
32.步骤s20：根据所述图像特征以及预设区域建议网络确定初始候选区域，并对所述初始候选区域进行池化处理，获得第一固定特征和第二固定特征。
33.可以理解的是，根据所述图像特征以及预设区域建议网络确定初始候选区域，并对所述初始候选区域进行池化处理，获得第一固定特征和第二固定特征可以是根据所述图像特征以及预设区域建议网络确定初始候选区域，通过预设形变兴趣区域池化模型对所述初始候选区域进行分析，获得形变偏移量，根据所述形变偏移量对所述初始候选区域进行池化处理，获得第一固定特征和第二固定特征。
34.在具体实现中，例如，通过区域建议网络 (region proposal network, rpn) 对图像特征进行处理，生成候选区域，在将候选区域映射成固定大小的过程中，利用位置感知的形变感兴趣区域 (deformable region
‑
of
‑
interest, droi) 池化技术学习形变偏移
量，使之生成更为精准的对齐特征。在此，利用两个不共享学习参数的droi池化层生成两种不同固定大小的特征。
35.步骤s30：通过预设文字区域调整网络对所述第一固定特征进行分析，获得特征分析结果。
36.需要说明的是，预设文字调整网络可以是用户预先设置的区域调整网络，在本实施例中，以文字区域调整网络（text region refinement network, trrn）为例进行说明。
37.在具体实现中，例如，将固定大小的特征输入到文字区域调整网络（text region refinement network, trrn）。其中，文字区域调整网络网络的结构与mask rcnn中的一致，不同之处在于的文字区域调整网络针对的是2个类别的情况。trrn 用于获取调整后的文字区域的置信度和位置偏移。
38.步骤s40：根据预设文字掩码分割网络以及所述第二固定特征确定初始文字区域边界检测结果。
39.需要说明的是，预设文字掩码分割网络可以是用户预先设置的分割网络，在本实施例中，以文字掩码分割网络（text mask segmentation network, tmsn）为例进行说明。
40.在具体实现中，例如，将固定大小的特征输入到文字掩码分割网络（text mask segmentation network, tmsn）中。其中，文字掩码分割网络的结构与mask rcnn中的一致，tmsn用于获取任意形状场景文字的分割结果。
41.步骤s50：根据所述特征分析结果对所述初始文字区域边界检测结果进行调整，获得目标文字区域边界检测结果。
42.应当理解的是，根据所述特征分析结果对所述初始文字区域边界检测结果进行调整，获得目标文字区域边界检测结果可以是从所述特征分析结果中获取置信度和位置偏移，并根据所述初始文字区域边界以及所述位置偏移确定初始文字掩码，根据所述初始文字掩码确定文字掩码重叠率，并根据所述文字掩码重叠率以及所述置信度确定目标文字掩码，对所述目标文字掩码进行边界检测，获得检测结果，并根据检测结果确定目标文字区域边界检测结果。
43.进一步地，为了提高目标文字掩码的准确性和可靠性，所述根据所述初始文字掩码确定文字掩码重叠率，并根据所述文字掩码重叠率以及所述置信度确定目标文字掩码，包括：根据所述初始文字掩码确定文字掩码重叠率，并判断文字掩码重叠率是否大于预设阈值，在所述文字掩码重叠率大于预设阈值时，根据所述置信度对所述初始文字掩码进行排序，获得排序结果，根据所述排序结果对所述初始文字掩码进行筛选，获得目标文字掩码。
44.在具体实现中，例如，根据分割二值图及相应的文字区域位置，得到任意形状文字区域在输入图像中的绝对位置。最大化交叉区域的非极大值抑制（non
‑
maximum suppression, nms）计算两个文字掩码重叠率方式为max(o/a, o/b)，其中，o为两个掩码重叠面积，a, b分别为两个掩码的面积。当重叠率大于0.8，两个掩码中具有更低置信度的一个掩码将被移除。
45.相较于现有的只通过探究任意形状文字的表达形式或增强特征表达进行场景文
字检测的方式，本实施例中，通过获取待处理图像，并通过预设主干网络对待处理图像进行特征提取，获得图像特征，根据图像特征以及预设区域建议网络确定初始候选区域，并对初始候选区域进行池化处理，获得第一固定特征和第二固定特征，通过预设文字区域调整网络对第一固定特征进行分析，获得特征分析结果，根据预设文字掩码分割网络以及第二固定特征确定初始文字区域边界检测结果，根据特征分析结果对初始文字区域边界检测结果进行调整，获得目标文字区域边界检测结果，克服了现有技术中无法精确识别任意形状文字的区域边界的缺陷，从而能够优化文字的区域边界检测过程，提高文字区域边界检测的准确性、可靠性，以满足场景文字检测的需求。
46.参照图3，图3为本发明文字区域边界检测方法第二实施例的流程示意图，基于上述图2所示的第一实施例，提出本发明文字区域边界检测方法的第二实施例。
47.在第二实施例中，所述步骤s20，包括：步骤s201：根据所述图像特征以及预设区域建议网络确定初始候选区域。
48.需要说明的是，预设区域建议网络可以是用户预先设置的处理网络，在本实施例中，以区域建议网络 (region proposal network, rpn) 为例进行说明，本实施例对此不加以限制。
49.在具体实现中，例如，通过区域建议网络 (region proposal network, rpn) 对图像特征进行处理，生成候选区域。
50.步骤s202：通过预设形变兴趣区域池化模型对所述初始候选区域进行分析，获得形变偏移量。
51.需要说明的是，预设形变兴趣区域池化模型可以是用户预先设置的池化处理模型，在本实施例中，以位置敏感的形变兴趣区域 (deformable region
‑
of
‑
interest, droi) 池化模型为例进行说明，本实施例对此不加以限制。
52.步骤s203：根据所述形变偏移量对所述初始候选区域进行池化处理，获得第一固定特征和第二固定特征。
53.在具体实现中，例如，在将任意大小的文字区域映射成固定大小的过程中，利用位置感知的形变感兴趣区域 (deformable region
‑
of
‑
interest, droi) 池化技术学习形变偏移量，使之生成更为精准的对齐特征。在此，利用两个不共享学习参数的droi池化层生成两种不同固定大小的特征。
54.在第二实施例中，通过根据所述图像特征以及预设区域建议网络确定初始候选区域，通过预设形变兴趣区域池化模型对所述初始候选区域进行分析，获得形变偏移量，根据所述形变偏移量对所述初始候选区域进行池化处理，获得第一固定特征和第二固定特征，从而能够将任意尺度的候选区域映射成固定大小的特征。
55.在第二实施例中，所述步骤s50，包括：步骤s501：从所述特征分析结果中获取置信度和位置偏移，并根据所述初始文字区域边界以及所述位置偏移确定初始文字掩码。
56.可以理解的是，从特征分析结果中获取置信度和位置偏移可以是对特征分析结果进行特征提取，获得文字特征，并根据文字特征确定置信度和位置偏移。
57.步骤s502：根据所述初始文字掩码确定文字掩码重叠率，并根据所述文字掩码重
叠率以及所述置信度确定目标文字掩码。
58.可以理解的是，根据所述初始文字掩码确定文字掩码重叠率，并根据所述文字掩码重叠率以及所述置信度确定目标文字掩码可以是根据所述初始文字掩码确定文字掩码重叠率，并判断文字掩码重叠率是否大于预设阈值，在所述文字掩码重叠率大于预设阈值时，根据所述置信度对所述初始文字掩码进行排序，获得排序结果，根据所述排序结果对所述初始文字掩码进行筛选，获得目标文字掩码。
59.进一步地，为了提高目标文字掩码的准确性和可靠性，所述步骤s502，包括：根据所述初始文字掩码确定文字掩码重叠率，并判断文字掩码重叠率是否大于预设阈值；在所述文字掩码重叠率大于预设阈值时，根据所述置信度对所述初始文字掩码进行排序，获得排序结果；根据所述排序结果对所述初始文字掩码进行筛选，获得目标文字掩码。
60.在具体实现中，例如，根据分割二值图及相应的文字区域位置，得到任意形状文字区域在输入图像中的绝对位置。最大化交叉区域的非极大值抑制（non
‑
maximum suppression, nms）计算两个文字掩码重叠率方式为max(o/a, o/b)，其中，o为两个掩码重叠面积，a, b分别为两个掩码的面积。当重叠率大于0.8，两个掩码中具有更低置信度的一个掩码将被移除。
61.步骤s503：对所述目标文字掩码进行边界检测，获得检测结果，并根据检测结果确定目标文字区域边界检测结果。
62.可以理解的是，对所述目标文字掩码进行边界检测，获得检测结果，并根据检测结果确定目标文字区域边界检测结果可以是对所述目标文字掩码进行边界检测，根据检测结果确定目标文字掩码的边界，并将目标文字掩码的边界作为目标文字区域边界检测结果。
63.在第二实施例中，通过从所述特征分析结果中获取置信度和位置偏移，并根据所述初始文字区域边界以及所述位置偏移确定初始文字掩码，根据所述初始文字掩码确定文字掩码重叠率，并根据所述文字掩码重叠率以及所述置信度确定目标文字掩码，对所述目标文字掩码进行边界检测，获得检测结果，并根据检测结果确定目标文字区域边界检测结果，从而能够提高目标文字区域边界检测结果的准确性。
64.参照图4，图4为本发明文字区域边界检测方法第三实施例的流程示意图，基于上述图2所示的第一实施例，提出本发明文字区域边界检测方法的第三实施例。
65.在第三实施例中，所述步骤s20之前，还包括：步骤s110：获取初始样本图像，并对所述初始样本图像进行尺度调整，获得待处理样本图像。
66.需要说明的是，初始样本图像可以是用户通过文字区域边界检测设备输入的样本图像，本实施例对此不加以限制。
67.在具体实现中，例如，对初始样本图像进行尺度调整，获得待处理样本图像可以是初始样本图像进行尺度调整，获得三种尺度的待处理样本图像。
68.步骤s120：通过预设滑动窗口对所述待处理样本图像进行图像提取，获得待处理样本子图像。
69.需要说明的是，预设滑动窗口可以是用户预先设置的滑动窗口，在本实施例中，以
512x512的滑动窗口为例进行说明。
70.在具体实现中，例如，对于每一种尺度下的图像，将一个512x512的窗口进行滑动以生成子图像。
71.步骤s130：对所述待处理子图像进行特征分析，获得正例样本子图像和负例样本子图像。
72.可以理解的是，对所述待处理子图像进行特征分析，获得正例样本子图像和负例样本子图像可以是获取所述待处理子图像的图像尺寸，并查找所述图像尺寸对应的阈值范围，对所述待处理子图像进行分析，获得文字包围框，获取所述文字包围框的各边界长度，并根据所述边界长度以及所述阈值范围确定正例样本子图像和负例样本子图像。
73.进一步地，所述步骤s03，包括：获取所述待处理子图像的图像尺寸，并查找所述图像尺寸对应的阈值范围；对所述待处理子图像进行分析，获得文字包围框；获取所述文字包围框的各边界长度，并根据所述边界长度以及所述阈值范围确定正例样本子图像和负例样本子图像。
74.可以理解的是，查找图像尺寸对应的阈值范围可以是在预设映射关系表中查找图像尺寸对应的阈值范围。其中，预设映射关系表中包含图像尺寸与阈值范围之间的对应关系，本实施例对此不加以限制。
75.在具体实现中，例如，对于每一种尺度设计了一个范围，当文字包围框的最短边落在该范围内，则这些文字将参与到训练过程中，我们将这些文字记作。随后，覆盖数目最多的子图像将被选为正例子图像。为了选择负例子图像, 采用负例子图像挖掘技术。具体地，首先利用生成的正例子图像训练一个区域建议网络(region proposal network, rpn) 生成一些候选框。然后移除被覆盖的候选框，当子图像区域覆盖了在范围内的候选框，则将这些子图像称作该尺度下的负例子图像。在学习过程中，每个子图像区域的大小为512x512，每个minibatch的大小为10，其中正负例子图像的比例为4:1。由于许多正例子图像只含有少量的有效文字，其会使得rpn中正样本的数量有限。利用文字的片段来增加rpn中正样本的数量。具体地，当先验框与有效文字区域的重叠率大于一个阈值0.7，并且重叠区域的水平距离不小于整个文字区域水平距离的1/3，则该先验框可作为正样本。此外，对于子图像中的无效文字，我们采用上述同样的方式得到先验框，该先验框将从负样本中移除，以减少负样本的模糊性。
76.步骤s140：根据所述正例样本子图像以及所述负例样本子图像对初始区域建议网络进行训练，获得预设区域建立网络。
77.需要说明的是，初始区域建议网络可以是用户预先设置的待训练区域建议网络，本实施例对此不加以限制。
78.在第三实施例中，通过获取初始样本图像，并对所述初始样本图像进行尺度调整，获得待处理样本图像，通过预设滑动窗口对所述待处理样本图像进行图像提取，获得待处理样本子图像，对所述待处理子图像进行特征分析，获得正例样本子图像和负例样本子图像，根据所述正例样本子图像以及所述负例样本子图像对初始区域建议网络进行训练，获
得预设区域建立网络，从而能够在数据有限的情况下，提高区域建议网络的泛化能力。
79.在第三实施例中，所述步骤s40之前，还包括：步骤s310：根据所述待处理图像确定形状结构约束函数。
80.在具体实现中，例如，根据待处理图像确定形状结构约束函数可以是对于形状结构约束 (shape structure constraint, ssc)，其鼓励网络生成的文字区域与文字区域真值之间相似，以及网络生成的背景区域与背景区域真值之间相似。相比于流行的像素级的交叉熵损失函数，该形状结构约束作为辅助函数有利于网络的对文字区域的全局感知。该损失函数计算方式如下：其中，c表示类别，我们设置c=2, 即文字与背景两类。表示矩阵平均化操作。表示矩阵对应元素相乘。，表示稳定分式除法的因子，在实验中分别设为,。，分别表示第c类预测图和真值图的平均图。，分别表示第c类预测图和真值图的方差图。表示第c类预测图和真值图之间的协方差图。其计算方式如下：下：下：其中，分别为第c类预测图和真值图, 其大小为28x28。表示高斯权重滤波器，其大小为3x3。指协相关操作。
81.该形状结构约束作为一个辅助的损失函数，添加到原网络中形成端到端的学习，其总的损失函数方程如下表示：其中损失函数平衡因子均设为1。表示rpn的损失函数，表示trnn的损失函数，表示文字掩码分割网络中交叉熵损失函数。这三个函数与mask rcnn中损失函数完全一样，不同之处在于上述损失函数针对的是c=2的情况。
82.步骤s320：根据所述形状结构约束函数对初始文字掩码分割网络进行训练，获得预设文字掩码分割网络。
83.需要说明的是，初始文字掩码分割网络可以是用户预先设置的待训练文字掩码分割网络，本实施例中对此不加以限制。
84.在第三实施例中，通过根据所述待处理图像确定形状结构约束函数，根据所述形状结构约束函数对初始文字掩码分割网络进行训练，获得预设文字掩码分割网络，从而能
够提高预设文字掩码分割网络的可靠性。
85.此外，本发明实施例还提出一种存储介质，所述存储介质上存储有文字区域边界检测程序，所述文字区域边界检测程序被处理器执行时实现如上文所述的文字区域边界检测方法的步骤。
86.此外，参照图5，本发明实施例还提出一种文字区域边界检测装置，所述文字区域边界检测装置包括：获取模块10、处理模块20、分析模块30、检测模块40和调整模块50；所述获取模块10，用于获取待处理图像，并通过预设主干网络对所述待处理图像进行特征提取，获得图像特征。
87.需要说明的是，待处理图像可以是用户通过文字区域边界检测设备的用户交互界面输入的场景图像，也可以是用户通过预先与文字区域边界检测设备建立通信连接的终端设备输入的场景图像，本实施例对此不加以限制。
88.预设主干网络是用户预先设置的图像特征提取网络，在本实施例中，以嵌入形变卷积的resnet
‑
101网络为例进行说明，本实施例对此不加以限制。
89.在具体实现中，例如，获取待处理图像，利用嵌入形变卷积的resnet
‑
101网络作为主干网络提取图像特征。
90.所述处理模块20，用于根据所述图像特征以及预设区域建议网络确定初始候选区域，并对所述初始候选区域进行池化处理，获得第一固定特征和第二固定特征。
91.可以理解的是，根据所述图像特征以及预设区域建议网络确定初始候选区域，并对所述初始候选区域进行池化处理，获得第一固定特征和第二固定特征可以是根据所述图像特征以及预设区域建议网络确定初始候选区域，通过预设形变兴趣区域池化模型对所述初始候选区域进行分析，获得形变偏移量，根据所述形变偏移量对所述初始候选区域进行池化处理，获得第一固定特征和第二固定特征。
92.在具体实现中，例如，通过区域建议网络 (region proposal network, rpn) 对图像特征进行处理，生成候选区域，在将候选区域映射成固定大小的过程中，利用位置感知的形变感兴趣区域 (deformable region
‑
of
‑
interest, droi) 池化技术学习形变偏移量，使之生成更为精准的对齐特征。在此，利用两个不共享学习参数的droi池化层生成两种不同固定大小的特征。
93.所述分析模块30，用于通过预设文字区域调整网络对所述第一固定特征进行分析，获得特征分析结果。
94.需要说明的是，预设文字调整网络可以是用户预先设置的区域调整网络，在本实施例中，以文字区域调整网络（text region refinement network, trrn）为例进行说明。
95.在具体实现中，例如，将固定大小的特征输入到文字区域调整网络（text region refinement network, trrn）。其中，文字区域调整网络网络的结构与mask rcnn中的一致，不同之处在于的文字区域调整网络针对的是2个类别的情况。trrn 用于获取调整后的文字区域的置信度和位置偏移。
96.所述检测模块40，用于根据预设文字掩码分割网络以及所述第二固定特征确定初始文字区域边界检测结果。
97.需要说明的是，预设文字掩码分割网络可以是用户预先设置的分割网络，在本实
施例中，以文字掩码分割网络（text mask segmentation network, tmsn）为例进行说明。
98.在具体实现中，例如，将固定大小的特征输入到文字掩码分割网络（text mask segmentation network, tmsn）中。其中，文字掩码分割网络的结构与mask rcnn中的一致，tmsn用于获取任意形状场景文字的分割结果。
99.所述调整模块50，用于根据所述特征分析结果对所述初始文字区域边界检测结果进行调整，获得目标文字区域边界检测结果。
100.应当理解的是，根据所述特征分析结果对所述初始文字区域边界检测结果进行调整，获得目标文字区域边界检测结果可以是从所述特征分析结果中获取置信度和位置偏移，并根据所述初始文字区域边界以及所述位置偏移确定初始文字掩码，根据所述初始文字掩码确定文字掩码重叠率，并根据所述文字掩码重叠率以及所述置信度确定目标文字掩码，对所述目标文字掩码进行边界检测，获得检测结果，并根据检测结果确定目标文字区域边界检测结果。
101.进一步地，为了提高目标文字掩码的准确性和可靠性，所述调整模块50，还用于根据所述初始文字掩码确定文字掩码重叠率，并判断文字掩码重叠率是否大于预设阈值，在所述文字掩码重叠率大于预设阈值时，根据所述置信度对所述初始文字掩码进行排序，获得排序结果，根据所述排序结果对所述初始文字掩码进行筛选，获得目标文字掩码。
102.在具体实现中，例如，根据分割二值图及相应的文字区域位置，得到任意形状文字区域在输入图像中的绝对位置。最大化交叉区域的非极大值抑制（non
‑
maximum suppression, nms）计算两个文字掩码重叠率方式为max(o/a, o/b)，其中，o为两个掩码重叠面积，a, b分别为两个掩码的面积。当重叠率大于0.8，两个掩码中具有更低置信度的一个掩码将被移除。
103.相较于现有的只通过探究任意形状文字的表达形式或增强特征表达进行场景文字检测的方式，本实施例中，通过获取待处理图像，并通过预设主干网络对待处理图像进行特征提取，获得图像特征，根据图像特征以及预设区域建议网络确定初始候选区域，并对初始候选区域进行池化处理，获得第一固定特征和第二固定特征，通过预设文字区域调整网络对第一固定特征进行分析，获得特征分析结果，根据预设文字掩码分割网络以及第二固定特征确定初始文字区域边界检测结果，根据特征分析结果对初始文字区域边界检测结果进行调整，获得目标文字区域边界检测结果，克服了现有技术中无法精确识别任意形状文字的区域边界的缺陷，从而能够优化文字的区域边界检测过程，提高文字区域边界检测的准确性、可靠性，以满足场景文字检测的需求。
104.在一实施例中，所述调整模块50，还用于从所述特征分析结果中获取置信度和位置偏移，并根据所述初始文字区域边界以及所述位置偏移确定初始文字掩码，根据所述初始文字掩码确定文字掩码重叠率，并根据所述文字掩码重叠率以及所述置信度确定目标文字掩码，对所述目标文字掩码进行边界检测，获得检测结果，并根据检测结果确定目标文字区域边界检测结果；在一实施例中，所述调整模块50，还用于根据所述初始文字掩码确定文字掩码重叠率，并判断文字掩码重叠率是否大于预设阈值，在所述文字掩码重叠率大于预设阈值时，根据所述置信度对所述初始文字掩码进行排序，获得排序结果，根据所述排序结果对所述初始文字掩码进行筛选，获得目标文字掩码；
在一实施例中，所述处理模块20，还用于根据所述图像特征以及预设区域建议网络确定初始候选区域，通过预设形变兴趣区域池化模型对所述初始候选区域进行分析，获得形变偏移量，根据所述形变偏移量对所述初始候选区域进行池化处理，获得第一固定特征和第二固定特征；在一实施例中，所述文字区域边界检测装置还包括：训练模块；所述训练模块，用于获取初始样本图像，并对所述初始样本图像进行尺度调整，获得待处理样本图像，通过预设滑动窗口对所述待处理样本图像进行图像提取，获得待处理样本子图像，对所述待处理子图像进行特征分析，获得正例样本子图像和负例样本子图像，根据所述正例样本子图像以及所述负例样本子图像对初始区域建议网络进行训练，获得预设区域建立网络；在一实施例中，所述训练模块，还用于获取所述待处理子图像的图像尺寸，并查找所述图像尺寸对应的阈值范围，对所述待处理子图像进行分析，获得文字包围框，获取所述文字包围框的各边界长度，并根据所述边界长度以及所述阈值范围确定正例样本子图像和负例样本子图像；在一实施例中，所述训练模块，还用于根据所述待处理图像确定形状结构约束函数，根据所述形状结构约束函数对初始文字掩码分割网络进行训练，获得预设文字掩码分割网络。
105.本发明所述文字区域边界检测装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。
106.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
107.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为名称。
108.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器镜像（read only memory image，rom）/随机存取存储器（random access memory，ram）、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。
109.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：操晓春;代朋纹;张华
技术所有人：鹏城实验室
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。