文本检测模型训练方法、文本检测方法、装置及设备与流程

文档序号：26549777发布日期：2021-09-08 00:08阅读：174来源：国知局

1.本发明实施例涉及文化检测技术领域，尤其涉及文本检测模型训练方法、文本检测方法、装置及设备。

背景技术：

2.文本检测就是要定位图像中的文字区域，然后通常以边界框的形式将单词或文本行标记出来。
3.由于文本自身宽高比的特殊性，一般的目标检测算法检测文本效果并不理想。相关技术在进行文本检测时，采用没有预设边框的检测网络。
4.但是应用于自然场景中的文本，又称场景文本，由于其在尺度、纵横比，特别是方向上的变化比一般物体的变化更大，使得在使用没有预设边框的检测网络对场景文本进行检测时效率低下。

技术实现要素：

5.本发明实施例提供了文本检测模型训练方法、文本检测方法、装置及设备，提高了场景文本检测效率。
6.第一方面，本发明实施例提供了一种文本检测模型训练方法，包括：
7.获取设定数量的图像样本；
8.分割各所述图像样本中所包括的文本区域，得到训练样本数据；
9.使用所述训练样本数据对预先构建的多无锚区域候选网络进行训练，得到训练好的文本检测模型。
10.可选的，分割各所述图像样本中所包括的文本区域，得到训练样本数据，包括：
11.从所述图像样本中选取一个图像样本作为待标注图像；
12.获取所述待标注图像中文本区域的中心线；
13.根据所述中心线上的采样点，确定所述待标注图像上子图像的边界点；
14.继续选取新的待标注图像确定对应的边界点直至所有图像样本均确定完对应的边界点；
15.将各所述图像样本、各所述图像样本对应的边界点和各所述图像样本中心线上的采样点作为训练样本数据。
16.可选的，所述根据所述中心线上的采样点，确定所述待标注图像上子图像的边界点，包括：
17.分别确定所述中心线上相邻两个采样点的中点在所述中心线上的切线；
18.确定各切线的法线；
19.将各所述法线与所述待标注图像中文本区域的交点和所述待标注图像中文本区域首尾的边界点，确定为所述待标注图像上子图像的边界点。
20.可选的，所述子图像的个数与所述采样点的个数相同，所述采样点作为对应子图
像中心点均匀分布在对应的中心线上。
21.可选的，所述多无锚区域候选网络的损失函数基于中心点损失函数和边界点损失函数之和确定；
22.所述中心点损失函数的计算方式如下：
23.其中，k为采样点的数量，l
cls
为是否为文本中的点的损失函数，l
loc
为中心点位置的损失函数；
24.所述边界点损失函数的计算方式如下：
25.其中，l
loc
是边界点位置的损失函数。
26.第二方面，本发明实施例还提供了一种文本检测方法，包括：
27.获取待测图像；
28.将所述待测图像输入文本检测模型，得到所述待测图像所包括子图像的中心点和所述中心点对应的边界点；
29.通过所述待测图像所包括子图像的中心点过滤对应的边界点；
30.对过滤后的边界点进行拟合，确定所述待测图像中文本区域的位置信息；
31.其中，所述文本检测模型基于本发明实施例所述的方法训练得到。
32.第三方面，本发明实施例还提供了一种文本检测模型训练装置，包括：
33.获取模块，用于获取设定数量的图像样本；
34.分割模块，用于分割各所述图像样本中所包括的文本区域，得到训练样本数据；
35.训练模块，用于使用所述训练样本数据对预先构建的多无锚区域候选网络进行训练，得到训练好的文本检测模型。
36.第四方面，本技术实施例提供了一种文本检测装置，包括：
37.获取模块，用于获取待测图像；
38.输入模块，用于将所述待测图像输入文本检测模型，得到所述待测图像所包括子图像的中心点和所述中心点对应的边界点；
39.过滤模块，用于通过所述待测图像所包括子图像的中心点过滤对应的边界点；
40.拟合模块，用于对过滤后的边界点进行拟合，确定所述待测图像中文本区域的位置信息；
41.其中，所述文本检测模型基于本发明实施例所述的方法训练得到。
42.第五方面，本技术实施例提供了一种终端设备，包括：
43.一个或多个处理器；
44.存储装置，用于存储一个或多个程序；
45.所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的方法。
46.第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的方法。
47.本发明实施例提供了文本检测模型训练方法、文本检测方法、装置及设备，该方法首先获取设定数量的图像样本；然后分割各所述图像样本中所包括的文本区域，得到训练
样本数据；最后使用所述训练样本数据对预先构建的多无锚区域候选网络进行训练，得到训练好的文本检测模型。利用上述技术方案，由于在训练多无锚区域候选网络时对图像样本中的文本区域进行了分割，故能够提高场景文本检测效率。
附图说明
48.图1为本发明实施例一提供的一种文本检测模型训练方法的流程示意图；
49.图2为本发明实施例二提供的一种文本检测方法的流程示意图；
50.图3为本发明示例实施例提供的一种图像样本的示意图；
51.图4为本发明示例实施例提供的一种文本区域标注示意图；
52.图5为本发明示例实施例提供的一种中心线拟合示意图；
53.图6为本发明示例实施例提供的一种采样点示意图；
54.图7为本发明示例实施例提供的一种法线示意图；
55.图8为本发明示例实施例提供的一种边界点示意图；
56.图9为本发明实施例三提供的一种文本检测模型训练装置的结构示意图；
57.图10为本发明实施例四提供的一种文本检测装置的结构示意图；
58.图11为本发明实施例五提供的一种终端设备的结构示意图。
具体实施方式
59.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。
60.在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
61.本发明使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”。
62.需要注意，本发明中提及的“第一”、“第二”等概念仅用于对相应内容进行区分，并非用于限定顺序或者相互依存关系。
63.需要注意，本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
64.实施例一
65.图1为本发明实施例一提供的一种文本检测模型训练方法的流程示意图，该方法可适用于提高场景文本检测效率的情况，该方法可以由文本检测模型训练装置来执行，其中该装置可由软件和/或硬件实现，并一般集成在终端设备上，在本实施例中终端设备包括但不限于：电脑、个人数字助理等设备。
66.由于文本自身宽高比的特殊性，一般的目标检测算法检测文本效果并不理想。因
此，很多学者借鉴了目标检测的思路，针对faster r
‑
cnn(towards real
‑
time object detection with region proposal networks)和ssd(single shot multibox detector)进行改进。而faster r
‑
cnn和ssd由于其候选区域，即anchor(在ssd中被称为默认框，即default boxes)机制被证实对于文本检测有一定的有效性，但是不够灵活。由于文本目标相较于日常目标具有更大的宽高比，应该设计具有不同尺度和形状的候选区域，以覆盖图像中物体尺度和形状的变化。
67.然而，由于场景文本实例在尺度、纵横比，特别是方向上的变化比一般物体的变化更大，所以它需要更复杂的候选区域设计，即更多的尺度，宽高比和方向，这使得基于候选区域的方法变得复杂和低效。
68.另一方面，没有候选区域，又称无锚区域(即anchor
‑
free)的方法仍存在局限，例如无锚区域候选网络(anchor
‑
free region proposal network，af
‑
rpn)的没有候选区域自由的检测网络，不能处理曲线文本，对于曲线文本的检测框可能会包含大量的非文本像素，而场景文本中存在大量的曲线文本，其背景噪声会更多，容易误检。
69.为了解决上述技术问题，如图1所示，本发明实施例一提供的一种文本检测模型训练方法，包括如下步骤：
70.s110、获取设定数量的图像样本。
71.在本实施例中，图像样本可以理解为用于训练多无锚区域候选网络的图像。本发明通过对图像样本进行标注形成训练样本数据，从而用于训练多无锚区域候选网络。
72.其中，多无锚区域候选网络可以认为是能够确定多个无锚区域的候选网络。其中，无锚区域又称无锚框，即anchor
‑
free，此处不对无锚区域进行赘述。训练样本数据可以认为是对图像样本进行标注后形成的训练用的样本数据。
73.此处不对如何获取图像样本进行限定。设定数量不做限定可以基于实际情况确定。
74.s120、分割各所述图像样本中所包括的文本区域，得到训练样本数据。
75.在获取图像样本后，本步骤可以分割各图像样本中的文本区域。其中文本区域可以认为是图像样本中文本所在区域。本步骤为了能够更加准确地检测场景文本，故在形成训练样本数据时，对图像样本中的文本区域进行分割，即将文本进行分段，从而使得训练后的文本检测模型能够更加准确地获取文本的位置，即文本区域的位置。
76.此处不对分割的具体手段进行限定，如可以首先确定文本区域的中心线，然后基于该中心线对文本区域进行分割，分割成的子图像的个数可以等于采样点的个数，故在分割时可以在中心线上取预设个数个采样点。采样点的个数可以决定检测效果，采样点的个数越大，对曲线文本的检测效果越好。
77.在基于中心线和采样点对文本区域进行分割时，可以将文本区域分割为与采样点个数相同的字符块。字符块可以用于训练多无锚区域候选网络。
78.在基于中心线和采样点对文本区域进行分割时，可以首先确定每两个相邻采样点的中点，然后确定各中点的切线，基于各切线的法线确定边界点；还可以依次确定相邻两个采样点中点的切线，然后基于各切线的法线确定边界点。
79.训练样本数据可以包括分割后的字符块和图像样本，字符块可以通过字符块中的点，如采样点和字符块的边界点表征。每个图像样本和其对应的字符块可以为一个样本对。
80.s130、使用所述训练样本数据对预先构建的多无锚区域候选网络进行训练，得到训练好的文本检测模型。
81.获取训练样本数据后，本步骤可以基于训练样本数据对多无锚区域进行训练。此处不对多无锚区域候选网络的具体结构进行限定。在训练时，可以基于网络输出的结果和训练样本数据中对应的实际值的距离损失，优化网络参数，直至满足训练结束条件。训练结束条件可以通过迭代次数判断，也可以通过判断损失函数是否收敛确定。本发明中满足迭代条件的网络可以认为是训练好的文本检测模型。
82.本发明实施例一提供的一种文本检测模型训练方法，首先获取设定数量的图像样本；然后分割各所述图像样本中所包括的文本区域，得到训练样本数据；最后使用所述训练样本数据对预先构建的多无锚区域候选网络进行训练，得到训练好的文本检测模型。利用上述技术方案，由于在训练多无锚区域候选网络时对图像样本中的文本区域进行了分割，故能够提高场景文本检测效率。
83.在上述实施例的基础上，提出了上述实施例的变型实施例，在此需要说明的是，为了使描述简要，在变型实施例中仅描述与上述实施例的不同之处。
84.在一个实施例中，可选的，分割各所述图像样本中所包括的文本区域，得到训练样本数据，包括：
85.从所述图像样本中选取一个图像样本作为待标注图像；
86.获取所述待标注图像中文本区域的中心线；
87.根据所述中心线上的采样点，确定所述待标注图像上子图像的边界点；
88.继续选取新的待标注图像确定对应的边界点直至所有图像样本均确定完对应的边界点；
89.将各所述图像样本、各所述图像样本对应的边界点和各所述图像样本中心线上的采样点作为训练样本数据。
90.本实施例中可以通过最小二乘法进行曲线拟合得到待标注图像的中心线。
91.本实施例中采样点可以均匀分布在中心线上，也可以非均匀的分布在中心线上。在基于采样点确定边界点时，一个采样点可以对应有四个边界点，采样点可以位于对应的四个边界点所围成的图形中。此处不对采样点的个数进行限定，采样点的个数可以基于实际检测场景设定。
92.本实施例中待标注图像可以分割成与采样点个数相同的子图像，每个子图像可以由其内部的采样点和子图像的边界点表征。
93.一个图像样本、该图像样本对应的采样点和每个采样点所对应的四个边界点可以为一个样本对。训练样本数据可以由多个样本对形成。
94.可选的，所述根据所述中心线上的采样点，确定所述待标注图像上子图像的边界点，包括：
95.分别确定所述中心线上相邻两个采样点的中点在所述中心线上的切线；
96.确定各切线的法线；
97.将各所述法线与所述待标注图像中文本区域的交点和所述待标注图像中文本区域首尾的边界点，确定为所述待标注图像上子图像的边界点。
98.文本区域首尾的边界点可以认为是文本区域首尾和文本区域上下方的交点所形
成的边界点。
99.可选的，所述子图像的个数与所述采样点的个数相同，所述采样点作为对应子图像中心点均匀分布在对应的中心线上。
100.可选的，所述多无锚区域候选网络的损失函数基于中心点损失函数和边界点损失函数之和确定；
101.所述中心点损失函数的计算方式如下：
102.其中，k为采样点的数量，l
cls
为是否为文本中的点的损失函数，l
loc
为中心点位置的损失函数；其中，中心点在训练阶段可以认为是采样点，在应用阶段可以为模型实际输出的子图像中的点。
103.所述边界点损失函数的计算方式如下：
104.其中，l
loc
是边界点位置的损失函数。
105.实施例二
106.图2为本发明实施例二提供的一种文本检测方法的流程示意图，该方法可以由文本检测装置执行，其中该装置可以由软件和/或硬件实现，并一般集成在终端设备上。
107.如图2所示，本发明实施例二提供了一种文本检测方法，包括如下步骤：
108.s210、获取待测图像。
109.待测图像可以认为是在文本检测模型应用阶段待进行文本检测的图像。待测图像与图像样本可以为同类型图像。如均识别的是场景文本。其中场景文本可以认为是自然场景中的文本。
110.s220、将所述待测图像输入文本检测模型，得到所述待测图像所包括子图像的中心点和所述中心点对应的边界点。
111.所述文本检测模型基于本发明所述文本检测模型训练方法训练得到。
112.s230、通过所述待测图像所包括子图像的中心点过滤对应的边界点。
113.在过滤边界点时，可以基于中心点的位置确定该中心点是否位于待测图像文本区域内。若中心点不位于待测图像的文本区域内，则过滤该中心点对应的边界点。其中是否位于待测图像文本区域内的判断不作限定，如可以为文本检测模型输出的。
114.s240、对过滤后的边界点进行拟合，确定所述待测图像中文本区域的位置信息。
115.本步骤可以对过滤后的边界点进行直线拟合或曲线拟合，以得到待测图像中文本区域的位置。
116.本发明实施例提供了一种文本检测方法，该方法基于训练好的文本检测模型能够有效的进行待测图像的文本区域的检测，提高了场景文本的检测效率。该检测方法可以适用于各种场景下的文本检测，提高了各场景下的长文本检测和曲线文本检测的准确率。
117.以下对本发明进行示例性描述，本发明实施例提供了一种文本检测方法，该方法可以认为是基于多无锚区域候选网络multiaf
‑
rpn的文本检测方法，能够避免使用候选区域机制产生的对于长文本检测低效的问题，同时能够针对曲线文本进行检测，更加适应场景文本检测的需求。
118.本发明提供的文本检测方法提高了对长文本和任意形状文本的检测效率，解决了
无锚区域对于曲线文本无法检测的问题。本发明提供的文本检测方法包括如下步骤：
119.在模型训练阶段：
120.步骤s1：获取文本中心线，即中心线。文本中心线是对标注数据(即图像样本)的文本区域中所有的点，使用最小二乘法进行曲线(即中心线)拟合得到的，曲线y＝ax2+bx+c，当a＝0时，表示文本是直线，当a≠0时，表示文本是曲线。
121.步骤s2：确定采样点的个数。这是一个超参数，采样点的个数k决定了将该文本分成几个字符块，字符块的数量也是k，其中k>1。采样点具体的个数需要结合实际场景确定。当k＝2时，表明只针对直线文本进行检测。当k越大，对于曲线文本的检测效果也会越好，但是同时计算量也会变大。通过在实际的场景中进行大量实验发现，k＝7时已经足够拟合任意形状的曲线文本，因此建议将k设为7。对于文本形状较为简单的场景，可以适当减少。
122.步骤s3：将采样点均匀分布在文本中心线上，并得到边界点。根据步骤s1的拟合曲线，能够计算得到两个采样点的中点在文本中心线上的切线，接着绘制一条垂直其切线的法线，该法线与上下边界线相交，得到两个边界点，文本首尾的各有两个边界点。
123.假设中心线的长度是l，采样点个数k，那么两个采样点之间的间距为l/k，第一个采样点到文本起始位置的距离为l/(2k)，最后一个采样点到文本结束位置的距离为l/(2k)。
124.步骤s4：将相邻的四个边界点相连组成字符块。
125.步骤s5：利用multiaf
‑
rpn网络生成k个候选框。mulitaf
‑
rpn网络最后一层特征图，会分别预测k个字符块中的点以及该点到四个边界点的距离，四个边界点组成的区域，就是网络得到的候选框。sections也就是字符块，是指实际的字符位置；候选框是指网络的输出结果。模型训练的目的是让字符块和候选框尽可能吻合。
126.其中，候选框可以是multiaf
‑
rpn网络的中间结果，multiaf
‑
rpn网络最终输出为文本的中心点(每个字符块中的点)和每个中心点对应的4个边界点。
127.步骤6：计算网络输出和实际位置的距离损失，优化网络参数。从而以无锚区域的方式生成高质量的候选框，从而摆脱复杂的候选区域的设计。
128.模型预测步骤：
129.步骤s1:利用multiaf
‑
rpn网络，即训练后的文本检测模型计算文本的k个采样点，即中心点及其对应的4个边界点，得到4k个边界点。
130.步骤2：使用最小二乘法，分别对k个字符块的2k个上边界点和2k个下边界点进行曲线拟合，得到文本的上下边界，从而得到文本的位置。
131.本发明通过将文本“分段”，用多段拟合的方式来近似各种形状的文本。mulitaf
‑
rpn能输出文本的多个中心点以及多个边界点，将这些边界点拟合，从而获取文本的精细区域。
132.本发明涉及到两个部分的损失，分别是中心点以及边界点：
133.loss＝l
center
+l
boundary
；
134.其中，l
center
的计算方式为：
[0135][0136]
其中，l
cls
是计算是否为文本中的点，使用softmax loss作为分类损失函数即
loss，l
loc
是计算中心点的位置，使用smooth
‑
l1作为回归loss，k是采样点的数量，α和β是权重系数，在本发明中可以是1和1。
[0137]
l
boundary
的计算方式为：
[0138][0139]
其中，l
loc
是计算中心点四周边界点的位置，使用smooth
‑
l1作为回归loss，k是采样点的数量。
[0140]
本发明的技术方案中，能使用无锚区域的方法对文本进行检测，更加高效，同时将文本实例划分成字符块，能够精准描述文本的形状，消除背景噪声所带来的影响，解决无锚区域方法对于曲线文本无法检测的问题，能有效地对场景文本进行检测。文本因为尺度、方向多变，如果采用传统基于矩形框作为候选框的方式，需要更复杂的设计，包括尺度、长宽比和方向等等。而且该方式也无法用来检测曲线文本。采用本发明多段区域可以更好地表示文本形状。
[0141]
以下以附图的形式对本发明文本检测方法进行示例性说明：
[0142]
图3为本发明示例实施例提供的一种图像样本的示意图；图4为本发明示例实施例提供的一种文本区域标注示意图；图5为本发明示例实施例提供的一种中心线拟合示意图；图6为本发明示例实施例提供的一种采样点示意图；图7为本发明示例实施例提供的一种法线示意图；图8为本发明示例实施例提供的一种边界点示意图；参见图3
‑
8，图3可以认为是获取的图像样本，该图像样本可以包括自然场景文本。图4为对图像样本中文本区域进行标注后的示意图，此处不对标注手段进行限定。图5为基于最小二乘法确定文本区域中心线的示意图。在图6的中心线上均匀设置了七个采样点。图7示出每两个相邻的采样点间中点在中心线上的切线的法线。图8示出了图像样本所对应的边界点，其中边界点以圆点的形式示出。
[0143]
实施例三
[0144]
图9为本发明实施例三提供的一种文本检测模型训练装置的结构示意图，该装置可适用于提高场景文本检测效率的情况，其中该装置可由软件和/或硬件实现，并一般集成在终端设备上。
[0145]
如图9所示，该装置包括：
[0146]
获取模块91，用于获取设定数量的图像样本；
[0147]
分割模块92，用于分割各所述图像样本中所包括的文本区域，得到训练样本数据；
[0148]
训练模块93，用于使用所述训练样本数据对预先构建的多无锚区域候选网络进行训练，得到训练好的文本检测模型。
[0149]
在本实施例中，该装置首先通过获取模块91获取设定数量的图像样本；然后通过分割模块92分割各所述图像样本中所包括的文本区域，得到训练样本数据；最后通过训练模块93使用所述训练样本数据对预先构建的多无锚区域候选网络进行训练，得到训练好的文本检测模型。
[0150]
本实施例提供了一种文本检测模型训练装置，能够提高场景文本检测效率。
[0151]
在一个实施例中，分割模块92，具体用于：
[0152]
从所述图像样本中选取一个图像样本作为待标注图像；
[0153]
获取所述待标注图像中文本区域的中心线；
[0154]
根据所述中心线上的采样点，确定所述待标注图像上子图像的边界点；
[0155]
继续选取新的待标注图像确定对应的边界点直至所有图像样本均确定完对应的边界点；
[0156]
将各所述图像样本、各所述图像样本对应的边界点和各所述图像样本中心线上的采样点作为训练样本数据。
[0157]
在一个实施例中，分割模块92根据所述中心线上的采样点，确定所述待标注图像上子图像的边界点，包括：
[0158]
分别确定所述中心线上相邻两个采样点的中点在所述中心线上的切线；
[0159]
确定各切线的法线；
[0160]
将各所述法线与所述待标注图像中文本区域的交点和所述待标注图像中文本区域首尾的边界点，确定为所述待标注图像上子图像的边界点。
[0161]
在一个实施例中，所述子图像的个数与所述采样点的个数相同，所述采样点作为对应子图像中心点均匀分布在对应的中心线上。
[0162]
在一个实施例中，所述多无锚区域候选网络的损失函数基于中心点损失函数和边界点损失函数之和确定；
[0163]
所述中心点损失函数的计算方式如下：
[0164]
其中，k为采样点的数量，l
cls
为是否为文本中的点的损失函数，l
loc
为中心点位置的损失函数；
[0165]
所述边界点损失函数的计算方式如下：
[0166]
其中，l
loc
是边界点位置的损失函数。
[0167]
上述文本检测模型训练装置可执行本发明任意实施例所提供的文本检测模型训练方法，具备执行方法相应的功能模块和有益效果。
[0168]
实施例四
[0169]
图10为本发明实施例四提供的一种文本检测装置的结构示意图，该装置可适用于提高场景文本检测效率的情况，该装置可以集成在终端设备上，该装置包括：
[0170]
获取模块101，用于获取待测图像；
[0171]
输入模块102，用于将所述待测图像输入文本检测模型，得到所述待测图像所包括子图像的中心点和所述中心点对应的边界点；
[0172]
过滤模块103，用于通过所述待测图像所包括子图像的中心点过滤对应的边界点；
[0173]
拟合模块104，用于对过滤后的边界点进行拟合，确定所述待测图像中文本区域的位置信息；
[0174]
其中，所述文本检测模型基于本发明实施例所述的文本检测模型的训练方法训练得到。
[0175]
在本实施例中，该装置首先通过获取模块101获取待测图像；然后通过输入模块102将所述待测图像输入文本检测模型，得到所述待测图像所包括子图像的中心点和所述中心点对应的边界点；其次通过过滤模块103通过所述待测图像所包括子图像的中心点过
滤对应的边界点；最后通过拟合模块104对过滤后的边界点进行拟合，确定所述待测图像中文本区域的位置信息。
[0176]
本实施例提供了一种文本检测装置，能够提高场景文本检测效率。
[0177]
实施例五
[0178]
图11为本发明实施例五提供的一种终端设备的结构示意图，如图11所示，本发明实施例五提供的终端设备包括：一个或多个处理器41和存储装置42；该终端设备中的处理器41可以是一个或多个，图11中以一个处理器41为例；存储装置42用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器41执行，使得所述一个或多个处理器41实现如本发明实施例中任一项所述的方法。
[0179]
所述终端设备还可以包括：输入装置43和输出装置44。
[0180]
终端设备中的处理器41、存储装置42、输入装置43和输出装置44可以通过总线或其他方式连接，图4中以通过总线连接为例。
[0181]
该终端设备中的存储装置42作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例一或二所提供方法对应的程序指令/模块(例如，附图9所示的文本检测模型训练装置中的模块，包括：获取模块91、分割模块92和训练模块93，再如，文本检测装置中的模块，包括获取模块101、输入模块102、过滤模块103和拟合模块104)。处理器41通过运行存储在存储装置42中的软件程序、指令以及模块，从而执行终端设备的各种功能应用以及数据处理，即实现上述方法实施例中方法。
[0182]
存储装置42可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储装置42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置42可进一步包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0183]
输入装置43可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。
[0184]
并且，当上述终端设备所包括一个或者多个程序被所述一个或者多个处理器41执行时，程序进行如下操作：
[0185]
获取设定数量的图像样本；
[0186]
分割各所述图像样本中所包括的文本区域，得到训练样本数据；
[0187]
使用所述训练样本数据对预先构建的多无锚区域候选网络进行训练，得到训练好的文本检测模型。
[0188]
当上述终端设备所包括一个或者多个程序被所述一个或者多个处理器41执行时，程序还可以进行如下操作：
[0189]
获取待测图像；
[0190]
将所述待测图像输入文本检测模型，得到所述待测图像所包括子图像的中心点和所述中心点对应的边界点；
[0191]
通过所述待测图像所包括子图像的中心点过滤对应的边界点；
[0192]
对过滤后的边界点进行拟合，确定所述待测图像中文本区域的位置信息；
[0193]
其中，所述文本检测模型基于本发明实施例所提供的文本检测模型训练方法训练得到。
[0194]
实施例六
[0195]
本发明实施例六提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行本发明实施例提供的方法，该方法包括：文本检测模型训练方法，文本检测模型训练方法包括：
[0196]
获取设定数量的图像样本；
[0197]
分割各所述图像样本中所包括的文本区域，得到训练样本数据；
[0198]
使用所述训练样本数据对预先构建的多无锚区域候选网络进行训练，得到训练好的文本检测模型。
[0199]
该方法还包括文本检测方法，文本检测方法包括：
[0200]
获取待测图像；
[0201]
将所述待测图像输入文本检测模型，得到所述待测图像所包括子图像的中心点和所述中心点对应的边界点；
[0202]
通过所述待测图像所包括子图像的中心点过滤对应的边界点；
[0203]
对过滤后的边界点进行拟合，确定所述待测图像中文本区域的位置信息；
[0204]
其中，所述文本检测模型基于本发明实施例所提供的文本检测模型训练方法训练得到。
[0205]
可选的，该程序被处理器执行时还可以用于执行本发明任意实施例所提供的方法。
[0206]
本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(random access memory，ram)、只读存储器(read only memory，rom)、可擦式可编程只读存储器(erasable programmable read only memory，eprom)、闪存、光纤、便携式cd
‑
rom、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0207]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0208]
计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、无线电频率(radio frequency，rf)等等，或者上述的任意合适的组合。
[0209]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言。诸如java、smalltalk、c++，还
包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(lan)或广域网(wan)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0210]
注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高凯珺
技术所有人：上海眼控科技股份有限公司
我是此专利的发明人

上一篇：一种不锈钢防火瓦自动化生产工艺的制作方法
上一篇：一种肾内科加压超滤装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。