一种文本检测方法、装置、设备及存储介质与流程

文档序号:31186226发布日期:2022-08-19 21:59阅读:63来源:国知局
一种文本检测方法、装置、设备及存储介质与流程

1.本发明涉及图像处理技术领域,尤其涉及一种文本检测方法、装置、设备及存储介质。


背景技术:

2.文本检测应用范围广泛,是很多计算机视觉任务的前置步骤,如图像搜索、文字识别、身份认证和视觉导航等。文本检测的目的主要是定位文本行在图像中的位置,然而在自然场景中,文本行的大小、字体、颜色、形状、方向和背景存在多样性,在识别过程中常发生粘连。随着深度学习的兴起,对文本检测的研究逐渐成为热点,出现了大量关于文本检测的方法。
3.在自然文本检测场景中,基于语义分割的文本检测算法通常使用内缩文本实例来生成文本实例互相分离的掩膜来作为真实样本,目前使用这一思想来进行文本检测的算法有east和psenet等,其通过多边形内缩算法将标注好的真实样本框处理成内缩后的样本框,以此将密集粘连的文本实例分开,方便神经网络学习到分离后的特征。
4.然而,采用上述算法学习内缩后的样本后,east算法是在内缩区域的掩膜位置上直接回归四边形的集合距离,以此来定位文本实例;而psenet算法则是在多个不同内缩偏移的掩膜上从内到外进行扩张得到精准的掩膜,再计算掩膜的包围盒得到文本实例的定位,二者均未对内缩样本框生成过程中可能产生的偏移量进行考虑,使得应用于密集文本区域检测时,检测速度慢且检测效果较差,影响了文本检测的效率。


技术实现要素:

5.本发明提供了一种文本检测方法、装置、设备及存储介质,对内缩偏移的场景文本进行学习和检测,提升了文本检测的效率和准确性,平衡了文本检测所需的精度和速度。
6.第一方面,本发明实施例提供了一种文本检测方法,包括:
7.获取待检测图像;
8.将待检测图像输入至预先构建的内缩偏移文本检测模型,确定目标语义分割特征图和目标偏移量特征图;
9.根据目标语义分割特征图和目标偏移量特征图确定目标外扩距离和待外扩矩形框;
10.将待外扩矩形框外扩目标外扩距离,确定目标文本检测框;
11.其中,预先构建的内缩偏移文本检测模型包括语义分割子模型和偏移量回归子模型。
12.进一步地,内缩偏移文本检测模型的训练步骤包括:
13.将内缩偏移文本训练样本集中的图像样本集进行基础特征提取,确定基础特征样本集;其中,内缩偏移文本训练样本集中包括图像样本集以及与图像样本集对应的标定样本集,标定样本集中包括与各图像样本对应的内缩分割标签和偏移量标签;
14.将基础特征样本集输入至初始语义分割子模型,提取语义分割中间结果;
15.将基础特征样本集输入至初始偏移量回归子模型,提取偏移量中间结果;
16.根据语义分割中间结果和对应的内缩分割标签,确定对应的第一损失函数;
17.根据偏移量中间结果和对应的偏移量标签,确定对应的第二损失函数;
18.根据第一损失函数和第二损失函数确定总损失函数,并基于总损失函数对初始语义分割子模型和初始偏移量回归子模型进行训练,直到满足预设收敛条件获得内缩偏移文本检测模型。
19.进一步地,将内缩偏移文本训练样本集中的图像样本集进行基础特征提取,确定基础特征样本集,包括:
20.将内缩偏移文本训练样本集中的图像样本集输入至特征提取骨干网络,确定第一特征图集;其中,第一特征图集中包括由图像样本集提取的多个不同分辨率的特征图;
21.对第一特征图集进行多尺度特征提取,确定第二特征图集;
22.对第二特征图集进行多特征融合,并将融合后的各特征图的集合确定为基础特征样本集。
23.进一步地,内缩分割标签的确定步骤包括:
24.针对每个图像样本,根据图像样本的大小构建与图像样本对应的第一二维矩阵,并确定图像样本的最短边长;
25.若最短边长小于或等于预设最小边框长度,则将第一二维矩阵中与标注文本的位置对应的各像素设置为第一预设数值;
26.若最短边长大于预设最小边框长度,则根据图像样本的大小确定第一内缩距离,根据第一内缩距离更新标注文本的位置,并将更新后标注文本的位置对应的各像素设置为第一预设数值。
27.进一步地,偏移量标签的确定步骤包括:
28.针对每个图像样本,根据图像样本的大小构建与图像样本对应的第二二维矩阵,并确定图像样本的最短边长;
29.若最短边长小于或等于预设最小边框长度,则将第二二维矩阵中与标注文本的位置对应的各像素设置为第一预设数值;
30.若最短边长大于预设最小边框长度,则根据图像样本的大小确定第二内缩距离,通过第二内缩距离和最短边长对第二二维矩阵进行更新并赋值。
31.进一步地,通过第二内缩距离和最短边长对第二二维矩阵进行更新并赋值,包括:
32.若第二内缩距离小于最短边长,根据第二内缩距离和预设基准数值确定偏移强度值,根据第二内缩距离更新标注文本的位置,并将更新后标注文本的位置对应的各像素设置为偏移强度值;
33.若第二内缩距离大于或等于最短边长,则将第二二维矩阵中与标注文本的位置对应的各像素设置为第一预设数值。
34.进一步地,根据语义分割中间结果和对应的内缩分割标签,确定对应的第一损失函数,包括:
35.将语义分割中间结果中各像素对应数值,与对应的内缩分割标签中各像素对应数值进行比对;
36.根据比对结果确定第一损失函数。
37.进一步地,根据偏移量中间结果和对应的偏移量标签,确定对应的第二损失函数,包括:
38.将偏移量中间结果中各像素对应数值,与对应的偏移量标签中各像素对应数值进行比对;
39.根据比对结果确定第二损失函数。
40.进一步地,根据第一损失函数和第二损失函数确定总损失函数,并基于总损失函数对初始语义分割子模型和初始偏移量回归子模型进行训练,直到满足预设收敛条件获得内缩偏移文本检测模型,包括:
41.根据预设权重值对第一损失函数和第二损失函数加权求和,确定总损失函数;
42.基于总损失函数对初始语义分割子模型和初始偏移量回归子模型中的权重参数进行调整,直到满足预设收敛条件获得内缩偏移文本检测模型。
43.进一步地,根据目标语义分割特征图和目标偏移量特征图确定目标外扩距离和待外扩矩形框,包括:
44.对目标语义分割特征图进行阈值化,并根据连通组件标记算法确定标记图;
45.将标记图与目标偏移量特征图求交,对目标偏移量特征图进行更新;
46.遍历求交后标记图中不同标记值,将同一标记值对应标记对象的外接矩形框确定为待外扩矩形框;
47.将各标记对象在更新后的目标偏移量特征图内像素值的平均值确定为标记对象的预测偏移量;
48.根据预测偏移量和预设基准数值确定目标外扩距离。
49.进一步地,文本检测方法,还包括:
50.根据标记对象在目标语义分割特征图内像素值的平均值确定标记对象对应待外扩矩形框的置信度;
51.若置信度小于预设置信度阈值,则删除待外扩矩形框。
52.进一步地,将待外扩矩形框外扩目标外扩距离,确定目标文本检测框,包括:
53.将待外扩矩形框角点坐标顺时针排序,并确定待外扩矩形框的中心点坐标;
54.将待外扩矩形框两两相邻的边相对中心点坐标向外平移目标外扩距离;
55.将待外扩矩形框中各边两端向外延伸目标外扩距离,确定各边对应的新的端点坐标;
56.将待外扩矩形框中各边完成外扩后的交点确定为新的交点坐标;
57.若各新的交点坐标与对应的新的端点坐标一致,将外扩后的待外扩矩形框确定为目标文本检测框;否则,返回待外扩矩形框对应的原始坐标。
58.第二方面,本发明实施例还提供了一种文本检测装置,包括:
59.图像获取模块,用于获取待检测图像;
60.特征图确定模块,用于将待检测图像输入至预先构建的内缩偏移文本检测模型,确定目标语义分割特征图和目标偏移量特征图;
61.外扩矩形确定模块,用于根据目标语义分割特征图和目标偏移量特征图确定目标外扩距离和待外扩矩形框;
62.检测框确定模块,用于将待外扩矩形框外扩目标外扩距离,确定目标文本检测框;
63.其中,预先构建的内缩偏移文本检测模型包括语义分割子模型和偏移量回归子模型。
64.第三方面,本发明实施例还提供了一种文本检测设备,该文本检测设备包括:
65.至少一个处理器;以及
66.与至少一个处理器通信连接的存储器;其中,
67.存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,使得至少一个处理器能够实现本发明任一实施例的文本检测方法。
68.第四方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的文本检测方法。
69.本发明实施例提供的一种文本检测方法、装置、设备及存储介质,通过获取待检测图像;将待检测图像输入至预先构建的内缩偏移文本检测模型,确定目标语义分割特征图和目标偏移量特征图;根据目标语义分割特征图和目标偏移量特征图确定目标外扩距离和待外扩矩形框;将待外扩矩形框外扩目标外扩距离,确定目标文本检测框;其中,预先构建的内缩偏移文本检测模型包括语义分割子模型和偏移量回归子模型。通过采用上述技术方案,通过将待检测图像输入至预先构建的内缩偏移文本检测模型中,经由内缩偏移文本检测模型中的语义分割子模型和偏移量回归子模型分别处理得到对应的目标语义分割特征图和目标偏移量特征图,以同时根据语义分割结果和偏移量的计算结果确定需要将确定出的内缩后文本的待外扩矩形框,和需要进行外扩的目标外扩距离,进而将待外扩矩形框外扩该目标外扩距离,以得到最终的目标文本检测框。解决了现有依据内缩文本实例训练所得的文本检测模型不考虑文本内缩过程偏移量,导致对密集文本区域进行检测时,检测速度慢且效果较差的问题,同时采用语义分割和偏移量回归的方式对同一待检测图像进行处理,充分考虑粘连程度及大小不同文本在内缩过程中所产生偏移量的影响,使得确定出的目标文本检测框与需确定位置的文本边界更加吻合,提升了文本检测的准确度,同时仅需在确定待外扩矩形框后依据确定出的目标外扩距离进行一次外扩,减少了目标文本检测框的确定计算量,提升了文本检测效率。
70.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
71.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
72.图1是本发明实施例一中的一种文本检测方法的流程图;
73.图2是本发明实施例二中的一种文本检测方法的流程图;
74.图3是本发明实施例二中的一种内缩偏移文本检测模型的训练步骤流程示例图;
75.图4是本发明实施例二中的一种将内缩偏移文本训练样本集中的图像样本集进行
基础特征提取,确定基础特征样本集的流程示例图;
76.图5是本发明实施例二中的一种内缩分割标签的确定步骤流程示例图;
77.图6是本发明实施例二中的一种偏移量标签的确定步骤流程示例图;
78.图7是本发明实施例三中的一种文本检测装置的结构示意图;
79.图8是本发明实施例四中的一种文本检测设备的结构示意图。
具体实施方式
80.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
81.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
82.实施例一
83.图1为本发明实施例一提供的一种文本检测方法的流程图,本发明实施例可适用于通过内缩偏移文本图像训练得到的内缩偏移文本检测模型对待检测图像中内缩文本边框和偏移量进行确定,进而依据确定出的内缩文本边框和偏移量完成外扩,确定待检测图像中文本位置对应的目标文本检测框的情况,该方法可以由文本检测装置来执行,该文本检测装置可以由软件和/或硬件来实现,该文本检测装置可以配置在计算机设备上,该计算机设备可以是笔记本、台式计算机以及智能平板等。
84.如图1所示,本实施例一提供的一种提供的一种文本检测方法,具体包括如下步骤:
85.s101、获取待检测图像。
86.在本实施例中,待检测图像具体可理解为包含需要被识别文本信息的图像,示例性的,待检测图像可为经由监控摄像头采集的静态图像,也可为视频中采集的图像帧,其中包含需要被识别的标语和符号等文本信息,本发明实施例对此不进行限制。
87.具体的,在实际应用中需要对所获取的图像中文本信息进行识别时,或需由视频或图像中进行文本信息提取时,需要首先对所需进行文本信息提取的图像或视频帧中的文本信息位置进行确定,并检测该图像中是否存在需要进行提取的文本信息,此时将需要进行文本信息位置检测的图像确定为待检测图像。
88.s102、将待检测图像输入至预先构建的内缩偏移文本检测模型,确定目标语义分割特征图和目标偏移量特征图。
89.其中,预先构建的内缩偏移文本检测模型包括语义分割子模型和偏移量回归子模
型。
90.在本实施例中,内缩偏移文本检测模型具体可理解为一种由两个子模型构成的,通过标注后进行内缩,且由于内缩造成偏移的文本训练样本训练所得的,用以对输入的待检测图像进行特征抽取,并针对特征抽取后的特征图进行语义分割和偏移量回归的神经网络模型。语义分割子模型具体可理解为内缩偏移文本检测模型中用以对特征抽取后的待检测图像进行语义分割的神经网络模型。偏移量回归子模型具体可理解为内缩偏移文本检测模型中用以对待检测图像中检测得到的相较于文本边界进行内缩后的内缩文本偏移量进行确定的神经网络模型。目标语义分割特征图具体可理解为将待检测图像经特征抽取后输入至语义分割子模型中进行语义分割后所得的,相较于期望检测得到文本边界位置内缩后的文本位置对应的特征图像。目标偏移量特征图具体可理解为将待检测图像经特征抽取后输入至偏移量回归子模型中进行内缩后文本位置相对偏移量确定的特征图像。
91.具体的,将待检测图像输入至预先构建的内缩偏移文本检测模型中,在对待检测图像进行特征提取后分别输入内缩偏移文本检测模型中的语义分割子模型和偏移量回归子模型中,根据各子模型的输出结果确定目标语义分割特征图和目标偏移量特征图。
92.s103、根据目标语义分割特征图和目标偏移量特征图确定目标外扩距离和待外扩矩形框。
93.在本实施例中,待外扩矩形框具体可理解为根据目标语义分割特征图和目标偏移量特征图确定出的用以表征目标文本内缩后边界的矩形框。目标外扩距离具体可理解为依据不同目标文本的偏移不同,其内缩后边界对应的待外扩矩形框扩展至目标文本边界所需外扩的距离。
94.具体的,根据目标语义分割特征图的连通性对处理后的目标语义分割特征图进行标记划分,进而得到带有用以表征连通关系标记的标记图,根据标记图对目标语义分割特征图和目标偏移量特征图求交后所得各像素点所对应标记对象进行确定,进而确定各标记对象对应像素点对应的偏移值,根据连通性对确定各标记对象对应的内缩后边界的矩形框,将其作为待外扩矩形框,进而依据目标偏移量特征图确定各标记对象中各像素所对应偏移量,以明确各待外扩矩形框所对应的扩展至标记对象所对应文本边界需要外扩的目标外扩距离。
95.s104、将待外扩矩形框外扩目标外扩距离,确定目标文本检测框。
96.具体的,通过预先确定的外扩算法将待外扩矩形框向外扩展目标外扩距离,以实现待外扩矩形框所对应目标文本内缩后边界的外扩,并将最终得到的扩展至目标文本边界所得的矩形框确定为目标文本检测框。
97.本实施例的技术方案,通过获取待检测图像;将待检测图像输入至预先构建的内缩偏移文本检测模型,确定目标语义分割特征图和目标偏移量特征图;根据目标语义分割特征图和目标偏移量特征图确定目标外扩距离和待外扩矩形框;将待外扩矩形框外扩目标外扩距离,确定目标文本检测框;其中,预先构建的内缩偏移文本检测模型包括语义分割子模型和偏移量回归子模型。通过采用上述技术方案,通过将待检测图像输入至预先构建的内缩偏移文本检测模型中,经由内缩偏移文本检测模型中的语义分割子模型和偏移量回归子模型分别处理得到对应的目标语义分割特征图和目标偏移量特征图,以同时根据语义分割结果和偏移量的计算结果确定需要将确定出的内缩后文本的待外扩矩形框,和需要进行
外扩的目标外扩距离,进而将待外扩矩形框外扩该目标外扩距离,以得到最终的目标文本检测框。解决了现有依据内缩文本实例训练所得的文本检测模型不考虑文本内缩过程偏移量,导致对密集文本区域进行检测时,检测速度慢且效果较差的问题,同时采用语义分割和偏移量回归的方式对同一待检测图像进行处理,充分考虑粘连程度及大小不同文本在内缩过程中所产生偏移量的影响,使得确定出的目标文本检测框与需确定位置的文本边界更加吻合,提升了文本检测的准确度,同时仅需在确定待外扩矩形框后依据确定出的目标外扩距离进行一次外扩,减少了目标文本检测框的确定计算量,提升了文本检测效率。
98.实施例二
99.图2为本发明实施例二提供的一种文本检测方法的流程图,本发明实施例的技术方案在上述各可选技术方案的基础上进一步优化,明确了如何依据内缩偏移文本训练样本集进行内缩分割标签和偏移量标签的确定方法,进而明确了如何依据内缩偏移文本训练样本集分别对语义分割子模型和偏移量回归子模型进行训练,以最终得到构建好的内缩偏移文本检测模型,进而明确了通过对目标语义分割特征图进行阈值化和连通组件确定标记图,以根据标记图和目标偏移量特征图的求交确定识别得到的具有同一标记值的待外扩矩形框,以及与各待外扩矩形框相对应的预测偏移量,进而依据预测偏移量和预设基准数值确定目标外扩距离,以根据目标外扩距离完成对待外扩矩形框各边的延伸外扩,同时根据待外扩矩形框的置信度对不满足预设置信度预支的待外扩矩形框进行删除,最终得到检测到的目标文本检测框,充分考虑了偏移量对识别出的内缩后目标文本边框的影响,同时对待外扩矩形框记性置信度计算,以删除置信度较低的待外扩矩形框,提高目标文本检测框的确定精度,减少了目标文本检测框的确定计算量,提升了文本检测效率。
100.如图2所示,本发明实施例二提供的一种文本检测方法,具体包括如下步骤:
101.s201、获取待检测图像。
102.s202、将待检测图像输入至预先构建的内缩偏移文本检测模型,确定目标语义分割特征图和目标偏移量特征图。
103.其中,预先构建的内缩偏移文本检测模型包括语义分割子模型和偏移量回归子模型。
104.具体的,将待检测图像输入至预先构建的内缩偏移文本检测模型中,经由内缩偏移文本检测模型中的骨干网络及对应用于完成多尺度特征提取和特征融合的网络完成待检测图像的基础特征提取,将提取到的基础特征分别输入值内缩偏移文本检测模型中的语义分割子模型和偏移量回归子模型中,将语义分割子模型的输出结果确定为目标语义分割特征图,将偏移量回归子模型的输出结果确定为目标偏移量特征图。
105.进一步地,图3为本发明实施例二提供的一种内缩偏移文本检测模型的训练步骤流程示例图,如图3所示,具体包括如下步骤:
106.s301、将内缩偏移文本训练样本集中的图像样本集进行基础特征提取,确定基础特征样本集。
107.其中,内缩偏移文本训练样本集中包括图像样本集以及与图像样本集对应的标定样本集,标定样本集中包括与各图像样本对应的内缩分割标签和偏移量标签。
108.在本实施例中,内缩偏移文本训练样本集具体可理解为用以输入至未经训练的内缩偏移文本检测模型,对其骨干网络及语义分割子模型和偏移量回归子模型进行训练的,
根据包含需检测文本信息的真实图像和标定图像构成的训练对象的集合。进一步地,由于本技术中内缩偏移文本检测模型为用以根据输入的图像进行内缩偏移后文本的文本语义分割和内缩偏移量确定的神经网络模型,故此时输入的内缩偏移文本训练样本集中应包括与后续输入用以检测的图像相同的图像样本集,以及与图像样本集对应的包含标定出所需检测文本内缩文本范围和内缩偏移量信息的,对图像样本集中各图像样本进行检测后的标定图像所构成的标定样本集,标定样本集中各标定样本与图像样本集中的图像样本存在一一对应关系,用以在对内缩偏移文本检测模型的训练过程中,与语义分割子模型和偏移量回归子模型的中间结果进行比对,以生成对应的损失函数。其中,标定样本集中包括各图像样本对应的内缩分割标签和偏移量标签,内缩分割标签具体可理解为与图像样本对应的标注有图像样本中需识别到的目标文本内缩后边界位置的标定图像或像素矩阵;偏移量标签具体可理解为与图像样本对应的标注有图像样本中需识别到的目标文本内缩过程产生偏移量的标定图像或像素矩阵。基础特征样本集具体可理解为对各图像样本集进行特征提取及多特征融合后所的特征图的集合。
109.进一步地,图4为本发明实施例二提供的一种将内缩偏移文本训练样本集中的图像样本集进行基础特征提取,确定基础特征样本集的流程示例图,如图4所示,具体包括如下步骤:
110.s401、将内缩偏移文本训练样本集中的图像样本集输入至特征提取骨干网络,确定第一特征图集。
111.其中,第一特征图集中包括由图像样本集提取的多个不同分辨率的特征图。
112.具体的,将内缩偏移文本训练集中图像样本集中的各图像样本输入至用于进行图像特征提取的骨干网络中,得到每个图像样本所对应的多个不同分辨率的特征图,将各特征图的集合确定为第一特征图集。
113.可选的,骨干网络可为resnet50,也可为其他可实现图像特征提取的网络,本发明实施例对此不进行限制。示例性的,假设输入的图像样本大小为(b,3,h,w),其中,h和w为图像样本的尺寸,b为输入批次,使用resnet50作为骨干网络进行图像特征提取,可得到5个不同大小分辨率的特征图集,可表示为fn{n∈(0,5)}。
114.s402、对第一特征图集进行多尺度特征提取,确定第二特征图集。
115.具体的,将第一特征图集输入至预先选取的多尺度特征提取网络或方法中,进行多尺度特征提取,得到多个不同大小分辨率的特征图,将各特征图的集合确定为第二特征图集。
116.接上述示例,以一个图像样本为例,将其对应的第一特征图集fn{n∈(0,5)}输入至标准的特征金字塔网络(feature pyramid networks,fpn)中,进行多尺度特征提取,得到4个不同大小分辨率的特征图构成的特征图集,可表示为fi{i∈(0,3)}。
117.s403、对第二特征图集进行多特征融合,并将融合后的各特征图的集合确定为基础特征样本集。
118.具体的,将第二特征图集中各特征图进行尺寸统一,并将尺寸统一后的各特征图输入至预先选取的多特征融合算法,进行多特征融合后得到图像样本对应的基础特征样本,将各图像样本对应的技术特征样本的集合确定为基础特征样本集。
119.接上述示例,可将第二特征图集fi{i∈(0,3)}中各特征图通过双线性插值的方
式,将尺寸统一至(b,c1,h/4,w/4),进而输入至预先选取的多特征融合算法或多特征融合模块中,得到大小为(b,c2,h/4,w/4)的基础特征样本,并将各基础特征样本的集合确定为基础特征样本集。进一步地,多特征融合模块可由三个不同的卷积核和采样间隔均为1的卷积块并联组成,将各卷积块输出的分辨率一直的特征图经逐位相加即可得到对应的基础特征样本。可选的,三个不同的卷积核大小可分别为3*3,5*5和1*1,卷积块可由卷积层、批归一化层和激活函数层组成。
120.进一步地,图5为本发明实施例二提供的一种内缩分割标签的确定步骤流程示例图,如图5所示,具体包括如下步骤:
121.s501、针对每个图像样本,根据图像样本的大小构建与图像样本对应的第一二维矩阵,并确定图像样本中标注文本的最短边长。
122.具体的,针对每个输入的图像样本,生成与图像样本大小一致的二维矩阵,并将该二维矩阵确定为第一二维矩阵,并根据图像样本中标注文本所占据像素的个数确定其对应的最短边长。可选的,第一二维矩阵的大小可根据图像样本像素个数确定,图像样本可包含对所需识别文本最外边界的标注,可将被标注的文本信息作为标注文本,进而根据标注文本位置所对应像素确定标注文本的最短边长对应的像素值。可选的,所构建第一二维矩阵内可全部填充为0,也可填充为其他预设初始数值,本发明实施例对此不进行限制。
123.s502、若最短边长小于或等于预设最小边框长度,则将第一二维矩阵中与标注文本的位置对应的各像素设置为第一预设数值。
124.在本实施例中,预设最小边框长度具体可理解为预先设置的,用于判断需被识别的标注文本是否需要进行内缩的边框长度值。
125.具体的,当最短边长小于或等于预设最小边框长度时,则可认为所需被识别的文本信息本身较小,若再进行内缩则识别困难更大,此时直接将第一二维矩阵中与标注文本的位置相对应的各像素设置为第一预设数值,无需对标注文本位置进行内缩更新。可选的,第一预设数值可为1,也可为预先设置的其他数值,本发明实施例对此不进行限制。
126.s503、若最短边长大于预设最小边框长度,则根据标注文本的大小确定第一内缩距离,根据第一内缩距离更新标注文本的位置,并将更新后标注文本的位置对应的各像素设置为第一预设数值。
127.具体的,若最短边长大于预设最小边框长度,则可认为所需被识别的标注文本本身较大,需要对其进行内缩以避免与其他待识别文本的粘连,此时根据标注文本的大小确定其需要进行内缩的第一内缩距离,进而根据第一内缩距离对标注文本对应的位置信息进行更新,并将更新后标注文本的位置所对应的像素设置为第一预设数值。
128.可选的,可依据标注文本的面积、周长以及预先设置的内缩程度参数确定需进行内缩的内缩距离,内缩距离可通过下式计算:
[0129][0130]
其中,a为标注文本的面积,l为标注文本的周长,r为预先设置的内缩程度参数。可选的,本发明实施例中r可设置为0.4,也可根据实际情况进行调整,本发明实施例对此不进行限制。
[0131]
进一步地,若第一内缩距离小于最短边长,则可根据第一内缩距离更新标注文本
的位置,并将更新后标注文本的位置对应的各像素设置为第一预设数值;若第一内缩距离大于或等于最短边长,则不根据第一内缩距离更新标注文本的位置,直接将第一二维矩阵中与标注文本的位置对应的各像素设置为第一预设数值。
[0132]
进一步地,在根据第一内缩距离更新标注文本的位置时,可将标注文本区域的外接矩形框的角点坐标依顺时针排序,并确定外接矩形框的中心点坐标;将外接矩形框两两相邻的边相对中心点坐标向内平移第一内缩距离;将外接矩形框中各边两端向内回缩第一内缩距离,确定各边对应的新的端点坐标,以及各相邻边完成内缩后的新的交点坐标;若各新的交点坐标与对应的新的端点坐标一致,则将内缩后的外接矩形框包含区域确定为更新后标注文本的位置,否则,返回外接矩形框对应的原始坐标重新进行标注文本的内缩,直至完成标注文本相对于第一内缩距离的内缩。
[0133]
进一步地,图6为本发明实施例二提供的一种偏移量标签的确定步骤流程示例图,如图6所示,具体包括如下步骤:
[0134]
s601、针对每个图像样本,根据图像样本的大小构建与图像样本对应的第二二维矩阵,并确定图像样本中标注文本的最短边长。
[0135]
具体的,针对每个输入的图像样本,生成与图像样本对应像素个数相对应大小一致的二维矩阵,并将该二维矩阵确定为第二二维矩阵,并根据图像样本中标注文本所占据像素的个数确定其对应的最短边长。可选的,所构建第二二维矩阵内可全部填充为0,也可填充为其他预设初始数值,本发明实施例对此不进行限制。
[0136]
可以理解的是,s601与s501中确定第一二维矩阵和第二二维矩阵的方式相同,确定标注文本的最短边长的方式也相同,本发明实施例对此不进行详述。
[0137]
s602、若最短边长小于或等于预设最小边框长度,则将第二二维矩阵中与标注文本的位置对应的各像素设置为第一预设数值。
[0138]
在本实施例中,预设最小边框长度具体可理解为预先设置的,用于判断需被识别的标注文本是否需要进行内缩的边框长度值。
[0139]
具体可当最短边长小于或等于预设最小边框长度时,则可认为所需被识别的标注文本本身较小,若再进行内缩,则会导致内缩后文本所占位置过小,识别难度较大,此时直接将第二二维矩阵中与标注文本的位置相对应的各像素设置为第一预设数值,而无需对标注文本位置所对应的像素范围进行更新。可选的,第一预设数值可为1,也可为预先设置的其他数值,本发明实施例对此不进行限制。
[0140]
s603、若最短边长大于预设最小边框长度,则根据图像样本的大小确定第二内缩距离,通过第二内缩距离和最短边长对第二二维矩阵进行更新并赋值。
[0141]
具体的,若最短边大于预设最小边框长度,则可认为所需被识别的标注文本本身较大,需对其进行内缩以避免其与其他待识别文本的粘连,此时根据标注文本的面积、周长及预先设置的内缩程度参数确定其需进行内缩的第二内缩距离,进而根据第二内缩距离对标注文本对应的位置信息进行更新,同时依据第二内缩距离和预设的基准数值确定标注文本在内缩过程的偏移量,依据计算得到的第二内缩距离与最短边长确定是否对标注文本进行内缩,进而将内缩后的标注文本的位置所对应的各像素赋值为确定出的偏移量。
[0142]
需要明确的是,第二内缩距离的计算方法与第一内缩距离的计算方法一致,本发明实施例对此不进行详述。
[0143]
进一步地,若第二内缩距离小于最短边长,则根据第二内缩距离和预设基准数值确定偏移强度值,根据第二内缩距离更新标注文本的位置,并将更新后标注文本的位置对应的各像素设置为偏移强度值;若第二内缩距离大于或等于最短边长,则将第二二维矩阵中与标注文本的位置对应的各像素设置为第一预设数值。
[0144]
在本实施例中,预设基准数值具体可理解为预先设置的,可根据处理后的图像可视化结果验证收缩效果进而进行调整的数值。偏移强度值具体可理解为用以表征本次内缩相对于标注文本原大小偏离的程度的值。
[0145]
具体的,当第二内缩距离小于最短边长时,可认为标注文本进行内缩后仍可被识别得到,且会由于内缩而产生一定的偏移,此时根据第二内缩距离和预设基准数值确定此次内缩的偏移强度值,同时根据第二内缩距离对标注文本对应的位置信息进行更新,也即将原标注文本各边对应的位置信息向内偏移第二内缩距离后作为更新后的标注文本对应位置信息,同时将更新后标注文本的位置对应的各像素设置为确定出的偏移强度值。当第二内缩距离大于或等于最短边长时,可认为若标注文本按照第二内缩距离进行内缩后将不存在或无法达到该内缩距离,若进行内缩则无法被识别得到,此时放弃对标注文本的内缩,将第二二维矩阵中与标注文本的位置相对应的各像素设为第一预设阈值即可。
[0146]
s302、将基础特征样本集输入至初始语义分割子模型,提取语义分割中间结果。
[0147]
在本实施例中,初始语义分割子模型具体可理解为未训练时的语义分割子模型,其中的神经网络层组成构架与语义分割子模型中完全一致,可使用由卷积层、批归一化层和激活函数层组成的两个3*3卷积块,和一个1*1的卷积层以及一个sigmoid激活函数组成,但尚未对其中各神经网络层的权重参数进行调整。语义分割中间结果具体可理解为未训练完成的初始语义分割子模型对输入的基础特征样本集进行语义分割后输出的中间结果。
[0148]
具体的,将基础特征样本集输入至初始语义分割子模型中进行训练,在训练过程中可提取出初始语义分割子模型对基础特征样本集中各基础特征样本进行语义分割后的多个不同语义分割中间结果。
[0149]
s303、将基础特征样本集输入至初始偏移量回归子模型,提取偏移量中间结果。
[0150]
在本实施例中,初始偏移量回归子模型具体可理解为未训练时的偏移量回归子模型,其中的神经网络层组成构架与偏移量回归子模型中完全一致,可使用由卷积层、批归一化层和激活函数层组成的两个3*3卷积块,和一个1*1的卷积层以及一个sigmoid激活函数组成,但尚未对其中各神经网络层的权重参数进行调整。偏移量中间结果具体可理解为训练完成的初始偏移量回归子模型输入的基础特征样本集进行偏移量回归后输出的中间结果。
[0151]
具体的,将基础特征样本集输入至初始偏移量回归子模型中进行训练,在训练过程中可提取出初始偏移量回归子模型对基础特征样本集中各基础特征样本进行内缩后所得的偏移量的多个不同偏移量中间结果。
[0152]
s304、根据语义分割中间结果和对应的内缩分割标签,确定对应的第一损失函数。
[0153]
具体的,将语义分割中间结果中各像素值与其对应的内缩分割标签中各像素值进行比对,进而确定与其对应的第一损失函数。可选的,第一损失函数可为smooth l1损失函数。
[0154]
进一步地,根据语义分割中间结果和对应的内缩分割标签,确定对应的第一损失
函数,具体包括如下步骤:
[0155]
s3041、将语义分割中间结果中各像素对应数值,与对应的内缩分割标签中各像素对应数值进行比对。
[0156]
s3042、根据比对结果确定第一损失函数。
[0157]
s305、根据偏移量中间结果和对应的偏移量标签,确定对应的第二损失函数。
[0158]
具体的,将偏移量中间结果中各像素值与对应的偏移量标签中各像素值进行比对,进而确定与其对应的第二损失函数。可选的,第二损失函数可为dice loss损失函数。
[0159]
进一步地,根据偏移量中间结果和对应的偏移量标签,确定对应的第二损失函数,具体包括如下步骤:
[0160]
s3051、将偏移量中间结果中各像素对应数值,与对应的偏移量标签中各像素对应数值进行比对。
[0161]
s3052、根据比对结果确定第二损失函数。
[0162]
s306、根据第一损失函数和第二损失函数确定总损失函数,并基于总损失函数对初始语义分割子模型和初始偏移量回归子模型进行训练,直到满足预设收敛条件获得内缩偏移文本检测模型。
[0163]
在本实施例中,预设收敛条件具体可理解为用以判断训练的初始网络模型是否进入收敛状态的条件。可选的,预设收敛条件可包括模型训练两次迭代之间的权重参数变化小于预设参数变化阈值,或迭代超过设定的最大迭代次数,或内缩偏移文本训练样本全部训练完毕等,本发明实施例对此不进行限定。
[0164]
具体的,根据第一损失函数和第二损失函数在对内缩偏移文本检测模型训练过程中重要性的不同,为其设置不同的权重参数,进而依据权重参数将第一损失函数与第二损失函数共同构建总损失函数,并依据总损失函数对初始语义分割子模型和初始偏移量回归子模型进行反向传播,使得用以组成初始语义分割子模型和初始偏移量回归子模型的各神经网络层中的权重参数可依据总损失函数进行调整,直到满足预设收敛条件时将训练完毕的初始语义分割子模型和初始偏移量回归子模型共同构建出内缩偏移文本检测模型。
[0165]
进一步地,根据第一损失函数和第二损失函数确定总损失函数,并基于总损失函数对初始语义分割子模型和初始偏移量回归子模型进行训练,直到满足预设收敛条件获得内缩偏移文本检测模型,具体包括如下步骤:
[0166]
s3061、根据预设权重值对第一损失函数和第二损失函数加权求和,确定总损失函数。
[0167]
示例性的,总损失函数l
total
具体可通过下式表示:
[0168]
l
total
=l
seg

×
l
offset
[0169]
其中,l
seg
为第一损失函数,l
offset
为第二损失函数,λ为加权求和的权重,可选的,本发明实施例中λ可设置为10,该权重可依据实验结果进行调整,本发明实施例对此不进行限制。
[0170]
s3062、基于总损失函数对初始语义分割子模型和初始偏移量回归子模型中的权重参数进行调整,直到满足预设收敛条件获得内缩偏移文本检测模型。
[0171]
s203、对目标语义分割特征图进行阈值化,并根据连通组件标记算法确定标记图。
[0172]
在本实施例中,连通组件标记算法(connected component labeling algorithm)
具体可理解为一种用以扫描二值图像中每个像素点,将像素值相同而且相互连通的像素划分为同一组,最终得到图像中所有的像素连通组件的算法。
[0173]
具体的,对目标语义分割特征图中各点对应数值进行阈值化,将其中超出预设阈值范围的值替换为1,反之则替换为0,得到只有0和1元素的二值图。进而对所得到的二值图通过连通组件标记算法进行处理,通过识别二值图中像素值相同且具有连通关系的组件,并将属于同一组件的像素标志为同一数值,且不同组件采用不同的标记数值,将具有同一数值的像素作为一个标记对象,并最终得到具有一个或多个标记对象的标记图。
[0174]
s204、将标记图与目标偏移量特征图求交,对目标偏移量特征图进行更新。
[0175]
具体的,由于目标偏移量特征图中可能在非标注文本所在部分中存在偏移量值,通过将标记图与目标偏移量特征图求交,剔除目标偏移量特征图中非标记对象所在位置的偏移量,完成对目标偏移量特征图的更新。
[0176]
需要明确的是,可通过标记图与目标偏移量特征图的求交完成对目标偏移量特征图的更新,也可通过阈值化后的二值图与目标偏移量特征图的求交完成对目标偏移量特征图的更新,本发明实施例中仅以通过标记图与目标偏移量特征图的求交为例,具体实现方式本发明实施例不进行限制。
[0177]
s205、遍历求交后标记图中不同标记值,将同一标记值对应标记对象的外接矩形框确定为待外扩矩形框。
[0178]
具体的,对求交后所得标记图中不同的标记值进行遍历,将具有同一标记值的像素确定为一个标记对象,并将各标记对象的外接矩形框确定为需要进行外扩以达到需被识别的文本外接边界的待外扩矩形框。也即待外扩矩形框可为需被识别文本的内缩文本边框,也可为需被识别文本未被内缩情况下的边框,其取决于训练过程中对预设最小边框长度的确定。
[0179]
可选的,可通过opencv提供的minarearect函数对标记对象进行计算,得到标记对象的外界旋转矩形框,也即为本发明实施例中的待外扩矩形框。
[0180]
进一步地,在遍历求交后标记图中不同标记值,将同一标记值对应标记对象的外接矩形框确定为待外扩矩形框之后,还包括:
[0181]
根据标记对象在目标语义分割特征图内像素值的平均值确定标记对象对应待外扩矩形框的置信度;若置信度小于预设置信度阈值,则删除待外扩矩形框。
[0182]
具体的,由于经由语义分割子模型输出的目标语义分割特征图可能存在误差,故依据目标语义分割特征图阈值化后进行连通区域确定的标记对象也可能存在误差,本发明实施例中通过求取同一标记对象内各像素点在对应目标语义分割特征图中的像素平均值确定其所对应待外扩矩形框的置信度,当置信度评分小于预设置信度阈值时,可认为该待外扩矩形框为误识别的矩形框,其所对应标注的区域中不包括待识别的目标文本,此时删除该待外扩矩形框,以减少后续进行矩形框外扩的计算量,并提升了目标文本检测框确定的准确性。
[0183]
s206、将各标记对象在更新后的目标偏移量特征图内像素值的平均值作为标记对象的预测偏移量。
[0184]
具体的,针对每个标记对象,确定其所对应的像素在更新后的目标偏移量特征图内的平均值,并将该平均值确定为与该标记对象对应的预测偏移量。
[0185]
s207、根据预测偏移量和预设基准数值确定目标外扩距离。
[0186]
具体的,将预测偏移量与预设基准数值的乘积确定为该预测偏移量对应待外扩矩形框的目标外扩距离。
[0187]
s208、将待外扩矩形框角点坐标顺时针排序,并确定待外扩矩形框的中心点坐标。
[0188]
具体的,针对每个待外扩矩形框,确定该待外扩矩形框的四个角点是否依照顺时针排序,若否,则将各角点调整为顺时针排序,以便于后续外扩操作,同时将待外扩矩形框中顺时针排序的四个角点中的第一角点与第三角点连线,将第二角点与第四角点连线,两连线的交点即为待外扩矩形框的中心点,并可根据待外扩矩形框的四个角点坐标确定中心点坐标。
[0189]
s209、将待外扩矩形框两两相邻的边相对中心点坐标向外平移目标外扩距离。
[0190]
具体的,依次将待外扩矩形框中两两相邻的边相对于中心点坐标向垂直于中心点坐标方向的反方向平移目标外扩距离。
[0191]
示例性的,假设待外扩矩形框的中心点为c,目标外扩距离为d,则待外扩矩形框中的一条边将相对于与c垂直方向向外平移距离d。
[0192]
s210、将待外扩矩形框中各边两端向外延伸目标外扩距离,确定各边对应的新的端点坐标。
[0193]
具体的,在待外扩矩形框各边均相对于中心点完成外扩后,各边的两端端点向两端分别延伸目标外扩距离,并确定各边对应的两个新的端点坐标。
[0194]
s211、将待外扩矩形框中各边完成外扩后的交点确定为新的交点坐标。
[0195]
具体的,在待外扩矩形框中各边完成两端外扩后,外扩后的相邻两边应相交,此时将相邻两边的交点确定为新的交点坐标。
[0196]
s212、判断各新的交点坐标与对应的新的端点坐标是否一致,若是,则执行步骤s213;若否,则执行步骤s214。
[0197]
具体的,判断各新的交点坐标与相对应的新的端点坐标是否一致,若是,则可认为外扩后的各边可构成一个完整的矩形框,外扩成功,此时执行步骤s213;否则,可认为外扩后各边不相交,或交点未位于各边端点处,所构成的并非一个完整的矩形框,外扩失败,此时执行步骤s214。
[0198]
s213、将外扩后的待外扩矩形框确定为目标文本检测框。
[0199]
s214、返回待外扩矩形框对应的原始坐标。
[0200]
具体的,当确认待外扩矩形框外扩失败后,将待外扩矩形框中各边对应点返回至原始坐标,进而可进行报错,也可返回执行步骤s208,直到确定该待外扩矩形框对应的目标文本检测框为止。
[0201]
本实施例的技术方案,依据内缩偏移文本训练样本集中的每个图像样本,根据其中标注文本的最短边长及标注文本的大小完成内缩分割标签和偏移量标签的确定,进而通过内缩偏移文本训练样本集中的图像样本集、内缩分割标签和偏移量标签分别对语义分割子模型和偏移量回归子模型进行训练,以最终得到构建好的内缩偏移文本检测模型,通过对目标语义分割特征图进行阈值化和连通组件确定标记图,以根据标记图和目标偏移量特征图的求交确定识别得到的具有同一标记值的待外扩矩形框,以及与各待外扩矩形框相对应的预测偏移量,进而依据预测偏移量和预设基准数值确定目标外扩距离,以根据目标外
扩距离完成对待外扩矩形框各边的延伸外扩,同时根据待外扩矩形框的置信度对不满足预设置信度预支的待外扩矩形框进行删除,最终得到检测到的目标文本检测框,充分考虑了偏移量对识别出的内缩后目标文本边框的影响,同时对待外扩矩形框记性置信度计算,以删除置信度较低的待外扩矩形框,提高目标文本检测框的确定精度,减少了目标文本检测框的确定计算量,提升了文本检测效率。
[0202]
实施例三
[0203]
图7为本发明实施例三提供的一种文本检测装置的结构示意图,该文本检测装置包括:图像获取模块71,特征图确定模块72,外扩矩形确定模块73和检测框确定模块74。
[0204]
其中,图像获取模块71,用于获取待检测图像;特征图确定模块72,用于将所述待检测图像输入至预先构建的内缩偏移文本检测模型,确定目标语义分割特征图和目标偏移量特征图;外扩矩形确定模块73,用于根据所述目标语义分割特征图和所述目标偏移量特征图确定目标外扩距离和待外扩矩形框;检测框确定模块74,用于将所述待外扩矩形框外扩所述目标外扩距离,确定目标文本检测框;其中,所述预先构建的内缩偏移文本检测模型包括语义分割子模型和偏移量回归子模型。
[0205]
本实施例的技术方案,解决了现有依据内缩文本实例训练所得的文本检测模型不考虑文本内缩过程偏移量,导致对密集文本区域进行检测时,检测速度慢且效果较差的问题,同时采用语义分割和偏移量回归的方式对同一待检测图像进行处理,充分考虑粘连程度及大小不同文本在内缩过程中所产生偏移量的影响,使得确定出的目标文本检测框与需确定位置的文本边界更加吻合,提升了文本检测的准确度,同时仅需在确定待外扩矩形框后依据确定出的目标外扩距离进行一次外扩,减少了目标文本检测框的确定计算量,提升了文本检测效率。
[0206]
进一步地,内缩偏移文本检测模型的训练步骤包括:
[0207]
将内缩偏移文本训练样本集中的图像样本集进行基础特征提取,确定基础特征样本集;其中,内缩偏移文本训练样本集中包括图像样本集以及与图像样本集对应的标定样本集,标定样本集中包括与各图像样本对应的内缩分割标签和偏移量标签;
[0208]
将基础特征样本集输入至初始语义分割子模型,提取语义分割中间结果;
[0209]
将基础特征样本集输入至初始偏移量回归子模型,提取偏移量中间结果;
[0210]
根据语义分割中间结果和对应的内缩分割标签,确定对应的第一损失函数;
[0211]
根据偏移量中间结果和对应的偏移量标签,确定对应的第二损失函数;
[0212]
根据第一损失函数和第二损失函数确定总损失函数,并基于总损失函数对初始语义分割子模型和初始偏移量回归子模型进行训练,直到满足预设收敛条件获得内缩偏移文本检测模型。
[0213]
进一步地,将内缩偏移文本训练样本集中的图像样本集进行基础特征提取,确定基础特征样本集,包括:
[0214]
将内缩偏移文本训练样本集中的图像样本集输入至特征提取骨干网络,确定第一特征图集;其中,第一特征图集中包括由图像样本集提取的多个不同分辨率的特征图;
[0215]
对第一特征图集进行多尺度特征提取,确定第二特征图集;
[0216]
对第二特征图集进行多特征融合,并将融合后的各特征图的集合确定为基础特征样本集。
[0217]
进一步地,内缩分割标签的确定步骤包括:
[0218]
针对每个图像样本,根据图像样本的大小构建与图像样本对应的第一二维矩阵,并确定图像样本的最短边长;
[0219]
若最短边长小于或等于预设最小边框长度,则将第一二维矩阵中与标注文本的位置对应的各像素设置为第一预设数值;
[0220]
若最短边长大于预设最小边框长度,则根据图像样本的大小确定第一内缩距离,根据第一内缩距离更新标注文本的位置,并将更新后标注文本的位置对应的各像素设置为第一预设数值。
[0221]
进一步地,偏移量标签的确定步骤包括:
[0222]
针对每个图像样本,根据图像样本的大小构建与图像样本对应的第二二维矩阵,并确定图像样本的最短边长;
[0223]
若最短边长小于或等于预设最小边框长度,则将第二二维矩阵中与标注文本的位置对应的各像素设置为第一预设数值;
[0224]
若最短边长大于预设最小边框长度,则根据图像样本的大小确定第二内缩距离,通过第二内缩距离和最短边长对第二二维矩阵进行更新并赋值。
[0225]
进一步地,通过第二内缩距离和最短边长对第二二维矩阵进行更新并赋值,包括:
[0226]
若第二内缩距离小于最短边长,根据第二内缩距离和预设基准数值确定偏移强度值,根据第二内缩距离更新标注文本的位置,并将更新后标注文本的位置对应的各像素设置为偏移强度值;
[0227]
若第二内缩距离大于或等于最短边长,则将第二二维矩阵中与标注文本的位置对应的各像素设置为第一预设数值。
[0228]
进一步地,根据语义分割中间结果和对应的内缩分割标签,确定对应的第一损失函数,包括:
[0229]
将语义分割中间结果中各像素对应数值,与对应的内缩分割标签中各像素对应数值进行比对;
[0230]
根据比对结果确定第一损失函数。
[0231]
进一步地,根据偏移量中间结果和对应的偏移量标签,确定对应的第二损失函数,包括:
[0232]
将偏移量中间结果中各像素对应数值,与对应的偏移量标签中各像素对应数值进行比对;
[0233]
根据比对结果确定第二损失函数。
[0234]
进一步地,根据第一损失函数和第二损失函数确定总损失函数,并基于总损失函数对初始语义分割子模型和初始偏移量回归子模型进行训练,直到满足预设收敛条件获得内缩偏移文本检测模型,包括:
[0235]
根据预设权重值对第一损失函数和第二损失函数加权求和,确定总损失函数;
[0236]
基于总损失函数对初始语义分割子模型和初始偏移量回归子模型中的权重参数进行调整,直到满足预设收敛条件获得内缩偏移文本检测模型。
[0237]
可选的,外扩矩形确定模块73,包括:
[0238]
标记图确定单元,用于对目标语义分割特征图进行阈值化,并根据连通组件标记
算法确定标记图;
[0239]
偏移量图更新单元,用于将标记图与目标偏移量特征图求交,对目标偏移量特征图进行更新;
[0240]
矩形框确定单元,用于遍历求交后标记图中不同标记值,将同一标记值对应标记对象的外接矩形框确定为待外扩矩形框;
[0241]
偏移量确定单元,用于将各标记对象在更新后的目标偏移量特征图内像素值的平均值确定为标记对象的预测偏移量;
[0242]
外扩距离确定单元,用于根据预测偏移量和预设基准数值确定目标外扩距离。
[0243]
可选的,文本检测装置,还包括:
[0244]
置信度确定模块,用于根据标记对象在目标语义分割特征图内像素值的平均值确定标记对象对应待外扩矩形框的置信度;若置信度小于预设置信度阈值,则删除待外扩矩形框。
[0245]
可选的,检测框确定模块74,包括:
[0246]
中心点坐标确定单元,用于将待外扩矩形框角点坐标顺时针排序,并确定待外扩矩形框的中心点坐标;
[0247]
边平移单元,用于将待外扩矩形框两两相邻的边相对中心点坐标向外平移目标外扩距离;
[0248]
端点坐标确定单元,用于将待外扩矩形框中各边两端向外延伸目标外扩距离,确定各边对应的新的端点坐标;
[0249]
交点坐标确定单元,用于将待外扩矩形框中各边完成外扩后的交点确定为新的交点坐标;
[0250]
检测框确定单元,用于若各新的交点坐标与对应的新的端点坐标一致,将外扩后的待外扩矩形框确定为目标文本检测框;否则,返回待外扩矩形框对应的原始坐标。
[0251]
本发明实施例提供的文本检测装置可执行本发明任意实施例提供的文本检测方法,具备执行方法相应的功能模块和有益效果。
[0252]
实施例四
[0253]
图8为本发明实施例四提供的一种文本检测设备的结构示意图。文本检测设备80可为电子设备,旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0254]
如图8所示,文本检测设备80包括至少一个处理器81,以及与至少一个处理器81通信连接的存储器,如只读存储器(rom)82、随机访问存储器(ram)83等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器81可以根据存储在只读存储器(rom)82中的计算机程序或者从存储单元88加载到随机访问存储器(ram)83中的计算机程序,来执行各种适当的动作和处理。在ram 83中,还可存储文本检测设备80操作所需的各种程序和数据。处理器81、rom 82以及ram 83通过总线84彼此相连。输入/输出(i/o)接口85也连接至总线84。
[0255]
文本检测设备80中的多个部件连接至i/o接口85,包括:输入单元86,例如键盘、鼠标等;输出单元87,例如各种类型的显示器、扬声器等;存储单元88,例如磁盘、光盘等;以及通信单元89,例如网卡、调制解调器、无线通信收发机等。通信单元89允许文本检测设备80通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0256]
处理器81可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器81的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器81执行上文所描述的各个方法和处理,例如文本检测方法。
[0257]
在一些实施例中,文本检测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元88。在一些实施例中,计算机程序的部分或者全部可以经由rom 82和/或通信单元89而被载入和/或安装到文本检测设备80上。当计算机程序加载到ram 83并由处理器81执行时,可以执行上文描述的文本检测方法的一个或多个步骤。备选地,在其他实施例中,处理器81可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本检测方法。
[0258]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0259]
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0260]
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0261]
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装
置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0262]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
[0263]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
[0264]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
[0265]
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1