一种文本识别方法、装置、计算机设备及存储介质与流程

文档序号:33557399发布日期:2023-03-22 12:32阅读:31来源:国知局
一种文本识别方法、装置、计算机设备及存储介质与流程

1.本公开涉及文本识别技术领域,具体而言,涉及一种文本识别方法、装置、计算机设备及存储介质。


背景技术:

2.随着深度学习技术的快速发展,神经网络被应用在越来越多的领域中,以帮助人们提高生产效率。
3.在计算机视觉技术领域中,基于深度学习技术构建的光学字符识别(optical character recognition,ocr)模型被越来越多的应用在图像中文本识别的场景中,但实际应用中由于光学字符识别模型的训练数据、训练方法等方面可能存在问题,因此训练完成后的光学字符识别模型可能无法识别部分图像中的文本内容,此时往往需要对光学字符识别模型进行针对性训练,这一训练过程需要耗费较多的人力和物力,难以快速的解决在具体应用场景中出现的时效要求较高的漏洞,效率低下。


技术实现要素:

4.本公开实施例至少提供一种文本识别方法、装置、计算机设备及存储介质。
5.第一方面,本公开实施例提供了一种文本识别方法,包括:
6.获取包含待识别文本的初始图像;
7.基于预先训练的目标网络模型,确定所述初始图像对应的第一特征向量;
8.基于所述第一特征向量,和携带有文本标记的各待筛选图像分别对应的第二特征向量,将所述初始图像和各待筛选图像进行匹配,其中,所述待筛选图像的文本标记用于指示所述待筛选图像中的文本内容,所述待筛选图像中的文本内容为基于光学字符识别方法识别错误的文本内容;
9.在检测到所述待筛选图像中包含与所述初始图像匹配的目标图像的情况下,基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果。
10.一种可能的实施方式中,所述目标网络模型为根据以下步骤训练得到的:
11.获取样本图像对,其中,所述样本图像对包括正样本图像对和负样本图像对,所述正样本图像对中的图像来源于同一初始样本图像,所述负样本图像对中的图像来源于不同初始样本图像;
12.将所述样本图像对中的第一样本图像和第二样本图像分别输入至待训练的初始网络模型中,得到所述待训练的初始网络模型输出的第一样本向量和第二样本向量;其中,所述第一样本向量包括多个第一样本局部向量和第一样本全局向量,所述第二样本向量包括多个第二样本局部向量和第二样本全局向量;
13.基于所述第一样本向量和所述第二样本向量,确定训练的损失值,并基于所述损失值对待训练的初始网络模型的网络参数值进行调整,得到所述目标网络模型。
14.一种可能的实施方式中,所述方法还包括根据以下方法确定所述正样本图像对和负样本图像对:
15.获取多张初始样本图像;
16.针对任一初始样本图像,分别基于不同的图像增强处理方式对该初始样本图像进行图像增强处理,得到多张增强样本图像,并将所述多张增强样本图像中的任意两张增强样本图像作为所述正样本图像对;以及,将任意两张所述初始样本图像作为所述负样本图像对,或者对所述任意两张所述初始样本图像中的至少一张图像进行图像增强处理,得到所述负样本图像对。
17.一种可能的实施方式中,所述目标网络模型包含特征提取模块和上下文特征增强模块;
18.在将任一样本图像输入至所述初始网络模型之后,所述初始网络模型用于根据以下步骤确定该样本图像对应的样本向量:
19.将该样本图像输入至所述目标网络模型的特征提取模块中,得到所述特征提取模块输出的该样本图像的不同区域分别对应的第三样本向量;
20.将所述第三样本向量分别输入至所述上下文特征增强模块,得到所述上下文特征增强模块输出的,经过上下文特征增强处理的增强样本向量;
21.基于所述经过上下文特征增强处理的增强样本向量,生成该样本图像对应的样本向量。
22.一种可能的实施方式中,所述目标网络模型包含第一池化模块和第二池化模块;
23.所述基于所述经过上下文特征增强处理的增强样本向量,生成该样本图像对应的样本向量,包括:
24.将各所述增强样本向量输入至所述第一池化模块,得到所述第一池化模块输出的多个样本局部向量;以及,将各所述增强样本向量输入至所述第二池化模块,得到所述第二池化模块输出的样本全局向量;
25.其中,所述第二池化模块包含的池化处理算子的个数,大于所述第一池化模块所包含的池化处理算子的个数。
26.一种可能的实施方式中,所述基于所述第一样本向量和所述第二样本向量,确定训练的损失值,包括:
27.基于第一样本局部向量和所述第二样本局部向量,确定局部特征损失值;以及,基于所述第一样本全局向量和所述第二样本全局向量,确定全局特征损失值;
28.基于所述局部特征损失值和所述全局特征损失值,确定训练的目标损失值。
29.一种可能的实施方式中,所述第二特征向量为所述待筛选图像对应的多个局部特征向量拼接得到的,所述待筛选图像对应的多个局部特征向量为通过所述目标网络模型确定的;
30.所述基于预先训练的目标网络模型,确定所述初始图像对应的第一特征向量,包括:
31.将所述初始图像输入至所述目标网络模型,得到所述初始图像对应的多个局部特征向量;
32.将所述多个局部特征向量进行拼接,得到所述第一特征向量。
33.一种可能的实施方式中,所述基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果,包括:
34.基于所述目标图像对应的文本标记指示的文本内容,对所述初始图像的初始文本识别结果进行更新,得到所述初始图像对应的目标文本识别结果。
35.第二方面,本公开实施例还提供一种文本识别装置,包括:
36.获取模块,用于获取包含待识别文本的初始图像;
37.第一确定模块,用于基于预先训练的目标网络模型,确定所述初始图像对应的第一特征向量;
38.匹配模块,用于基于所述第一特征向量,和携带有文本标记的各待筛选图像分别对应的第二特征向量,将所述初始图像和各待筛选图像进行匹配,其中,所述待筛选图像的文本标记用于指示所述待筛选图像中的文本内容,所述待筛选图像中的文本内容为基于光学字符识别方法识别错误的文本内容;
39.第二确定模块,用于在检测到所述待筛选图像中包含与所述初始图像匹配的目标图像的情况下,基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果。
40.一种可能的实施方式中,所述第一确定模块还用于根据以下步骤训练得到目标网络模型:
41.获取样本图像对,其中,所述样本图像对包括正样本图像对和负样本图像对,所述正样本图像对中的图像来源于同一初始样本图像,所述负样本图像对中的图像来源于不同初始样本图像;
42.将所述样本图像对中的第一样本图像和第二样本图像分别输入至待训练的初始网络模型中,得到所述待训练的初始网络模型输出的第一样本向量和第二样本向量;其中,所述第一样本向量包括多个第一样本局部向量和第一样本全局向量,所述第二样本向量包括多个第二样本局部向量和第二样本全局向量;
43.基于所述第一样本向量和所述第二样本向量,确定训练的损失值,并基于所述损失值对待训练的初始网络模型的网络参数值进行调整,得到所述目标网络模型。
44.一种可能的实施方式中,所述第一确定模块还用于根据以下步骤确定所述正样本图像对和负样本图像对:
45.获取多张初始样本图像;
46.针对任一初始样本图像,分别基于不同的图像增强处理方式对该初始样本图像进行图像增强处理,得到多张增强样本图像,并将所述多张增强样本图像中的任意两张增强样本图像作为所述正样本图像对;以及,将任意两张所述初始样本图像作为所述负样本图像对,或者对所述任意两张所述初始样本图像中的至少一张图像进行图像增强处理,得到所述负样本图像对。
47.一种可能的实施方式中,所述目标网络模型包含特征提取模块和上下文特征增强模块;
48.在将任一样本图像输入至所述初始网络模型之后,所述第一确定模块用于根据以下步骤确定该样本图像对应的样本向量:
49.将该样本图像输入至所述目标网络模型的特征提取模块中,得到所述特征提取模块输出的该样本图像的不同区域分别对应的第三样本向量;
50.将所述第三样本向量分别输入至所述上下文特征增强模块,得到所述上下文特征增强模块输出的,经过上下文特征增强处理的增强样本向量;
51.基于所述经过上下文特征增强处理的增强样本向量,生成该样本图像对应的样本向量。
52.一种可能的实施方式中,所述目标网络模型包含第一池化模块和第二池化模块;
53.所述第一确定模块,在基于所述经过上下文特征增强处理的增强样本向量,生成该样本图像对应的样本向量时,用于:
54.将各所述增强样本向量输入至所述第一池化模块,得到所述第一池化模块输出的多个样本局部向量;以及,将各所述增强样本向量输入至所述第二池化模块,得到所述第二池化模块输出的样本全局向量;
55.其中,所述第二池化模块包含的池化处理算子的个数,大于所述第一池化模块所包含的池化处理算子的个数。
56.一种可能的实施方式中,所述第一确定模块,在基于所述第一样本向量和所述第二样本向量,确定训练的损失值时,用于:
57.基于第一样本局部向量和所述第二样本局部向量,确定局部特征损失值;以及,基于所述第一样本全局向量和所述第二样本全局向量,确定全局特征损失值;
58.基于所述局部特征损失值和所述全局特征损失值,确定训练的目标损失值。
59.一种可能的实施方式中,所述第二特征向量为所述待筛选图像对应的多个局部特征向量拼接得到的,所述待筛选图像对应的多个局部特征向量为通过所述目标网络模型确定的;
60.所述第一确定模块,在基于预先训练的目标网络模型,确定所述初始图像对应的第一特征向量时,用于:
61.将所述初始图像输入至所述目标网络模型,得到所述初始图像对应的多个局部特征向量;
62.将所述多个局部特征向量进行拼接,得到所述第一特征向量。
63.一种可能的实施方式中,所述第二确定模块,在基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果时,用于:
64.基于所述目标图像对应的文本标记指示的文本内容,对所述初始图像的初始文本识别结果进行更新,得到所述初始图像对应的目标文本识别结果。
65.第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
66.第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
67.本公开实施例提供的文本识别方法、装置、计算机设备及存储介质,基于预先训练的目标网络模型,对包含待识别内容的初始图像和基于光学字符识别方法识别错误的待筛选图像进行匹配,并在匹配成功的情况下基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果。这样,相较于重新训练光学字符识别方法对应的光学字符识别模型,通过添加目标网络模型进行图像匹配,可以确定出初始图像是否与经过光学字符识别方法进行识别后会识别错误的目标图像匹配,由此可以基于所述目标图像对应的文本标记对初始文本识别结果中的错误识别结果进行调整,提升了文本识别的精度和效率。
68.为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
69.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
70.图1示出了本公开实施例所提供的一种文本识别方法的流程图;
71.图2示出了本公开实施例所提供的文本识别方法中,目标网络模型的网络结构示意图;
72.图3示出了本公开实施例所提供的文本识别方法中,确定目标损失值的示意图;
73.图4示出了本公开实施例所提供的文本识别方法中,对第二特征向量进行存储的示意图;
74.图5示出了本公开实施例所提供的一种文本识别装置的架构示意图;
75.图6示出了本公开实施例所提供的一种计算机设备的结构示意图。
具体实施方式
76.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
77.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
78.本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括a、b、c中的至
少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。
79.可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
80.例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
81.作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
82.可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
83.经研究发现,用于进行图像中的文本内容识别的文本识别模型的网络结构较为复杂,可以由多个深度学习模型串联而成,因此在重新训练文本识别模型时需要耗费较长的时间。
84.但实际应用中由于文本识别模型的训练数据、训练方法等方面可能存在问题,因此训练完成后的文本识别模型可能无法识别部分图像中的文本内容,此时往往需要对文本识别模型进行针对性训练,这一训练过程需要耗费较多的人力和物力,难以快速的解决在具体应用场景中出现的时效要求较高的漏洞;而若采用图像检索的方式检索识别错误图像是否对应有,预先标注好正确文本识别内容的匹配图像,以实现文本识别结果的替换,则需要使用具有图像之间文本匹配的图像检索模型,但相关技术中的图像检索模型由于自身网络结构等因素,往往不具备图像之间文本匹配的检索能力。
85.基于上述研究,本公开提供了一种文本识别方法、装置、计算机设备及存储介质,基于预先训练的目标网络模型,对包含待识别内容的初始图像和基于光学字符识别方法识别错误的待筛选图像进行匹配,并在匹配成功的情况下基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果。这样,相较于重新训练光学字符识别方法对应的光学字符识别模型,通过添加目标网络模型进行图像匹配,可以确定出初始图像是否与经过光学字符识别方法进行识别后会识别错误的目标图像匹配,由此可以基于所述目标图像对应的文本标记对初始文本识别结果中的错误识别结果进行调整,提升了文本识别的精度和效率。
86.为便于对本实施例进行理解,首先对本公开实施例所公开的一种文本识别方法进行详细介绍,本公开实施例所提供的文本识别方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(user equipment,ue)、移动设备、用户终端、终端、手持设备、计算设备、车载设备等。在一些可能的实现方式中,该文本识别方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
87.参见图1所示,为本公开实施例提供的文本识别方法的流程图,所述方法包括s101
~s104,其中:
88.s101:获取包含待识别文本的初始图像。
89.s102:基于预先训练的目标网络模型,确定所述初始图像对应的第一特征向量。
90.s103:基于所述第一特征向量,和携带有文本标记的各待筛选图像分别对应的第二特征向量,将所述初始图像和各待筛选图像进行匹配,其中,所述待筛选图像的文本标记用于指示所述待筛选图像中的文本内容,所述待筛选图像中的文本内容为基于光学字符识别方法识别错误的文本内容。
91.s104:在检测到所述待筛选图像中包含与所述初始图像匹配的目标图像的情况下,基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果。
92.以下是对上述步骤的详细介绍。
93.针对s101和s102、
94.所述初始图像中包含的待识别文本可以是多行或多列文本;或者,也可以是经过文本行切分处理后的一行文本或一列文本;所述目标网络模型可以是由多个网络模块组成的网络模型,所述目标网络模型可以由特征提取模块等网络模块组成,所述目标网络模型的组成部分将在下文进行描述,在此不再展开说明。
95.这里,在基于预先训练的目标网络模型,确定所述初始图像对应的第一特征向量时,可以将所述初始图像输入至所述目标网络模型,并由所述目标网络模型对输入的初始图像进行特征提取处理等操作,以得到所述第一特征向量。
96.具体的,在将所述初始图像输入至所述目标网络模型时,可以对所述初始图像进行图像处理,并将经过图像处理后的初始图像输入至所述目标网络模型;其中,所述图像处理包括图像分辨率缩放处理、图像旋转处理、图像切分处理、图像拼接处理等处理方式中的至少一种。
97.一种可能的实施方式中,在确定所述初始图像对应的第一特征向量时,可以通过下述步骤a1~a2:
98.a1:将所述初始图像输入至所述目标网络模型,得到所述初始图像对应的多个局部特征向量。
99.这里,所述局部特征向量用于表征所述初始图像中的局部区域图像的特征,而由于所述初始图像中包含有待识别文本,因此所述局部特征向量可以用于表征所述初始图像所包含的待识别文本中的部分文本的特征。
100.a2:将所述多个局部特征向量进行拼接,得到所述第一特征向量。
101.这里,在将所述多个局部特征向量进行拼接时,可以按照预设的拼接顺序对所述多个局部特征向量进行拼接处理,得到所述第一特征向量;其中,所述预设的拼接顺序可以是各所述局部特征向量在拆分阶段对应的顺序。
102.具体的,所述目标网络模型的特征提取模块在对所述初始图像进行特征提取时,可以将所述初始图像对应的全局特征向量拆分为预设数量个的局部特征向量,各局部特征向量在经过后续处理并进行拼接时,即可按照此前进行拆分时各局部特征向量分别对应的顺序进行拼接处理,从而得到所述第一特征向量。
103.一种可能的实施方式中,在训练所述目标网络模型时,可以通过下述步骤a1~a3:
104.a1:获取样本图像对,其中,所述样本图像对包括正样本图像对和负样本图像对,所述正样本图像对中的图像来源于同一初始样本图像,所述负样本图像对中的图像来源于不同初始样本图像。
105.这里,所述正样本图像对和所述负样本图像对还可以对应有样本标签;其中,所述正样本图像对的样本标签用于表征正样本图像对中的图像来源于同一初始样本图像,所述负样本图像对的样本标签用于表征负样本图像对中的图像来源于不同初始样本图像,在所述目标网络模型对应的训练方式为自监督训练的情况下,样本图像对的样本标签可以是自动生成的,也即样本图像对的样本标签无需人工进行标注。
106.下面,将分别介绍正样本图像对和负样本图像对的确定方式:
107.1、正样本图像对
108.这里,在获取多张初始样本图像之后,针对任一初始样本图像,可以分别基于不同的图像增强处理方式对该初始样本图像进行图像增强处理,得到多张增强样本图像,并将所述多张增强样本图像中的任意两张增强样本图像作为所述正样本图像对。
109.其中,所述图像增强处理方式可以包括改变图像颜色、改变图像尺寸、对图像进行旋转处理等方式。
110.这样,虽然使用了不同的图像增强处理方式对初始样本图像进行了图像增强处理,但得到的不同的增强样本图像中所包含的文字内容还是相同的,因此通过这种方式可以得到来源于同一初始样本图像的正样本图像对,且无需进行人工标注,从而节约了模型训练过程中的样本标注时间,提高了网络模型的训练效率。
111.2、负样本图像对
112.这里,在获取多张初始样本图像之后,可以将任意两张所述初始样本图像作为所述负样本图像对,或者对所述任意两张所述初始样本图像中的至少一张图像进行图像增强处理,得到所述负样本图像对。
113.具体的,所述负样本图像对可以由两张包含有不同文本内容的初始样本图像构成;或者,所述负样本图像对还可以是由一张初始样本图像和一张增强样本图像构成,构成所述负样本图像对的这两张样本图像(也即一张初始样本图像和一张增强样本图像)中可以包含有不同的文本内容;或者,所述负样本图像对还可以是由两张增强样本图像构成,构成所述负样本图像对的所述两张增强样本图像中可以包含有不同的文本内容。
114.这样,通过将两张来源于不同初始样本图像的样本图像(可以是初始样本图像本身或者初始样本图像对应的增强样本图像)作为所述负样本图像对,可以得到用于训练所述目标网络模型的负样本图像对,且无需进行人工标注,从而节约了模型训练过程中的样本标注时间,提高了网络模型的训练效率。
115.a2:将所述样本图像对中的第一样本图像和第二样本图像分别输入至待训练的初始网络模型中,得到所述待训练的初始网络模型输出的第一样本向量和第二样本向量;其中,所述第一样本向量包括多个第一样本局部向量和第一样本全局向量,所述第二样本向量包括多个第二样本局部向量和第二样本全局向量。
116.这里,局部向量用于表征样本图像中局部区域对应的特征,全局向量用于表征样本图像中所有区域对应的特征。
117.一种可能的实施方式中,所述目标网络模型可以包含特征提取模块和上下文特征
增强模块;在将任一样本图像输入至所述初始网络模型之后,所述初始网络模型可以用于根据以下步骤a21~a23确定该样本图像对应的样本向量:
118.a21:将该样本图像输入至所述目标网络模型的特征提取模块中,得到所述特征提取模块输出的该样本图像的不同区域分别对应的第三样本向量。
119.这里,所述特征提取模块可以由骨干网络backbone和特征金字塔网络(feature pyramid networks,fpn)组成,所述骨干网络例如可以是resnet50、resnet101等;所述第三样本向量可以是在向量维度进行划分后得到的样本向量。
120.具体的,在将样本图像输入至所述目标网络模型的特征提取模块中时,可以将第一样本图像(或第二样本图像)输入至所述骨干网络,并在所述骨干网络对所述第一样本图像(或第二样本图像)进行处理后,将处理后得到的样本特征向量输入至所述特征金字塔网络,得到所述特征金字塔网络输出的不同区域分别对应的第三样本向量。
121.a22:将所述第三样本向量分别输入至所述上下文特征增强模块,得到所述上下文特征增强模块输出的,经过上下文特征增强处理的增强样本向量。
122.这里,所述上下文增强模块例如可以是双向长短期记忆网络(long short-term memory,lstm),所述上下文增强模块可以用于对输入的第三样本向量进行上下文特征增强处理。
123.示例性的,以所述第三样本向量的数量为5为例,可以将5个所述第三样本向量按照顺序同时输入至所述双向长短期记忆网络的5个输入位置,得到所述双向长短期记忆网络在5个输出位置输出的5个增强样本向量。
124.这样,通过使用双向长短期记忆网络对多个第三样本向量进行上下文特征处理,可以使得各第三样本向量中包含有样本图像中其他区域内的语义,从而使得后续在对增强样本向量进行拼接处理后得到的样本向量中,包含有文本内容的序列特征,能够更好的应用于文本内容准确匹配等应用场景中。
125.a23:基于所述经过上下文特征增强处理的增强样本向量,生成该样本图像对应的样本向量。
126.这里,在生成样本图像对应的样本向量时,可以将第一样本图像对应的增强图像向量进行拼接处理,得到所述第一样本图像对应的第一样本向量;以及,可以将第二样本图像对应的增强样本图像进行拼接处理,得到所述第二样本图像对应的第二样本向量。
127.一种可能的实施方式中,所述目标网络模型可以包含第一池化模块和第二池化模块,在生成该样本图像对应的样本向量时,可以将各所述增强样本向量输入至所述第一池化模块,得到所述第一池化模块输出的多个样本局部向量;以及,将各所述增强样本向量输入至所述第二池化模块,得到所述第二池化模块输出的样本全局向量;
128.其中,所述第二池化模块包含的池化处理算子的个数,大于所述第一池化模块所包含的池化处理算子的个数。
129.这里,池化模块包含的所述池化处理算子例如可以是自适应平均池化算子adaptiveaveragepooling;所述第一池化模块可以包含一个池化处理算子,所述第二池化模块可以包含两个池化处理算子。
130.进一步的,为了便于进行损失值计算等数据处理过程,所述样本局部向量和所述样本全局向量的维度可以是相同的,因此所述第一池化模块和所述第二池化模块中可以包
含归一化层,以确保最终得到的样本局部向量和所述样本全局向量的维度是相同的。
131.示例性的,所述目标网络模型的网络结构示意图可以如图2所示,图2中,所述目标网络模型由特征提取模块、上下文特征增强模块、第一池化模块以及第二池化模块组成,所述第一池化模块和所述第二池化模块可以包含相同的网络层,相同的网络层例如可以是一个全连接层和一个自适应平均池化算子对应的池化层;在将所述样本图像输入至所述目标网络模型后,可以得到所述目标网络模型输出的样本局部特征和样本全局特征。
132.a3:基于所述第一样本向量和所述第二样本向量,确定训练的损失值,并基于所述损失值对待训练的初始网络模型的网络参数值进行调整,得到所述目标网络模型。
133.这里,在确定损失值时,可以基于所述第一样本向量、第二样本向量以及样本图像对对应的样本标签确定损失值。
134.具体的,可以确定所述第一样本向量和所述第二样本向量之间的第一向量相似度,并基于所述第一向量相似度和所述样本标签确定损失值;其中,所述第一向量相似度可以包含余弦相似度等表征向量之间相似度的参数。
135.此外,为了提高训练效果,在使用任一负样本图像对进行训练时,若第一样本向量和第二样本向量之间的第一向量相似度小于预设值,则可以不适用该负样本图像对进行训练;其中,所述预设值例如可以是0.1。
136.实际应用中,图像之间计算相似度往往更注重于图像之间的全局相似度,也即更在意两张图像之间的整体相似度,但当待匹配的图像中具有文本内容时,在进行图像匹配时也可以加入局部特征的匹配,以提高图像匹配的准确度;相应的,在训练目标网络模型时也可以加入针对局部特征的训练,使得所述目标网络模型具备从局部和全局同时进行图像匹配的能力。
137.一种可能的实施方式中,在确定损失值时可以通过下述步骤a31~a32:
138.a31:基于第一样本局部向量和所述第二样本局部向量,确定局部特征损失值;以及,基于所述第一样本全局向量和所述第二样本全局向量,确定全局特征损失值。
139.这里,所述第一局部样本向量和所述第二局部样本向量可以是所述第一池化模块输出的;所述第一样本全局向量和所述第二样本全局向量可以是所述第二池化模块输出的。
140.具体的,在计算局部特征损失值时,可以确定所述第一局部样本向量和所述第二局部样本向量之间的第二向量相似度,并基于所述第二向量相似度和所述样本标签确定损失值;在计算全局特征损失值时,可以确定所述第一全局样本向量和所述第二全局样本向量之间的第三向量相似度,并基于所述第三向量相似度和所述样本标签确定损失值;其中,所述第二向量相似度和所述第三向量相似度可以包含余弦相似度等表征向量之间相似度的参数。
141.a32:基于所述局部特征损失值和所述全局特征损失值,确定训练的目标损失值。
142.这里,在基于所述局部特征损失值和所述全局特征损失值,确定训练的目标损失值时,可以基于预设的权重参数,对所述局部特征损失值和所述全局特征损失值进行加权求和,得到所述目标损失值。
143.示例性的,确定目标损失值的示意图可以如图3所示,图3中初始样本图像在经过图像增强处理后可以得到第一样本图像和第二样本图像;所述第一样本图像在输入至所述
目标网络模型后,可以得到第一局部样本向量和第一全局样本向量,所述第二样本图像在输入至所述目标网络模型后,可以得到第二局部样本向量和第二全局样本向量;基于所述第一局部样本向量和所述第二局部样本向量,可以确定出局部特征损失值;基于所述第一全局样本向量和所述第二全局样本向量,可以确定出全局特征损失值,所述局部特征损失值和所述全局特征损失值即可构成目标损失值。
144.这样,相较于相关方式中只针对图像之间全局特征进行训练,通过在训练目标网络模型时加入针对局部特征的训练,使得所述目标网络模型具备从局部和全局同时进行图像匹配的能力,适用于包含文本内容的图像匹配等应用场景;另一方面,针对局部特征的训练所使用的样本数据,与针对进行全局特征的训练所使用的样本数据的来源是相同的,且样本数据对应的样本标签也均无需人工进行标注,因此可以在提高样本数据利用率的同时,提高所述目标网络模型的网络性能。
145.针对s103、
146.这里,所述光学字符识别方法(optical character recognition,ocr)可以对包含文本内容的图像进行文本识别,得到图像中所包含的文本内容。所述待筛选图像可以对应有正确的文本标记,所述文本标记用于标注待筛选图像中包含的文本内容,所述待筛选图像可以是人为进行筛选的图像,或者也可以是在使用不同的文本识别方法进行文本识别后得到不同文本识别结果的图像;所述第二特征向量可以为所述待筛选图像对应的多个局部特征向量拼接得到的,所述待筛选图像对应的多个局部特征向量可以是通过所述目标网络模型确定的。
147.具体的,所述第二特征向量可以是根据所述待筛选图像预先确定的,在确定所述第二特征向量时,可以将任一所述待筛选图像输入至所述目标网络模型,得到所述目标网络输出的多个局部特征向量;将所述多个局部特征向量进行拼接处理,得到该待筛选图像对应的第二特征向量。
148.进一步的,在得到所述第二特征向量之后,可以将所述第二特征向量存储在目标数据库中,从而可以在得到所述第一特征向量后,基于所述第一特征向量和所述第二特征向量进行匹配。
149.其中,所述目标数据库可以是近似最近邻(approximate nearest neighbor,ann)数据库,通过将第二特征向量存储在ann数据库中,可以提高后续进行向量匹配时的速度。
150.具体的,在将所述初始图像和各待筛选图像进行匹配时,可以使用初始图像对应的第一特征向量,与各待筛选图像分别对应的第二特征向量进行匹配,并在任一所述第二特征向量与所述第一特征向量之间的第四向量相似度满足预设的相似度条件后,将该第二特征向量作为所述目标特征向量,所述目标特征向量对应的待筛选图像即可作为与所述初始图像匹配的目标图像;其中,所述第四向量相似度可以包含余弦相似度等表征向量之间相似度的参数;所述相似度条件例如可以是与所述第一特征向量之间的向量相似度超过预设的相似度阈值。
151.示例性的,以相似度阈值为99.5%为例,则在将所述初始图像和各待筛选图像进行匹配时,若任一所述待匹配图像对应的第二特征向量“向量2”,与初始图像对应的第一特征向量“向量1”之间的向量相似度为99.9%,则可以确定该待匹配图像与所述初始图像匹配。
152.示例性的,对第二特征向量进行存储的示意图可以如图4所示,各待筛选图像在输入至目标网络模型后,可以得到局部特征向量,对局部特征向量进行拼接处理后可以得到各待筛选图像分别对应的第二特征向量,从而可以将各所述第二特征向量存储至目标数据库中;初始图像在输入至目标网络模型后,可以得到局部特征向量,对局部特征向量进行拼接处理后,可以得到第一特征向量,根据所述第一特征向量从所述目标数据库中进行查询,以确定待筛选图像中是否有与所述初始图像匹配的目标图像,若有,则可以将初始图像对应的文本内容替换为待筛选图像对应的文本内容;若否,则可以继续使用后续的初始图像进行查询,直至完成查询。
153.这样,由于待筛选图像中包含的文本内容为基于光学字符识别方法识别错误的文本内容,因此通过使用各图像分别对应的特征向量进行图像匹配,可以确定出初始图像中包含的文本内容是否为,基于光学字符识别方法识别错误的文本内容,从而便于进行针对性的文本内容替换等操作,以提高最终得到的文本识别结果的准确性。
154.针对s104、
155.这里,所述初始图像对应的初始文本识别结果可以是通过ocr的方式得到的,用于表征经过ocr的方式对所述初始图像进行识别后得到的文本识别结果;所述目标文本识别结果用于表征经过ocr的方式和上述图像匹配的方式确定出的,所述初始图像对应的文本识别结果,所述目标文本识别结果比所述初始文本识别结果更为准确。
156.一种可能的实施方式中,在基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果时,可以基于所述目标图像对应的文本标记指示的文本内容,对所述初始图像的初始文本识别结果进行更新,得到所述初始图像对应的目标文本识别结果。
157.示例性的,以初始图像对应的初始文本识别结果为“奋斗在新的史代”为例,在检测到初始图像与携带有目标文本标记“奋斗在新的时代”的目标图像匹配的情况下,可以使用所述目标图像对应的文本标记指示的文本内容“奋斗在新的时代”,对所述初始图像对应的初始文本识别结果为“奋斗在新的史代”进行更新,得到所述初始图像对应的目标文本识别结果。
158.下面,将结合具体实施例对本公开提供的一种文本识别方法进行介绍,本公开实施例提供的文本识别方法可以包括以下步骤:
159.步骤1、获取包含待识别文本的第一图像。
160.步骤2、对所述第一图像进行文本行切分处理,得到包含文本内容的文本行图像。
161.这里,若所述第一图像中的文本内容为竖向排列,则可以对所述第一图像和其中的文本内容进行旋转处理,并对旋转处理后的第一图像进行文本行切分处理。
162.步骤3、将各所述文本行图像依次输入至预先训练的目标网络模型,确定各所述文本行图像分别对应的文本行特征向量。
163.步骤4、基于所述文本行特征向量,和携带有文本标记的各待筛选图像分别对应的待匹配特征向量,将所述文本行图像与所述待筛选图像进行匹配。
164.步骤5、在检测到所述待筛选图像中包含与任一所述文本行图像匹配的目标图像的情况下,将所述目标图像对应的文本标记指示的文本内容作为该文本行图像对应的第一文本识别结果。
165.步骤6、基于光学字符识别方法,对除对应有文本识别结果的文本行图像外的其他文本行图像进行图像文本识别,得到第二文本识别结果。
166.步骤7、基于所述第一文本识别结果和所述第二文本识别结果,确定所述第一图像对应的文本识别结果。
167.具体的,上述步骤的详细描述可以参照上文相关内容,在此不再赘述。
168.这样,在对第一图像对应的文本行图像进行文本识别之前,先根据可能出现错误的待筛选图像,对文本行图像进行图像匹配,并为匹配成功的文本行图像配置正确的文本识别内容,从而可以在后续对文本行图像进行光学字符识别时无需对可能出现错误的文本行图像进行识别,从而提高了最终得到的文本识别结果的准确性。
169.下面,将结合具体实施例对本公开提供的另一种文本识别方法进行介绍,本公开实施例提供的文本识别方法可以包括以下步骤:
170.步骤1、获取包含待识别文本的第二图像。
171.步骤2、对所述第二图像进行文本行切分处理,得到包含文本内容的文本行图像。
172.这里,若所述第二图像中的文本内容为竖向排列,则可以对所述第二图像和其中的文本内容进行旋转处理,并对旋转处理后的第二图像进行文本行切分处理。
173.步骤3、基于光学字符识别方法,对各所述文本行图像进行图像文本识别,得到第三文本识别结果。
174.步骤4、将各所述文本行图像依次输入至预先训练的目标网络模型,确定各所述文本行图像分别对应的文本行特征向量。
175.步骤5、基于所述文本行特征向量,和携带有文本标记的各待筛选图像分别对应的待匹配特征向量,将所述文本行图像与所述待筛选图像进行匹配。
176.步骤6、在检测到所述待筛选图像中包含与任一所述文本行图像匹配的目标图像的情况下,将所述目标图像对应的文本标记指示的文本内容作为该文本行图像对应的第四文本识别结果。
177.这里,所述步骤3和所述步骤4~6可以同时执行,也即确定第三文本识别结果和确定第四文本识别结果的步骤可以同时执行。
178.步骤7、基于所述第三文本识别结果和所述第四文本识别结果,确定所述第一图像对应的文本识别结果。
179.具体的,上述步骤的详细描述可以参照上文相关内容,在此不再赘述。
180.本公开实施例提供的文本识别方法,基于预先训练的目标网络模型,对包含待识别内容的初始图像和基于光学字符识别方法识别错误的待筛选图像进行匹配,并在匹配成功的情况下基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果。这样,相较于重新训练光学字符识别方法对应的光学字符识别模型,通过添加目标网络模型进行图像匹配,可以确定出初始图像是否与经过光学字符识别方法进行识别后会识别错误的目标图像匹配,由此可以基于所述目标图像对应的文本标记对初始文本识别结果中的错误识别结果进行调整,提升了文本识别的精度和效率。
181.本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功
能和可能的内在逻辑确定。
182.基于同一发明构思,本公开实施例中还提供了与文本识别方法对应的文本识别装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述文本识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
183.参照图5所示,为本公开实施例提供的一种文本识别装置的架构示意图,所述装置包括:获取模块501、第一确定模块502、匹配模块503、第二确定模块504;其中,
184.获取模块501,用于获取包含待识别文本的初始图像;
185.第一确定模块502,用于基于预先训练的目标网络模型,确定所述初始图像对应的第一特征向量;
186.匹配模块503,用于基于所述第一特征向量,和携带有文本标记的各待筛选图像分别对应的第二特征向量,将所述初始图像和各待筛选图像进行匹配,其中,所述待筛选图像的文本标记用于指示所述待筛选图像中的文本内容,所述待筛选图像中的文本内容为基于光学字符识别方法识别错误的文本内容;
187.第二确定模块504,用于在检测到所述待筛选图像中包含与所述初始图像匹配的目标图像的情况下,基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果。
188.一种可能的实施方式中,所述第一确定模块502还用于根据以下步骤训练得到目标网络模型:
189.获取样本图像对,其中,所述样本图像对包括正样本图像对和负样本图像对,所述正样本图像对中的图像来源于同一初始样本图像,所述负样本图像对中的图像来源于不同初始样本图像;
190.将所述样本图像对中的第一样本图像和第二样本图像分别输入至待训练的初始网络模型中,得到所述待训练的初始网络模型输出的第一样本向量和第二样本向量;其中,所述第一样本向量包括多个第一样本局部向量和第一样本全局向量,所述第二样本向量包括多个第二样本局部向量和第二样本全局向量;
191.基于所述第一样本向量和所述第二样本向量,确定训练的损失值,并基于所述损失值对待训练的初始网络模型的网络参数值进行调整,得到所述目标网络模型。
192.一种可能的实施方式中,所述第一确定模块502还用于根据以下步骤确定所述正样本图像对和负样本图像对:
193.获取多张初始样本图像;
194.针对任一初始样本图像,分别基于不同的图像增强处理方式对该初始样本图像进行图像增强处理,得到多张增强样本图像,并将所述多张增强样本图像中的任意两张增强样本图像作为所述正样本图像对;以及,将任意两张所述初始样本图像作为所述负样本图像对,或者对所述任意两张所述初始样本图像中的至少一张图像进行图像增强处理,得到所述负样本图像对。
195.一种可能的实施方式中,所述目标网络模型包含特征提取模块和上下文特征增强模块;
196.在将任一样本图像输入至所述初始网络模型之后,所述第一确定模块502用于根据以下步骤确定该样本图像对应的样本向量:
197.将该样本图像输入至所述目标网络模型的特征提取模块中,得到所述特征提取模块输出的该样本图像的不同区域分别对应的第三样本向量;
198.将所述第三样本向量分别输入至所述上下文特征增强模块,得到所述上下文特征增强模块输出的,经过上下文特征增强处理的增强样本向量;
199.基于所述经过上下文特征增强处理的增强样本向量,生成该样本图像对应的样本向量。
200.一种可能的实施方式中,所述目标网络模型包含第一池化模块和第二池化模块;
201.所述第一确定模块502,在基于所述经过上下文特征增强处理的增强样本向量,生成该样本图像对应的样本向量时,用于:
202.将各所述增强样本向量输入至所述第一池化模块,得到所述第一池化模块输出的多个样本局部向量;以及,将各所述增强样本向量输入至所述第二池化模块,得到所述第二池化模块输出的样本全局向量;
203.其中,所述第二池化模块包含的池化处理算子的个数,大于所述第一池化模块所包含的池化处理算子的个数。
204.一种可能的实施方式中,所述第一确定模块502,在基于所述第一样本向量和所述第二样本向量,确定训练的损失值时,用于:
205.基于第一样本局部向量和所述第二样本局部向量,确定局部特征损失值;以及,基于所述第一样本全局向量和所述第二样本全局向量,确定全局特征损失值;
206.基于所述局部特征损失值和所述全局特征损失值,确定训练的目标损失值。
207.一种可能的实施方式中,所述第二特征向量为所述待筛选图像对应的多个局部特征向量拼接得到的,所述待筛选图像对应的多个局部特征向量为通过所述目标网络模型确定的;
208.所述第一确定模块502,在基于预先训练的目标网络模型,确定所述初始图像对应的第一特征向量时,用于:
209.将所述初始图像输入至所述目标网络模型,得到所述初始图像对应的多个局部特征向量;
210.将所述多个局部特征向量进行拼接,得到所述第一特征向量。
211.一种可能的实施方式中,所述第二确定模块504,在基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果时,用于:
212.基于所述目标图像对应的文本标记指示的文本内容,对所述初始图像的初始文本识别结果进行更新,得到所述初始图像对应的目标文本识别结果。
213.本公开实施例提供的文本识别装置,基于预先训练的目标网络模型,对包含待识别内容的初始图像和基于光学字符识别方法识别错误的待筛选图像进行匹配,并在匹配成功的情况下基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果。这样,相较于重新训练光学字符识别方法对应的光学字符识别模型,通过添加目标网络模型进行图像匹配,可以确定出初始图像是否与经过光学字符识别方法进行识别后会识别错误的目标图像匹配,由此可以基于所述目标图像对应的文本标记对初始文本识别结果中的错误识别结果
进行调整,提升了文本识别的精度和效率。
214.关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
215.基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图6所示,为本公开实施例提供的计算机设备600的结构示意图,包括处理器601、存储器602、和总线603。其中,存储器602用于存储执行指令,包括内存6021和外部存储器6022;这里的内存6021也称内存储器,用于暂时存放处理器601中的运算数据,以及与硬盘等外部存储器6022交换的数据,处理器601通过内存6021与外部存储器6022进行数据交换,当计算机设备600运行时,处理器601与存储器602之间通过总线603通信,使得处理器601在执行以下指令:
216.获取包含待识别文本的初始图像;
217.基于预先训练的目标网络模型,确定所述初始图像对应的第一特征向量;
218.基于所述第一特征向量,和携带有文本标记的各待筛选图像分别对应的第二特征向量,将所述初始图像和各待筛选图像进行匹配,其中,所述待筛选图像的文本标记用于指示所述待筛选图像中的文本内容,所述待筛选图像中的文本内容为基于光学字符识别方法识别错误的文本内容;
219.在检测到所述待筛选图像中包含与所述初始图像匹配的目标图像的情况下,基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果。
220.一种可能的实施方式中,所述处理器601的指令中,所述目标网络模型为根据以下步骤训练得到的:
221.获取样本图像对,其中,所述样本图像对包括正样本图像对和负样本图像对,所述正样本图像对中的图像来源于同一初始样本图像,所述负样本图像对中的图像来源于不同初始样本图像;
222.将所述样本图像对中的第一样本图像和第二样本图像分别输入至待训练的初始网络模型中,得到所述待训练的初始网络模型输出的第一样本向量和第二样本向量;其中,所述第一样本向量包括多个第一样本局部向量和第一样本全局向量,所述第二样本向量包括多个第二样本局部向量和第二样本全局向量;
223.基于所述第一样本向量和所述第二样本向量,确定训练的损失值,并基于所述损失值对待训练的初始网络模型的网络参数值进行调整,得到所述目标网络模型。
224.一种可能的实施方式中,所述处理器601的指令中,还包括根据以下方法确定所述正样本图像对和负样本图像对:
225.获取多张初始样本图像;
226.针对任一初始样本图像,分别基于不同的图像增强处理方式对该初始样本图像进行图像增强处理,得到多张增强样本图像,并将所述多张增强样本图像中的任意两张增强样本图像作为所述正样本图像对;以及,将任意两张所述初始样本图像作为所述负样本图像对,或者对所述任意两张所述初始样本图像中的至少一张图像进行图像增强处理,得到所述负样本图像对。
227.一种可能的实施方式中,所述处理器601的指令中,所述目标网络模型包含特征提取模块和上下文特征增强模块;
228.在将任一样本图像输入至所述初始网络模型之后,所述初始网络模型用于根据以下步骤确定该样本图像对应的样本向量:
229.将该样本图像输入至所述目标网络模型的特征提取模块中,得到所述特征提取模块输出的该样本图像的不同区域分别对应的第三样本向量;
230.将所述第三样本向量分别输入至所述上下文特征增强模块,得到所述上下文特征增强模块输出的,经过上下文特征增强处理的增强样本向量;
231.基于所述经过上下文特征增强处理的增强样本向量,生成该样本图像对应的样本向量。
232.一种可能的实施方式中,所述处理器601的指令中,所述目标网络模型包含第一池化模块和第二池化模块;
233.所述基于所述经过上下文特征增强处理的增强样本向量,生成该样本图像对应的样本向量,包括:
234.将各所述增强样本向量输入至所述第一池化模块,得到所述第一池化模块输出的多个样本局部向量;以及,将各所述增强样本向量输入至所述第二池化模块,得到所述第二池化模块输出的样本全局向量;
235.其中,所述第二池化模块包含的池化处理算子的个数,大于所述第一池化模块所包含的池化处理算子的个数。
236.一种可能的实施方式中,所述处理器601的指令中,所述基于所述第一样本向量和所述第二样本向量,确定训练的损失值,包括:
237.基于第一样本局部向量和所述第二样本局部向量,确定局部特征损失值;以及,基于所述第一样本全局向量和所述第二样本全局向量,确定全局特征损失值;
238.基于所述局部特征损失值和所述全局特征损失值,确定训练的目标损失值。
239.一种可能的实施方式中,所述处理器601的指令中,所述第二特征向量为所述待筛选图像对应的多个局部特征向量拼接得到的,所述待筛选图像对应的多个局部特征向量为通过所述目标网络模型确定的;
240.所述基于预先训练的目标网络模型,确定所述初始图像对应的第一特征向量,包括:
241.将所述初始图像输入至所述目标网络模型,得到所述初始图像对应的多个局部特征向量;
242.将所述多个局部特征向量进行拼接,得到所述第一特征向量。
243.一种可能的实施方式中,所述处理器601的指令中,所述基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果,确定所述初始图像对应的目标文本识别结果,包括:
244.基于所述目标图像对应的文本标记指示的文本内容,对所述初始图像的初始文本识别结果进行更新,得到所述初始图像对应的目标文本识别结果。
245.本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的文本识别方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
246.本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,
所述程序代码包括的指令可用于执行上述方法实施例中所述的文本识别方法的步骤,具体可参见上述方法实施例,在此不再赘述。
247.其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
248.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
249.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
250.另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
251.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
252.最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1