文本识别方法、装置、存储介质及电子设备与流程

文档序号:33518363发布日期:2023-03-22 06:14阅读:55来源:国知局
文本识别方法、装置、存储介质及电子设备与流程

1.本技术涉及图像处理技术领域,尤其涉及一种文本识别方法、装置、存储介质及电子设备。


背景技术:

2.随着图像处理技术的发展,ocr(optical character recognition,光学字符识别)技术的应用也越来越广泛,ocr技术是利用字符识别算法自动化地定位并识别图像中的文字内容。
3.由于ocr识别模型的输入尺寸是固定的,当输入图像是长文本图像时,输入图像的尺寸会大于模型的输入尺寸,需要对输入图像进行调整。在一种技术方案中,通过尺寸归一化处理将输入图像缩小到模型的输入尺寸一致。
4.然而,这种技术方案中,由于输入图像中的字符被压缩,容易导致出现识别不准确的问题。


技术实现要素:

5.本技术实施例提供了一种文本识别方法、装置、存储介质及电子设备,能够提高长文本图像的字符识别的准确性。所述技术方案如下:
6.第一方面,本技术实施例提供了一种文本识别方法,所述方法包括:
7.根据预定分割间隔对长文本图像进行分割处理,得到所述长文本图像的第一文本片段和第一分割位置,所述长文本图像能够被按照所述预定分割间隔分成多个文本片段;
8.对所述第一文本片段进行单字符识别,得到所述第一文本片段中各个字符的位置信息和字符信息;
9.若所述第一分割位置位于所述第一文本片段的尾字符上,则根据所述位置信息对所述第一分割位置进行调整,得到所述长文本图像的第二分割位置,所述第二分割位置为所述长文本图像的第二文本片段的起始位置;
10.若所述长文本图像的多个文本片段均已被识别,则基于各个所述文本片段对应的所述字符信息,确定所述长文本图像的文本信息。
11.第二方面,本技术实施例提供了一种文本识别装置,所述装置包括:
12.分割处理模块,用于根据预定分割间隔对长文本图像进行分割处理,得到所述长文本图像的第一文本片段和第一分割位置,所述长文本图像能够被按照所述预定分割间隔分成多个文本片段;
13.单字符识别模块,用于对所述第一文本片段进行单字符识别,得到所述第一文本片段中各个字符的位置信息和字符信息;
14.位置调整模块,用于若所述第一分割位置位于所述第一文本片段的尾字符上,则根据所述位置信息对所述第一分割位置进行调整,得到所述长文本图像的第二分割位置,所述第二分割位置为对所述长文本图像进行下一次所述分割处理的起始位置;
15.文本信息确定模块,用于若所述长文本图像的多个文本片段均已被识别,则基于各个所述文本片段对应的所述字符信息,确定所述长文本图像的文本信息。
16.第三方面,本技术实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法的步骤。
17.第四方面,本技术实施例提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法的步骤。
18.本技术一些实施例提供的技术方案带来的有益效果至少包括:
19.在本技术一个或多个实施例中,一方面,对长文本图像进行逐次分割处理和逐次识别处理,每次得到长文本图像的一个文本片段中各个字符的位置信息和字符信息,能够准确地确定长文本图像的文本片段中各个字符的位置信息和字符信息;另一方面,根据字符的位置信息对长文本图像的分割位置进行调整,基于长文本图像的各个文本片段对应的字符信息,确定长文本图像对应的文本信息,能够确保长文本图像的分割位置没有字符,从而能够提高长文本图像的字符识别的准确性。
附图说明
20.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1示出了根据本技术的一些实施例提供的文本识别方法的应用场景的示意图;
22.图2示出了根据本技术的一些实施例提供的文本识别方法的流程示意图;
23.图3示出了根据本技术的一些实施例提供的文本片段的示意图;
24.图4示出了根据本技术的一些实施例提供的分割位置调整的示意图;
25.图5示出了根据本技术的一些实施例提供的对文本片段进行长度扩展的示意图;
26.图6示出了根据本技术的另一些实施例提供的文本识别方法的流程处理示意图;
27.图7示出了根据本技术的又一些实施例提供的文字识别方法的流程处理示意图;
28.图8示出了本技术实施例提供的一种文本识别装置的结构示意图;
29.图9示出了本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
30.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
31.首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
32.长文本图像:图像长度或长度大于预定长度的文本图像,预定长度可以为ocr模型的输入图像的长度。
33.ocr(optical character recognition,光学字符识别):利用算法自动化地定位
并识别图像中的文字内容。ocr算法一般有以下两个模块:检测模块和识别模块。检测模块负责定位,即找到输入图像中可能有文字的部分;识别模块负责识别,即判断识别结果中是否存在文字,如果是的话输出识别结果(将图像转换为字符串的过程)。
34.一般来说,检测模块和识别模块是两个可以解耦的过程,因此两个模块往往不能联合优化,可能造成输入不匹配的问题,例如检测模块的任务是尽可能定位原图中的文字,并把相邻的文字分配到同一个文本框中,因此,检测模块的输出是若干个长度不定的矩形文本框;但是对识别模型而言,其输入尺寸一般是固定的,因此,会有大量超出识别模型的输入尺寸的文本框需要识别(下称长文本框),常规的尺寸归一化、直接裁剪都可能造成识别准确性的下降。
35.例如,在一种技术方案中,根据ocr模型的输入尺寸对输入的长文本图像进行分割,例如,设ocr模型的输入尺寸为320像素,输入的长文本图像尺寸是700像素时可以把长文本图像分割成320、320、60像素的三段分别进行识别,最后再把识别结果组合在一起。然而,在这种技术方案中,长文本图像的分割位置可能有字符,会导致这个字符无法被准确识别或者一个字符被识别成两个。
36.基于上述内容,本技术实施例提供了一种文本识别方法以及文本识别装置。根据本技术实施例的技术方案,一方面,对长文本图像进行逐次分割处理和逐次识别处理,每次得到长文本图像的一个文本片段中各个字符的位置信息和字符信息,能够准确地确定长文本图像的文本片段中各个字符的位置信息和字符信息;另一方面,根据字符的位置信息对长文本图像的分割位置进行调整,基于长文本图像的各个文本片段对应的字符信息,确定长文本图像对应的文本信息,能够确保长文本图像的分割位置没有字符,从而能够提高长文本图像的字符识别的准确性。
37.进一步地,该文本识别方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的文本识别装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。其中,本技术实施例中的文本识别装置可以为终端设备,包括但不限于:个人电脑、平板电脑、手持设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、5g网络或未来演进网络中的终端设备等。
38.下面,将结合附图对本技术实施例的文本识别方法的技术方案进行详细的说明。
39.图1示出了根据本技术实施例提供的文本识别方法的应用场景的示意图。
40.如图1所示,该应用场景的系统架构可以包括终端设备110、120、130中的一个或多个,网络140和服务器150。网络140用以在终端设备110、120、130和服务器150之间提供通信链路的介质。网络140可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等,例如,网络140可以为公共交换电话网络(public switched telephone network,pstn)或因特网。终端设备110、120、130可以是具有计算能力的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等。
41.应该理解的是,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器150可以是多个服务器组成的服务器集群等。
42.本说明书实施例所提供的文本识别方法可以由终端设备110、120、130执行,相应地,文本识别装置可以设置于终端设备中。但本领域技术人员容易理解的是,本说明书实施例所提供的文本识别方法的部分步骤也可以由服务器150执行,相应的,文本识别装置也可以设置于服务器150中,本示例性实施例中对此不做特殊限定。
43.需要说明的是,本说明书的示例实施例中的文本识别方法中的步骤可以部分由终端设备执行,部分由服务器执行,也可以全部由终端设备执行,本说明书对此不进行特殊限定。
44.基于图1所示系统架构,下面将结合图2-图7,对本说明书实施例提供的文本识别方法进行详细介绍。需要注意的是,上述应用场景仅是为了便于理解本说明书的精神和原理而示出,本说明书的实施例在此方面不受任何限制。相反,本说明书的实施例可以应用于适用的任何场景。
45.图2示出了根据本技术的一些实施例提供的文本识别方法的流程示意图。该文本识别方法的执行主体可以是具有计算处理功能的计算设备,例如上述终端设备。该文本识别方法包括步骤s210至步骤s240,下面,结合附图对示例实施例中的文本识别方法进行详细的说明。
46.参照图2所示,在步骤s210中,根据预定分割间隔对长文本图像进行分割处理,得到长文本图像的第一文本片段和第一分割位置。
47.在示例实施例中,长文本图像为长度或长度大于预定长度的文本图像,预定长度可以为ocr模型的模型输入长度,例如,长度大于ocr模型的模型输入长度的文本图像。预定分割间隔为预设的分割间隔长度,例如预定分割间隔可以为ocr模型的模型输入长度。长文本图像能够被按照预定分割间隔分成多个文本片段。
48.进一步地,在示例实施例中,根据预定分割间隔按照从左到右的分割方向逐次对长文本图像进行分割处理,得到长文本图像的第一文本片段和第一分割位置。举例而言,参照图3所示,设长文本图像为“ocr的中文名称是光学字符识别技术”,根据预定分割间隔cw按照从左到右的分割方向对长文本图像进行分割处理,得到长文本图像的文本片段302和第一分割位置p1。
49.在步骤s220中,对第一文本片段进行单字符识别,得到第一文本片段中各个字符的位置信息和字符信息。
50.在一些示例实施例中,通过单字符位置检测方式对文本片段中的各个字符进行定位,得到文本片段中各个字符的位置信息。举例而言,对文本片段进行扫描,即从左到右对文本片段的竖直方向的黑色点进行统计,根据扫描结果即统计结果确定各个字符的位置信息,例如竖直方向的黑色点数量不为0的区域就是单字符区域,竖直方向的黑色点的数量为0的区域即为两个字符之间的间隔区域。
51.需要说明的是,虽然以扫描为例对确定字符的位置信息的方式进行了说明,但是本领域技术人员应该理解的是,还可以通过其他适当的方式例如神经网络模型确定字符的位置信息,这同样在本技术实施例的范围内。
52.进一步地,在一些示例实施例中,通过ocr模型对文本片段进行单字符识别,得到文本片段中各个字符的字符信息。在另一些示例实施例中,通过深度学习模型对文本片段进行单字符识别,得到文本片段中各个字符的字符信息。
53.需要说明的是,虽然以ocr模型和深度学习模型为例识别文本片段的字符信息进行了说明,但是本领域技术人员应该理解的是,还可以采用其他适当的模型例如变换器transformer模型来识别文本片段的字符信息,本技术实施例对此不进行特殊限定。
54.在步骤s230中,若第一分割位置位于第一文本片段的尾字符上,则根据位置信息对第一分割位置进行调整,得到长文本图像的第二分割位置,第二分割位置为长文本图像的第二文本片段的起始位置。
55.在示例实施例中,根据第一分割位置的位置信息以及文本片段的尾字符的位置信息,确定第一分割位置是否位于文本片段的尾字符上,若第一分割位置位于文本片段的尾字符上,则根据尾字符的位置信息对第一分割位置进行调整,得到长文本图像的第二分割位置;若第一分割位置位于文本片段的尾字符上,则第二分割位置与第一分割位置相同。第二分割位置为对长文本图像进行下一次分割处理的起始位置,例如第二分割位置位于与分割处理的分割方向相反的尾字符的一侧。
56.举例而言,参照图4所示,第一分割位置p1位于文本片段302的尾字符“称”上,第二分割位置p2位于尾字符的左侧,即与分割处理的分割方向相反的尾字符的一侧。
57.在步骤s240中,若长文本图像的多个文本片段均已被识别,则基于各个文本片段对应的字符信息,确定长文本图像的文本信息。
58.在示例实施例中,若长文本图像的多个文本片段中每个文本片段均已被识别,则获取长文本图像的各个文本片段的字符信息;基于各个字符的位置信息对各个文本片段的字符信息进行组合处理,得到长文本图像的文本信息。
59.进一步地,如果长文本图像的分割位置存在字符,则去除分割位置调整之前识别的该字符的字符信息。例如参照图4所示,若长文本图像的第一分割位置p1处存在字符,则去除文本片段302对应的第一分割位置处识别的字符信息。
60.举例而言,参照图4所示,图4中长文本片段可以按照预定分割间隔cw分为3个文本片段,若3个文本片段均已被识别,则获取3个文本片段中各个文本片段对应的字符信息,基于各个字符的位置信息对各个文本片段的字符信息进行组合处理,得到长文本图像的文本信息。
61.根据图2的示例实施例中的技术方案,一方面,对长文本图像进行逐次分割处理和逐次识别处理,每次得到长文本图像的一个文本片段中各个字符的位置信息和字符信息,能够准确地确定长文本图像的文本片段中各个字符的位置信息和字符信息;另一方面,根据字符的位置信息对长文本图像的分割位置进行调整,基于长文本图像的各个文本片段对应的字符信息,确定长文本图像对应的文本信息,能够确保长文本图像的分割位置没有字符,从而能够提高长文本图像的字符识别的准确性。
62.进一步地,在示例实施例中,检测文本图像中的待识别长文本的文本位置;基于文本位置,从文本图像中裁剪得到待识别长文本对应的长文本图像。检测模块输出待识别长文本的文本框位置后,需要先将待识别长文本部分裁剪出来,得到对应的长文本图像,再将长文本图像输入识别模块进行识别。
63.举例而言,假设输出的矩形文本框的四个角点分别是p1={x1,y1},p2={x2,y2},p3={x3,y3},p4={x4,y4}。其中,p1是左上角角点,如果四个角点按顺时针顺序排列,则裁剪方法为以下步骤a至步骤e:
64.a.计算文本框的长度,即角点p1、p2间的距离
65.b.计算文本框的高度,即角点p1、p3间的距离
66.c.令变换点q1={0,0},q2={w,0},q3={w,h},q4={0,h}。
67.d.计算p={p1,p2,p3,p4}到q={q1,q2,q3,q4}间的透视变换矩阵m。
68.e.利用透视变换将文本框内的长文本图像裁剪出来。
69.根据上述示例实施例中的技术方案,通过检测文本图像中待识别长文本的文本位置,能够准确高效地获取待识别长文本对应的文本图像。
70.进一步地,若裁剪处理的长文本图像的图像尺寸为w
×
h,记模型输入尺寸为mw
×
mh,那么按模型输入尺寸对长文本图像进行归一化,即利用双线性插值等方法将长文本图像的图像尺寸变换到实际输入尺寸pw
×
h(pw=h/mh
×
w),其中,pw为实际输入长度。
71.根据上述示例实施例中的技术方案,按照模型输入尺寸对长文本图像进行归一化处理,能够使得长文本图像的实际输入尺寸与模型输入尺寸一致,从而能够提高模型识别的准确度。
72.此外,在示例实施例中,若长文本图像的文本片段的长度小于预定图像长度,则将文本片段的长度扩展到预定图像长度,预定图像长度为光学字符识别模型的模型输入长度。参照图5所示,左侧为文本片段的实际输入长度,右侧为补0长度,文本片段的实际输入长度与补0长度之和为模型输入长度。
73.根据上述示例实施例中的技术方案,若文本片段的长度小于模型输入长度,则将文本片段的长度扩展到模型输入长度,从而能够使得文本片段的长度与模型输入长度一致,从而能够进一步提高模型识别的准确度。
74.图6示出了本技术的另一些实施例提供的文本识别方法的流程示意图。
75.参照图6所示,在步骤s610中,根据预定分割间隔对长文本图像进行分割处理,得到长文本图像的第一文本片段和第一分割位置。
76.在示例实施例中,步骤s610的实施过程以及实施效果与上述步骤s210的实施过程以及实施效果类似,在此不再赘述。
77.在步骤s620中,对第一文本片段进行单字符识别,得到第一文本片段中各个字符的位置信息和字符信息。
78.在示例实施例中,步骤s620的实施过程以及实施效果与上述步骤s220的实施过程以及实施效果类似,在此不再赘述。
79.在步骤s630中,若第一分割位置位于第一文本片段的尾字符上,则去除第一文本片段的字符信息中尾字符的字符信息。
80.在示例实施例中,根据第一分割位置以及第一文本片段的尾字符的位置信息,确定第一分割位置是否位于第一文本片段的尾字符上,若第一分割位置位于第一文本片段的尾字符上,则去除第一文本片段的字符信息中尾字符的字符信息。例如,参照图4所示,第一分割位置p1位于文本片段302的尾字符“称”上,则去除第一文本片段的字符信息即“ocr的中文名称”中的尾字符“称”。
81.在步骤s640中,根据尾字符的位置信息对第一分割位置进行调整,得到长文本图像的第二分割位置。
82.在示例实施例中,步骤s640的实施过程以及实施效果与上述步骤s230的实施过程以及实施效果类似,在此不再赘述。
83.在步骤s650中,确定是否识别完成。
84.在示例实施例中,确定是否完成长文本图像的识别。举例而言,若长文本图像包括5个文本片段,若最后一个文本片段识别完成,则确定完成长文本图像的识别。若完成识别,则进行至步骤s660;否则,返回至步骤s610。
85.在步骤s660中,基于长文本图像的各个文本片段对应的字符信息,确定长文本图像对应的文本信息。
86.在示例实施例中,步骤s660的实施过程以及实施效果与上述步骤s640的实施过程以及实施效果类似,在此不再赘述。
87.根据图6的示例实施例中的技术方案,一方面,若第一分割位置位于文本片段的尾字符上,则去除第一文本片段的字符信息中尾字符的字符信息,能够去除分割位置处识别不准确的字符信息;另一方面,根据字符的位置信息对长文本图像的分割位置进行调整,基于长文本图像的各个文本片段对应的字符信息,确定长文本图像对应的文本信息,能够确保长文本图像的分割位置没有字符,从而能够提高长文本图像的字符识别的准确性。
88.在示例实施例中,文字识别方法包括以下步骤a至步骤i。
89.步骤a:记长文本图像的裁剪起点为cs,令cs=0
90.步骤b:记长文本图像的预定分割间隔即裁剪长度为cw,取cw为ocr模型的模型输入长度mw和实际输入长度pw中的较小者。
91.参照图7所示,长文本图像能够案子预定分割间隔分割为3个文本片段,即文本片段710、文本片段720以及文本片段730。
92.步骤c:将输入长文本图像中裁剪起点cs到cs+cw间的文本片段裁出。
93.参照图7所示,将输入长文本图像中cs到cs+cw间的第一文本片段710裁出。
94.步骤d:如果裁出的文本片段的长度小于模型输入长度mw,则对该文本片段进行补0,将裁出的文本片段的长度扩展到模型输入长度mw,否则直接进入下一步。
95.参照图5所示,左侧为文本片段的实际输入长度pw,右侧为补0长度,文本片段的实际输入长度与补0长度之和为模型输入长度mw。
96.步骤e:将裁出的文本片段输入ocr识别模型,得到识别结果s。
97.参照图7所示,将第一文本片段710输入到ocr识别模型,得到第一文本片段710的识别结果s即“ocr的中文名禾”。
98.步骤f:如果裁剪长度cw《模型输入长度mw,退出循环,否则进入下一步步骤g:使用基于识别的单字坐标定位方法得到识别结果s中每个字的坐标。
99.步骤h:若分割位置p位于文本片段的尾字符上,则将识别结果s中的尾字符去除,记识别结果s尾字符的左上角横坐标为x0,将裁剪起点cs置为x0,剪裁长度cw置为模型输入长度mw和(pw-x0)中的较小者。
100.参照图7所示,分割位置p位于第一文本片段710的尾字符上,从第一文本片段710的识别结果s中将尾字符对应的字符信息即“禾”去除,得到第一文本片段对应的识别结果s1即“ocr的中文名”。
101.步骤i:返回c,循环直至达到退出条件。
102.根据上述示例实施例中的技术方案,采用逐次裁剪和逐次识别的方式进行长文本图像的识别,将常规的裁剪n段然后识别n次的方式,改为“分割1次+识别1次”的形式,通过每次文本片段的识别结果对分割位置进行微调,保证分割位置处没有文字,从而使得长文本图像的所有文字都被准确识别。
103.下述为本技术装置实施例,可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术方法实施例。
104.请参见图8,其示出了本技术一个示例性实施例提供的文本识别装置的结构示意图。该文本识别装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该文本识别装置800包括分割处理模块810、单字符识别模块820、位置调整模块830以及文本信息确定模块840。其中,
105.分割处理模块810,用于根据预定分割间隔对长文本图像进行分割处理,得到所述长文本图像的第一文本片段和第一分割位置,所述长文本图像能够被按照所述预定分割间隔分成多个文本片段;
106.单字符识别模块820,用于对所述第一文本片段进行单字符识别,得到所述第一文本片段中各个字符的位置信息和字符信息;
107.位置调整模块830,用于若所述第一分割位置位于所述第一文本片段的尾字符上,则根据所述位置信息对所述第一分割位置进行调整,得到所述长文本图像的第二分割位置,所述第二分割位置为对所述长文本图像进行下一次所述分割处理的起始位置;
108.文本信息确定模块840,用于若所述长文本图像的多个文本片段均已被识别,则基于各个所述文本片段对应的所述字符信息,确定所述长文本图像的文本信息。
109.在一些示例实施例中,基于上述方案,所述位置调整模块830包括:
110.位置判断单元,用于根据所述位置信息确定所述第一分割位置是否位于所述第一文本片段的尾字符上;
111.位置调整单元,用于若所述第一分割位置位于所述第一文本片段的尾字符上,则根据所述尾字符的位置信息对所述第一分割位置进行调整,确定所述长文本图像的第二分割位置,其中,所述第二分割位置位于所述尾字符的与分割方向相反的一侧。
112.在一些示例实施例中,基于上述方案,所述装置还包括:
113.字符去除单元,用于若所述第一分割位置位于所述第一文本片段的尾字符上,则去除所述第一文本片段的字符信息中所述尾字符的字符信息。
114.在一些示例实施例中,基于上述方案,所述文本信息确定模块840还用于:
115.获取所述长文本图像的多个文本片段中各个文本片段的字符信息;
116.基于所述位置信息对各个文本片段的字符信息进行组合处理,得到所述长文本图像的文本信息。
117.在一些示例实施例中,基于上述方案,所述装置还包括:
118.长度扩展模块,用于若所述第一文本片段的长度小于预定图像长度,则将所述第一文本片段的长度扩展到所述预定图像长度,所述预定图像长度为光学字符识别模型的模型输入长度。
119.在一些示例实施例中,基于上述方案,所述装置还包括:
120.位置检测模块,用于检测文本图像中的待识别长文本的文本位置;
121.文本剪裁模块,用于基于所述文本位置,从所述文本图像中裁剪得到所述待识别长文本对应的所述长文本图像。
122.在一些示例实施例中,基于上述方案,所述单字符识别模块820还用于:
123.通过单字符位置检测方式对所述第一文本片段中的各个字符进行定位,得到所述第一文本片段中各个字符的位置信息;
124.通过光学字符识别模型对所述第一文本片段进行单字符识别,得到所述第一文本片段中各个字符的字符信息。
125.根据图8的示例实施例中的技术方案,一方面,对长文本图像进行逐次分割处理和逐次识别处理,每次得到长文本图像的一个文本片段中各个字符的位置信息和字符信息,能够准确地确定长文本图像的文本片段中各个字符的位置信息和字符信息;另一方面,根据字符的位置信息对长文本图像的分割位置进行调整,基于长文本图像的各个文本片段对应的字符信息,确定长文本图像对应的文本信息,能够确保长文本图像的分割位置没有字符,从而能够提高长文本图像的字符识别的准确性。
126.需要说明的是,上述实施例提供的文本识别装置在执行文本识别方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本识别装置与文本识别方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
127.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
128.本技术实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述实施例的所述文本识别方法,具体执行过程可以参见上述实施例的具体说明,在此不进行赘述。
129.本技术还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述实施例的所述文本识别方法,具体执行过程可以参见上述实施例的具体说明,在此不进行赘述。
130.请参见图9,为本技术实施例提供了一种电子设备的结构示意图。如图9所示,所述电子设备900可以包括:至少一个处理器901,至少一个网络接口904,输入输出接口903,存储器905,至少一个通信总线902。
131.其中,通信总线902用于实现这些组件之间的连接通信。
132.其中,输入输出接口903可以包括显示屏(display)、摄像头(camera),可选输入输出接口903还可以包括标准的有线接口、无线接口。
133.其中,网络接口904可选的可以包括标准的有线网络接口、无线网络接口(如wi-fi接口)。
134.其中,处理器901可以包括一个或者多个处理核心。处理器901利用各种接口和线路连接整个电子设备900内的各个部分,通过运行或执行存储在存储器905内的指令、程序、代码集或指令集,以及调用存储在存储器905内的数据,执行电子设备900的各种功能和处理数据。可选的,处理器901可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器901可集成中央
处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器901中,单独通过一块芯片进行实现。
135.其中,存储器905可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。可选的,该存储器905包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器905可用于存储指令、程序、代码、代码集或指令集。存储器905可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器905可选的还可以是至少一个位于远离前述处理器901的存储装置。如图9所示,作为一种计算机存储介质的存储器905中可以包括操作系统、网络通信模块、输入输出接口模块以及文本识别应用程序。
136.在图9所示的电子设备900中,输入输出接口903主要用于为用户提供输入的接口,获取用户输入的数据;而处理器901可以用于调用存储器905中存储的文本识别应用程序,并具体执行以下操作:
137.根据预定分割间隔对长文本图像进行分割处理,得到所述长文本图像的第一文本片段和第一分割位置,所述长文本图像能够被按照所述预定分割间隔分成多个文本片段;
138.对所述第一文本片段进行单字符识别,得到所述第一文本片段中各个字符的位置信息和字符信息;
139.若所述第一分割位置位于所述第一文本片段的尾字符上,则根据所述位置信息对所述第一分割位置进行调整,得到所述长文本图像的第二分割位置,所述第二分割位置为所述长文本图像的第二文本片段的起始位置;
140.若所述长文本图像的多个文本片段均已被识别,则基于各个所述文本片段对应的所述字符信息,确定所述长文本图像的文本信息。
141.在一些实施例中,基于上述方案,所述处理器901在执行所述所述若所述第一分割位置位于所述第一文本片段的尾字符上,则根据所述位置信息对所述第一分割位置进行调整,得到所述长文本图像的第二分割位置时,具体执行以下操作:
142.根据所述位置信息确定所述第一分割位置是否位于所述第一文本片段的尾字符上;
143.若所述第一分割位置位于所述第一文本片段的尾字符上,则根据所述尾字符的位置信息对所述第一分割位置进行调整,确定所述长文本图像的第二分割位置,其中,所述第二分割位置位于所述尾字符的与分割方向相反的一侧。
144.在一些实施例中,基于上述方案,所述处理器901还执行以下操作:
145.若所述第一分割位置位于所述第一文本片段的尾字符上,则去除所述第一文本片段的字符信息中所述尾字符的字符信息。。
146.在一些实施例中,基于上述方案,所述处理器901在执行所述基于各个所述文本片段对应的所述字符信息,确定所述长文本图像的文本信息时,具体执行以下操作:
147.获取所述长文本图像的多个文本片段中各个文本片段的字符信息;
148.基于所述位置信息对各个文本片段的字符信息进行组合处理,得到所述长文本图像的文本信息。
149.在一些实施例中,基于上述方案,所述处理器901还执行以下操作:
150.若所述第一文本片段的长度小于预定图像长度,则将所述第一文本片段的长度扩展到所述预定图像长度,所述预定图像长度为光学字符识别模型的模型输入长度。
151.在一些实施例中,基于上述方案,所述处理器901还执行以下操作:
152.检测文本图像中的待识别长文本的文本位置;
153.基于所述文本位置,从所述文本图像中裁剪得到所述待识别长文本对应的所述长文本图像。
154.在一些实施例中,基于上述方案,所述处理器901在执行所述对所述第一文本片段进行单字符识别,得到所述第一文本片段中各个字符的位置信息和字符信息时,具体执行以下操作:
155.获取所述长文本图像的多个文本片段中各个文本片段的字符信息;
156.基于所述位置信息对各个文本片段的字符信息进行组合处理,得到所述长文本图像的文本信息。
157.上述为本说明书实施例的一种电子设备的示意性方案。需要说明的是,该电子设备的技术方案与上述的文本识别处理方法的技术方案属于同一构思,电子设备的技术方案未详细描述的细节内容,均可以参见上述文本识别处理方法的技术方案的描述。
158.在本技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本技术的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本技术中的具体含义。此外,在本技术的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
159.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
160.以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1