多语种文本识别方法、装置、设备及可读存储介质

文档序号:33710196发布日期:2023-03-31 23:25阅读:27来源:国知局
多语种文本识别方法、装置、设备及可读存储介质

1.本技术涉及互联网技术领域,更具体的说,涉及一种多语种文本识别方法、装置、设备及可读存储介质。


背景技术:

2.在日常生活中,文本图像是除语音、视频外最常见的承接信息的方式,文本图像中包含丰富的语义信息,因此对文本图像进行识别得到文本图像中的文本是计算机视觉领域重要的研究热点之一,通常文本图像中的文本为多语种的文本,多语种文本识别在人类以及人机之间的无障碍信息传递和理解具有重要的支撑作用,同时便于世界各国之间无障碍交流,推动其各行各业人员密切交流,促进全球经济进一步发展。
3.现有的多语种文本识别方法中通常是将所有语种的词汇组合成一个大型词汇表,再基于该词汇表训练神经网络模型,当没有涉及很多语种时,这种方法可以很好地工作,然而,随着涉及的语种越来越多,词汇表中的词汇量越来越大,使得模型的训练将变得非常困难,多语种文本识别的效率十分低。


技术实现要素:

4.有鉴于此,本技术提供了一种多语种文本识别方法、装置、设备及可读存储介质,用于解决现有的多语种文本识别方法使用的词汇表中的词汇量非常大,使得模型的训练将变得非常困难,导致多语种文本识别的效率十分低的问题。
5.为了实现上述目的,现提出的方案如下:
6.一种多语种文本识别方法,包括:
7.获取文本图像;
8.将所述文本图像输入预先训练的多语种文本识别模型,得到与所述文本图像对应的文本识别结果;
9.其中,所述多语种文本识别模型为基于预先构建的词汇表,以训练文本图像作为训练样本,以所述训练文本图像对应的文本作为训练标签训练得到;
10.所述词汇表中包括多个单字节的unicode码,每种语种的不同字符单元均由所述词汇表中的不同单字节的unicode码的组合来表示。
11.优选地,所述词汇表的构建过程,包括:
12.根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元;
13.对每种所述语种对应的字符单元进行unicode编码,得到unicode码集合;
14.将所述unicode码集合中的所有unicode码均拆分为单字节的unicode码,将得到的单字节的unicode码构建为所述词汇表。
15.优选地,所述根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元之前,还包括:
16.将各所述语种中由基础字母组成的语种划分为第一类语种;
17.将各所述语种中的中文划分为第二类语种;
18.将各所述语种中除了所述第一类语种及所述第二类语种之外的语种划分为第三类语种;
19.所述根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元,包括:
20.将所述第一类语种的基础组成字母构建为字符单元;
21.将所述第二类语种的偏旁部首构建为字符单元;
22.将所述第三类语种按照预设的字符连接规则划分得到的子词构建为字符单元。
23.优选地,所述多语种文本识别模型包括:卷积网络、编码器网络及解码器网络;
24.所述卷积网络用于获取输入的所述文本图像,并获取所述文本图像的图像特征;
25.所述编码器网络用于将所述图像特征转化为深层图像特征;
26.所述解码器网络用于根据所述深层图像特征确定所述文本图像对应的多个单字节的unicode码,将所述文本图像对应的多个单字节的unicode码进行拼接得到多个字符单元对应的unicode码,根据每个字符单元的unicode码恢复出所述文本识别结果,输出所述文本识别结果。
27.优选地,所述解码器网络根据所述深层图像特征获取所述文本图像对应的多个单字节的unicode码的过程,包括:
28.解码器网络根据所述深层图像特征确定所述文本图像对应的各个单字节的unicode码在所述词汇表中的序号,根据各个所述序号在所述词汇表中获取所述文本图像对应的多个单字节的unicode码。
29.优选地,所述解码器网络为基于注意力机制的解码器网络。
30.优选地,所述多语种文本识别模型的训练过程,包括:
31.获取预先构建的所述词汇表、所述训练文本图像及所述训练文本图像对应的文本;
32.将所述训练文本图像输入所述多语种文本识别模型,得到所述多语种文本识别模型预测的文本结果;
33.根据所述文本结果及所述训练文本图像对应的文本计算损失函数;
34.基于损失函数对所述多语种文本识别模型进行训练,直至满足设定的训练结束条件。
35.一种多语种文本识别装置,包括:
36.文本图像获取单元,用于获取文本图像;
37.多语种文本识别单元,用于将所述文本图像输入预先训练的多语种文本识别模型,得到与所述文本图像对应的文本识别结果;
38.其中,所述多语种文本识别模型为基于预先构建的词汇表,以训练文本图像作为训练样本,以所述训练文本图像对应的文本作为训练标签训练得到;
39.所述词汇表中包括多个单字节的unicode码,每种语种的不同字符单元均由所述词汇表中的不同单字节的unicode码的组合来表示。
40.一种多语种文本识别设备,包括存储器和处理器;
41.所述存储器,用于存储程序;
42.所述处理器,用于执行所述程序,实现如上述多语种文本识别方法的各个步骤。
43.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述多语种文本识别方法的各个步骤。
44.从上述的技术方案可以看出,本技术实施例提供的多语种文本识别方法,获取文本图像,将文本图像输入预先训练的多语种文本识别模型,输出与文本图像对应的文本识别结果,其中,多语种文本识别模型为基于预先构建的词汇表,以训练文本图像作为训练样本,以训练文本图像对应的文本作为训练标签训练得到,而该词汇表中包括多个单字节的unicode码,单字节的unicode码为对已有的双字节的unicode码进行拆分得到的unicode码,可拆分得到256个单字节的unicode码,而双字节的unicode码可编65536字符单元(组成每种语种的字符的基础单元),基本上包含了世界上所有的语言字符单元,所以该词汇表中的不同单字节的unicode码的组合足以覆盖所有语种的不同字符单元,所有语种的不同字符单元均由该词汇表中的不同单字节的unicode码的组合来表示,在实现多语种文本识别的基础上,将词汇表的大小固定为256,极大程度上降低了词汇表中的词汇量,使得模型的训练将变得非常简单,提高了多语种文本识别的效率。
附图说明
45.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
46.图1为本技术实施例公开的一种多语种文本识别方法流程图;
47.图2为本技术实施例公开的一种词汇表的构建过程示意图;
48.图3为本技术实施例公开的一种多语种文本识别过程示意图;
49.图4为本技术实施例公开的一种多语种文本识别装置结构示意图;
50.图5为本技术实施例公开的一种多语种文本识别设备的硬件结构框图。
具体实施方式
51.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
52.本技术提供了对文本图像中的多语种文本进行识别的方法,可以适用于各种类型的语种,示例如中文、英文、法文等。
53.本技术方案可以基于具备数据处理能力的终端实现,该终端可以是电脑、服务器、云端等。
54.本技术实施例提供了一种多语种文本识别方案,接下来通过附图1对本技术的多语种文本识别方法进行说明,如图1所示,该方法可以包括:
55.步骤s100、获取文本图像。
56.具体的,文本图像为待识别的包含文本的图像,文本图像上的文本可以为任何语
种,示例如中文、英文、法文等,本技术实施例可以提供给用户文本图像的录入界面,以供用户使用客户端在界面中录入待识别的文本图像,其中,用户使用客户端在界面中录入待识别的文本图像的方式可以有多种,用户可以使用客户端点击本技术实施例提供的录入文本图像的按钮,本技术实施例会响应用户的点击事件,向用户提供客户端中保存的所有的文本图像,用户可以选择相应的文本图像,用户也可以输入文本图像的路径,本技术实施例可以根据输入的路径自动获取文本图像,用户还可以将文本图像复制后粘贴到本技术实施例提供的界面中,客户端可以是手机、平板、电脑等终端设备。
57.步骤s110、将所述文本图像输入预先训练的多语种文本识别模型,得到与所述文本图像对应的文本识别结果。
58.其中,所述多语种文本识别模型为基于预先构建的词汇表,以训练文本图像作为训练样本,以所述训练文本图像对应的文本作为训练标签训练得到,所述词汇表中包括多个单字节的unicode码,每种语种的不同字符单元均由所述词汇表中的不同单字节的unicode码的组合来表示。
59.具体的,本技术实施例预先训练了多语种文本识别模型用来识别获取的文本图像中的文本,所以在获取到文本图像之后,将获取得到的文本图像输入预先训练的多语种文本识别模型即可得到与该文本图像对应的文本识别结果,该多语种文本识别模型为基于预先构建的词汇表,以训练文本图像作为训练样本,以训练文本图像对应的文本作为训练标签得到,本技术实施例发现若将所有语种的字符组合到一个大型词汇表,所有语种的字符数量相当庞大,使得该大型词汇表的词汇量非常大,基于该大型词汇表训练多语种文本识别模型会非常困难,所以本技术实施例中训练多语种文本识别模型使用的词汇表为包含多个单字节的unicode码的词汇表,单字节的unicode码为对已有的双字节的unicode码进行拆分得到的unicode码,可拆分得到256个单字节的unicode码,而双字节的unicode码可编65536字符单元(组成每种语种的字符的基础单元),基本上包含了世界上所有的语言的字符单元,所以所有语种的不同字符单元均由该词汇表中的不同单字节的unicode码的组合来表示,将词汇表的词汇量固定大小为256,极大程度上降低了词汇表的词汇量,使得多语种文本识别模型的训练变得简单。
60.本技术实施例提供的多语种文本识别方法,获取文本图像,将文本图像输入预先训练的多语种文本识别模型,输出与文本图像对应的文本识别结果,其中,多语种文本识别模型为基于预先构建的词汇表,以训练文本图像作为训练样本,以训练文本图像对应的文本作为训练标签训练得到,而该词汇表中包括多个单字节的unicode码,单字节的unicode码为对已有的双字节的unicode码进行拆分得到的unicode码,可拆分得到256个单字节的unicode码,而双字节的unicode码可编65536字符单元(组成每种语种的字符的基础单元),基本上包含了世界上所有的语言字符单元,所以该词汇表中的不同单字节的unicode码的组合足以覆盖所有语种的不同字符单元,所有语种的不同字符单元均由该词汇表中的不同单字节的unicode码的组合来表示,在实现多语种文本识别的基础上,将词汇表的大小固定为256,极大程度上降低了词汇表中的词汇量,使得模型的训练将变得非常简单,提高了多语种文本识别的效率。
61.本技术的一些实施例中,对上述词汇表的构建过程进行介绍,该过程可以包括:
62.根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元。
63.具体的,本技术实施例发现每种语种均有自己的语言及结构特征,所以组成不同语种的字符的字符单元有所不同,在划分不同语种的字符单元时,应当考虑每种语种的语言及结构特性,根据不同语种的语言及结构特性来构建每种语种对应的字符单元。
64.对每种所述语种对应的字符单元进行unicode编码,得到unicode码集合。
65.具体的,unicode码是一种国际标准编码,采用双字节16位来进行编码,为每种语言中的每个字符单元设定了统一并且唯一的编码,以满足跨语言、跨平台进行文本转换、处理的要求,由于unicode编码是采用双字节16位来进行编码,所以可编65536字符单元,基本上包含了世界上所有的语言的字符单元,所以根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元之后,首先对每种所述语种对应的字符单元进行unicode编码,得到unicode码集合。
66.将所述unicode码集合中的所有unicode码均拆分为单字节的unicode码,将得到的单字节的unicode码构建为所述词汇表。
67.具体的,本技术实施例发现若直接采用unicode码集合中的unicode码来构建词汇表,那么词汇表的词汇量将为65536,数量依旧十分庞大,所以为了进一步地缩减词汇表的词汇量,本技术实施例发现可以将unicode码集合中的所有unicode码均拆分为单字节的unicode码,可以拆分得到256个单字节的unicode码,将得到的所有单字节的unicode码构建为词汇表,此时词汇表的词汇量固定大小为256,且256个单字节的unicode码的不同组合足以覆盖每种语种对应的不同字符单元。
68.可选的,本技术实施例发现所有语种中,存在语言及结构特性相似的语种,为了实现上述根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元,可以首先对所有语种进行分类,将语言及结构特性的相似的语种划分为一类,再构建每类语种的字符单元,具体的语种分类过程可以包括:
69.将各所述语种中由基础字母组成的语种划分为第一类语种。
70.具体的,本技术实施例发现常见的英日俄韩德法西等语种的特点是一字一形和序列书写,字符均由基础字母组成,示例如,英文由26个英文字母组成,所以将各语种中由基础字母组成的语种划分为第一类语种。
71.将各所述语种中的中文划分为第二类语种。
72.具体的,本技术实施例发现各语种中,只有中文是以偏旁部首作为结构组成的汉字,所以将中文划分为第二类语种。
73.将各所述语种中除了所述第一类语种及所述第二类语种之外的语种划分为第三类语种。
74.具体的,各所述语种中除了第一类语种及第二类语种之外的语种均为书写时存在粘连属性的语种,可将其作为第三类语种,示例如阿拉伯语、维吾尔语、印地语、蒙古语、藏语等语种。
75.基于此,本技术的一些实施例中,对上述根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元的过程进行介绍,该过程可以包括:
76.将所述第一类语种的基础组成字母构建为字符单元。
77.具体的,由于第一类语种为由基础字母组成的语种,所以可将第一类语种的基础组成字母构建为字符单元,示例如,将英文中的26个英文字母构建为字符单元。
78.将所述第二类语种的偏旁部首构建为字符单元。
79.具体的,由于第二类语种为中文,而中文是以偏旁部首组成的汉字,所以将中文的偏旁部首构建为字符单元。
80.将所述第三类语种按照预设的字符连接规则划分得到的子词构建为字符单元。
81.具体的,本技术实施例发现,第三类语种为书写时存在粘连属性的语种,可能会存在同码异形(同一unicode码,在文本中的不同位置的书写形态不一样)、同形异码(不同句子中,书写形态相同,unicode码却不一致)、字符叠写(不同unicode码或相同unicode码的在一起会粘连书写)等导致字符歧义性的问题,针对这些语种,可以首先按照预设的字符连接规则对这些语种的进行划分,将划分得到的子词作为字符单元,示例如,在对其进行划分时,对于独立形态的组成字符的基础单元不做处理,直接将其作为子词,对于存在同码异形、同形异码或字符叠写等情况的基础单元,将这些基础单元能够组合成的字符作为子词,再将得到的这些子词构建为字符单元。
82.本技术实施例中,在构建每种语种对应的字符单元时考虑到了每种所述语种的语言及结构特性,首先对所有语种进行分类,将语言及结构特性的相似的语种划分为一类,再构建每类语种的字符单元,对每种语种对应的字符单元进行unicode编码,使得最终得到的unicode码更加合理规范。
83.本技术的一些实施例中,通过具体示例对上述词汇表的构建过程进行介绍,如图2所示,第一类语种以英文为例,英文中的字母a和e均为字符单元,第二类语种以中文为例,中文中的偏旁部首女和口均为字符单元,第三类语种以阿拉伯语为例,划分得到的子词200为字符单元,对字符单元a、e、女、口及子词200分别进行unicode编码,分别得到a、e、女、口及子词200对应的unicode码0x0043、0x0435、0x5973、0x53e3及\ufdf2,这些unicode码均为双字节,将0x0043拆分为单字节的0x00及0x43,将0x0435拆分为单字节的0x04及0x35,将0x5973拆分为单字节的0x59及0x73,将0x53e3拆分为单字节的0x53及0xe3,将\ufdf2拆分为单字节的\ufd及\uf2,此时得到的这些单字节的unicode码均将被构建为词汇表。
84.本技术的一些实施例中,对上述多语种文本识别模型的组成部分进行介绍,其组成部分可以包括:卷积网络、编码器网络及解码器网络,进一步地,对该多语种文本识别模型的各组成部分进行介绍:
85.所述卷积网络用于获取输入的所述文本图像,并获取所述文本图像的图像特征。
86.具体的,卷积网络是一类包含卷积计算且具有深度结构的前馈神经网络,可以提取图像的低级的特征,示例如边缘、线条和角等,所以首先设置卷积网络来获取输入的文本图像,并提取出该文本图像的图像特征,可选的,该卷积网络可以基于深度残差网络(resnet)结构,提取的图像特征可以为二维的图像特征。
87.所述编码器网络用于将所述图像特征转化为深层图像特征。
88.具体的,编码器网络可以对上述卷积网络提取的图像特征更深层的编码,将其进一步转换为深层图像特征,示例如将二维图像特征转换为一维序列特征。
89.可选的,上述编码器网络可以为lstm编码器网络。
90.所述解码器网络用于根据所述深层图像特征确定所述文本图像对应的多个单字节的unicode码,将所述文本图像对应的多个单字节的unicode码进行拼接得到多个字符单元对应的unicode码,根据每个字符单元的unicode码恢复出所述文本识别结果,输出所述
文本识别结果。
91.具体的,解码器网络用来根据编码器网络得到的深层图像特征确定输入的文本图像对应的多个单字节的unicode码,由于单字节的unicode码为将unicode码集合中的unicode码拆分得到,所以在确定输入的文本图像对应的多个单字节的unicode码之后将确定的多个unicode码进行拼接得到多个字符单元对应的unicode码,并根据每个字符单元的unicode码恢复出文本识别结果,即恢复出文本图像中真正的文本,再输出文本识别结果。
92.本技术的一些实施例中,对上述解码器网络根据所述深层图像特征确定所述文本图像对应的多个单字节的unicode码的过程进行介绍,该过程可以包括:
93.解码器网络根据所述深层图像特征确定所述文本图像对应的各个单字节的unicode码在所述词汇表中的序号,根据各个所述序号在所述词汇表中获取所述文本图像对应的多个单字节的unicode码。
94.具体的,解码器网络可以首先根据深层图像特征来确定文本图像对应的各个单字节的unicode码在词汇表中的序号,再根据确定的各个序号在词汇表中获取文本图像对应的多个单字节的unicode码。
95.可选的,上述解码器网络可以为lstm解码器网络,为了提高多语种文本识别的效率和准确性,解码器网络可以为基于注意力机制的解码器网络。
96.本技术的一些实施例中,对上述多语种文本识别模型的训练过程进行介绍,该过程可以包括:
97.获取预先构建的所述词汇表、所述训练文本图像及所述训练文本图像对应的文本。
98.具体的,本技术实施例预先构建了词汇表,预先设置了训练文本图像以及训练文本图像对应的文本,在训练时,应首先获取预先构建的词汇表、训练文本图像以及训练文本图像对应的文本。
99.将所述训练文本图像输入所述多语种文本识别模型,得到所述多语种文本识别模型预测的文本结果。
100.具体的,将获取的训练文本图像作为训练样本输入多语种文本识别模型,将训练文本图像对应的文本作为多语种文本识别模型的训练标签,得到多语种文本识别模型预测的文本结果。
101.根据所述文本结果及所述训练文本图像对应的文本计算损失函数。
102.具体的,为了对多语种文本识别模型进行训练,计算多语种文本识别模型预测的文本结果和训练文本图像对应的文本之间的损失函数。其中,损失函数为用来度量模型的预测值和真实值的差异程度的函数。
103.基于损失函数对所述多语种文本识别模型进行训练,直至满足设定的训练结束条件。
104.具体的,可以基于计算得到的损失函数对多语种文本识别模型进行训练,调整多语种文本识别模型中的相关网络参数,使多语种文本识别模型预测的文本结果与训练文本图像对应的文本相同。
105.本技术实施例中,由于多语种文本识别模型为通过大量训练样本和训练标签,根据计算得到损失函数进行训练得到,基于损失函数对多语种文本识别模型进行训练,使多
语种文本识别模型预测的文本结果与训练文本图像对应的文本相同,通过训练提高了语种文本识别模型识别文本的准确度。
106.本技术的一些实施例中,通过具体示例对多语种文本识别的过程进行介绍,如图3所示,首先获取包含文本“apple”的文本图像,将获取的文本图像输入resnet网络中,由resnet网络提取该文本图像的图像特征,并输入至基于lstm编码器网络,由lstm编码器网络将图像特征转换为深层图像特征,并将深层图像特征发送至基于attention机制的lstm解码器网络,由于lstm解码器网络是对文本图像中的文本逐步解码,所以将得到的深层图像特征发送至每一步的进行解码的lstm解码器中,首先lstm解码器解码得出0x00,为了提高识别文本的准确率,下一步解码时还需要用到上一步解码的信息,所以将解码得出的0x00发送到下一步解码的lstm解码器中,解码得出0x43,以此类推,逐步解码,直到解码得出0x04以及0x35,将解码得到的0x00及0x43拼接得到0x0043,以此类推,将得到的单字节的unicode码进行拼接,直到将解码得到的0x04及0x35拼接得到0x0435,依次根据拼接得到的unicode码恢复出其对应的字符单元,示例如将0x0043恢复得出“a”,将0x0435恢复得出“e”,最终输出文本识别结果“apple”。
107.下面对本技术实施例提供的多语种文本识别装置进行描述,下文描述的多语种文本识别装置与上文描述的多语种文本识别方法可相互对应参照。
108.首先,结合图4,对多语种文本识别装置进行介绍,如图4所示,该多语种文本识别装置可以包括:
109.文本图像获取单元10,用于获取文本图像;
110.多语种文本识别单元20,用于将所述文本图像输入预先训练的多语种文本识别模型,得到与所述文本图像对应的文本识别结果;
111.其中,所述多语种文本识别模型为基于预先构建的词汇表,以训练文本图像作为训练样本,以所述训练文本图像对应的文本作为训练标签训练得到;
112.所述词汇表中包括多个单字节的unicode码,每种语种的不同字符单元均由所述词汇表中的不同单字节的unicode码的组合来表示。
113.可选的,所述多语种文本识别装置,还可以包括:
114.字符单元构建单元,用于根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元;
115.unicode码集合获取单元,用于对每种所述语种对应的字符单元进行unicode编码,得到unicode码集合;
116.词汇表构建单元,用于将所述unicode码集合中的所有unicode码均拆分为单字节的unicode码,将得到的单字节的unicode码构建为所述词汇表。
117.可选的,所述多语种文本识别装置,还可以包括:
118.第一类语种划分单元,用于将各所述语种中由基础字母组成的语种划分为第一类语种;
119.第二类语种划分单元,用于将各所述语种中的中文划分为第二类语种;
120.第三类语种划分单元,用于将各所述语种中除了所述第一类语种及所述第二类语种之外的语种划分为第三类语种;
121.基于此,所述字符单元构建单元根据每种所述语种的语言及结构特性构建每种所
述语种对应的字符单元将所述第一类语种的基础组成字母构建为字符单元的过程,可以包括:
122.将所述第二类语种的偏旁部首构建为字符单元;
123.将所述第三类语种按照预设的字符连接规则划分得到的子词构建为字符单元。
124.可选的,所述多语种文本识别模型可以包括:卷积网络、编码器网络及解码器网络;
125.所述卷积网络用于获取输入的所述文本图像,并获取所述文本图像的图像特征;
126.所述编码器网络用于将所述图像特征转化为深层图像特征;
127.所述解码器网络用于根据所述深层图像特征确定所述文本图像对应的多个单字节的unicode码,将所述文本图像对应的多个单字节的unicode码进行拼接得到多个字符单元对应的unicode码,根据每个字符单元的unicode码恢复出所述文本识别结果,输出所述文本识别结果。
128.可选的,所述解码器网络根据所述深层图像特征确定所述文本图像对应的多个单字节的unicode码的过程,可以包括:
129.解码器网络根据所述深层图像特征确定所述文本图像对应的各个单字节的unicode码在所述词汇表中的序号,根据各个所述序号在所述词汇表中获取所述文本图像对应的多个单字节的unicode码。
130.可选的,所述解码器网络可以为基于注意力机制的解码器网络。
131.可选的,所述多语种文本识别装置,还可以包括:
132.多语种文本识别模型的训练单元,用于基于预先构建的词汇表,以训练文本图像作为训练样本,以所述训练文本图像对应的文本作为训练标签训练训练多语种文本识别模型,该训练过程,可以包括:
133.获取预先构建的所述词汇表、所述训练文本图像及所述训练文本图像对应的文本;
134.将所述训练文本图像输入所述多语种文本识别模型,得到所述多语种文本识别模型预测的文本结果;
135.根据所述文本结果及所述训练文本图像对应的文本计算损失函数;
136.基于损失函数对所述多语种文本识别模型进行训练,直至满足设定的训练结束条件。
137.本技术实施例提供的多语种文本识别装置可应用于多语种文本识别设备。图5示出了多语种文本识别设备的硬件结构框图,参照图5,多语种文本识别设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
138.在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
139.处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
140.存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
141.其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:实现前述多语种文本识别方案中的各个处理流程。
142.本技术实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:实现前述多语种文本识别方案中的各个处理流程。
143.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
144.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
145.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1