一种字符识别方法、装置、电子设备及存储介质与流程

文档序号:29787834发布日期:2022-04-23 15:20阅读:58来源:国知局
一种字符识别方法、装置、电子设备及存储介质与流程

1.本技术涉及人工智能技术领域,尤其涉及一种字符识别方法、装置、电子设备及存储介质。


背景技术:

2.随着人工智能技术的快速发展,字符识别技术的应用领域越来越广泛,字符识别的准确度要求和速度要求也越来越高。
3.以识别图像中的车牌为例,相关技术中,需要先对获取的图像进行车牌检测,以确定图像中车牌所在的区域,再对该区域进行字符切分,最后,基于切分得到的小区域进行单个字符的识别,这样,整个字符识别过程比较繁琐,车牌的识别效率比较低。而在识别图像中其它对象如生产日期、出厂序列号中的字符时也存在着类似的问题。
4.由此可见,相关技术中存在着对图像中的字符的识别效率比较低的问题。


技术实现要素:

5.本技术实施例提供一种字符识别方法、装置、电子设备及存储介质,用以解决相关技术中存在的对图像中的字符的识别效率比较低的问题。
6.第一方面,本技术实施例提供一种字符识别方法,包括:
7.对获取的图像进行目标对象检测,以确定所述图像中目标对象所在的区域,所述目标对象包含n个字符,n为正整数;
8.对所述区域进行特征提取,得到所述目标对象的特征图;
9.根据预先设置的所述目标对象中各字符的位置划分信息,从所述特征图中获取所述目标对象中各字符的关联特征图;
10.根据预设字符集和所述目标对象中各字符的关联特征图,识别所述目标对象中的各字符。
11.在一种可能的实施方式中,根据预先设置的所述目标对象中各字符的位置划分信息,从所述特征图中获取所述目标对象中各字符的关联特征图,包括:
12.根据预先设置的所述目标对象中每个字符的位置划分信息,确定该字符在所述特征图中对应的区域,其中,确定的区域大于该字符在所述特征图中实际对应的区域;从所述特征图中获取确定的区域对应的特征图作为该字符的关联特征图。
13.在一种可能的实施方式中,根据预先设置的所述目标对象中各字符的位置划分信息,从所述特征图中获取所述目标对象中各字符的关联特征图,包括:将所述特征图划分成n个子特征图;将所述n个子特征图中与预先设置的所述目标对象中每个字符的位置划分信息匹配的子特征图,作为该字符的参考特征图;根据所述参考特征图相邻的子特征图对所述参考特征图进行修正处理,得到该字符的关联特征图。
14.在一种可能的实施方式中,根据所述参考特征图相邻的子特征图对所述参考特征图进行修正处理,得到该字符的关联特征图,包括:
15.对所述参考特征图和所述参考特征图相邻的子特征图多次进行特征提取,其中,每次进行特征提取的子特征图不同,且每次进行特征提取的各子特征图在所述特征图中连续;
16.对各次提取的特征图进行池化处理;
17.对池化处理后的各特征图和所述参考特征图进行融合处理,得到该字符的关联特征图。
18.在一种可能的实施方式中,对所述参考特征图和所述参考特征图相邻的子特征图多次进行特征提取,包括:
19.利用字符识别网络模型中的不同特征提取层对所述参考特征图和所述参考特征图相邻的子特征图进行特征提取,其中,每个特征提取层进行特征提取的子特征图不同,且每个特征提取层提取的各子特征图在所述特征图中连续,所述字符识别网络模型是利用字符样本的参考特征图和所述参考特征图相邻的子特征图进行训练得到的。
20.在一种可能的实施方式中,对各次提取的特征图进行池化处理,包括:
21.将各特征提取层的输出结果输入所述字符识别网络模型中与各特征提取层各自相连的池化层进行池化处理。
22.在一种可能的实施方式中,对池化处理后的各特征图和所述参考特征图进行融合处理,得到该字符的关联特征图,包括:
23.将各池化层的输出结果和所述参考特征图输入所述字符识别网络模型中的特征融合层进行融合处理,得到该字符的关联特征图。
24.在一种可能的实施方式中,根据以下步骤训练所述字符识别网络模型:
25.利用神经网络模型中的不同特征提取层对字符样本的参考特征图和所述参考特征图相邻的子特征图进行特征提取,其中,每个特征提取层进行特征提取的子特征图不同,且每个特征提取层提取的各子特征图在所述特征图中连续;
26.将各特征提取层的输出结果输入所述神经网络模型中各特征提取层各自相连的池化层进行池化处理;
27.将各池化层的输出结果和所述参考特征图输入所述神经网络模型中的特征融合层进行融合处理;
28.分别利用所述特征融合层的输出结果和各池化层的输出结果进行字符识别;
29.根据所述特征融合层的输出结果的字符识别误差和各池化层的输出结果的字符识别误差,调节所述神经网络模型的模型参数,得到字符识别网络模型。
30.第二方面,本技术实施例提供一种字符识别装置,包括:
31.检测模块,用于对获取的图像进行目标对象检测,以确定所述图像中目标对象所在的区域,所述目标对象包含n个字符,n为正整数;
32.特征提取模块,用于对所述区域进行特征提取,得到所述目标对象的特征图;
33.获取模块,用于根据预先设置的所述目标对象中各字符的位置划分信息,从所述特征图中获取所述目标对象中各字符的关联特征图;
34.识别模块,用于根据预设字符集和所述目标对象中各字符的关联特征图,识别所述目标对象中的各字符。
35.第三方面,本技术实施例提供一种电子设备,包括:至少一个处理器,以及与所述
至少一个处理器通信连接的存储器,其中:
36.存储器存储有可被至少一个处理器执行的指令,该指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一字符识别方法。
37.第四方面,本技术实施例提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,所述电子设备能够执行上述任一字符识别方法。
38.本技术实施例中,对获取的图像进行目标对象检测,以确定图像中目标对象所在的区域,对该区域进行特征提取,得到目标对象的特征图,根据预先设置的目标对象中各字符的位置划分信息,从特征图中获取目标对象中各字符的关联特征图,进而根据预设字符集和目标对象中各字符的关联特征图,识别目标对象中的各字符。这样,基于目标对象的特征图识别目标对象中的各字符,不需要对目标对象所在的区域进行字符切分、基于切分的单个小区域进行单个字符的识别,处理过程比较简单,而且,在识别目标对象中的各字符时仅考虑各字符的关联特征图,而不是目标对象的整幅特征图,需处理的数据量比较小,因此,还可提升字符识别效率。
附图说明
39.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
40.图1为本技术实施例提供的一种字符识别方法的流程图;
41.图2为本技术实施例提供的一种对图像中的目标对象进行特征提取的卷积神经网络的示意图;
42.图3为本技术实施例提供的一种获取目标对象中各字符的关联特征图的流程图;
43.图4为本技术实施例提供的一种目标对象中第i个字符位置对应的字符识别模型的结构示意图;
44.图5为本技术实施例提供的一种目标对象中每个字符位置对应的字符识别网络模型的训练方法的流程图;
45.图6为本技术实施例提供的一种对图像中的目标对象进行特征提取的过程示意图;
46.图7为本技术实施例提供的一种目标对象中各字符位置对应的字符识别模型的结构示意图;
47.图8为本技术实施例提供的一种目标对象中各字符位置对应的字符识别网络模型的训练过程示意图;
48.图9为本技术实施例提供的一种字符识别装置的结构示意图;
49.图10为本技术实施例提供的一种用于实现字符识别方法的电子设备的硬件结构示意图。
具体实施方式
50.为了解决相关技术中存在的对图像中的字符的识别效率比较低的问题,本技术实施例提供了一种字符识别方法、装置、电子设备及存储介质。
51.以下结合说明书附图对本技术的优选实施例进行说明,应当理解,此处所描述的
优选实施例仅用于说明和解释本技术,并不用于限定本技术,并且在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
52.为了便于理解本技术,本技术涉及的技术术语中:
53.特征图:利用卷积核对图像进行卷积运算后可以得到特征图,特征图可以和卷积核进行卷积运算生成新的特征图。
54.n
×
n,表示对图像进行卷积运算时使用的卷积核大小(窗口大小),n为奇数。
55.图1为本技术实施例提供的一种字符识别方法的流程图,包括以下步骤:
56.s101:对获取的图像进行目标对象检测,以确定图像中目标对象所在的区域,其中,目标对象包含n个字符,n为正整数。
57.具体实施时,目标对象如车牌、生产日期、出厂序列号等,均包含固定数量的字符。
58.s102:对图像中目标对象所在的区域进行特征提取,得到目标对象的特征图。
59.具体实施时,可以对图像中目标对象所在的区域进行裁剪,对裁剪得到的子图像进行特征提取,从而得到目标对象的特征图。
60.图2示出了对裁剪得到的子图像进行特征提取的卷积神经网络的示意图,该卷积神经网络包括:第一卷积块、第一池化层、第二卷积块、第二池化层、第三卷积块、第三池化层和第四卷积块,其中,第一卷积块由卷积核大小为3x3,步长(stride)为1,pad为1,通道为32的两个卷积层堆积而成;第一池化层的卷积核大小为3*3,stride为2;第二卷积块由卷积核大小为3*3,stride为1,pad为1,通道为64的两个卷积层堆积而成;第二池化层的卷积核大小为3*3,stride为2;第三卷积块由卷积核大小为3*3,stride为1,pad为1,通道为128的三个卷积层堆积而成;第三池化层的卷积核大小为3*3,stride为2;第四卷积块由卷积核大小为3*3,stride为1,pad为1,通道为128的三个卷积层堆积而成,这里,stride用于控制卷积运算窗口的滑动步数,pad用于控制卷积运算后图像的尺寸,合理设置pad的取值可使卷积运算前后图像的尺寸保持一致。
61.s103:根据预先设置的目标对象中各字符的位置划分信息,从特征图中获取目标对象中各字符的关联特征图。
62.在一种可能的实施方式中,可以根据预先设置的目标对象中每个字符的位置划分信息,确定该字符在特征图中对应的区域,然后,从特征图中获取该区域对应的特征图作为该字符的关联特征图,其中,确定的区域大于该字符在特征图中实际对应的区域。
63.假设目标对象中的各字符是均匀分布的。若目标对象中第一个字符的位置划分信息是则可确定第一个字符在特征图中对应的区域是从特征图的起始位置到特征图的位置;类似地,若目标对象中第二个字符的位置划分信息是则可确定第二个字符在特征图中对应的区域是从特征图的位置到特征图的位置。
64.这样,可以保证每个字符在特征图中对应的区域均大于该字符在特征图中实际对应的区域,保证从特征图中获取的该字符的关联特征图能够完整表达该字符的语义,提升后续字符识别的准确度。
65.在一种可能的实施方式中,可以将特征图划分成n个子特征图,将n个子特征图中与目标对象中每个字符的位置划分信息匹配的子特征图,作为该字符的参考特征图,然后,根据该参考特征图相邻的子特征图对参考特征图进行修正处理,从而得到该字符的关联特征图。
66.具体实施时,可以按照图3所示的流程获取目标对象中各字符的关联特征图,该流程包括以下步骤:
67.s301a:将特征图划分成n个子特征图。
68.具体实施时,可以将特征图划分成n个尺寸相同的子特征图,即将特征图平均划分成n个子特征图。假设特征图用“通道
×

×
宽”的形式来表示,则可将特征图在宽度方向上划分成n个尺寸相同的子特征图。
69.s302a:将n个子特征图中与目标对象中每个字符的位置划分信息匹配的子特征图,作为该字符的参考特征图。
70.具体实施时,目标对象中包含n个字符,若将特征图划分成n个子特征图,则目标对象中的字符与子特征图可以是一一对应的。
71.假设目标对象中每个字符的位置划分信息是该字符在目标对象中的位置编号,则可按照目标对象中字符的位置编号方式,比如从左到右进行编号,对各子特征图进行编号,进而将n个子特征图中与目标对象中每个字符的位置编号相同的子特征图,作为该字符的参考特征图。
72.s303a:根据该参考特征图相邻的子特征图对参考特征图进行修正处理,得到该字符的关联特征图。
73.实际应用中,虽然从n个子特征图中确定出了目标对象中每个字符的参考特征图,但有可能会存在参考特征图与字符不对齐的情况,即参考特征图对相应字符的语义表达不准确的情况,为了应对该种情况,可利用每个字符的参考特征图相邻的子特征图对参考特征图进行修正处理,以生成对相应字符的语义表达更准确的关联特征图,以保证后续字符识别的准确度。
74.具体实施时,可以对参考特征图和参考特征图相邻的子特征图多次进行特征提取,对各次提取的特征图进行池化处理,对池化处理后的各特征图和参考特征图进行融合处理,得到该字符的关联特征图。
75.考虑到同一个字符所对应的子特征图一般是连续相邻的,为了使该字符的关联特征图能够更准确表达该字符的图像特征,可要求每次进行特征提取的子特征图不同,且每次进行特征提取的各子特征图在特征图中连续,即每次进行特征提取的各子特征图之间不间隔任何子特征图。
76.在一种可能的实施方式中,可以利用目标对象中各字符对应的字符识别模型来确定相应字符的关联特征图。
77.具体实施时,可以利用字符样本的参考特征图和参考特征图相邻的子特征图,训练得到目标对象中各字符对应的字符识别网络模型。后续,可利用每个字符对应的字符识别网络模型中的不同特征提取层对该字符的参考特征图和参考特征图相邻的子特征图进行特征提取,然后,将各特征提取层的输出结果输入字符识别网络模型中与各特征提取层各自相连的池化层进行池化处理,最后,将各池化层的输出结果和参考特征图输入字符识
别网络模型中的特征融合层进行融合处理,从而得到该字符的关联特征图。
78.类似地,为了使该字符的关联特征图能够更准确表达该字符的图像特征,可要求字符识别网络模型中每个特征提取层进行特征提取的子特征图不同,且每个特征提取层提取的各子特征图在特征图中连续。
79.参见图4,以目标对象中第i个字符为例,第i个字符的参考特征图为第i个子特征图,具体实施时,可利用第i个字符对应的字符识别模型i中的第一个特征提取层对第i-2个子特征图、第i-1个子特征图和第i个子特征图进行特征提取,将提取的特征输入字符识别模型i中的第一个池化层中进行池化处理;利用字符识别模型i中的第二个特征提取层对第i-1个子特征图和第i个子特征图进行特征提取,将提取的特征输入字符识别模型i中的第二个池化层中进行池化处理;利用字符识别模型i中的第三个特征提取层对第i个子特征图和第i+1个子特征图进行特征提取,将提取的特征输入字符识别模型i中的第三个池化层中进行池化处理;利用字符识别模型i中的第四个特征提取层对第i个子特征图、第i+1个子特征图和第i+2个子特征图进行特征提取,将提取的特征输入字符识别模型i中的第四个池化层中进行池化处理。进一步地,将字符识别模型i中四个池化层的池化结果和第i个子特征图输入字符识别模型i中的特征融合层,从而得到第i个字符的关联特征图。
80.图4是以第i个参考特征图左右相邻的两个子特征图为例进行介绍的,实际应用中,也可以选择第i个参考特征图左右相邻的其它数量的子特征图对第i个参考特征图进行修正,且忽略取值为负的子特征图,在此不再赘述。
81.s104:根据预设字符集和目标对象中各字符的关联特征图,识别目标对象中的各字符。
82.实际应用中,预设字符集中的每个字符可以为汉字、字母、数字或特殊符号,其中,汉字如31个省份汉字,字母如“a~z”、“a~z”,数字如“0~9”,特殊符号如“*”、“/”、“+”、“~”、“&”、“#、”等。
83.具体实施时,可将目标对象中每个字符的关联特征图与保存的预设字符集中每个字符的特征数据进行比对,以确定该字符与预设字符集中各字符之间的相似度,根据该字符与预设字符集中各字符之间的相似度,确定该字符在预设字符集中各字符之间的分布概率,进而将概率最大的预设字符确定为该字符的识别结果。
84.具体实施时,可以按照图5所示的流程训练目标对象中每个字符位置对应的字符识别网络模型,该流程包括以下步骤:
85.s501:利用神经网络模型中的不同特征提取层对字符样本的参考特征图和参考特征图相邻的子特征图进行特征提取,其中,每个特征提取层进行特征提取的子特征图不同,且每个特征提取层提取的各子特征图在所述特征图中连续。
86.s502:将各特征提取层的输出结果输入神经网络模型中各特征提取层各自相连的池化层进行池化处理。
87.s503:将各池化层的输出结果和参考特征图输入神经网络模型中的特征融合层进行融合处理。
88.s504:分别利用特征融合层的输出结果和各池化层的输出结果进行字符识别。
89.s505:根据特征融合层的输出结果的字符识别误差和各池化层的输出结果的字符识别误差,调节神经网络模型的模型参数,得到字符识别网络模型。
90.具体实施时,可以设置神经网络模型的训练结束条件,如神经网络模型的字符识别误差小于预设误差、神经网络模型的训练次数达到预设次数等,后续,每次在调节神经网络模型的模型参数之前,可以先判断当前是否满足神经网络模型的训练结束条件,若不满足,则继续训练神经网络模型;若满足,则可结束对神经网络模型的训练,从而得到字符识别网络模型。
91.本技术实施例中,在训练字符识别网络模型时,分别利用特征融合层的输出结果和各池化层的输出结果进行字符识别,并根据特征融合层的输出结果的字符识别误差和各池化层的输出结果的字符识别误差,调节神经网络模型的模型参数,相当于对字符识别网络模型添加了多个监督信息进行损失计算,因此,可有效提升整个字符识别网络模型的识别性能。
92.下面结合具体实施例对本技术的技术方案进行介绍。
93.假设对图像中的车牌进行识别,车牌共包括7个字符,且预设字符集包括65个字符,这65个字符包含31个省份的汉字、24个英文字母和0-9这10个数字。
94.具体实施时,在获取摄像头采集的原始图像后,可对原始图像进行车牌检测,以确定车牌在原始图像中所在的区域,将该区域从原始图像中裁剪出来得到车牌图像,进而将车牌图像输入到多标签车牌识别卷积神经网络中进行车牌识别,其中,多标签车牌识别卷积神经网络包括特征提取网络和字符识别网络。
95.以“通道
×

×
宽”表示特征图的大小,参见图6,可将车牌图像的高
×
宽缩放到32
×
112,将缩放后的车牌图像输入特征提取网络的第一卷积块,得到32
×
32
×
112的特征图,将32
×
32
×
112的特征图输入至特征提取网络的第一池化层,得到32
×
16
×
56的特征图,将32
×
16
×
56的特征图输入至主干特征提取卷积网络第二卷积块,得到64
×
16
×
56的特征图,将64
×
16
×
56的特征图输入至主干特征提取卷积网络的第二池化层,得到64
×8×
28的特征图,将64
×8×
28的特征图输入至主干特征提取卷积网络的第三卷积块,得到128
×8×
28的特征图,将128
×8×
28的特征图输入至主干特征提取卷积网络的第三池化层,得到128
×4×
14的特征图,将128
×4×
14的特征图输入至干特征提取卷积网络的第四卷积块,得到128
×4×
14的特征图,然后,将128
×4×
14的特征图输入字符识别网络即可得到车牌识别结果。
96.其中,第一卷积块由卷积核大小为3x3,stride为1,pad为1,通道为32的两个卷积层堆积而成;第一池化层的卷积核大小为3*3,stride为2;第二卷积块由卷积核大小为3*3,stride为1,pad为1,通道为64的两个卷积层堆积而成;第二池化层的卷积核大小为3*3,stride为2;第三卷积块由卷积核大小为3*3,stride为1,pad为1,通道为128的三个卷积层堆积而成;第三池化层的卷积核大小为3*3,stride为2;第四卷积块由卷积核大小为3*3,stride为1,pad为1,通道为128的三个卷积层堆积而成,这里,stride用于控制卷积运算窗口的滑动步数,pad用于控制卷积运算后图像的尺寸,合理设置pad的取值可使卷积运算前后图像的尺寸保持一致。
97.参见图7,字符识别网络包括全局特征分割层、第一分支字符识别网络、第二分支字符识别网络、第三分支字符识别网络、第四分支字符识别网络、第五分支字符识别网络、第六分支字符识别网络和第七分支字符识别网络,其中,全局特征分割层用于将128
×4×
14的特征图按列分割成7等份,每份子特征图的大小为128
×4×
2,假设子特征图从左到右
的编号为0到6,则第i个子特征图即是车牌中第i个字符的参考特征图,0≤i≤6;第一分支字符识别网络用于利用子特征图0和子特征图0的相邻子特征图,识别车牌中的第一个字符;第二分支字符识别网络用于利用子特征图1和子特征图1的相邻子特征图,识别车牌中的第二个字符;第三分支字符识别网络用于利用子特征图2和子特征图2的相邻子特征图,识别车牌中的第三个字符;第四分支字符识别网络用于利用子特征图3和子特征图3的相邻子特征图,识别车牌中的第四个字符;第五分支字符识别网络用于利用子特征图4和子特征图4的相邻子特征图,识别车牌中的第五个字符;第六分支字符识别网络用于利用子特征图5和子特征图5的相邻子特征图,识别车牌中的第六个字符;第七分支字符识别网络用于利用子特征图6和子特征图6的相邻子特征图,识别车牌中的第七个字符。
98.下面以第一分支字符识别网络为例对识别车牌的第一个字符的过程进行介绍。
99.具体实施时,可利用第一分支字符识别网络中的不同特征提取层对子特征图0和子特征图0相邻的子特征图进行特征提取,图7中第一分支字符识别网络中的第一特征提取层对子特征图0和子特征图1进行特征提取,得到128
×4×
4的特征图,第一分支字符识别网络中的第二特征提取层对子特征图0、子特征图1和子特征图2进行特征提取,得到128
×4×
6的特征图。
100.进一步地,可利用第一分支字符识别网络中各特征提取层各自连接的池化层分别对特征提取层的输出结果进行池化处理,各池化层输出的特征图与子特征图0的尺寸4
×
2相同。
101.进一步地,将第一分支字符识别网络中各池化层输出的128
×4×
2的特征图与128
×4×
2的子特征图0,输入到第一分支字符识别网络中的通道融合层(concat),得到该字符的关联特征图,将该字符的关联特征图输入到全连接(fully connected,fc)层,即可得到车牌中第一个字符在65个预设字符之间的分布概率,取概率最大的预设字符作为第一个字符的识别结果。
102.图7中对车牌中第四个字符的识别过程与上述过程类似,在此不再赘述。
103.为了提升字符识别网络的识别准确率,在字符识别网络的训练阶段还可加入更多的监督信息,参见图8,以第一分支字符识别网络为例,可以将车牌中第一个字符的关联特征图输入全连接层,得到第一个字符的第一识别结果,根据第一识别结果和第一个字符的标注信息计算第一识别误差,并将第一分支字符识别网络中每个池化层的输出结果输入全连接层,得到第一个字符的第二识别结果,根据第二识别结果和第一个字符的标注信息,计算第二识别误差,根据第一识别误差和第二识别误差计算损失函数的取值,进而根据损失函数的取值按照梯度下降算法调整第一分支字符识别网络中的网络参数,直至确定满足预设的第一分支字符识别网络的训练结束条件时,将第一分支字符识别网络作为车牌中第一个字符的字符识别模型,其中,训练结束条件如第一分支字符识别网络的字符识别误差小于预设误差,第一分支字符识别网络的训练次数达到预设次数等。
104.这样,相当于对第一分支字符识别网络添加多个监督信息进行损失计算,并指导第一分支字符识别网络的网络参数调整,可有效提升最终得到的字符识别模型的识别性能。
105.图8中其它分支字符识别网络的训练过程类似,在此不再赘述。
106.本技术实施例中,使用字符对应的局部特征信息代替全局特征信息进行字符识
别,干扰信息更少,特征提取更有针对性,特征表达更加合理,因此,可提升字符识别效率,并且,为了应对字符特征与字符不对齐的问题,在确定每个字符的参考特征图之后,根据参考征图相邻的子特征图对参考特征图进行了修正处理,增强了最终得到的关联特征图对该字符的语义表达能力,因此,还可保证字符识别准确度。
107.当本技术实施例中提供的字符识别方法以软件或硬件或软硬件结合实现的时候,电子设备中可以包括多个功能模块,每个功能模块可以包括软件、硬件或其结合。
108.图9为本技术实施例提供的一种字符识别装置的结构示意图,包括检测模块901、特征提取模块902、获取模块903和识别模块904。
109.检测模块901,用于对获取的图像进行目标对象检测,以确定所述图像中目标对象所在的区域,所述目标对象包含n个字符,n为正整数;
110.特征提取模块902,用于对所述区域进行特征提取,得到所述目标对象的特征图;
111.获取模块903,用于根据预先设置的所述目标对象中各字符的位置划分信息,从所述特征图中获取所述目标对象中各字符的关联特征图;
112.识别模块904,用于根据预设字符集和所述目标对象中各字符的关联特征图,识别所述目标对象中的各字符。
113.在一种可能的实施方式中,获取模块903具体用于:
114.根据预先设置的所述目标对象中每个字符的位置划分信息,确定该字符在所述特征图中对应的区域,其中,确定的区域大于该字符在所述特征图中实际对应的区域;从所述特征图中获取确定的区域对应的特征图作为该字符的关联特征图。
115.在另一种可能的实施方式中,获取模块903具体用于:
116.将所述特征图划分成n个子特征图;将所述n个子特征图中与预先设置的所述目标对象中每个字符的位置划分信息匹配的子特征图,作为该字符的参考特征图;根据所述参考特征图相邻的子特征图对所述参考特征图进行修正处理,得到该字符的关联特征图。
117.在一种可能的实施方式中,获取模块903具体还用于:
118.对所述参考特征图和所述参考特征图相邻的子特征图多次进行特征提取,其中,每次进行特征提取的子特征图不同,且每次进行特征提取的各子特征图在所述特征图中连续;
119.对各次提取的特征图进行池化处理;
120.对池化处理后的各特征图和所述参考特征图进行融合处理,得到该字符的关联特征图。
121.在一种可能的实施方式中,获取模块903具体还用于:
122.利用字符识别网络模型中的不同特征提取层对所述参考特征图和所述参考特征图相邻的子特征图进行特征提取,其中,每个特征提取层进行特征提取的子特征图不同,且每个特征提取层提取的各子特征图在所述特征图中连续,所述字符识别网络模型是利用字符样本的参考特征图和所述参考特征图相邻的子特征图进行训练得到的。
123.在一种可能的实施方式中,获取模块903具体还用于:
124.将各特征提取层的输出结果输入所述字符识别网络模型中与各特征提取层各自相连的池化层进行池化处理。
125.在一种可能的实施方式中,获取模块903具体还用于:
126.将各池化层的输出结果和所述参考特征图输入所述字符识别网络模型中的特征融合层进行融合处理,得到该字符的关联特征图。
127.在一种可能的实施方式中,根据以下步骤训练所述字符识别网络模型:
128.利用神经网络模型中的不同特征提取层对字符样本的参考特征图和所述参考特征图相邻的子特征图进行特征提取,其中,每个特征提取层进行特征提取的子特征图不同,且每个特征提取层提取的各子特征图在所述特征图中连续;
129.将各特征提取层的输出结果输入所述神经网络模型中各特征提取层各自相连的池化层进行池化处理;
130.将各池化层的输出结果和所述参考特征图输入所述神经网络模型中的特征融合层进行融合处理;
131.分别利用所述特征融合层的输出结果和各池化层的输出结果进行字符识别;
132.根据所述特征融合层的输出结果的字符识别误差和各池化层的输出结果的字符识别误差,调节所述神经网络模型的模型参数,得到字符识别网络模型。
133.本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本技术各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。各个模块相互之间的耦合可以是通过一些接口实现,这些接口通常是电性通信接口,但是也不排除可能是机械接口或其它的形式接口。因此,作为分离部件说明的模块可以是或者也可以不是物理上分开的,既可以位于一个地方,也可以分布到同一个或不同设备的不同位置上。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
134.图10为本技术实施例提供的一种电子设备的结构示意图,该电子设备包括收发器1001以及处理器1002等物理器件,其中,处理器1002可以是一个中央处理单元(central processing unit,cpu)、微处理器、专用集成电路、可编程逻辑电路、大规模集成电路、或者为数字处理单元等等。收发器1001用于电子设备和其他设备进行数据收发。
135.该电子设备还可以包括存储器1003用于存储处理器1002执行的软件指令,当然还可以存储电子设备需要的一些其他数据,如电子设备的标识信息、电子设备的加密信息、用户数据等。存储器1003可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,ram);存储器1003也可以是非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,rom),快闪存储器(flash memory),硬盘(hard disk drive,hdd)或固态硬盘(solid-state drive,ssd)、或者存储器1003是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1003可以是上述存储器的组合。
136.本技术实施例中不限定上述处理器1002、存储器1003以及收发器1001之间的具体连接介质。本技术实施例在图10中仅以存储器1003、处理器1002以及收发器1001之间通过总线1004连接为例进行说明,总线在图10中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
137.处理器1002可以是专用硬件或运行软件的处理器,当处理器1002可以运行软件时,处理器1002读取存储器1003存储的软件指令,并在所述软件指令的驱动下,执行前述实
施例中涉及的字符识别方法。
138.本技术实施例还提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,所述电子设备能够执行前述实施例中涉及的字符识别方法。
139.在一些可能的实施方式中,本技术提供的字符识别方法的各个方面还可以实现为一种程序产品的形式,所述程序产品中包括有程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行前述实施例中涉及的字符识别方法。
140.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、ram、rom、可擦式可编程只读存储器(erasable programmable read-only memory,eprom)、闪存、光纤、光盘只读存储器(compact disk read only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
141.本技术实施例中用于字符识别的程序产品可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在计算设备上运行。然而,本技术的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
142.可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
143.可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、射频(radio frequency,rf)等等,或者上述的任意合适的组合。
144.可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的程序代码,所述程序设计语言包括面向对象的程序设计语言如java、c++等,还包括常规的过程式程序设计语言诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络包括局域网(local area network,lan)或广域网(wide area network,wan)连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
145.应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
146.此外,尽管在附图中以特定顺序描述了本技术方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个
步骤分解为多个步骤执行。
147.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
148.本技术是参照根据本技术实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
149.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
150.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
151.尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
152.显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1