本技术实施例涉及文字识别,特别涉及一种文本图像识别方法、装置、设备及存储介质。
背景技术:
1、随着各种实景应用(如街景、移动搜索等)的兴起,从复杂背景的图像中识别并提取文字信息变得尤为重要,目前通常采用深度学习的方法对图像中的文字进行检测和识别。其中,对于文字区域的检测,通常采用目标检测或语义分割的方法,而文字识别则一般使用卷积神经网络(convolutional neural networks,cnn)与各种循环神经网络(recurrent neural network,rnn)和变换器(transformer)等结合的方式实现。
2、但是在文本图像识别过程中,由于成像距离较远、光照不够等原因导致输入的文本图像质量较差的情况下,目前的文字识别技术所得到的文字识别结果的准确率大大下降。
技术实现思路
1、本技术实施例的目的在于提供一种文本图像识别方法、装置、设备及存储介质,可以提升文本图像中文字识别的准确率。
2、为解决上述技术问题,本技术的实施例提供了一种文本图像识别方法,包括以下步骤:
3、构建文本图像数据集,所述文本图像数据集包含若干个高分辨率的文本图像以及与所述若干个高分辨率的文本图像对应的若干个低分辨率的文本图像;
4、采用所述文本图像数据集对预构建的文本图像超分网络进行训练,得到文本图像超分模型;
5、其中,所述文本图像超分网络包含特征提取层、尺度缩减自注意力层和输出层,所述特征提取层用于获取所述文本图像数据集中文本图像的特征图,所述尺度缩减自注意力层用于对所述特征图的像素进行自注意变换,建立所述特征图的各像素之间的关联关系,所述输出层用于根据像素关联后的特征图对所述文本图像进行超分;
6、将待识别的目标文本图像输入所述文本图像超分模型中,得到超分后的目标文本图像;
7、将所述超分后的目标文本图像输入预先训练好的文本识别模型中,得到所述目标文本图像的文本识别结果。
8、在一些可选的实施例中,所述尺度缩减自注意力层通过以下步骤建立所述特征图的各像素之间的关联关系:
9、根据所述特征提取层输出所述特征图的通道数目,将所述特征图沿空间维度展平获得所述特征图的二维特征序列;
10、将所述二维特征序列线性映射为一维特征序列;
11、沿空间维度对所述特征图进行尺度缩减,得到尺度缩减后的特征图;
12、获取所述尺度缩减后的特征图的一维特征序列,所述尺度缩减后的特征图的一维特征序列包括通过两组不同的线性映射获得的两个一维特征序列;
13、基于多头自注意力机制,对三个一维特征序列进行多头注意力计算;
14、将所述多头注意力计算的计算结果输入前馈神经网络中,以获取所述像素关联后的特征图。
15、在一些可选的实施例中,所述文本图像超分模型在训练过程中所采用的损失函数,包括:
16、l1损失函数、根据从所述文本图像数据集的第一文本图像中提取到的图像特征与从所述文本图像超分模型输出的第二文本图像中提取到的图像特征构建的感知损失函数、以及根据二值化后的第一文本图像的像素值和二值化后的第二文本图像的像素值构建的二值化损失函数;
17、其中,所述第一文本图像中的图像特征与所述第二文本图像的图像特征通过所述文本识别模型提取得到。
18、在一些可选的实施例中,所述构建文本图像数据集,包括:
19、获取若干个高分辨率的文本图像,并依次对所有高分辨率的文本图像进行以下退化处理,得到与所述若干个高分辨率的文本图像对应的若干个低分辨率的文本图像:
20、使高斯模糊核与所述高分辨率的文本图像进行卷积,以对所述高分辨率的文本图像进行模糊退化;
21、向所述高分辨率的文本图像中加入高斯噪声,以对所述高分辨率的文本图像进行噪声退化;
22、采用预设的退化算子对所述高分辨率的文本图像进行处理,或者对所述高分辨率的文本图像进行上采样处理和下采样处理;
23、采用二维sinc函数对所述高分辨率的文本图像进行退化处理;
24、对所述高分辨率的文本图像进行压缩处理。
25、在一些可选的实施例中,所述超分后的目标文本图像的像素数与超分前的目标文本图像的像素数相同。
26、在一些可选的实施例中,所述方法还包括:
27、获取所述待识别的目标文本图像的平均梯度,所述平均梯度用于评估所述目标文本图像的图像质量;
28、若所述目标文本图像的平均梯度小于或等于预设阈值,则将所述目标文本图像输入所述文本图像超分模型中,对所述目标文本图像进行超分。
29、在一些可选的实施例中,所述平均梯度的计算公式如下:
30、
31、其中,m、n分别表示所述目标文本图像的灰度图像在宽度和高度方向的像素总数,f(i,j)表示图像在坐标(i,j)处的像素值,δxf(i,j)表示图像在宽度方向的梯度,δyf(i,j)表示图像在高度方向的梯度。
32、本技术的实施例还提供了一种文本图像识别装置,包括:
33、样本数据获取模块,用于构建文本图像数据集,所述文本图像数据集包含若干个高分辨率的文本图像以及与所述若干个高分辨率的文本图像对应的若干个低分辨率的文本图像;
34、超分模型训练模块,用于采用所述文本图像数据集对预构建的文本图像超分网络进行训练,得到文本图像超分模型;
35、其中,所述文本图像超分网络包含特征提取层、尺度缩减自注意力层和输出层,所述特征提取层用于获取所述文本图像数据集中文本图像的特征图,所述尺度缩减自注意力层用于对所述特征图的像素进行自注意变换,建立所述特征图的各像素之间的关联关系,所述输出层用于根据像素关联后的特征图对所述文本图像进行超分;
36、图像超分模块,用于将待识别的目标文本图像输入所述文本图像超分模型中,得到超分后的目标文本图像;
37、文本识别模块,用于将所述超分后的目标文本图像输入预先训练好的文本识别模型中,得到所述目标文本图像的文本识别结果。
38、本技术的实施例还提供了一种计算机设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述文本图像识别方法。
39、本技术的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述文本图像识别方法。
40、本技术的实施例提供的文本图像识别方法,至少具有以下有益效果:
41、通过若干个高分辨率的文本图像以及与若干个高分辨率的文本图像对应的若干个低分辨率的文本图像对文本图像超分网络进行训练,可以得到文本图像超分模型,通过文本图像超分模型对待识别的目标文本图像进行超分,可以得到文字清晰度更高的文本图像,从而便于后续文本图像中文字的准确识别。
42、具体地,在文本图像超分网络中,特征提取层获取文本图像数据集中文本图像的特征图后,尺度缩减自注意力层可以对特征图的像素进行自注意变换,建立特征图的各像素之间的关联关系,从而增强了文本图像超分模型对文本图像的特征提取能力,进一步提升了对文本图像的超分效果,即进一步提升了文本图像中文字的清晰度。因此,在对超分后的目标文本图像进行文字识别时,可以进一步提升文本识别的准确度。