文字识别方法、装置、存储介质及电子设备与流程

文档序号：37194361发布日期：2024-03-01 13:07阅读：15来源：国知局

本发明涉及人工智能，具体而言，涉及一种文字识别方法、装置、存储介质及电子设备。

背景技术：

1、相关技术中，一般采用传统的ocr(光学字符识别)识别模型对图片中的文字进行识别，以将图片中的文字提取为可编辑的文本，但是ocr识别模型在处理复杂的手写字体、模糊或不清晰的图像、变形或扭曲的文字等方面文字识别的准确率较低，可能会出现识别错误或漏识别的情况，并且ocr识别模型对格式要求较高，例如，对图像的低分辨率、光线不均匀、倾斜、反光等问题较敏感，可能会导致识别结果不准确的情况。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本发明实施例提供了一种文字识别方法、装置、存储介质及电子设备，以至少解决相关技术中对文字进行识别的准确率低的技术问题。

2、根据本发明实施例的一个方面，提供了一种文字识别方法，包括：响应文字识别请求，获取待识别图片；将所述待识别图片输入目标识别模型中的第一特征模型，输出第一特征图，其中，所述目标识别模型为通过对比学习策略进行模型训练得到的模型，所述目标识别模型中至少包括：所述第一特征模型，第二特征模型和线性层，所述第一特征模型用于对所述待识别图片进行压缩处理，所述第二特征模型用于建立所述第一特征图中文字的上下文关系，所述线性层用于对所述第二特征模型输出的特征图进行文字识别；将所述第一特征图输入所述第二特征模型，输出第二特征图；将所述第二特征图输入所述线性层，输出所述待识别图片的文字识别结果。

3、进一步地，所述目标识别模型通过以下方式得到：获取训练样本，其中，所述训练样本包括t类图片以及每类所述图片中每张图片的训练标签，每张图片的训练标签包括：表示该张图片中文字的标识，t为正整数；将所述训练样本中的t类图片分批次输入初始识别模型进行模型训练，并基于目标损失函数判断所述初始识别模型是否收敛；在所述初始识别模型收敛的情况下，将该初始识别模型作为所述目标识别模型。

4、进一步地，t类所述图片下述至少之一：第一类图片、第二类图片、第三类图片，所述第一类图片包括：同一张图像具有相同文字的多张图片，所述第二类图片包括：非同一张图片具有相同文字的多张图片，所述第三类图片包括：具有不同文字的多张图片。

5、进一步地，将所述训练样本中的t类图片分批次输入初始识别模型进行模型训练，包括：在输入所述初始识别模型的图片为所述第一类图片的情况下，基于所述第一类图片中每张图片的训练标签，提取所述第一类图片中相同文字，并将所述第一类图片中相同文字组成第一特征对，基于所述第一特征对对所述初始识别模型进行模型训练；在输入所述初始识别模型的图片为所述第二类图片的情况下，基于所述第二类图片中每张图片的训练标签，提取所述第二类图片中相同文字，并将所述第二类图片中相同文字组成第二特征对，基于所述第二特征对对所述初始识别模型进行模型训练；在输入所述初始识别模型的图片为所述第三类图片的情况下，基于所述第三类图片中每张图片的训练标签，提取所述第三类图片中的不同文字，并将所述第三类图片中的不相同文字组成第三特征对，基于所述第三特征对对所述初始识别模型进行模型训练。

6、进一步地，目标损失函数至少包括：基于t类所述图片中表示相同文字的特征对和t类所述图片中表示不同文字的特征对构建的损失函数。

7、进一步地，所述第二特征模型的模型类型包括：双向长短期记忆网络模型，在将所述第一特征图输入所述第二特征模型之后，还包括：基于所述第一特征图的宽度方向，建立所述第一特征图中文字的上下文的关联关系；基于第一特征图中文字的上下文的关联关系，确定所述第二特征图。

8、进一步地，获取待识别图片，包括：获取原始图片，其中，所述原始图片包括文字信息；基于所述文字信息的位置，对所述原始图片进行截取，得到所述待识别图片。

9、根据本发明实施例的另一方面，还提供了一种文字识别装置，包括：获取单元，用于响应文字识别请求，获取待识别图片；第一处理单元，用于将所述待识别图片输入目标识别模型中的第一特征模型，输出第一特征图，其中，所述目标识别模型为通过对比学习策略进行模型训练得到的模型，所述目标识别模型中至少包括：所述第一特征模型，第二特征模型和线性层，所述第一特征模型用于对所述待识别图片进行压缩处理，所述第二特征模型用于建立所述第一特征图中文字的上下文关系，所述线性层用于对所述第二特征模型输出的特征图进行文字识别；第二处理单元，用于将所述第一特征图输入所述第二特征模型，输出第二特征图；第三处理单元，用于将所述第二特征图输入所述线性层，输出所述待识别图片的文字识别结果。

10、进一步地，所述目标识别模型通过以下单元得到：样本获取单元，用于获取训练样本，其中，所述训练样本包括t类图片以及每类所述图片中每张图片的训练标签，每张图片的训练标签包括：表示该张图片中文字的标识，t为正整数；第四处理单元，用于将所述训练样本中的t类图片分批次输入初始识别模型进行模型训练，并基于目标损失函数判断所述初始识别模型是否收敛；第五处理单元，用于在所述初始识别模型收敛的情况下，将该初始识别模型作为所述目标识别模型。

11、进一步地，t类所述图片下述至少之一：第一类图片、第二类图片、第三类图片，所述第一类图片包括：同一张图像具有相同文字的多张图片，所述第二类图片包括：非同一张图片具有相同文字的多张图片，所述第三类图片包括：具有不同文字的多张图片。

12、进一步地，第四处理单元包括：第一处理子单元，用于在输入所述初始识别模型的图片为所述第一类图片的情况下，基于所述第一类图片中每张图片的训练标签，提取所述第一类图片中相同文字，并将所述第一类图片中相同文字组成第一特征对，基于所述第一特征对对所述初始识别模型进行模型训练；第二处理子单元，用于在输入所述初始识别模型的图片为所述第二类图片的情况下，基于所述第二类图片中每张图片的训练标签，提取所述第二类图片中相同文字，并将所述第二类图片中相同文字组成第二特征对，基于所述第二特征对对所述初始识别模型进行模型训练；第三处理子单元，用于在输入所述初始识别模型的图片为所述第三类图片的情况下，基于所述第三类图片中每张图片的训练标签，提取所述第三类图片中的不同文字，并将所述第三类图片中的不相同文字组成第三特征对，基于所述第三特征对对所述初始识别模型进行模型训练。

13、进一步地，目标损失函数至少包括：基于t类所述图片中表示相同文字的特征对和t类所述图片中表示不同文字的特征对构建的损失函数。

14、进一步地，所述第二特征模型的模型类型包括：双向长短期记忆网络模型，文字识别装置还包括：建立单元，用于在将所述第一特征图输入所述第二特征模型之后，基于所述第一特征图的宽度方向，建立所述第一特征图中文字的上下文的关联关系确定单元，用于基于第一特征图中文字的上下文的关联关系，确定所述第二特征图。

15、进一步地，获取单元包括：获取子单元，用于获取原始图片，其中，所述原始图片包括文字信息；截取子单元，用于基于所述文字信息的位置，对所述原始图片进行截取，得到所述待识别图片。

16、根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的文字识别方法。

17、根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的文字识别方法。

18、在本发明中，响应文字识别请求，获取待识别图片；将待识别图片输入目标识别模型中的第一特征模型，输出第一特征图，其中，目标识别模型为通过对比学习策略进行模型训练得到的模型，目标识别模型中至少包括：第一特征模型，第二特征模型和线性层，第一特征模型用于对待识别图片进行压缩处理，第二特征模型用于建立第一特征图中文字的上下文关系，线性层用于对第二特征模型输出的特征图进行文字识别；将第一特征图输入第二特征模型，输出第二特征图；将第二特征图输入线性层，输出待识别图片的文字识别结果。进而解决了相关技术中对文字进行识别的准确率低的技术问题。在本发明中，基于对比学习策略得到目标识别模型，通过目标识别模型对待识别图片中的文字进行识别，避免了相关技术中ocr识别模型的文字识别准确率低的情况，从而实现了提高文字识别准确率的技术效果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：方徐伟
技术所有人：天翼电子商务有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。