文本识别模型训练方法、文本识别方法、装置及存储介质与流程

文档序号：34321450发布日期：2023-06-01 01:42阅读：43来源：国知局

本公开涉及人工智能，具体为深度学习、图像处理、计算机视觉，可应用于光学字符识别等场景。

背景技术：

1、近些年来，文字识别技术飞速发展。常见的通用场景，很多开源算法或者论文算法基本可以达到可用状态。然而，对于一些版式差异不同、形态变化较大、应用场景特点明显的多场景多分布输入，给文字识别系统带来了巨大挑战。此外，对于银行、保险公司、车管所、事业单位等具有很多卡证、票据、单据识别需求的单位，需要大量重复人工操作，包括拍照、审核、信息录入、系统比对等，也会出现场景较多、分布不均匀等问题，导致文字识别准确率较低。

技术实现思路

1、本公开提供了一种文本识别模型训练方法、文本识别方法、装置及存储介质。

2、根据本公开的第一方面，提供了一种文本识别模型训练方法，包括：

3、获取第一训练数据；

4、将第一训练数据输入待训练的目标模型；

5、获取目标模型基于第一训练数据输出的预测文本和预测掩码特征；

6、基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征，训练目标模型，得到文本识别模型。

7、根据本公开的第二方面，提供了一种文本识别方法，包括：

8、获取待识别图像；

9、获取待识别图像的k个图像，k个图像是对待识别图像做行级别划分后得到的，k为不小于1的整数；

10、将k个图像输入文本识别模型，获得文本识别模型根据k个图像输出的待识别图像的预测文本，该文本识别模型通过第一方面提供的文本识别模型训练方法训练获得。

11、根据本公开的第三方面，提供了一种文本识别模型训练装置，包括：

12、第一获取模块，用于获取第一训练数据；

13、第一输入模块，用于将第一训练数据输入待训练的目标模型；

14、第二获取模块，用于获取目标模型基于第一训练数据输出的预测文本和预测掩码特征；

15、第一训练模块，用于基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征，训练目标模型，得到文本识别模型。

16、根据本公开的第四方面，提供了一种文本识别装置，包括：

17、第五获取模块，用于获取待识别图像；

18、第六获取模块，用于获取待识别图像的k个图像，k个图像是对待识别图像做行级别划分后得到的，k为不小于1的整数；

19、识别模块，用于将k个图像输入文本识别模型，获得文本识别模型根据k个图像输出的待识别图像的预测文本，该文本识别模型通过第一方面提供的文本识别模型训练方法训练获得。

20、根据本公开的第五方面，提供了一种电子设备，包括：

21、至少一个处理器；

22、与至少一个处理器通信连接的存储器；

23、存储器存储有可以被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面提供的文本识别模型训练方法和/或第二方面提供的文本识别方法。

24、根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行第一方面提供的文本识别模型训练方法和/或第二方面提供的文本识别方法。

25、根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现第一方面提供的文本识别模型训练方法和/或第二方面提供的文本识别方法。

26、根据本公开的方案，能够提高文本识别的准确性。

27、上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

技术特征：

1.一种文本识别模型训练方法，包括：

2.根据权利要求1所述的方法，其中，所述基于所述预测文本、所述预测掩码特征、真实文本和被掩码掉的原始特征，训练所述目标模型，包括：

3.根据权利要求1所述的方法，其中，所述获取第一训练数据，包括：

4.根据权利要求1所述的方法，其中，所述目标模型包括第一编码器、解码器和预测器，其中，获取所述目标模型基于所述第一训练数据输出的预测文本，包括：

5.根据权利要求4所述的方法，其中，所述目标模型还包括第二编码器，所述第二编码器与所述解码器连接，其中，获取所述目标模型基于所述第一训练数据输出的预测掩码特征，包括：

6.根据权利要求1至5任一项所述的方法，还包括：

7.根据权利要求6所述的方法，其中，所述获取第二训练数据，包括：

8.一种文本识别方法，包括：

9.根据权利要求8所述的方法，其中，所述获得所述文本识别模型根据所述k个图像输出的所述待识别图像的预测文本，包括：

10.根据权利要求9所述的方法，其中，所述文本识别模型包括第一编码器、第二编码器和解码器，所述第一编码器和所述第二编码器分别与所述解码器连接；其中，

11.一种文本识别模型训练装置，包括：

12.根据权利要求11所述的装置，其中，所述第一训练模块，包括：

13.根据权利要求11所述的装置，其中，所述第一获取模块，还包括：

14.根据权利要求11所述的装置，其中，所述目标模型包括第一编码器、解码器和预测器，所述第二获取模块，包括：

15.根据权利要求14所述的装置，其中，所述目标模型还包括第二编码器，所述第二编码器与所述解码器连接，所述第二获取模块，包括：

16.根据权利要求11至15任一项所述的装置，还包括：

17.根据权利要求16所述的装置，其中，所述第三获取模块，包括：

18.一种文本识别装置，包括：

19.根据权利要求18所述的装置，其中，所述识别模块，包括：

20.根据权利要求19所述的装置，其中，所述文本识别模型包括第一编码器、第二编码器和解码器，所述第一编码器和所述第二编码器分别与所述解码器连接；其中，

21.一种电子设备，包括：

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。

技术总结
本公开提供了一种文本识别模型训练方法、文本识别方法、装置及存储介质。本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别等场景。具体实现方案为：获取第一训练数据；将第一训练数据输入待训练的目标模型；获取目标模型基于第一训练数据输出的预测文本和预测掩码特征；基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征，训练目标模型，得到文本识别模型。根据本公开的方案，能够提高文本识别的准确性。

技术研发人员：刘珊珊,吕鹏原,乔美娜,吴亮,章成全,姚锟
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘珊珊吕鹏原乔美娜吴亮章成全姚锟
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种应用于涡电流分选机的分料板调节装置的制作方法
上一篇：牙齿立体成像仪器

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。