文本识别方法、文本识别模型的训练方法、装置及设备与流程

文档序号：34011112发布日期：2023-04-29 22:30阅读：33来源：国知局

本公开涉及人工智能，具体为深度学习、图像处理、计算机视觉，可应用于ocr等场景。

背景技术：

1、自然场景下的文字检测识别技术(ocr)可以被广泛应用于社会的各行各业，如教育、医疗、金融等领域。由文字检测识别技术派生的常见卡证票据的识别、文档的自动化录入、拍照搜题等技术极大地提升了传统行业的智能化程度和生产效率，方便了人们的日常学习与生活。近年来，尽管自然场景下的端到端文字检测识别技术得到了快速发展，但是依然存在很多问题，并没有被很好的解决，如任意形状的文字检测识别，以及快速文本检测识别。因此，亟需改进。

技术实现思路

1、本公开提供了一种文本识别方法、文本识别模型的训练方法、装置及设备。

2、根据本公开的一方面，提供了一种文本识别方法，该方法包括：

3、根据文本图像分别确定文本图像特征和字符位置编码特征；

4、根据所述字符位置编码特征对所述文本图像特征进行采样，得到所述文本图像中至少一个字符的采样特征；

5、根据所述采样特征，对所述文本图像进行文本识别。

6、根据本公开的另一方面，提供了一种文本识别模型的训练方法，该方法包括：

7、根据文本图像分别确定文本图像特征和字符位置编码特征；

8、根据所述字符位置编码特征对所述文本图像特征进行采样，得到所述文本图像中至少一个字符的采样特征；

9、根据所述采样特征，对所述文本图像进行文本识别；

10、根据识别结果和文本图像的标签数据，对文本识别模型进行训练。

11、根据本公开的另一方面，提供了一种文本识别装置，该装置包括：

12、图像特征确定模块，用于根据文本图像分别确定文本图像特征和字符5位置编码特征；

13、采样特征确定模块，用于根据所述字符位置编码特征对所述文本图像特征进行采样，得到所述文本图像中至少一个字符的采样特征；

14、文本识别模块，用于根据所述采样特征，对所述文本图像进行文本识别。

15、0根据本公开的另一方面，提供了一种文本识别模型的训练装置，该装

16、置包括：

17、图像特征确定模块，用于根据文本图像分别确定文本图像特征和字符位置编码特征；

18、采样特征确定模块，用于根据所述字符位置编码特征对所述文本图像5特征进行采样，得到所述文本图像中至少一个字符的采样特征；

19、文本识别模块，用于根据所述采样特征，对所述文本图像进行文本识别；

20、文本识别模型训练模块，用于根据识别结果和文本图像的标签数据，对文本识别模型进行训练。

21、0根据本公开的另一方面，提供了一种电子设备，该电子设备包括：

22、至少一个处理器；以及

23、与所述至少一个处理器通信连接的存储器；其中，

24、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被

25、所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任一5实施例所述文本识别方法，或本公开任一实施例所述的文本识别模型的训

26、练方法。

27、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行本公开任一实

28、施例所述的文本识别方法，或本公开任一实施例所述的文本识别模型的训0练方法。

29、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开任一实施例所述的文本识别方法，或本公开任一实施例所述的文本识别模型的训练方法。

30、根据本公开的技术，能够提高文本图像中文本的识别精度。

31、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种文本识别方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述字符位置编码特征对所述文本图像特征进行采样，得到所述文本图像中至少一个字符的采样特征，包括：

3.根据权利要求1所述的方法，根据文本图像确定字符位置编码特征，包括：

4.根据权利要求2所述的方法，所述方法还包括：

5.根据权利要求4所述的方法，其中，所述检测框位置特征的特征维度由所述字符的形状决定。

6.一种文本识别模型的训练方法，包括：

7.一种文本识别装置，包括：

8.根据权利要求7所述的装置，其中，所述采样特征确定模块具体用于：

9.根据权利要求7所述的装置，所述图像特征确定模块具体用于：

10.根据权利要求8所述的装置，所述装置还包括：

11.根据权利要求10所述的装置，其中，所述检测框位置特征的特征维度由所述字符的形状决定。

12.一种文本识别模型的训练装置，包括：

13.一种电子设备，包括：

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-5中任一项所述的文本识别方法，或权利要求6所述的文本识别模型的训练方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的文本识别方法，或权利要求6所述的文本识别模型的训练方法。

技术总结
本公开提供了一种文本识别方法、文本识别模型的训练方法、装置及设备，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于OCR等场景。具体实现方案为：根据文本图像分别确定文本图像特征和字符位置编码特征；根据所述字符位置编码特征对所述文本图像特征进行采样，得到所述文本图像中至少一个字符的采样特征；根据所述采样特征，对所述文本图像进行文本识别。通过上述技术方案，能够提高文本图像中文本的识别准确度。

技术研发人员：吕鹏原,范森,章成全,姚锟
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：
技术公布日：2024/1/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕鹏原范森章成全姚锟
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种摆盘机输送线用可调节轨道的制作方法
上一篇：一种超级电容器模组混合散热系统

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。