一种基于动态采样的端到端文字识别方法

文档序号：35857399发布日期：2023-10-26 05:08阅读：51来源：国知局

本发明属于计算机视觉与人工智能，尤其涉及一种基于动态采样的端到端文字识别方法。

背景技术：

1、端到端文字识别作为计算机视觉的重要任务，其目的在于提取图片中的文字。随着深度学习技术和相关硬件的发展，越来越多的基于深度学习的文字识别网络被应用于实际生产和生活。通常的端到端文字识别方法包括了两个子网络，检测网络和识别网络。检测网络负责定位出图像中文本的位置。识别网络负责把检测网络定位出来的文本区域采样出来，并且把文字内容也提取出来。使用不同的采样方法对检测网络定位出来的文本区域采样会极大的影响最终的识别性能。因而，连接检测网络和识别网络成为了一项重要的研究课题。虽然有一些方法尝试将设计一些采样算子，以此来为识别网络采样出检测网络定位出来的文本区域。但是，这些采样算子都是静态的，只能在固定的网格上采样，容易采样到背景区域而忽略实际的文本位置，导致了背景复杂、形状多种多样、尺度差异大的文本的识别效果仍然较差。其次，这些采样算子需要搭配专用的检测网络和识别网络来使用，通用性较差。

技术实现思路

1、本发明为了实现端到端文字识别，提供了一种基于动态采样的端到端文字识别方法，该方法可以为识别网络动态的采样特征，可以极大地提升识别准确率，具有很高的使用价值。

2、为实现上述目的，本发明提供了一种基于动态采样的端到端文字识别方法，包括以下步骤：

3、获取待处理的文本图像；

4、将所述待处理的文本图像输入文本检测模型，获取待处理图像中的文字区域；

5、将所述文字区域输入动态采样模型，获取与所述文字区域对应的文字视觉特征；

6、将所述文字视觉特征输入识别模型，获取识别结果。

7、可选的，所述文本检测模型采用稀疏的rcnn模型；

8、所述稀疏的rcnn模型包括多头注意力机制、全连接层、动态卷积层、layernorm归一化操作、dropout操作和激活层。

9、可选的，将所述待处理的文本图像输入所述文本检测模型，获得所述待处理图像中的文字区域包括：

10、利用transformer编码器对所述文本图像进行特征提取，获取特征图；

11、基于卷积层，预先对所述特征图进行粗检测，获取若干个候选区域；

12、利用roi align对若干个所述候选区域进行特征提取，获取所述特征图对应区域的视觉特征；

13、基于所述稀疏的rcnn模型，利用所述视觉特征对若干个所述候选区域进行校正，获取所述待处理图像中的文字区域。

14、可选的，基于所述稀疏的rcnn模型，利用所述视觉特征对若干个所述候选区域进行校正，获取所述待处理图像中的文字区域包括：

15、对若干个所述候选区域进行随机初始化，获取若干个候选特征，若干个所述候选区域和若干个所述候选特征一一对应；

16、若干个所述候选特征通过所述多头注意力机制后与若干个所述候选特征进行相加并进行layernorm归一化，再通过全连接层，获取卷积核的权重；

17、基于所述卷积核的权重对所述视觉特征进行卷积操作、layernorm归一化和激活操作，并利用所述全连接层输出若干个偏移量；

18、利用若干个所述偏移量对若干个所述候选区域进行校正，获取校正候选区域及校正候选特征；

19、所述校正候选区域利用roi align进行特征提取，并输入下一层所述稀疏的rcnn模型，直至获取所述待处理图像中的文字区域。

20、可选的，所述动态采样模型包括低层次注意力模型、高层次注意力模型、可形变卷积采样模型、识别转换模型。

21、可选的，将所述文字区域输入所述动态采样模型，获取与所述文字区域对应的文字视觉特征包括：

22、将所述文字区域分别输入所述低层次注意力模型和所述高层次注意力模型，获取低层次语义级别的特征和高层次语义级别的特征；

23、将所述低层次语义级别的特征和所述高层次语义级别的特征进行拼接操作，并输入所述可形变卷积采样模型进行特征提取，获取动态采样特征；

24、将所述动态采样特征和所述校正候选特征输入所述识别转换模型进行融合，获取与所述文字区域对应的文字视觉特征。

25、可选的，将所述文字区域分别输入所述低层次注意力模型和所述高层次注意力模型，获取所述低层次语义级别的特征和所述高层次语义级别的特征包括：

26、将所述文字区域进行划分，获取若干个小窗口并进行注意力机制的计算，获取所述低层次语义级别的特征；

27、利用平均池化操作将所述待处理图像中的文字区域进行缩小，并全局地进行注意力机制的计算，获取所述高层次语义级别的特征。

28、可选的，所述可形变卷积采样模型包括可形变卷积层、卷积层、batchnorm归一化层和gelu激活层。

29、可选的，将所述低层次语义级别的特征和所述高层次语义级别的特征进行拼接操作，并输入所述可形变卷积采样模型进行特征提取，获取所述动态采样特征包括：

30、将所述低层次语义级别的特征和所述高层次语义级别的特征进行拼接，获取拼接后的特征；

31、所述可形变卷积层利用所述拼接后的特征进行预测，获取偏移量；

32、基于所述偏移量，所述可形变卷积层对所述拼接后的特征进行采样，获取采样后的特征；

33、利用所述batchnorm归一化层和所述gelu激活层对所述采样后的特征进行归一化和激活，获取归一化和激活后的特征；

34、利用所述卷积层对所述归一化和激活后的特征进行下采样，获取所述动态采样特征。

35、可选的，将所述文字视觉特征输入所述识别模型，获取所述识别结果包括：

36、采用二维注意力机制将所述文字视觉特征转换成字符序列，获取所述识别结果。

37、本发明具有以下有益效果：

38、(1)本发明通过提出动态采样网络可以动态的在特征图上进行有效的采样，不再将使用静态的采样算子，避开了采样到背景区域而忽略实际的文本位置。

39、(2)本发明提出了一种基于稀疏的rcnn网络的检测网络；这种检测网络避免以前方法中的密集预测，减轻了计算负担；可以让不同文本间也得到交互从而增强检测的准确率。

40、(3)本发明识别准确率高、鲁棒性强，适用于各种端到端识别网络。

41、(4)本发明利用动态采样网络来连接文本检测和文本识别网络，能够识别各种场景下复杂多样的文字，适用于不同机制的端到端文字识别方法，并在各个公开的数据集上达到了较高的准确率，具有极高的实用性和应用价值。

技术特征：

1.一种基于动态采样的端到端文字识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于动态采样的端到端文字识别方法，其特征在于，所述文本检测模型采用稀疏的rcnn模型；

3.如权利要求2所述的基于动态采样的端到端文字识别方法，其特征在于，将所述待处理的文本图像输入所述文本检测模型，获得所述待处理图像中的文字区域包括：

4.如权利要求3所述的基于动态采样的端到端文字识别方法，其特征在于，基于所述稀疏的rcnn模型，利用所述视觉特征对若干个所述候选区域进行校正，获取所述待处理图像中的文字区域包括：

5.如权利要求4所述的基于动态采样的端到端文字识别方法，其特征在于，所述动态采样模型包括低层次注意力模型、高层次注意力模型、可形变卷积采样模型、识别转换模型。

6.如权利要求5所述的基于动态采样的端到端文字识别方法，其特征在于，将所述文字区域输入所述动态采样模型，获取与所述文字区域对应的文字视觉特征包括：

7.如权利要求6所述的基于动态采样的端到端文字识别方法，其特征在于，将所述文字区域分别输入所述低层次注意力模型和所述高层次注意力模型，获取所述低层次语义级别的特征和所述高层次语义级别的特征包括：

8.如权利要求6所述的基于动态采样的端到端文字识别方法，其特征在于，所述可形变卷积采样模型包括可形变卷积层、卷积层、batchnorm归一化层和gelu激活层。

9.如权利要求8所述的基于动态采样的端到端文字识别方法，其特征在于，将所述低层次语义级别的特征和所述高层次语义级别的特征进行拼接操作，并输入所述可形变卷积采样模型进行特征提取，获取所述动态采样特征包括：

10.如权利要求1所述的基于动态采样的端到端文字识别方法，其特征在于，将所述文字视觉特征输入所述识别模型，获取所述识别结果包括：

技术总结
本发明公开了一种基于动态采样的端到端文字识别方法，包括以下步骤：获取待处理的文本图像；将所述待处理的文本图像输入文本检测模型，获取待处理图像中的文字区域；将所述文字区域输入动态采样模型，获取与所述文字区域对应的文字视觉特征；将所述文字视觉特征输入识别模型，获取识别结果。本发明利用动态采样网络来连接文本检测和文本识别网络，能够识别各种场景下复杂多样的文字，适用于不同机制的端到端文字识别方法，并在各个公开的数据集上达到了较高的准确率，具有极高的实用性和应用价值。

技术研发人员：金连文,黄明鑫,刘禹良
受保护的技术使用者：华南理工大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金连文黄明鑫刘禹良
技术所有人：华南理工大学
我是此专利的发明人

上一篇：打印文件处理方法和装置与流程
上一篇：一种用于驱动多DPU协同工作的驱动方法和系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。