一种文字识别方法、系统以及相关装置与流程

文档序号：37260056发布日期：2024-03-12 20:38阅读：13来源：国知局

本申请涉及文字识别，特别是涉及一种文字识别方法、系统以及相关装置。

背景技术：

1、随着信息化和智能化的不断发展，文字识别成为信息收集的重要方式。目前的文字识别方法主要是通过将图像内的文本划分为多个独立字符，并对每个独立字符进行单独识别，在利用该方式进行识别时效率较低，且无法结合相邻独立字符之间的关联信息，导致识别准确性较低。另一种常用的文字识别方法是对图像内的文本依次进行识别，并且对当前文字进行识别时结合所有历史解码结果，导致识别过程消耗的计算量较大，识别成本较低。有鉴于此，如何提供一种识别效率高且准确性高的文字识别方法，成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种文字识别方法、系统以及相关装置，能够提高文字识别的效率和准确性。

2、为解决上述技术问题，本申请采用的一个技术方案是：提供一种文字识别方法，包括：获取待识别图像的初始特征；基于上一解码轮次对应的解码区域，获取当前解码轮次中所述待识别图像对应的解码步长；其中，所述解码区域与所述待识别图像中的部分区域匹配；基于所述解码步长和所述初始特征，获取所述当前解码轮次对应的当前解码特征；基于所述当前解码特征，获取所述当前解码轮次对应的解码文字。

3、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种文字识别系统，包括：特征提取模块，用于获取待识别图像的初始特征；步长预测模块，用于基于上一解码轮次对应的所述待识别图像中的解码区域，获取当前解码轮次中所述待识别图像对应的解码步长；解码特征获取模块，用于基于所述解码步长和所述初始特征，获取所述当前解码轮次对应的当前解码特征；解码模块，用于基于所述当前解码特征，获取所述当前解码轮次对应的解码文字。

4、为解决上述技术问题，本申请采用的又一个技术方案是：提供一种电子设备，包括：相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现如上述技术方案中提到的文字识别方法。

5、为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现如上述技术方案中提到的文字识别方法。

6、本申请的有益效果是：区别于现有技术的情况，本申请提出的文字识别方法，对待识别图像中的文本进行多个轮次的解码。不同解码轮次下根据相应的解码难度，确定相应的解码步长，以实现解码步长的自适应调整，即解码步长越长，则对应解码轮次所需解码的文字数量越多。该方式使得在保证识别准确性的基础上，提高了识别的效率。另外，通过在当前解码轮次中参考上一解码轮次对应的信息，进一步提高了识别的准确性。

技术特征：

1.一种文字识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述待识别图像输入训练后的文字识别模型后得到所述解码文字，所述文字识别模型包括特征提取网络、步长预测网络、注意力网络和解码网络；

3.根据权利要求2所述的方法，其特征在于，所述基于上一解码轮次对应的解码区域，获取当前解码轮次中所述待识别图像对应的解码步长，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述解码步长和所述初始特征，获取所述当前解码轮次对应的当前解码特征，包括：

5.根据权利要求2所述的方法，其特征在于，所述基于所述当前解码特征，获取所述当前解码轮次对应的解码文字，包括：

6.根据权利要求2所述的方法，其特征在于，所述基于所述当前解码特征，获取所述当前解码轮次对应的解码文字之后，包括：

7.根据权利要求2所述的方法，其特征在于，所述文字识别模型的训练方法包括：

8.根据权利要求7所述的方法，其特征在于，所述第一训练样本标注有第一文字标签，所述基于所述第一训练样本及其对应的所述参考步长，对所述文字识别模型中的所述特征提取网络、所述注意力网络和所述解码网络进行训练，得到初步训练后的所述文字识别模型，包括：

9.根据权利要求7所述的方法，其特征在于，所述第二训练样本标注有第二文字标签，所述利用所述第二训练样本至少对初步训练后的所述文字识别模型中的所述步长预测网络进行训练，得到训练后的所述文字识别模型，包括：

10.一种文字识别系统，其特征在于，包括：

11.一种电子设备，其特征在于，包括：相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现如权利要求1-9中任一项所述的文字识别方法。

12.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1-9中任一项所述的文字识别方法。

技术总结
本申请公开了一种提供一种文字识别方法、系统以及相关装置，该方法包括：获取待识别图像的初始特征；基于上一解码轮次对应的解码区域，获取当前解码轮次中所述待识别图像对应的解码步长；其中，所述解码区域与所述待识别图像中的部分区域匹配；基于所述解码步长和所述初始特征，获取所述当前解码轮次对应的当前解码特征；基于所述当前解码特征，获取所述当前解码轮次对应的解码文字。通过上述方式，本申请能够提高文字识别的效率和准确性。

技术研发人员：刘辰宇,胡金水,殷保才,殷兵,谢名亮
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：
技术公布日：2024/3/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘辰宇,胡金水,殷保才,殷兵,谢名亮
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：自适应变阻抗控制方法和装置、电子设备及存储介质
上一篇：一种NMP废液回收循环装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。