文字的识别方法、装置、电子设备及存储介质与流程

文档序号：34238606发布日期：2023-05-24 23:56阅读：20来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及系统图像识别领域，尤其涉及一种文字的识别方法、装置、电子设备及存储介质。

背景技术：

1、随着社会信息化水平的提高，更多有用的信息以图像，视频的形式传播,图像中包含信息的提取就显得尤为重要。作为一种特殊且重要的信息来源,文本的检测与识别得到了广泛的研究与应用。在现有技术中，传统文字识别已经不能针对图像中不能较好的识别文字。

技术实现思路

1、本申请的目的在于提出一种文字的识别方法、装置、电子设备及存储介质，以识别图像中的各种文字。

2、第一方面，本申请提供了一种文字的识别方法，采用了如下的技术方案：

3、获取图像数据；

4、将图像数据输入至训练好的、融合cascade r-cnn模型以及mask r-cnn模型的第一神经网络模型，通过cascade r-cnn模型的结构将mask r-cnn模型中相邻的两个mask分支之间连接起来，以通过第一神经网络模型提取文本的位置信息；

5、根据位置信息获取图像文本数据；

6、将图像文本数据输入至训练好的、包括lstm模型和注意力模块的第二神经网络模型，通过注意力模块计算lstm模型的解码序列与lstm模型的编码序列之间的相似度，基于相似度得到文字识别结果。

7、第二方面，本申请提供了一种文字的识别装置，采用了如下的技术方案：

8、一种文字的识别装置，识别装置包括，包括信息获取模块、位置提取模块、文本获取模块和文字识别模块。

9、信息获取模块，用于获取图像数据；

10、位置提取模块，用于将图像数据输入至训练好的、融合cascade r-cnn模型以及mask r-cnn模型的第一神经网络模型，通过cascade r-cnn模型的结构将mask r-cnn模型中相邻的两个mask分支之间连接起来，以通过第一神经网络模型提取文本的位置信息；

11、文本获取模块，用于根据位置信息获取图像文本数据；

12、文字识别模块，用于将图像文本数据输入至训练好的、包括lstm模型和注意力模块的第二神经网络模型，通过注意力模块计算lstm模型的解码序列与lstm模型的编码序列之间的相似度，基于相似度得到文字识别结果。

13、第三方面，本申请提供了一种电子设备，包括至少一个连接的处理器、存储器，其中，存储器用于存储计算机可读指令，处理器用于调用存储器中的计算机可读指令来执行上述的文字的识别方法的步骤。

14、第四方面，本申请提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

15、第五方面，本申请提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。

16、可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

17、本申请与现有技术相比存在的有益效果是：

18、本申请融合了cascade r-cnn和mask r-cnn网络，融合后的网络一方面在模型训练阶段低交并比的预测结果不会被直接抛弃，而是会传递到后面的阶段，能够保证一直有充足数量的正样本参与训练，另一方面在模型预测阶段同样可以保证生产的预测值传递到下面的阶段质量能够越来越好，从而达到针对不同角度的文本和镜像文本有更高的检测能力，能够在不同的自然场景中均有较好的表现。同时本申请采用添加了attention注意力机制的lstm网络，通过attention机制让同一文本在不同的呈现方式下(镜像、翻转、旋转)均能够学习到较好的特征，从而针对镜像文字识别效果提升明显，远远降低了识别错误率。

技术特征：

1.一种文字的识别方法，其特征在于，所述识别方法包括：

2.如权利要求1所述的识别方法，其特征在于，所述识别方法还包括：

3.如权利要求2所述的识别方法，其特征在于，所述将所述图像文本数据输入至训练好的、包括lstm模型和注意力模块的第二神经网络模型，通过所述注意力模块计算所述lstm模型的解码序列与所述lstm模型的编码序列之间的相似度，基于所述相似度得到文字识别结果，包括：

4.如权利要求3所述的识别方法，其特征在于，所述基于所述输出值得到文字识别结果，包括：

5.如权利要求1所述的识别方法，其特征在于，在所述获取图像数据之后，所述识别方法还包括：

6.如权利要求1所述的识别方法，其特征在于，所述将所述图像文本数据输入至训练好的、包括lstm模型和注意力模块的第二神经网络模型，通过所述注意力模块计算所述lstm模型的解码序列与所述lstm模型的编码序列之间的相似度，基于所述相似度得到文字识别结果之后，所述识别方法还包括：

7.如权利要求1-6中任一项所述的识别方法，其特征在于，所述根据所述位置信息获取图像文本数据，包括：

8.一种文字的识别装置，其特征在于，所述识别装置包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。

技术总结
本申请适用于图像识别领域，提供了一种文字的识别方法，包括：获取图像数据；将图像数据输入至训练好的、融合Cascade R‑CNN模型以及Mask R‑CNN模型的第一神经网络模型，通过Cascade R‑CNN模型的结构将Mask R‑CNN模型中相邻的两个MASK分支之间连接起来，以通过第一神经网络模型提取文本的位置信息；根据位置信息获取图像文本数据；将图像文本数据输入至训练好的、包括LSTM模型和注意力模块的第二神经网络模型，通过注意力模块计算LSTM模型解码结果与LSTM模型编码结果之间的相似度，基于相似度得到文字识别结果。本申请还提供一种文字的识别装置、电子设备及存储介质。本申请旨在识别图像中的文字。

技术研发人员：田福康,翟军治,杨子江
受保护的技术使用者：交叉信息核心技术研究院（西安）有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田福康翟军治杨子江
技术所有人：西安深信科创信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。