一种数字仪表示数端到端识别方法

文档序号：34818291发布日期：2023-07-19 21:04阅读：30来源：国知局

本发明涉及端到端的场景文本观测，具体涉及一种数字仪表示数端到端识别方法。

背景技术：

1、目前文本检测(text detection)和文本识别(text recognition)通常被认为是两个独立的子问题。文本检测的输入往往是在自然场景中拍摄的图片，输出是图片中的各个文本的边界框；而文本识别的输入则是单一的文本图片，输出的是图片包含的文本内容。如果要完成从图像中读取文字符号的任务就需要将两者结合起来使用。但当把这些独立的方法组合成一个完整统一的场景文本阅读系统(scene text reading system)时，势必会引入额外的计算开销并消耗更多的系统资源。例如，把原始图片按照文本检测方法输出的文本边界框裁剪为单个待识别的文本图片时，会将裁剪下来的图片存放在磁盘中，等到文本识别时再从磁盘读取作为文本识别步骤的输入。此外，文本检测和文本识别模型在训练结束后得到的两套参数和权重值均是独立的，预测推理时也是独立调用，这会增加场景文本阅读系统的复杂性。

技术实现思路

1、针对现有技术中的上述不足，本发明提供了一种数字仪表示数端到端识别方法。

2、为了达到上述发明目的，本发明采用的技术方案为：

3、一种数字仪表示数端到端识别方法，包括以下步骤：

4、s1、获取原始数字仪表示数图像；

5、s2、从原始数字仪表示数图像中提取多张特征图，组成初始特征金字塔；

6、s3、对初始特征金字塔进行多尺度和多层次的特征融合，得到带有示数位置信息的特征图；

7、s4、对带有示数位置信息的特征图进行图像分割，生成概率图和阈值图；

8、s5、基于概率图和阈值图通过自适应可微二值化方法预测示数位置，得到近似二值图；

9、s6、以近似二值图作为二值掩膜，从带有示数位置信息的特征图中提取示数区域的特征图块；

10、s7、对示数区域的特征图块进行示数识别，得到数字仪表示数内容。

11、可选地，步骤s2包括以下分步骤：

12、s21、采用轻量级深度卷积神经网络从原始数字仪表示数图像中提取多张不同尺度的特征图；

13、s22、将提取的多张不同尺度的特征图经过卷积操作，调整为统一通道数的特征图；

14、s23、根据统一通道数的特征图组成初始特征金字塔。

15、可选地，步骤s3包括以下分步骤：

16、s31、对初始特征金字塔中每组相邻层的特征图进行向下融合操作，得到向下融合后的特征金字塔；

17、s32、对向下融合后的特征金字塔中每组相邻层的特征图进行自底向上路径增强操作，得到向上增强后的特征金字塔；

18、s33、对向上增强后的特征金字塔中各个特征图进行卷积操作，得到通道数减小至设定比例的特征图，再上采样至设定图像尺寸，将处理后的各个特征图串联得到带有示数位置信息的特征图。

19、可选地，步骤s31包括以下分步骤：

20、s311、对初始特征金字塔中每组相邻层的特征图，将高层特征图进行两倍双线性插值上采样，得到与低层特征图尺寸相同的特征图；

21、s312、将步骤s311得到的特征图与低层特征图逐元素相加，得到第一融合特征图；

22、s313、对第一融合特征图进行深度可分离卷积操作，得到与第一融合特征图通道数相同数量的单通道特征图；

23、s314、分别对步骤s313得到的各个单通道特征图进行逐点卷积操作，将所有单通道特征图在深度方向进行加权组合生成第二融合特征图。

24、可选地，步骤s4包括以下分步骤：

25、s41、构建示数区域分割网络模型；所述示数区域分割网络模型包括级联的第一卷积层、第一批标准化层、第一relu激活层、第一反卷积层、第二批标准化层、第二relu激活层、第二反卷积层、第三批标准化层和第三relu激活层；

26、s42、利用第一卷积层、第一批标准化层、第一relu激活层对带有示数位置信息的特征图进行处理，得到第一分割特征图；

27、s43、利用第一反卷积层、第二批标准化层、第二relu激活层对第一分割特征图进行处理，得到第二分割特征图；

28、s44、利用第二反卷积层、第三批标准化层和第三relu激活层对第二分割特征图进行处理，生成概率图和阈值图。

29、可选地，步骤s5具体包括：

30、根据步骤s4生成的概率图和阈值图，采用自适应可微二值化函数计算每个像素点的权重值，得到近似二值图。

31、可选地，步骤s6包括以下分步骤：

32、s61、以近似二值图作为二值掩膜，将带有示数位置信息的特征图与二值掩膜逐个元素相乘，得到过滤后的特征图；

33、s62、计算过滤后的特征图中包含目标示数区域的最小外接矩形；

34、s63、从过滤后的特征图中裁剪出所有最小外接矩形内的特征图块；

35、s64、将裁剪得到的特征图块统一调整为固定大小，得到示数区域的特征图块。

36、可选地，步骤s7包括以下分步骤：

37、s71、构造示数识别网络模型；所述示数识别网络模型包括启动器和解码器，所述启动器包括第一嵌入层和与第一嵌入层的连接的第一多头注意力层，所述解码器包括第二长短期记忆网络层以及分别与第二长短期记忆网络层连接的第二嵌入层、第二多头注意力层、第一长短期记忆网络层；

38、s72、利用启动器的第一嵌入层将字符序列开始标识转换为独热编码向量；

39、s73、利用启动器的第一多头注意力层根据示数区域的特征图块和独热编码向量提取字符序列开始标识的特征向量；

40、s74、利用解码器的第一长短期记忆网络层根据字符序列开始标识的特征向量和初始时间片的状态向量得到初始时间片的隐藏状态向量；

41、s75、利用解码器的第二嵌入层、第二长短期记忆网络层和第二多头注意力层根据初始时间片的隐藏状态向量、字符序列开始标识和示数区域的特征图块进行循环迭代，得到字符序列结束标识。

42、本发明具有以下有益效果：

43、本发明提供的数字仪表示数端到端识别方法的整体管线通过以上设计，可以有效减少每个步骤的时间开销，从而能够更好地实现符合实时识别要求的仪表示数识别系统。得益于上述的管线设计，数字仪表示数端到端识别方法在保持具有竞争力的准确性的同时还能够达到较高的推理速度。

技术特征：

1.一种数字仪表示数端到端识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种数字仪表示数端到端识别方法，其特征在于，步骤s2包括以下分步骤：

3.根据权利要求1所述的一种数字仪表示数端到端识别方法，其特征在于，步骤s3包括以下分步骤：

4.根据权利要求3所述的一种数字仪表示数端到端识别方法，其特征在于，步骤s31包括以下分步骤：

5.根据权利要求1所述的一种数字仪表示数端到端识别方法，其特征在于，步骤s4包括以下分步骤：

6.根据权利要求1所述的一种数字仪表示数端到端识别方法，其特征在于，步骤s5具体包括：

7.根据权利要求1所述的一种数字仪表示数端到端识别方法，其特征在于，步骤s6包括以下分步骤：

8.根据权利要求1所述的一种数字仪表示数端到端识别方法，其特征在于，步骤s7包括以下分步骤：

技术总结
本发明公开了一种数字仪表示数端到端识别方法，包括获取原始数字仪表示数图像；从原始数字仪表示数图像中提取多张特征图，组成初始特征金字塔；对初始特征金字塔进行多尺度和多层次的特征融合，得到带有示数位置信息的特征图；对带有示数位置信息的特征图进行图像分割，生成概率图和阈值图；基于概率图和阈值图通过自适应可微二值化方法预测示数位置，得到近似二值图；以近似二值图作为二值掩膜，从带有示数位置信息的特征图中提取示数区域的特征图块；对示数区域的特征图块进行示数识别，得到数字仪表示数内容。本发明可以有效减少每个步骤的时间开销，在保持具有竞争力的准确性的同时还能够达到较高的推理速度。

技术研发人员：饶云波,郭航瑞
受保护的技术使用者：电子科技大学长三角研究院（湖州）
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：饶云波郭航瑞
技术所有人：电子科技大学长三角研究院（湖州）
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。