利用单个标记解码的文本识别方法、系统、设备及介质

文档序号:37730670发布日期:2024-04-23 12:16阅读:7来源:国知局
利用单个标记解码的文本识别方法、系统、设备及介质

本发明涉及文本识别,尤其涉及一种利用单个标记解码的文本识别方法、系统、设备及介质。


背景技术:

1、文本识别是计算机视觉和自然语言处理领域的交叉任务,旨在识别图像中的文字内容,并将其转化为计算机可读取文本。该任务广泛应用在文档数字化,信息提取,自动驾驶等场景。

2、在当前的深度学习方法中,场景文本识别通常被视为一个序列标记问题。这些基于序列方法的处理流程一般采用图像到序列的编码器来提取视觉特征序列,随后通过序列到序列的解码器将其解码成文本序列。这些解码器通常有两种实现形式:基于注意力的方法和基于ctc(connectionist temporal classification,联结主义时间分类)的方法。具体来说,基于注意力的解码器利用交叉注意力机制,在预测不同字符时关注视觉特征序列的不同部分。例如,在识别单词“kevin”时,解码器会通过主动查询特定的视觉特征,依次识别每个字符——k、e、v、i、n。然而,这类方法的效果严重依赖于注意力图的准确性,复杂场景下的注意力偏移或者注意漂移可能会严重影响性能,导致准确率大幅下降。相比之下,基于ctc的方法通常为每个预期字符分配一个唯一的输出标记,并引入特殊的空白标签来缓解对齐问题。但是,这种方法经常需要大量的后处理来处理空白和重复字符,在复杂场景中处理起来颇具挑战。

3、有鉴于此,特提出本发明。


技术实现思路

1、本发明的目的是提供一种利用单个标记解码的文本识别方法、系统、设备及介质,可以显著提升场景文本识别性能,特别是在弯曲文本、多方向文本和艺术字上提升尤为显著。

2、本发明的目的是通过以下技术方案实现的:

3、一种利用单个标记解码的文本识别方法,包括:

4、步骤1、对输入图像进行多粒度语义特征的提取,并将多粒度语义特征聚合为单个全局语义标记,形成全局语义特征;

5、步骤2、基于通道级并行注意力机制对全局语义特征进行增强处理,并通过建模语言规则,预测出文本识别结果。

6、一种利用单个标记解码的文本识别系统,系统包括:文本识别器,通过所述文本识别器实现文本识别;

7、所述文本识别器包括:

8、图像到向量编码器,用于对输入图像进行多粒度语义特征的提取,并将多粒度语义特征聚合为单个全局语义标记,形成全局语义特征;

9、向量到序列解码器,用于基于通道级并行注意力机制对全局语义特征进行增强处理,并通过建模语言规则,预测出文本识别结果。

10、一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

11、其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。

12、一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。

13、由上述本发明提供的技术方案可以看出,在语义特征提取阶段,可以从图像中提取和压缩关键语义特征的有效性,同时过滤掉噪声或不相关的细节;并且设计了一种新颖的向量到序列范式,从全局语义特征中解码出字符预测(即文本识别结果),与传统方法在二维空间框架内分析特征不同,本发明使用全局语义特征,并在通道维度上解码字符信息,此外,将引入了序列语言建模。得益于上述改进,本发明显著提升了模型的场景文本识别性能,在多个数据集上达到了先进水平。



技术特征:

1.一种利用单个标记解码的文本识别方法,其特征在于,包括:

2.根据权利要求1所述的一种利用单个标记解码的文本识别方法,其特征在于,所述对输入图像进行多粒度语义特征的提取,并将多粒度语义特征聚合为单个全局语义标记,形成全局语义特征包括:

3.根据权利要求1所述的一种利用单个标记解码的文本识别方法,其特征在于,所述结合全局语义特征与给定的位置编码获得增强特征,再利用通道级并行注意力机制结合增强特征生成通道注意力图,并与增强特征融合,获得经过通道级并行注意力层增强后特征包括:

4.根据权利要求1所述的一种利用单个标记解码的文本识别方法,其特征在于, 利用已预测的文本序列,获得融合特征表示为:

5.根据权利要求1或3或4所述的一种利用单个标记解码的文本识别方法,其特征在于,所述通过建模语言规则,预测出文本识别结果包括:

6.根据权利要求5所述的一种利用单个标记解码的文本识别方法,其特征在于,通过掩码多头注意力机制捕获解码特征中字符之间的语义依赖性表示为:

7.根据权利要求1所述的一种利用单个标记解码的文本识别方法,其特征在于,所述步骤1通过图像到向量的编码器实现,步骤2通过向量到序列的解码器实现,图像到向量的编码器与向量到序列的解码器形成文本识别器;所述文本识别器预先进行训练;

8.一种利用单个标记解码的文本识别系统,其特征在于,系统包括:文本识别器,通过所述文本识别器实现文本识别;

9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。


技术总结
本发明公开了一种利用单个标记解码的文本识别方法、系统、设备及介质,它们是一一对应的方案,方案中:在语义特征提取阶段,可以从图像中提取和压缩关键语义特征的有效性,同时过滤掉噪声或不相关的细节;并且设计了一种新颖的向量到序列范式,从全局语义特征中解码出字符预测(即文本识别结果),与传统方法在二维空间框架内分析特征不同,本发明使用全局语义特征,并在通道维度上解码字符信息,此外,将引入了序列语言建模。得益于上述改进,本发明显著提升了模型的场景文本识别性能,在多个数据集上达到了先进水平,特别是在弯曲文本、多方向文本和艺术字上提升尤为显著。

技术研发人员:谢洪涛,徐建军,张勇东,王裕鑫
受保护的技术使用者:中国科学技术大学
技术研发日:
技术公布日:2024/4/22
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1