图像的信息提取方法、装置、电子设备及存储介质与流程

文档序号：35931749发布日期：2023-11-05 08:04阅读：63来源：国知局

本技术涉及电子信息，更具体地，涉及一种图像的信息提取方法、装置、电子设备及存储介质。

背景技术：

1、随着音视频处理、人工智能等底层技术不断发展，涌现了各种各样的多媒体信息，而视频则成为一种极为常见的多媒体信息。相比于文本介质，视频有着更为丰富的内容和直观的表达能力。伴随着各种视频平台的兴起，多种多样的视频内容纷至沓来，用户对于视频内容的浏览以及消费兴趣更加强烈，需求也更加多样。

2、目前，可以在待识别的视频中选取视频帧，通过ocr(optical characterrecognition，光学字符识别技术)提取视频帧中的各个文本框以及各个文本框中的字符，再将各个文本框分别进行分类，得到各个文本框的分类结果，根据各个文本框的分类结果确定出满足需求的文本框，之后对满足需求的文本框中的字符进行分类，根据满足需求的文本框中各个字符的分类结果，对视频帧进行信息提取。

3、但是，采用该方法误差会不断累积，导致最后从视频帧中提取的信息的准确率较差。

技术实现思路

1、有鉴于此，本技术实施例提出了一种图像的信息提取方法、装置、电子设备及存储介质。

2、第一方面，本技术实施例提供了一种图像的信息提取方法，方法包括：获取图像中的多个文本框各自的属性信息以及每个文本框中的字符；根据多个文本框各自的属性信息以及每个文本框中的字符，构建候选特征集合，候选特征集合包括每个文本框各自对应的候选特征以及每个字符各自对应的候选特征；通过注意力机制对候选特征集合中的候选特征进行聚合，得到聚合特征集合，聚合特征集合包括每个文本框各自对应的聚合特征以及每个字符各自对应的聚合特征；根据聚合特征集合中每个文本框对应的聚合特征，确定每个文本框各自的预测分类结果，并根据聚合特征集合中每个字符对应的聚合特征，确定每个字符各自的预测分类结果；根据每个文本框各自的预测分类结果以及每个字符各自的预测分类结果，对图像进行信息提取。

3、第二方面，本技术实施例提供了一种图像的信息提取装置，装置包括：获取模块，用于获取图像中的多个文本框各自的属性信息以及每个文本框中的字符；构建模块，用于根据多个文本框各自的属性信息以及每个文本框中的字符，构建候选特征集合，候选特征集合包括每个文本框各自对应的候选特征以及每个字符各自对应的候选特征；聚合模块，用于通过注意力机制对候选特征集合中的候选特征进行聚合，得到聚合特征集合，聚合特征集合包括每个文本框各自对应的聚合特征以及每个字符各自对应的聚合特征；分类模块，用于根据聚合特征集合中每个文本框对应的聚合特征，确定每个文本框各自的预测分类结果，并根据聚合特征集合中每个字符对应的聚合特征，确定每个字符各自的预测分类结果；提取模块，用于根据每个文本框各自的预测分类结果以及每个字符各自的预测分类结果，对图像进行信息提取。

4、可选地，聚合模块，还用于通过注意力机制计算每个候选特征与候选特征集合中各个候选特征之间的相关性，作为每个候选特征各自的目标相关性；根据每个候选特征的目标相关性，确定每个候选特征对应的聚合特征。

5、可选地，当目标相关性是权重时，聚合模块，还用于将每个候选特征分别映射到第一特征空间以及第二特征空间；根据每个候选特征在第一特征空间以及第二特征空间中的映射结果，确定每个候选特征各自的权重。

6、可选地，构建模块，还用于根据多个文本框各自的位置信息以及每个文本框中的字符的排列顺序，构建字符序列，字符序列包括多个文本框中的字符；根据字符序列以及多个文本框各自的属性信息，构建候选特征集合。

7、可选地，构建模块，还用于对每个文本框的属性信息进行特征编码，得到每个文本框各自的候选特征；对字符序列中的每个字符进行特征编码，得到每个字符的候选特征；根据多个文本框各自的位置信息、字符序列中的各个字符的排列顺序、每个文本框各自的候选特征以及每个字符的候选特征，得到候选特征集合。

8、可选地，聚合模块，还用于将候选特征集合中的每个候选特征输入特征提取网络进行注意力机制运算，得到特征提取网络输出的每个候选特征各自的聚合特征。

9、可选地，分类模块，还用于将聚合特征集合中每个文本框对应的聚合特征输入文本框分类器，得到文本分类器输出的每个文本框各自的预测分类结果。

10、可选地，分类模块，还用于将聚合特征集合中每个字符对应的聚合特征输入字符分类器，得到字符分类器输出的每个字符各自的预测分类结果。

11、可选地，聚合特征通过特征提取网络获得，每个文本框各自的分类结果通过文本框分类器获得，每个字符各自的分类结果通过字符分类器获得；装置还包括训练模块，用于获取训练样本，训练样本包括样本图像中的多个样本文本框各自的属性信息、每个样本文本框中的样本字符、每个样本文本框的真实分类结果以及每个样本字符的真实分类结果；根据多个样本文本框各自的属性信息以及每个样本文本框中的样本字符，创建样本候选特征集合，样本候选特征集合包括每个样本文本框各自对应的样本候选特征以及每个样本字符各自对应的样本候选特征；通过初始特征提取网络中的注意力机制对样本候选特征集合中的样本候选特征进行聚合，得到样本聚合特征集合，样本候选特征集合包括每个样本文本框各自对应的样本聚合特征以及每个样本字符各自对应的样本聚合特征；将样本聚合特征集合中每个样本文本框对应的样本聚合特征输入第一分类器，得到每个样本文本框各自的预测分类结果；将样本聚合特征集合中每个样本字符对应的样本聚合特征输入第二初始分类器，得到每个样本字符各自的预测分类结果；根据每个样本文本框各自的真实分类结果以及预测分类结果，确定第一损失值；根据每个样本字符各自的真实分类结果以及预测分类结果，确定第二损失值；根据第一损失值以及第二损失值，对初始特征提取网络、第一分类器以及第二分类器训练，得到初始特征提取网络对应的特征提取网络、第一分类器对应的文本框分类器以及第二分类器对应的字符分类器。

12、可选地，装置还包括图像获取模块，用于获取待识别的视频；按照预设规则从待识别的视频中确定目标视频帧作为图像，预设规则包括按照预设时间间隔选取目标视频帧和/或相邻两个视频帧之间的内容变化超过变化阈值时选取相邻两帧中的后一个视频帧作为目标视频帧。

13、可选地，装置还包括视频处理模块，用于获取每个图像的信息提取结果；根据多个图像各自的信息提取结果，确定待识别的视频的视频分析结果；根据视频分析结果对待识别的视频进行目标处理，目标处理包括视频存储处理、视频分类处理以及视频标记处理中的至少一者。

14、第三方面，本技术实施例提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。

15、第四方面，本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，其中，在程序代码被处理器运行时执行上述的方法。

16、第五方面，本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述的方法。

17、本技术实施例提供的一种图像的信息提取方法、装置、电子设备及存储介质，在本技术中，可以根据图像中的多个文本框各自的属性信息以及各个文本框中的字符，得到包括每个所述文本框各自对应的聚合特征以及每个所述字符各自对应的聚合特征的聚合特征集合，再通过聚合特征集合得到每个所述文本框各自的预测分类结果以及每个所述字符各自的预测分类结果，最后根据每个所述文本框各自的预测分类结果以及每个所述字符各自的预测分类结果，对所述图像进行信息提取，实现了文本框以及字符的并行分类处理，避免了对文本框以及字符串行分类处理所导致的信息传递效率较低、误差累积的情况发生，从而提高了图像中信息提取的准确率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘烨
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：用于预测可用作机器中的输送机的环形柔性构件的维护的系统的制作方法
上一篇：电子组件的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。