信息提取方法、装置及介质与流程

文档序号:28972083发布日期:2022-02-19 17:28阅读:来源:国知局

技术特征:
1.一种信息提取方法,其特征在于,所述方法包括:获取目标图像,所述目标图像中包括至少一个信息单元;获取信息提取模型,所述信息提取模型通过训练样本图像中的至少一个信息单元在多个特征类型上的训练标签训练得到;通过所述信息提取模型,提取所述目标图像中的至少一个信息单元的第一特征信息,作为目标特征信息。2.根据权利要求1所述的方法,其特征在于,所述获取信息提取模型,包括:获取训练样本图像;为所述训练样本图像中的至少一个信息单元确定在多个特征类型上的训练标签,得到多个训练标签,其中,每一个训练标签用于表征所述至少一个信息单元在对应特征类型上的特征信息;获取待训练模型,并通过所述训练样本图像和所述多个训练标签对所述待训练模型进行训练,得到所述信息提取模型。3.根据权利要求2所述的方法,所述获取训练样本图像,包括:获取至少一帧原始训练样本图像;将各帧原始训练样本图像的高度或者宽度缩放至预设图像高度或者预设图像宽度,并按照所述高度或者所述宽度的缩放比例,对所述原始训练样本图像的宽度或者高度进行缩放处理,得到预处理训练样本图像;从所述预处理训练样本图像中选定预定数量的图像作为所述训练样本图像。4.根据权利要求3所述的方法,其特征在于,所述从所述预处理训练样本图像中选定预定数量的图像作为所述训练样本图像,包括:按照所述预处理训练样本图像的宽度或者高度,对所述预处理训练样本图像进行排序;从所述预处理训练样本图像中选定排序相连的预定数量的图像作为所述训练样本图像。5.根据权利要求2所述的方法,所述信息单元包括显性信息单元和隐性信息单元,所述为所述训练样本图像中的至少一个信息单元确定在多个特征类型上的训练标签,包括:获取与每一个特征类型相匹配的信息单元字典,所述信息单元字典中至少记录有全部显性信息单元所对应的特征向量;基于每一个信息单元字典中记录的特征向量,为所述训练样本图像中的至少一个信息单元构造在对应特征类型上的训练标签。6.根据权利要求2所述的方法,其特征在于,所述获取待训练模型,包括:通过网络结构搜索获取编码器模型和解码器模型,所述编码器模型用于对图像进行编码,所述解码器模型用于对所述编码器编码的特征进行解码,得到所述图像中的至少一个信息单元的第二特征信息;基于所述编码器模型和所述解码器模型,构建所述待训练模型。7.根据权利要求2所述的方法,其特征在于,所述通过所述训练样本图像和所述多个训练标签对所述待训练模型进行训练,得到所述信息提取模型,包括:按照预定训练次数,通过所述训练样本图像和所述多个训练标签对所述待训练模型进
行训练,得到所述预定训练次数的信息提取参考模型;对所述预定训练次数的信息提取参考模型进行求平均处理,得到所述信息提取模型。8.根据权利要求7所述的方法,其特征在于,所述通过所述训练样本图像和所述多个训练标签对所述待训练模型进行训练,包括:将所述训练样本图像输入至所述待训练模型,并获取由所述待训练模型输出的所述训练样本图像中的至少一个信息单元的第三特征信息;基于每一个特征类型对应的训练标签,在所述第三特征信息中确定在对应特征类型上存在的误差信息;基于在各个特征类型上存在的误差信息,通过与各个特征类型对应的预设损失函数分别对所述待训练模型中的模型参数进行反向更新,得到所述信息提取参考模型。9.根据权利要求7所述的方法,其特征在于,所述通过所述训练样本图像和所述多个训练标签对所述待训练模型进行训练,包括:在所述多个训练标签中选择一个目标特征类型对应的训练标签;将所述训练样本图像输入至所述待训练模型,并获取由所述待训练模型输出的所述训练样本图像中的至少一个信息单元的第三特征信息;基于所述目标特征类型对应的训练标签,在所述第三特征信息中确定在所述目标特征类型上存在的目标误差信息;基于所述目标误差信息,通过与所述目标特征类型对应的预设损失函数对所述待训练模型中的模型参数进行反向更新,得到中间信息提取参考模型;将所述中间信息提取参考模型作为新的待训练模型,并重新执行在所述多个训练标签中选择一个目标特征类型对应的训练标签的步骤,直至所述多个训练标签中的标签被全部选择,得到所述信息提取参考模型。10.根据权利要求2至9任一项所述的方法,其特征在于,所述信息单元包括字符单元,所述为所述训练样本图像中的至少一个信息单元确定在多个特征类型上的训练标签,包括:为所述训练样本图像中的至少一个字符单元确定在定位特征上的训练标签,所述定位特征用于至少表征所述至少一个字符单元之间的相对关系特征;为所述训练样本图像中的至少一个字符单元确定在形状特征上的训练标签。11.根据权利要求1所述的方法,其特征在于,所述提取所述目标图像中的至少一个信息单元的第一特征信息,包括:针对所述至少一个信息单元中的每一个目标信息单元,确定排列在所述目标信息单元之前的全部信息单元和部分信息单元;基于所述全部信息单元的特征信息,预测所述目标信息单元的第一参考特征信息;基于所述部分信息单元的特征信息,预测所述目标信息单元的第二参考特征信息;基于所述至少一个信息单元中各个信息单元的第一参考特征信息和第二参考特征信息,确定所述第一特征信息。12.根据权利要求1所述的方法,其特征在于,所述信息单元包括字符单元,所述至少一个信息单元组成一个或者多个包含所述字符单元的公式,在通过所述信息提取模型,提取所述目标图像中的至少一个信息单元的第一特征信息,作为目标特征信息之后,所述方法
还包括:基于所述目标特征信息,将所述目标图像中的一个或者多个公式编辑至公式编辑区域。13.一种信息提取装置,其特征在于,所述装置包括:第一获取单元,被用于获取目标图像,所述目标图像中包括至少一个信息单元;第二获取单元,被用于获取信息提取模型,所述信息提取模型通过训练样本图像中的至少一个信息单元在多个特征类型上的训练标签训练得到;提取单元,被用于通过所述信息提取模型,提取所述目标图像中的至少一个信息单元的第一特征信息,作为目标特征信息。14.一种信息提取装置,其特征在于,包括有存储器,以及一个以上程序,其中一个以上程序存储于存储器中,且经配置以由一个以上处理器执行所述一个以上程序,所述一个以上程序包含用于进行如权利要求1至12中任一所述的信息提取方法的指令。15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至12任一项所述的信息提取方法所执行的操作。

技术总结
本申请的实施例提供了一种信息提取方法、装置、介质,涉及计算机及人工智能技术领域。该方法包括:获取目标图像,所述目标图像中包括至少一个信息单元;获取信息提取模型,所述信息提取模型通过训练样本图像中的至少一个信息单元在多个特征类型上的训练标签训练得到;通过所述信息提取模型,提取所述目标图像中的至少一个信息单元的第一特征信息,作为目标特征信息。本申请实施例的技术方案可以提高信息提取的准确度。提取的准确度。提取的准确度。


技术研发人员:秦波 辛晓哲
受保护的技术使用者:北京搜狗科技发展有限公司
技术研发日:2021.09.29
技术公布日:2022/2/18
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1