一种数据提取方法、装置、设备及存储介质与流程

文档序号:31450393发布日期:2022-09-07 13:06阅读:来源:国知局

技术特征:
1.一种数据提取方法,其特征在于,所述方法包括:获取待识别图像;基于字符识别,确定所述待识别图像中的字符和字符位置信息;根据所确定的字符位置信息,确定字符之间的行列关系;基于所确定的字符包括的预设格式关键字,确定对应的预设格式;针对每行字符,将该行字符按序拼接,并基于分词模型,确定拼接结果中的第一分词词组以及对应的第一属性;针对每行字符,将其中属于不同列的字符分别确定为第二分词词组,并根据所确定的预设格式,确定每个第二分词词组对应的第二属性;并针对每个第二分词词组,基于分词模型,判断对应的第二属性是否正确;综合所述第一分词词组和对应的第一属性,以及所述第二分词词组和正确的第二属性,确定分词结果和对应的属性结果。2.根据权利要求1所述的方法,其特征在于,所述根据所确定的字符位置信息,确定字符之间的行列关系,包括:根据所确定的字符位置信息,确定字符之间的行间距分布情况;根据所确定的行间距分布情况,确定标准行间距;基于所述标准行间距,确定属于同一行的字符;并根据所确定的字符位置信息,确定属于同一列的字符。3.根据权利要求1所述的方法,其特征在于,所述根据所确定的字符位置信息,确定字符之间的行列关系,包括:根据所确定的字符位置信息,确定属于同一行的字符;针对每行字符,基于字符之间的横向距离划分出多个字符块;针对每个字符块,在其他行的字符块中,确定与该字符块在横向位置或横向坐标上重合程度最高的字符块,并将所确定的字符块与该字符块,确定为属于同一列的字符。4.根据权利要求1所述的方法,其特征在于,还包括:预先获取预设格式与预设格式关键字之间的对应关系集合;所述预设格式包括按序排列的若干属性;所述基于所确定的字符包括的预设格式关键字,确定对应的预设格式,包括:基于所确定的字符包括的预设格式关键字,从所述对应关系集合中确定对应的预设格式;所述根据所确定的预设格式,确定每个分词词组对应的第二属性,包括:将所确定的预设格式包括的属性之间的顺序,与所述第二分词词组之间的顺序匹配;将每个第二分词词组对应匹配的属性,确定为该第二分词词组对应的第二属性。5.根据权利要求1所述的方法,其特征在于,还包括:在确定任一第二分词词组对应的第二属性正确的情况下,将该第二分词词组与对应的第二属性添加到所述分词模型的训练样本集合中;添加后的训练样本集合用于更新训练所述分词模型。6.根据权利要求1所述的方法,其特征在于,所述综合所述第一分词词组和对应的第一属性,以及所述第二分词词组和正确的第二属性,确定分词结果和对应的属性结果,包括:
针对正确的第二属性,将对应的第二分词词组添加到分词结果,并将对应的正确第二属性添加到对应的属性结果;针对错误的第二属性,从第一属性中确定出相同的属性,并将所确定属性对应的第一分词词组添加到分词结果,将对应的第一属性添加到对应的属性结果。7.根据权利要求1所述的方法,其特征在于,所述针对每行字符,将其中属于不同列的字符分别确定为第二分词词组,包括:根据所确定的预设格式,从所确定的字符中,确定关注字符起始行和关注字符终止行;所述预设格式包括所述关注字符起始行的关键字,以及所述关注字符终止行的关键字;针对所述关注字符起始行与所述关注字符终止行之间的每行字符,将其中属于不同列的字符分别确定为第二分词词组。8.一种数据提取装置,其特征在于,所述装置包括:识别单元,用于获取待识别图像;基于字符识别,确定所述待识别图像中的字符和字符位置信息;预解析单元,用于根据所确定的字符位置信息,确定字符之间的行列关系;基于所确定的字符包括的预设格式关键词,确定对应的预设格式;第一提取单元,用于针对每行字符,将该行字符按序拼接,并基于分词模型,确定拼接结果中的第一分词词组以及对应的第一属性;第二提取单元,用于针对每行字符,将其中属于不同列的字符分别确定为第二分词词组,并根据所确定的预设格式,确定每个第二分词词组对应的第二属性;并针对每个第二分词词组,基于分词模型,判断对应的第二属性是否正确;综合单元,用于综合所述第一分词词组和对应的第一属性,以及所述第二分词词组和正确的第二属性,确定分词结果和对应的属性结果。9.一种电子设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述方法。10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序在由处理器执行时实现权利要求1至7中任一项所述方法。

技术总结
本发明公开了一种数据提取方法、装置、设备及存储介质。所述方法包括:获取待识别图像;确定待识别图像中的字符和字符位置信息;根据所确定的字符位置信息,确定行列关系;基于所确定的字符包括的预设格式关键字,确定对应的预设格式;针对每行字符,将该行字符按序拼接,并基于分词模型,确定拼接结果中的第一分词词组以及对应的第一属性;针对每行字符,将其中属于不同列的字符分别确定为第二分词词组,根据预设格式,确定每个第二分词词组对应的第二属性;针对每个第二分词词组,基于分词模型,判断对应的第二属性是否正确;综合第一分词词组和对应的第一属性,以及第二分词词组和正确的第二属性,确定分词结果和对应的属性结果。确定分词结果和对应的属性结果。确定分词结果和对应的属性结果。


技术研发人员:李开羽 王保庆 李昊
受保护的技术使用者:京东方科技集团股份有限公司
技术研发日:2022.06.30
技术公布日:2022/9/6
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1