文档图像版面分析方法、装置、计算机设备和存储介质与流程

文档序号:32655362发布日期:2022-12-23 21:23阅读:来源:国知局

技术特征:
1.一种文档图像版面分析方法,其特征在于,包括:对文档图像进行多尺寸高维语义特征提取,得到多尺寸高维语义特征;将所述多尺寸高维语义特征输入至训练好的文本子网络挖掘文本行上下文语义信息并进行多尺寸语义合并,得到文本检测结果;将所述多尺寸高维语义特征分别输入至训练好的图片子网络和表格子网络,由所述图片子网络输出图片检测结果和所述表格子网络输出表格检测结果;结合所述文本检测结果、所述图片检测结果和所述表格检测结果,得到版面分析结果。2.根据权利要求1所述的方法,其特征在于,所述将所述多尺寸高维语义特征输入至训练好的文本子网络挖掘文本行上下文语义信息并进行多尺寸语义合并,得到文本检测结果,包括:合并所述多尺寸高维语义特征中尺寸相同的特征,得到多尺寸合并特征;利用transform网络在所述多尺寸合并特征中挖掘文本行上下文语义信息并将合并的特征进行特征分离,得到多尺寸上下文语义特征;融合所述多尺寸上下文语义特征中不同尺寸的特征,得到多尺寸融合特征;基于所述多尺寸融合特征进行类别和边框检测,得到文本检测结果。3.根据权利要求1所述的方法,其特征在于,所述融合所述多尺寸上下文语义特征中不同尺寸的特征,得到多尺寸融合特征,包括:遍历所述多尺寸上下文语义特征中各个尺寸特征,将当前尺寸特征以及与当前尺寸特征相邻且尺寸小于当前尺寸特征的特征进行特征融合;将所述多尺寸上下文语义特征中尺寸最大的特征与特征融合所得到的各个融合特征作为多尺寸融合特征。4.根据权利要求1所述的方法,其特征在于,将所述多尺寸高维语义特征分别输入至训练好的图片子网络,由所述图片子网络输出图片检测结果,包括:所述图片子网络对所述多尺寸高维语义特征中不同尺寸的特征,基于权重共享的方式进行卷积操作,得到各个尺寸对应的卷积特征;根据各尺寸对应的所述卷积特征进行类别和边框预测,输出图片检测结果。5.根据权利要求1所述的方法,其特征在于,将所述多尺寸高维语义特征分别输入至训练好的表格子网络,由所述表格子网络输出表格检测结果,包括:所述表格子网络对所述多尺寸高维语义特征中不同尺寸的特征,基于权重共享的方式进行卷积操作,得到各个尺寸对应的卷积特征;将各个尺寸对应的所述卷积特征进行特征融合,基于融合后的特征进行类别和边框检测,得到表格检测结果。6.根据权利要求1所述的方法,其特征在于,所述文本子网络、所述图片子网络和所述表格子网络的训练步骤,包括:获取标注元素数据集,将所述标注元素数据集划分为训练集和测试集;从所述标注元素数据集中分别选取所述文本子网络、所述图片子网络和所述表格子网络对应的文本超参数、图片超参数和表格超参数;从所述训练集中分别剔除非文本元素、非图片元素和非表格元素,得到文本训练集、图片训练集和表格训练集;
基于所述文本超参数和所述文本训练集单独训练文本子网络、基于所述图片超参数和所述图片训练集单独训练图片子网络、以及基于所述表格超参数和所述表格训练集单独训练表格子网络;利用所述训练集和所述测试集对完成单独训练后所述文本子网络、所述图片子网络和所述表格子网络进行全量训练,直至测试结果收敛。7.根据权利要求1所述的方法,其特征在于,所述从所述标注元素数据集中分别选取所述文本子网络、所述图片子网络和所述表格子网络对应的文本超参数、图片超参数和表格超参数,包括:从标注元素数据集对应的标注结果中分别选取元素类别分别为文本、图片和表格的标注边框,得到文本标注边框、图片标注边框和表格标注边框;将所述文本标注边框、所述图片标注边框和所述表格标注边框的边框高度和边框宽度分别作为样本组成尺寸样本集,得到文本边框尺寸样本集、图片边框尺寸样本集、表格边框尺寸样本集;分别基于预设的聚类数,对所述文本边框尺寸样本集、所述图片边框尺寸样本集和所述表格边框尺寸样本集进行聚类,获得与所述聚类数相等个数的聚类中心作为对应的文本超参数、图片超参数和表格超参数。8.一种文档图像版面分析装置,其特征在于,包括:浅层语义提取模块,用于对文档图像进行多尺寸高维语义特征提取,得到多尺寸高维语义特征;文本检测模块,用于将所述多尺寸高维语义特征输入至训练好的文本子网络挖掘文本行上下文语义信息并进行多尺寸语义合并,得到文本检测结果;图片表格检测模块,用于将所述多尺寸高维语义特征分别输入至训练好的图片子网络和表格子网络,由所述图片子网络输出图片检测结果和所述表格子网络输出表格检测结果;结果结合模块,用于结合所述文本检测结果、所述图片检测结果和所述表格检测结果,得到版面分析结果。9.一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器用于执行所述计算机程序时实现权利要求1-7中任意一项所述的文档图像版面分析方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任意一项所述的文档图像版面分析方法。

技术总结
本发明涉及计算机视觉技术领域,提供了一种文档图像版面分析方法、装置、计算机设备和存储介质,所述方法包括:对文档图像进行多尺寸高维语义特征提取,得到多尺寸高维语义特征;将所述多尺寸高维语义特征输入至训练好的文本子网络挖掘文本行上下文语义信息并进行多尺寸语义合并,得到文本检测结果;将所述多尺寸高维语义特征分别输入至训练好的图片子网络和表格子网络,由所述图片子网络输出图片检测结果和所述表格子网络输出表格检测结果;结合所述文本检测结果、所述图片检测结果和所述表格检测结果,得到版面分析结果。采用本方法能够提高版面分析元素识别准确率和位置定位的精准度。位的精准度。位的精准度。


技术研发人员:郭建京 索红亮 周忠诚 黄九鸣 张圣栋
受保护的技术使用者:湖南星汉数智科技有限公司
技术研发日:2022.09.14
技术公布日:2022/12/22
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1