样本生成方法、文档理解模型的训练方法和文档理解方法与流程

文档序号：33647767发布日期：2023-03-29 05:29阅读：来源：国知局

技术特征：
1.一种样本生成方法，包括：对文档样本图像进行文本检测，得到与所述文档样本图像中的至少两个文本片段对应的至少两组检测结果，每组检测结果包括文本框的位置信息以及文本框中的文本片段；根据所述至少两组检测结果中文本框的位置信息，对所述至少两组检测结果进行排序，得到检测结果序列；对所述检测结果序列中至少一组检测结果包括的位置信息进行随机扰动，得到扰动后检测结果序列；以及根据所述扰动后检测结果序列，生成训练样本。2.根据权利要求1所述的方法，其中，所述位置信息包括第一方向上的第一位置和第二方向上的第二位置；所述第一方向与所述第二方向彼此垂直；其中：所述根据所述至少两组检测结果中文本框的位置信息，对所述至少两组检测结果进行排序，得到检测结果序列包括：根据所述至少两组检测结果中至少两个文本框的所述第一位置，确定所述至少两个文本框中位于同一行的文本框，得到在所述第一方向上依次排列的至少一行文本框；其中，行的延伸方向为所述第二方向；根据每行文本框中文本框的所述第二位置，对所述每行文本框中的文本框进行排序；以及根据所述至少一行文本框在所述第一方向上的排列顺序，以及所述每行文本框中的文本框在所述第二方向上的排列顺序，对所述至少两组检测结果进行排序，得到所述检测结果序列。3.根据权利要求2所述的方法，其中，所述根据所述至少两组检测结果中至少两个文本框的所述第一位置，确定所述至少两个文本框中在所述第二方向上位于同一行的文本框包括：根据所述至少两个文本框的第一位置，确定所述至少两个文本框彼此之间的第一位置的交并比；以及确定所述至少两个文本框中彼此之间的第一位置的交并比大于预定阈值的文本框，为位于同一行的文本框。4.根据权利要求1所述的方法，还包括：根据所述检测结果序列中每个检测结果包括的文本框的位置信息裁剪所述文档样本图像，得到与所述每个检测结果中包括的文本片段对应的文本图像；所述根据所述扰动后检测结果序列，生成训练样本包括：将所述文本图像添加至所述扰动后检测结果序列中所述文本图像所对应的文本片段处，得到训练样本。5.根据权利要求4所述的方法，还包括：将所述文本图像添加至所述检测结果序列中所述文本图像所对应的文本片段处，得到训练样本。6.一种文档理解模型的训练方法，包括：根据训练样本，得到输入特征；将所述输入特征输入所述文档理解模型，得到针对所述训练样本的预测理解结果；以及
根据所述预测理解结果，对所述文档理解模型进行训练，其中，所述训练样本是采用权利要求1～5中任一项所述的方法生成的。7.一种文档理解方法，包括：对文档图像进行文本检测，得到与所述文档图像中的至少两个文本片段对应的至少两组检测结果，每组检测结果包括文本框的位置信息以及文本框中的文本片段；根据所述至少两组检测结果中文本框的位置信息，对所述至少两组检测结果进行排序，得到检测结果序列；根据所述检测结果序列，得到输入特征；以及将所述输入特征输入文档理解模型，得到针对所述文档图像的理解结果，其中，所述文档理解模型是采用权利要求6所述的方法训练得到的。8.根据权利要求7所述的方法，其中，所述根据所述检测结果序列，得到输入特征还包括：根据所述检测结果序列中每个检测结果包括的文本框的位置信息裁剪所述文档图像，得到与所述每个检测结果中包括的文本片段对应的文本图像；将所述文本图像添加至所述检测结果序列中所述文本图像所对应的文本片段处，得到多模态信息序列；以及对所述多模态信息序列进行嵌入处理，得到所述输入特征。9.一种样本生成装置，包括：文本检测模块，用于对文档样本图像进行文本检测，得到与所述文档样本图像中的至少两个文本片段对应的至少两组检测结果，每组检测结果包括文本框的位置信息以及文本框中的文本片段；排序模块，用于根据所述至少两组检测结果中文本框的位置信息，对所述至少两组检测结果进行排序，得到检测结果序列；位置扰动模块，用于对所述检测结果序列中至少一组检测结果包括的位置信息进行随机扰动，得到扰动后检测结果序列；以及样本生成模块，用于根据所述扰动后检测结果序列，生成训练样本。10.根据权利要求9所述的装置，其中，所述位置信息包括第一方向上的第一位置和第二方向上的第二位置；所述第一方向与所述第二方向彼此垂直；所述排序模块包括：行确定子模块，用于根据所述至少两组检测结果中至少两个文本框的所述第一位置，确定所述至少两个文本框中位于同一行的文本框，得到在所述第一方向上依次排列的至少一行文本框；其中，行的延伸方向为所述第二方向；第一排序子模块，用于根据每行文本框中文本框的所述第二位置，对所述每行文本框中的文本框进行排序；以及第二排序子模块，用于根据所述至少一行文本框在所述第一方向上的排列顺序，以及所述每行文本框中的文本框在所述第二方向上的排列顺序，对所述至少两组检测结果进行排序，得到所述检测结果序列。11.根据权利要求10所述的装置，其中，所述行确定子模块包括：交并比确定单元，用于根据所述至少两个文本框的第一位置，确定所述至少两个文本框彼此之间的第一位置的交并比；以及
行确定单元，用于确定所述至少两个文本框中彼此之间的第一位置的交并比大于预定阈值的文本框，为位于同一行的文本框。12.根据权利要求9所述的装置，还包括：图像裁剪模块，用于根据所述检测结果序列中每个检测结果包括的文本框的位置信息裁剪所述文档样本图像，得到与所述每个检测结果中包括的文本片段对应的文本图像；所述样本生成模块用于：将所述文本图像添加至所述扰动后检测结果序列中所述文本图像所对应的文本片段处，得到训练样本。13.根据权利要求12所述的装置，其中，所述样本生成模块还用于：将所述文本图像添加至所述检测结果序列中所述文本图像所对应的文本片段处，得到训练样本。14.一种文档理解模型的训练装置，包括：特征获得模块，用于根据训练样本，得到输入特征；理解结果预测模块，用于将所述输入特征输入所述文档理解模型，得到针对所述训练样本的预测理解结果；以及模型训练模块，用于根据所述预测理解结果，对所述文档理解模型进行训练，其中，所述训练样本是采用权利要求9～13中任一项所述的装置生成的。15.一种文档理解装置，包括：文本检测模块，用于对文档图像进行文本检测，得到与所述文档图像中的至少两个文本片段对应的至少两组检测结果，每组检测结果包括文本框的位置信息以及文本框中的文本片段；排序模块，用于根据所述至少两组检测结果中文本框的位置信息，对所述至少两组检测结果进行排序，得到检测结果序列；特征获得模块，用于根据所述检测结果序列，得到输入特征；以及文档理解模块，用于将所述输入特征输入文档理解模型，得到针对所述文档图像的理解结果，其中，所述文档理解模型是采用权利要求14所述的装置训练得到的。16.根据权利要求15所述的装置，其中，所述特征获得模块包括：图像裁剪子模块，用于根据所述检测结果序列中每个检测结果包括的文本框的位置信息裁剪所述文档图像，得到与所述每个检测结果中包括的文本片段对应的文本图像；多模态信息获得子模块，用于将所述文本图像添加至所述检测结果序列中所述文本图像所对应的文本片段处，得到多模态信息序列；以及特征获得子模块，用于对所述多模态信息序列进行嵌入处理，得到所述输入特征。17.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～8中任一项所述的方法。18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～8中任一项所述的方法。
19.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机程序/指令在被处理器执行时实现根据权利要求1～8中任一项所述方法的步骤。

技术总结
本公开提供了一种样本生成方法、文档理解模型的训练方法和文档理解方法，涉及人工智能领域，具体涉及图像处理、计算机视觉和深度学习等技术领域，可应用于OCR等场景。样本生成方法的具体实现方案为：对文档样本图像进行文本检测，得到与文档样本图像中的至少两个文本片段对应的至少两组检测结果，每组检测结果包括文本框的位置信息以及文本框中的文本片段；根据至少两组检测结果中文本框的位置信息，对至少两组检测结果进行排序，得到检测结果序列；对检测结果序列中至少一组检测结果包括的位置信息进行随机扰动，得到扰动后检测结果序列；以及根据扰动后检测结果序列，生成训练样本。本。本。

技术研发人员：郭若愚杜宇宁李晨霞马艳军
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2022.09.13
技术公布日：2023/3/28

完整全部详细技术资料下载

当前第2页1 2