本技术涉及人工智能,尤其涉及一种文档区域检测模型训练及文档区域检测方法和装置。
背景技术:
1、文档区域检测,指的是通过一定的技术手段检测出图像中的文档区域的过程,文档区域检测是进行文字识别的基础,文档区域的检测对于文字识别的效率和准确率具有重要影响。
2、目前的文档区域检测通常是由文档区域检测模型完成的,将图像输入至文档区域检测模型后,由文档区域检测模型在图像上用矩形框表示出该文档区域,实现文档区域的检测。
3、由于上述方案是通过矩形框来标识文档区域的,针对包括不规则形状的文档区域,上述方案检测出的区域会包括一些不属于文档的区域,不利于后续的文字识别。
技术实现思路
1、本技术提供一种文档区域检测模型训练及文档区域检测方法和装置,用以解决现有文档区域检测方案容易将不属于文档的区域识别为文档区域的问题。
2、第一方面,本技术提供一种文档区域检测模型训练方法,包括:
3、获取训练样本,所述训练样本包括样本图像,以及所述样本图像的m个标注角点坐标和标注类别,所述m个标注角点坐标指示所述样本图像上的文档区域,所述标注类别指示所述样本图像上是否包括文档区域,所述m为大于或等于1的整数;
4、将所述样本图像输入至文档区域检测模型,得到所述文档区域检测模型输出的n个检测角点坐标和检测分类概率,所述检测分类概率指示所述样本图像中包括文档区域的置信度,所述n个检测角点坐标指示所述样本图像中检测出的文档区域,所述n为大于或等于1的整数;
5、根据所述m个标注角点坐标、所述标注类别、所述n个检测角点坐标和所述检测分类概率,对所述文档区域检测模型的参数进行调整。
6、在一种可能的实施方式中,所述将所述样本图像输入至文档区域检测模型,得到所述文档区域检测模型输出的n个检测角点坐标和检测分类概率,包括:
7、对所述样本图像进行特征提取处理,得到所述样本图像的高维特征;
8、对所述高维特征进行特征解码处理,得到所述高维特征对应的解码特征;
9、根据所述解码特征,得到所述n个检测角点坐标和所述检测分类概率。
10、在一种可能的实施方式中,所述对所述样本图像进行特征提取处理,得到所述样本图像的高维特征,包括:
11、对所述样本图像进行至少一次第一操作,得到第一特征,所述第一操作包括卷积操作和池化操作;
12、对所述第一特征进行特征筛选操作,得到筛选后的第二特征;
13、对所述第二特征进行至少一次第二操作,得到第三特征,所述第二操作包括卷积操作和池化操作;
14、对所述第三特征进行高维映射操作,得到所述高维特征。
15、在一种可能的实施方式中,所述对所述第一特征进行特征筛选操作,得到筛选后的第二特征,包括:
16、对所述第一特征执行k次第三操作,所述第三操作包括:对输入特征进行卷积操作,得到对应的卷积矩阵;根据所述卷积矩阵获取对应的输出特征;
17、对第k次第三操作的输出特征进行池化操作,得到所述第二特征;
18、其中,执行第一次第三操作的输入特征为所述第一特征,执行第i+1次第三操作的输入特征是执行第i次第三操作的输出特征,所述k为正整数,所述i为正整数。
19、在一种可能的实施方式中,所述根据所述卷积矩阵获取对应的输出特征,包括:
20、对所述卷积矩阵依次进行池化操作、卷积操作和归一化操作,获取对应的归一化向量;
21、根据所述卷积矩阵和所述归一化向量,获取所述输出特征。
22、在一种可能的实施方式中,所述根据所述解码特征,得到所述样本图像的检测分类概率和n个检测角点坐标,包括:
23、对所述解码特征进行第一特征映射操作,得到第一映射特征向量,所述第一映射特征向量中的元素包括所述检测分类概率;
24、对所述解码特征进行第二特征映射操作,得到第二映射特征向量,所述第二映射特征向量中包括n组元素,所述元素表示检测角点坐标。
25、在一种可能的实施方式中,所述根据所述m个标注角点坐标、所述标注类别、所述n个检测角点坐标和所述检测分类概率,对所述文档区域检测模型的参数进行调整,包括:
26、根据所述检测分类概率和所述标注类别,获取所述样本图像的分类损失;
27、根据所述n个检测角点坐标和所述m个标注角点坐标,获取所述样本图像的回归损失;
28、根据所述分类损失和所述回归损失,对所述文档区域检测模型的参数进行调整。
29、第二方面,本技术提供一种文档区域检测方法,包括:
30、获取待处理的第一图像;
31、将所述第一图像输入至文档区域检测模型,得到所述文档区域检测模型输出的p个角点坐标和分类概率,所述分类概率指示所述第一图像中是否存在文档区域,所述p个角点坐标指示所述第一图像中检测出的文档区域;其中,所述p为大于或等于1的整数,所述文档区域检测模型为根据第一方面任一项所述的方法训练得到的模型;
32、根据所述p个角点坐标和所述分类概率,获取所述第一图像的文档区域检测结果。
33、在一种可能的实施方式中,所述根据所述p个角点坐标和所述分类概率,获取所述第一图像的文档区域检测结果,包括:
34、若所述分类概率指示所述第一图像中不存在文档区域,则确定所述文档区域检测结果为所述第一图像中不包括文档区域;
35、若所述分类概率指示所述第一图像中存在文档区域,则将所述p个角点坐标围成的区域确定为所述第一图像中的文档区域。
36、第三方面,本技术提供一种文档区域检测模型训练装置,包括:
37、获取单元,用于获取训练样本,所述训练样本包括样本图像,以及所述样本图像的m个标注角点坐标和标注类别,所述m个标注角点坐标指示所述样本图像上的文档区域,所述标注类别指示所述样本图像上是否包括文档区域,所述m为大于或等于1的整数;
38、处理单元,用于将所述样本图像输入至文档区域检测模型,得到所述文档区域检测模型输出的n个检测角点坐标和检测分类概率,所述检测分类概率指示所述样本图像中包括文档区域的置信度,所述n个检测角点坐标指示所述样本图像中检测出的文档区域,所述n为大于或等于1的整数;
39、训练单元,用于根据所述m个标注角点坐标、所述标注类别、所述n个检测角点坐标和所述检测分类概率,对所述文档区域检测模型的参数进行调整。
40、在一种可能的实施方式中,所述处理单元具体用于:
41、对所述样本图像进行特征提取处理,得到所述样本图像的高维特征;
42、对所述高维特征进行特征解码处理,得到所述高维特征对应的解码特征;
43、根据所述解码特征,得到所述n个检测角点坐标和所述检测分类概率。
44、在一种可能的实施方式中,所述处理单元具体用于:
45、对所述样本图像进行至少一次第一操作,得到第一特征,所述第一操作包括卷积操作和池化操作;
46、对所述第一特征进行特征筛选操作,得到筛选后的第二特征;
47、对所述第二特征进行至少一次第二操作,得到第三特征,所述第二操作包括卷积操作和池化操作;
48、对所述第三特征进行高维映射操作,得到所述高维特征。
49、在一种可能的实施方式中,所述处理单元具体用于:
50、对所述第一特征执行k次第三操作,所述第三操作包括:对输入特征进行卷积操作,得到对应的卷积矩阵;根据所述卷积矩阵获取对应的输出特征;
51、对第k次第三操作的输出特征进行池化操作,得到所述第二特征;
52、其中,执行第一次第三操作的输入特征为所述第一特征,执行第i+1次第三操作的输入特征是执行第i次第三操作的输出特征,所述k为正整数,所述i为正整数。
53、在一种可能的实施方式中,所述处理单元具体用于:
54、对所述卷积矩阵依次进行池化操作、卷积操作和归一化操作,获取对应的归一化向量;
55、根据所述卷积矩阵和所述归一化向量,获取所述输出特征。
56、在一种可能的实施方式中,所述处理单元具体用于:
57、对所述解码特征进行第一特征映射操作,得到第一映射特征向量,所述第一映射特征向量中的元素包括所述检测分类概率;
58、对所述解码特征进行第二特征映射操作,得到第二映射特征向量,所述第二映射特征向量中包括n组元素,所述元素表示检测角点坐标。
59、在一种可能的实施方式中,所述训练单元具体用于:
60、根据所述检测分类概率和所述标注类别,获取所述样本图像的分类损失;
61、根据所述n个检测角点坐标和所述m个标注角点坐标,获取所述样本图像的回归损失;
62、根据所述分类损失和所述回归损失,对所述文档区域检测模型的参数进行调整。
63、第四方面,本技术提供一种文档区域检测装置,包括:
64、获取单元,用于获取待处理的第一图像;
65、处理单元,用于将所述第一图像输入至文档区域检测模型,得到所述文档区域检测模型输出的p个角点坐标和分类概率,所述分类概率指示所述第一图像中是否存在文档区域,所述p个角点坐标指示所述第一图像中检测出的文档区域;其中,所述p为大于或等于1的整数,所述文档区域检测模型为根据第一方面任一项所述的方法训练得到的模型;
66、检测单元,用于根据所述p个角点坐标和所述分类概率,获取所述第一图像的文档区域检测结果。
67、在一种可能的实施方式中,所述检测单元具体用于:
68、若所述分类概率指示所述第一图像中不存在文档区域,则确定所述文档区域检测结果为所述第一图像中不包括文档区域;
69、若所述分类概率指示所述第一图像中存在文档区域,则将所述p个角点坐标围成的区域确定为所述第一图像中的文档区域。
70、第五方面,本技术提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面任一项所述的文档区域检测模型训练方法,或者,所述处理器执行所述程序时实现如第二方面任一项所述的文档区域检测方法。
71、第六方面,本技术提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的文档区域检测模型训练方法,或者,所述计算机程序被处理器执行时实现如第二方面任一项所述的文档区域检测方法。
72、第七方面,本技术提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的文档区域检测模型训练方法,或者,所述计算机程序被处理器执行时实现如第一方面任一项所述的文档区域检测方法。
73、本技术提供的文档区域检测模型训练及文档区域检测方法和装置,首先获取训练样本,训练样本包括样本图像,以及样本图像的m个标注角点坐标和标注类别,m个标注角点坐标指示样本图像上的文档区域,标注类别指示样本图像上是否包括文档区域,然后将样本图像输入至文档区域检测模型,得到文档区域检测模型输出的n个检测角点坐标和检测分类概率,检测分类概率指示样本图像中包括文档区域的置信度,n个检测角点坐标指示样本图像中检测出的区域。最后,根据m个标注角点坐标、标注类别、n个检测角点坐标和检测分类概率,对文档区域检测模型的参数进行调整。由于通过文档检测模型输出的n个检测角点坐标能够确定一个n边形,在检测分类概率指示图像上存在文档区域时,即可将n个检测角点坐标确定的n边形确定为检测出的文档区域。本技术实施例的方案,通过n个检测角点坐标来表示文档区域,能够适应于各种不同形状的文档区域的识别,减小将不属于文档的区域被识别为文档区域的可能性,有助于后续基于文档区域的文字识别。