一种合同印章的类别识别方法、装置和计算设备与流程

文档序号:19117089发布日期:2019-11-13 01:17阅读:263来源:国知局
一种合同印章的类别识别方法、装置和计算设备与流程

本发明涉及图像识别领域,尤其涉及一种合同印章的类别识别方法、装置和计算设备。



背景技术:

随着当代社会进步和经济多元化发展,企业职能部门也越来越完善,每个企业都具有不止一个印章。随着互联网的发展和公司业务的扩展,企业签约合同种类繁多,涉及到的印章种类繁多。如果能够智能地识别合同中的印章类别,并对不同类别印章的合同进行分类处理,不仅能减轻人力鉴别的工作量,相对于人力鉴别也能提高识别的准确率和效率。因此高精度的印章识别有着重要的研究意义。

对印章的分类识别一般采用是传统的图像处理方法,首先定位印章的位置,然后对仅包含印章的图像通过模板匹配的方式进行识别。这种方法受图像的质量影响很大,当图像质量差的时候很导致识别率变差。因此,亟需一种更高识别率和更强鲁棒性的印章类别识别方案。



技术实现要素:

鉴于上述问题,本发明提出了一种合同印章的类别识别方法、装置和计算设备,以力图解决或者至少解决上面存在的问题。

根据本发明的一个方面,提供了一种合同印章的类别识别方法,适于在计算设备中执行,该计算设备中训练有印章区域分割模型、文字区域分割模型和印章类别识别模型,该方法包括步骤:将待识别图像输入到所述印章区域分割模型中,得到仅包含印章区域的印章区域图像;将印章区域图像输入到文字区域分割模型中,得到仅包含矩形文字区域的矩形文字区域图像;以及将矩形文字区域图像的长边旋转至水平方向,并将旋转后的图像输入到印章类别识别模型中,得到待识别图像中的印章类别。

可选地,在根据本发明的类别识别方法中,还包括印章区域分割模型的训练步骤:获取多张不同角度下的带有印章的合同图像,所述印章具有多种形状;采用数据增强的方式生成多张模糊印章图像和多张部分缺失印章图像,并将所生成的各图像填充到带有文字背景的图像中,得到填充图像;分别生成与合同图像和填充图像对应的标注有印章区域的图像作为第一训练集,并根据该第一训练集训练印章区域分割模型。

可选地,在根据本发明的类别识别方法中,合同图像的角度包括0度、90度、180度和270度中的至少一种,印章的形状包括圆形、椭圆形和矩形。

可选地,在根据本发明的类别识别方法中,印章区域分割模型为yolov3目标检测算法模型,其采用darknet-53网络进行印章特征提取。

可选地,在根据本发明的类别识别方法中,还包括文字区域分割模型的训练步骤:分别从各合同图像中分割出印章区域图像;对所分割出的印章区域图像进行模糊化处理,得到多张新模糊印章图像;将印章区域图像、模糊印章图像、部分缺失印章图像和新模糊印章图像作为素材图像,分别生成各素材图像对应的标注有矩形文字区域的图像作为第二训练集,并根据该第二训练集训练文字区域分割模型。

可选地,在根据本发明的类别识别方法中,分别从各合同图像中分割出印章区域图像的步骤包括:根据合同图像中标注的印章区域分割出印章区域图像;或者将合同图像输入到印章区域分割模型中,得到分割后的印章区域图像。

可选地,在根据本发明的类别识别方法中,还包括步骤:另外获取多张带有印章的合同图像作为测试集,并根据该印章区域分割模型得到各测试集的印章区域图像;其中,第二训练集还包括与各测试集的印章区域图像对应的标注有矩形文字区域的图像、以及对各测试集的印章区域图像进行模糊化处理后的图像。

可选地,在根据本发明的类别识别方法中,模糊化处理包括模糊、扭曲、随机擦除部分区域、翻转和不同角度的旋转处理中的至少一种。

可选地,在根据本发明的类别识别方法中,还包括印章类别识别模型的训练步骤:分别从各素材图像分割出对应的矩形文字区域图像;将各矩形文字区域图像的长边旋转至水平方向,并将旋转后的各图像作为第三训练集训练印章类别识别模型。

可选地,在根据本发明的类别识别方法中,印章类别包括合同专用章、业务专用章、财务专用章、销售专用章中的至少一种。

可选地,在根据本发明的类别识别方法中,分别从各素材图像对应分割出矩形文字区域图像的步骤包括:根据素材图像中所标注的矩形文字区域分割出矩形文字区域图像;或者将素材图像输入到矩形区域分割模型中,得到分割后的矩形文字区域图像。

可选地,在根据本发明的类别识别方法中,将矩形文字区域图像的长边旋转至水平方向的步骤包括:识别该矩形文字区域图像的长边所在角度,并将其旋转至角度最近的水平线上。

可选地,在根据本发明的类别识别方法中,文字区域分割模型为改进的east目标检测模型,印章类别识别模型为resnet卷积神经网路模型。

根据本发明的另一个方面,提供了一种合同印章的类别识别装置,适于驻留在计算设备中,该计算设备中训练有印章区域分割模型、文字区域分割模型和印章类别识别模型,该装置包括:印章区域分割模块,适于将待识别图像输入到印章区域分割模型中,得到仅包含印章区域的印章区域图像;文字区域分割模块,适于将印章区域图像输入到文字区域分割模型中,得到仅包含矩形文字区域的矩形文字区域图像;以及印章类别识别模块,适于将矩形文字区域图像的长边旋转至水平方向,并将旋转后的图像输入到印章类别识别模型,得到待识别图像中的印章类别。

根据本发明的又一方面,提供一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,该一个或多个程序被处理器执行时实现如上所述的合同印章的类别识别方法的步骤。

根据本发明的又一方面,提供一种存储一个或多个程序的可读存储介质,该一个或多个程序包括指令,所述指令当由计算设备执行时实现如上所述的合同印章的类别识别方法的步骤。

根据本发明的技术方案,结合深度学习算法模型,提出了一种印章类别识别方法,该方法通过连续的印章区域分割模型、文字区域分割模型和印章类别识别模型实现。首先分割出合同图像中的印章区域,再分割出该印章区域的矩形文字区域,并识别该矩形文字区域内的印章类别。即使在复杂背景中印章模糊、印章部分缺失、印章类别标识区域模糊不准、印章类别标识文字区域具有各种旋转角度,也能有效排除其他误检测区域,准确识别出印章类别。印章无需摆正即可识别出最终类别,从而提高了识别效率和识别的准确率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的结构框图;

图2示出了根据本发明一个实施例的合同印章的类别识别方法200的流程图;

图3a-3d示出了根据本发明一些实施例的不同角度的合同图像的示意图;

图4示出了根据本发明一些实施例的模糊印章图像和部分缺失印章图像的示意图;

图5示出了根据本发明一个实施例的yolov3模型的结构图;

图6a-6f分别示出了根据本发明一些实施例的文字区域检测的示意图;

图7示出了根据本发明一个实施例的改进east算法的结构图;

图8a和8b分别示出了根据本发明一些实施例的不同角度的矩形文字区域图像的示意图;以及

图9示出了根据本发明一个实施例的合同印章的类别识别装置900的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是根据本发明一个实施例的计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μp)、微控制器(μc)、数字信息处理器(dsp)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(alu)、浮点数单元(fpu)、数字信号处理核心(dsp核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如ram)、非易失性存储器(诸如rom、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令,在根据本发明的计算设备100中,程序数据124包含用于执行合同印章的类别识别方法200的指令。

计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个a/v端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个i/o端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(rf)、微波、红外(ir)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和web服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(pda)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中,计算设备100被配置为执行合同印章的类别识别方法200。

另外,计算设备100中还可以训练训练有印章区域分割模型、文字区域分割模型和印章类别识别模型。印章区域分割模型能够从合同图像中分割出仅包含印章区域的印章区域图像,文字区域分割图像能够从印章区域图像中分割出仅包含矩形文字区域的矩形文字区域图像,印章类别识别模型能够识别矩形文字区域图像中的印章类别,通常需要先将该矩形文字区域图像的长边旋转至水平方向后再进行印章类别识别。印章类别例如可以是合同专用章、业务专用章、财务专用章、销售专用章中的至少一种。

图2示出了根据本发明一个实施例的合同印章的类别识别方法200的流程示意图。方法200在计算设备中执行,如在计算设备100中执行,以便识别合同图像中的印章类别。

如图2所示,该方法始于步骤s210。在步骤s210中,将待识别图像输入到印章区域分割模型中,得到仅包含印章区域的印章区域图像。根据一个实施例,可以先将该待识别图像的尺寸调整到608×608大小,使用该图片大小既能够保证准确率又能兼顾运算速度,之后再将调整尺寸后的图像输入到该印章区域分割模型中。

随后,在步骤s220中,将印章区域图像输入到文字区域分割模型中,得到仅包含矩形文字区域的矩形文字区域图像。该矩形文字区域内一般写着“某某专用章”或“某某用张”等文字内容,如“财务专用章”、“财务用章”等,该矩形文字区域图像实际就是“某某专用章”这几个字所占据的矩形文字区域。

随后,在步骤s230中,将矩形文字区域图像的长边旋转至水平方向,并将旋转后的图像输入到印章类别识别模型中,得到待识别图像中的印章类别。

根据本发明的一些实施例,方法200还可以包括印章区域分割模型的训练过程,其中,可以按照以下步骤s211-s213来训练印章区域分割模型:

在步骤s211中,获取多张不同角度下的带有印章的合同图像,印章具有多种形状,如圆形、椭圆形和矩形等形状。

在一些实现方式中,带有印章的合同图像可以是通过图像采集技术对原始的合同证件直接进行扫描或拍照获得,也可以通过对带有印章的图像打印或复印后的纸质文件进行拍照获得。合同图像的角度主要是指带有合同的那张图像的角度,其包括0度、90度、180度、270度4种角度中的至少一种。图3a示出了带有复杂背景的0度正面的模糊印章合同图像,图3b示出了手写文字覆盖印章区域的90度旋转的合同图像,图3c示出了带有模糊印章的180度倒置的合同图像,图3d示出了带有部分缺失印章的270度旋转的合同图像。

需要说明的是,90度、180度和270度的合同图像可以是原始角度图像,也可以是通过将0度合同图像进行旋转得到。而且,每种角度下可以一种形状的印章,也可以有两种或三种,本发明对此不作限制。

优选地,该多张不同角度的合同图像可以包括:带有矩形印章的0度合同图像、90度合同图像、180度合同图像和270度合同图像;带有圆形印章的0度合同图像、90度合同图像、180度合同图像和270度合同图像;以及带有椭圆形印章的0度合同图像、90度合同图像、180度合同图像和270度合同图像。

随后,在步骤s212中,采用数据增强的方式生成多张模糊印章图像和多张部分缺失印章图像,并将所生成的各图像随机填充到带有文字背景的图像中,得到填充图像。

所生成的模糊印章图像和部分缺失印章图像如图4所示,其印章比较模糊,或者印章的部分区域被挡住。存在多种模糊印章图像和部分缺失印章图像的生成方式,如采用代码直接生成,本发明不受限于具体的实现方式,所有能够生成模糊印章图像和部分缺失印章图像的方法均在本发明的保护范围之内。将所生成的每张图像填充到一张带有文字背景的图像中,即可得到一张填充图像。带有文字背景的图像可以是未加盖印章的合同图像,也可以是普通的一张带有文字的图像。

最后,在步骤s213中,分别生成与合同图像和填充图像对应的标注有印章区域的图像作为第一训练集,并根据该第一训练集训练该印章区域分割模型。

在步骤s211和步骤s212中得到了合同图像和填充图像这两类图像,其中合同图像中的印章是图像自带的,填充图像的印章是通过算法生成的。这两类图像的数量比例可以为1:1,以实现模型的最优化训练。另外,还可在第一训练集中加入一些负样本图像,即没有印章的图像,这样训练后的印章区域分割模型在遇到没有印章的待测样本时不会对该样本做任何处理,通常会直接输出待测样本,避免计算资源的浪费。

可以采用人工标注的方式标注合同图像和填充图像中的印章区域,根据标注的内容生成与合同图像和填充图像对应的标注有印章区域的图像。在根据第一训练集训练该印章区域分割模型时,可以先将第一训练集中的图像尺寸调整到608×608大小。需要说明的是,存在多种对图像中的目标区域进行分割的方式,如fasterr-cnn系列或者ssd系列的目标检测模型等,本发明不受限于具体的实现方式,所有能够对图像的印章区域进行分割的方法均在本发明的保护范围之内。而且,模型的结构和参数,本领域技术人员可以根据具体情况进行自行设定,本发明对此不作限制。

优选地,印章区域分割模型为yolov3目标检测算法模型,图5为该模型的详细结构图。为了解决对模糊和缺失印章的定位,本发明采用了darknet-53网络进行印章特征提取,其尤其能提取模糊和缺失印章的特征。该darknet-53网络使用kmeans++对调整尺寸到608*608大小的第一训练集中的印章目标的预选框(anchors)进行聚类,聚类得到的9个预选框分别为(79,69),(127,56),(124,68),(112,83),(89,115),(143,76),(125,92),(155,103),(160,146),使用聚类得到的预选框替换原始默认的预选框值,配置文件中的类别设置为3,特征图数量设置为24。

根据本发明的另一些实施例,方法200还可以包括文字区域分割模型的训练过程,其中,可以按照以下步骤s221-s223来训练印章区域分割模型:

在步骤s221中,分别从各合同图像中分割出印章区域图像。其中,可以根据合同图像中标注的印章区域分割出对应的印章区域图像,也可以将合同图像输入到印章区域分割模型中来得到分割后的印章区域图像。

随后,在步骤s222中,对所分割出的印章区域图像进行模糊化处理,得到多张新模糊印章图像。其中,模糊化处理包括模糊、扭曲、随机擦除图像中部分区域、翻转和不同角度的旋转处理中的至少一种。

这里,翻转和不同角度的旋转例如可以是任意一个或多个角度,本发明对此不作限制,例如可以每30度旋转一次共旋转九次,得到30度、60度、……、270度等旋转后的图像。而且,一张印章区域图像可以随机选取一种或多种模糊化处理方式进行处理,得到一张或多张新模糊印章图像。如通过将印章区域图像a进行模糊(如高斯模糊)、扭曲和8种角度的旋转,共可得到10张新模糊印章图像。通过将印章区域图像b进行扭曲、随机擦除部分区域和7种角度的旋转,共可得到9张新模糊印章图像。

优选地,一张原图可以生成十张新模糊印章图像,因此原图和新生成图的比例可以为1:10。而且,考虑到所生成的模糊印章图像或部分缺失印章图像已经比较模糊了,因此这里只对带有原生印章的合同图像分割出的印章区域图像进行模糊化处理。当然,实际也可以对所生成的模糊印章图像或部分缺失印章图像进行同样的模糊化处理。需要说明的是,存在多种对图像进行模糊、图像扭曲、随机擦除和翻转旋转方式,如采用opencv图像处理、canvas图像处理等,本发明不受限于具体的实现方式,所有能够对图像进行模糊、扭曲、随机擦除和翻转旋转的方法均在本发明的保护范围之内。

最后,在步骤s223中,将印章区域图像、模糊印章图像、部分缺失印章图像和新模糊印章图像作为素材图像,分别生成各素材图像对应的标注有矩形文字区域的图像作为第二训练集,并根据该第二训练集训练该文字区域分割模型。

在一些实现方式中,可以根据以下方法生成某图像对应的标注有矩形文字区域的图像:生成该图像中矩形文字区域的四个顶点,并求出该四个顶点的外接矩形作为所标注的矩形文字区域。其中,四个顶点可以通过人工标注,这样生成包含该矩形文字区域的四个顶点的图像,并计算该四个顶点的外接矩形作为所标注的矩形文字区域。这里,主要是考虑人工标注四个顶点的不准确性,因此通过计算外接矩形的方式来准确得到该矩形文字区域。根据四点求出外接矩形是目标比较成熟的算法,这里不再赘述。

在进行矩形文字区域模型的训练时,可以所标注的矩形文字区域的完整边框为参数输入,这样模型可得到待测样本的矩形区域框,并根据该矩形区域框得到对应的矩形文字区域图像。当然,也可以将所求出的外接矩形的四个顶点作为模型的参数输入,这样模型可得到待测样本的四个顶点,并根据该四个顶点裁切出对应的矩形文字区域图像。

这里主要是考虑仅定位印章标识类别的文字区域存在多种问题,图6a中存在误检测圆形区域内文字的问题,图6b无法检测出模糊印章的文字区域。此外还有从模糊的印章中定位各种倒置角度标识文字区域的问题、以及定位任意倾斜角度文字区域的问题。因此,本发明采用数据增强的方式生成模糊图像的数据集,采用了高斯模糊、扭曲图像和随机擦除图像中部分区域方式,针对性的模拟增加实际场景中复杂的印章图片数量,以解决模糊标识类别的文字区域定位。另外对图像进行翻转和各种角度的旋转生成得到图片,以解决对各种角度的文本区域检测问题。最后本发明采用四边形的标注方式只标注印章区域中类别标识的文字区域,而对圆形区域的文字(如某某公司)不做任何标注处理,以防止误检测其他部分的文字区域。

可以看出,图6c中解决了图6a中误检测文本区域的问题,其排除了圆形文字区域部分,只识别出了矩形文字区域部分。图6d中解决了图6b中检测不到模糊标识类别的文字区域问题,即使图6b中文字区域再模糊,也能准确识别出来其矩形文字区域。图6e解决了倒置角度标识的文字区域识别问题,图6f解决了任意倾斜角度文字区域的定位问题,即使印章倒置或印章倾斜任意角度,也能准确识别出来其中的矩形文字区域。

优选地,印章区域图像、模糊印章图像、部分缺失印章图像和新模糊印章图像的数量比例可以是1:0.5:0.5:10。在一些实现方式中,还可以另外获取多张带有印章的合同图像作为测试集,并根据步骤s213中训练的印章区域分割模型得到各测试集的印章区域图像。这样,第二训练集还可加入与各测试集的印章区域图像对应的标注有矩形文字区域的图像、以及对各测试集的印章区域图像进行模糊化处理后的图像。另外,通常可以先将各素材图像调整尺寸到固定大小(如h×w)后,再进行图像标注以生成第二训练集,以实现模型的最优图片尺寸输入。或者,不调整素材图像的尺寸而调整第二训练集的尺寸到固定大小,这样不影响文字区域标注的精度和准确度,提高模型预测的准确率。

同样应当理解,存在多种对图像中的文字区域进行分割的方式,seglink、rrpn、textboxes++、psenet等系列的倾斜文本区级检测算法等,本发明不受限于具体的实现方式,所有能够对图像的矩形文字区域进行分割的方法均在本发明的保护范围之内。而且,模型的结构和参数,本领域技术人员可以根据具体情况进行自行设定,本发明对此不作限制。

优选地,文字区域分割模型可以采用改进east模型,该模型的网路结构如图7所示,主要分为三个部分:特征提取层、特征合并层和输出层。为了能够简化网路的复杂程度,改进east模型使用vgg16特征提取网络来提取输入图片的特征。该网络可提取不同层级的特征图,如图7中得到f1、f2、f3和f4四个层级的特征图,这些特征图尺寸分别是原始输入图片的1/4、1/8、1/16和1/32。将这四种层级的特征图进行融合,并将在特征提取网络中得到的最后一层特征图经过上采样层放大后得到新的特征图。之后,再将该新特征图与与前一层的特征图进行合并操作,经过1*1的卷积核和3*3的卷积核厚再重复以上操作。这里采用自上向下依次合并提取的特征的方式来获取不同尺度的特征图,从而解决检测框的多尺度问题。模型损失函数使用diceloss和rbox损失。

根据本发明的又一个实施例,方法200还可以包括印章类别识别模型的训练过程,其中,可以按照以下步骤s231-s232来训练印章区域分割模型:

在步骤s231中,分别从各素材图像分割出对应的矩形文字区域图像。其中,可以根据素材图像中所标注的矩形文字区域分割出对应的矩形文字区域图像,也可以将素材图像输入到矩形区域分割模型中来得到分割后的矩形文字区域图像。

随后,在步骤s232中,将各矩形文字区域图像的长边旋转至水平方向,并将旋转后的各图像作为第三训练集训练印章类别识别模型。

在一些实现方式中,将矩形文字区域图像的长边旋转至水平方向,可以先将矩形文字区域图像旋转至角度最近的水平线或竖直线上,之后再将旋转后长度小于高度的图像向同一方向旋转90度,如统一左旋90度或统一右旋90度。

应当理解,印章区域图像具有多种倾斜角度,相应分割出的矩形文字区域图像也有各种倾斜角度,如图6c-6f中每个矩形文字区域角度都不一样。因此,已知各矩形文字区域所对应的各外接矩形的边框或四顶点位置,因此可计算出其长边相对水平线或竖直线的角度。通过将长边旋转至角度最近的水平线或竖直线来将矩形文字区域旋转为水平方向或竖直方向。经过这次旋转后的矩形文本区域有图8a中的四种角度,从左到右分别是0度、90度、180度和270度。需要说明的是,图像的倾斜角度旋转可以采用目前常用的图像旋转方法,本发明对此不作限制。

为了提高类别识别模型的准确率,需要对90度和270度情况的图像进行处理。这里保留矩形区域内长度大于高度的图片,当文本区域图像为正的0度或者为倒置的180度时不做处理,对矩形文本区域长度小于高度的图片做旋转90度处理。经过处理后最终得到仅含有0度和180度的文本区域图像,如图8b所示,将这两种角度的数据集作为印章类别识别模型的训练数据集。因此,第三训练集组成有:0度的合同专用章(0类)、180度的合同专用章(0类)、0度的业务专用章(1类)、180度的业务专用章(1类)、0度的销售专用章(2类)、180度的销售专用章(2类)、0度的市场专用章(3类)、180度的市场专用章(3类)、0度的财务专用章(4类)、180度的财务专用章(4类)、其他专用章按照0度和180度两种情况仅类别叠加作为训练集即可。根据该训练集对印章类别识别模型进行训练,训练后的模型即可准确输出一张0度或180度矩形文字区域图像中所包含的印章类别。

在另一些实现方式中,将矩形文字区域图像的长边旋转至水平方向,可以直接识别矩形文字区域图像的长边所在角度,并将其旋转至角度最近的水平线上,这样同样可得到均为0度或180度的矩形文字区域图像。

存在多种图像目标分类方法,本发明不受限于具体的实现方式,所有能够对图像的文字区域内容进行类别识别的方法均在本发明的保护范围之内。优选地,印章类别识别模型为resnet卷积神经网络模型,该模型的结构和参数,本领域技术人员可以根据具体情况进行自行设定,本发明对此不作限制。

根据本发明的另一个实施例,方法200还可以将印章区域分割模型、文字区域分割模型和印章类别识别模型进行耦接,并在印章区域分割模型之前加入尺寸调整模块,以将合同图像调整到印章区域分割模型的输入图像尺寸(如608×608),另外在印章区域分割模型和文字区域分割模型之间也加入尺寸调整模块,以将印章区域图像调整到文字区域分割模型的输入图像尺寸(如h×w)。这样得到一个完整的相互耦接的模型,包括依次耦接的第一尺寸调整模块、印章区域分割模型、第二尺寸调整模块、文字区域分割模型和印章类别识别模型。把一张待测图像输入到该模型中即可直接得到该图像中的印章类别,提高测试效率。

图9示出了根据本发明一个实施例的应用测试装置900的结构框图,该装置900可以驻留在计算设备中,如驻留在计算设备100中,该计算设备中训练有印章区域分割模型、文字区域分割模型和印章类别识别模型。如图9所示,装置900包括:印章区域分割模块910、文字区域分割模块920和印章类别识别模块930。

印章区域分割模块910将待识别图像输入到印章区域分割模型中,得到仅包含印章区域的印章区域图像。印章区域分割模块910可以进行与上面在步骤s210中描述的处理相对应的处理,这里不再展开赘述。

文字区域分割模块920将印章区域图像输入到文字区域分割模型中,得到仅包含矩形文字区域的矩形文字区域图像。文字区域分割模块920可以进行与上面在步骤s220中描述的处理相对应的处理,这里不再展开赘述。

印章类别识别模块930将矩形文字区域图像的长边旋转至水平方向,并将旋转后的图像输入到印章类别识别模型,得到待识别图像中的印章类别。印章类别识别模块930可以进行与上面在步骤s230中描述的处理相对应的处理,这里不再展开赘述。

根据本发明的一个实施例,装置900还可以包括第一训练模块(图中未示出),适于根据以下方法训练印章区域分割模型:获取多张不同角度下的带有印章的合同图像,印章具有多种形状;采用数据增强的方式生成多张模糊印章图像和多张部分缺失印章图像,并将所生成的各图像填充到带有文字背景的图像中,得到填充图像;分别生成与合同图像和填充图像对应的标注有印章区域的图像作为第一训练集,并根据该第一训练集训练所述印章区域分割模型。印章区域分割模型的详细训练过程,可以参考步骤s211-s213中的描述,这里不再赘述。

根据本发明的另一个实施例,装置900还可以包括第二训练模块(图中未示出),适于根据以下方法训练文字区域分割模型:分别从各合同图像中分割出印章区域图像;对所分割出的印章区域图像进行模糊化处理,得到多张新模糊印章图像;将印章区域图像、模糊印章图像、部分缺失印章图像和新模糊印章图像作为素材图像,分别生成各素材图像对应的标注有矩形文字区域的图像作为第二训练集,并根据该第二训练集训练所述文字区域分割模型。文字区域分割模型的详细训练过程,可以参考步骤s221-s223中的描述,这里不再赘述。

根据本发明的另一个实施例,装置900还可以包括第三训练模块(图中未示出),适于根据以下方法印章类别识别模型:分别从各素材图像分割出对应的矩形文字区域图像;将各矩形文字区域图像的长边旋转至水平方向,并将旋转后的各图像作为第三训练集训练印章类别识别模型。印章类别识别模型的详细训练过程,可以参考步骤s231-s232中的描述,这里不再赘述。

根据本发明的技术方案,采用了两次切割和一次分类的结构设计,通过定位0度、90度、180度、和270四种角度的合同中的印章区域,对切割得到任意方向角度的印章区域仅定位类别标识的文字区域,最后对得到的文字区域旋转得到0度和180度的图像做分类识别。通过对每个流程中的算法模型的参数优化,在兼顾实时性的条件下得到了较高的精度。本发明实例在单核的teslak80gpu上运行的结果,整张合同图像印章类别识别的平均时间为500ms,符合实时识别的需求。在测试精度层面,在1000张未经过训练的印章合同图片上,得到结果中识别类别的准确率约为97%。

a8、如a5-a7中任一项所述的方法,其中所述模糊化处理包括模糊、扭曲、随机擦除部分区域、翻转和不同角度的旋转处理中的至少一种。a9、如a1-a8中任一项所述的方法,还包括所述印章类别识别模型的训练步骤:分别从各素材图像分割出对应的矩形文字区域图像;将各矩形文字区域图像的长边旋转至水平方向,并将旋转后的各图像作为第三训练集训练所述印章类别识别模型。a10、如a1-a9中任一项所述的方法,其中所述印章类别包括合同专用章、业务专用章、财务专用章、销售专用章中的至少一种。a11、如a10所述的方法,其中所述分别从各素材图像对应分割出矩形文字区域图像的步骤包括:根据所述素材图像所标注的矩形文字区域分割出所述矩形文字区域图像;或者将所述素材图像输入到所述矩形区域分割模型中,得到分割后的矩形文字区域图像。a12、如a1-a11中任一项所述的方法,其中所述将矩形文字区域图像的长边旋转至水平方向的步骤包括:识别所述矩形文字区域图像的长边所在角度,并将其旋转至角度最近的水平线上。a13、如a9-a12中任一项所述的方法,其中所述文字区域分割模型为改进的east目标检测模型,所述印章类别识别模型为resnet卷积神经网路模型。

这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、u盘、软盘、cd-rom或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的合同印章的类别识别方法。

以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1