一种文档图像分类方法与流程

文档序号：16882912发布日期：2019-02-15 22:21阅读：428来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及文档图像分类技术领域，尤其涉及一种基于深度卷积与深度循环网络并结合字符块布局的文档图像分类方法。

背景技术：

目前，主流的结构化文档图像分类方法，基本与文档图像分类技术一致：

方案之一：是单纯用基于cnn的深度神经网络进行分类识别或检测识别。

方案之二：是利用ocr技术对文档内容信息进行提取识别，进而将目标转换为文本文档分类识别问题。

其中，在现阶段，方案一在一些比较近似的图像上分类效果较差，如门诊发票与住院发票的区分等；而方案二的ocr标注成本很高，同时对一些内容信息比较像的文档区分能力较弱。

此外，基于深度卷积神经网络的图片分类方法，如：alexnet，vgg，googlenet，resnet，densenet等，它们都是通过卷积神经网络的方式获取图片的深层抽象特征，然后再对抽象特征进行分类。由于卷积神经网络的特性，这些方法可以获得：平移不变性、尺度不变性等优势。因而它们在处理一些图片分类任务时能获得极高的准确率。比如：imagenet中提供1000个类别，包括：猫、狗，马，车，花等。这些类别在视觉上是有很好的区分度的，算法可达到98％以上的分类准确性。然而，对一些精细类别的区分，如：我们面临的文档图片分类是更精细的分类，类别间的差别很小，上述图片分类方法只能达到60-70％的准确率。这在生产环境下是无法接受的。

而带注意力模型的深度卷积神经网络的图片分类方法是对上述方法的改进，为了解决类别间差距比较小的分类问题。比如：不同种类的鸟的识别，不同品种的花的识别，不同款式的车的识别。该方法添加了注意力机制，重点突出各类别中差异最大的部位，比如鸟的爪子，车的车标是类别间差异很大的部位，因此该算法会突出这部分的权重，从而达到较好的分类效果。此算法虽然改善了第一种分类方法，对精细类别的区分准确率可达80％以上，但依然没有达到一个令人满意的准确率。

而对于文字识别方法(ocr)+文本分类的方式，其第一阶段是做文本图像中的文字提取：文字识别在其中至关重要，文字识别的方法也分传统方法和深度学习方法。传统的文字识别经历文字检测，单字分割，单字识别，后校验等步骤，识别准确率比较低，泛化能力有限。深度学习的方法是，深度卷积神经网络进行文字检测，深度循环网络进行文字串识别。识别结果准确高，处理简单，泛化能力强。深度学习文字方法包含以下模型：

文字检测的模型：fasterrcnn，east，rrcnn，textboxes；

文字识别的模型：cnn(多种cnn特征提取模型)+rnn(lstm、gru等结构)+ctc(ctc、warpctc等)；

该类方法的第二阶段为：文本分类的方法，基本上都有以下处理步骤：文本分词，词向量表示，文档建模表示等。经上述步骤后，可以使用任意的分类方法来进行文本分类。例如：支持向量机(svm)，朴素贝叶斯分类器，k-近邻(knn)，决策树，随机森林等。或者使用深度神经网络的分类方法，将文档表示成词向量矩阵后，就可以使用卷积神经网络和循环神经网络进行分类。此方法对文本分类能达到95％以上的分类准确率。

对于各现有技术，其存在以下缺点：

图片分类的方法：目前基于深度卷积神经网络的图片分类方法取得了很大的突破，在一些图片分类的任务上甚至超越了人类的水平。但是，现有的图片分类技术是针对特征和差别显著的类别，比如：区分猫和狗，它还无法在精细的分类上确定好的准确率。因而，现有图片分类技术无法准确的区分某些差别微小的文档类型。

目标检测的方法：基于目标检测的方法其本质与图片分类方法没有大的区别，多了一步定位信息，让分类信息更加聚焦于图像中的目标的区域，基于深度学习的目标检测的方法在一般的任务下有很好的准确率。比如：它可以准确地从文档图片中判断是否有身份证、银行卡等目标。然而，面对细微差别的门诊发票和住院发票，目标检测方法也无能为力。

文字识别方法(ocr)+文本分类：该方法，第一阶段需要对图像做文字提取，因而在构建模型时，需要对图像中的文本区域标注拉框以及对内容进行文字标注，因而成本十分的高，另外第二阶段的文本分类一般采用词袋模型，也就是并不区分文本中字词出现的先后位置，因而降低了区分性，使得在内容较为类似的文本分类场景中，分类效果较差，同时该方法一般还需要对字词额外构建词向量，才能使特征更加稳定，词向量需要大量的场景相关语料才能训练得到，因而进一步的限制了该方法性能与使用广泛性。

技术实现要素：

针对上述现有技术中存在的不足之处，同时结合到结构化文档图像的特点，本发明提供一种文档图像分类方法，其基于图像信息与布局信息的融合分类方案，利用cnn进行文档图像特征提取，并利用检测方法，定位出核心文本内容区域，然后基于一定的统一的位置顺序逻辑将上述定位出的核心文本区域对应的cnn特征输入给rnn网络，rnn网络把文本块特征进行有序的融合，并最终输出类别信息，从而提供一种内容与布局相结合的端到端的分类方法；具体地，本发明的文档图像分类方法包括以下步骤：

步骤一、基于深度卷积神经网络，对待分类的结构化文档图像进行图像内容特征提取；

步骤二、以步骤一中所提取到的图像内容特征为输入，利用目标检测框架对所述文档图像中的各关键信息条目位置进行检测回归；

步骤三、通过步骤二中回归的各关键信息条目的坐标信息，裁剪抽取出各关键信息条目所在位置对应的图像内容特征的特征信息集合；

步骤四、基于步骤二中检测的各关键信息条目的相对位置关系，按照预设排序逻辑对步骤三中提取的特征信息集合进行顺序重组；

步骤五、利用可变长输入的深度循环网络对步骤四中重组后的特征信息集合，进行深度融合并最终给出所述文档图像的分类结果。

可选地，所述步骤一中的所述深度卷积神经网络为vgg、restnet，以及inception中的任意一种。

可选地，所述步骤二中的所述目标检测框架为fasterrcnn、ssd、yolo、east、ctpn、textboxes，以及rrcnn中的任意一种。

可选地，所述步骤四中的所述预设排序逻辑为：将文档图像的特征区域网格化，如果一个编号为m的目标框tm的左上顶点为落在(gi,gj)网格里，则tm的排序坐标tm(x,y)＝(gi,gj)；各目标框按如下逻辑排序：tm>tn等价于tm(x)>tn(x)||[tm(x)＝tn(x)&&tm(y)>tn(y)]。

可选地，所述步骤五中的所述深度循环网络为单层rnn网络、多层rnn网络、单向rnn网络，以及双向rnn网络中的任意一种。

本发明首先利用成熟的深度检测模型框架对结构化文档中关键信息进行定位，接着利用定位信息抽取对应位置的深度特征，按布局重组织特征顺序后，由于不同类别的文档结构不一样，导致关键信息条目数量也不一样，因而利用可变长输入的深度循环网络融合所有特征信息，并最终给出分类结果。整体精度能达到98％的准确率。

附图说明

图1为本发明实施例提供的文档图像分类方法的处理流程示意图；

图2至图4为以faster-rcnn框架为基础的一个可视化流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本实施例提供一种文档图像分类方法，其包括以下步骤：

步骤一、基于深度卷积神经网络，对待分类的结构化文档图像进行图像内容特征提取；

步骤二、以步骤一中所提取到的图像内容特征为输入，利用目标检测框架对所述文档图像中的各关键信息条目位置进行检测回归；

步骤三、通过步骤二中回归的各关键信息条目的坐标信息，裁剪抽取出各关键信息条目所在位置对应的图像内容特征的特征信息集合；

步骤四、基于步骤二中检测的各关键信息条目的相对位置关系，按照预设排序逻辑对步骤三中提取的特征信息集合进行顺序重组；

步骤五、利用可变长输入的深度循环网络对步骤四中重组后的特征信息集合，进行深度融合并最终给出所述文档图像的分类结果。

进一步地，请参阅图2至图4，其为以faster-rcnn框架为基础的一个可视化流程示意图，下面结合图2至图4的相关信息，对本实施例的方案进行更进一步地阐述：

1.图像特征提取&文本检测模块，此处使用的目标检测可以使用任何通用的目标检测算法，如：fasterrcnn,ssd,yolo等。下面以fasterrcnn为例子阐述其原理：

a)特征提取模块:利用深度卷积神经网络(vgg，restnet，inception)结构提取图片整体抽象特征；

b)候选区域产生器:利用区域候选网络推荐候选证件区域，对均匀多尺度的初始化在整个页面上候选框进行，初步的关键文本区域进行定位，得到：

a.候选目标区域分类：判断该区域是否疑似有文本；

b.候选区域位置回归：对候选区域的位置进行初步调整，使其接近目标文本的位置；

候选区域分类器：利用b)中的初步信息，将判断为疑似有文本的候选区域的特征，通过对应的被调整后的坐标信息裁剪抽取出来，进一步进行：

a.物体目标多分类：给出精准的是否有文本信息的判断；

b.物体目标位置精度调整：给出对位置进一步调整，并给出高精准的位置信息。

2.基于深度循环网络的分类模块，该模块有三个任务：

a)特征抽取与尺寸归一化：使用上一模块产生的文本区域坐标集合，在cnn特征模块中，抽取全部的对应位置的特征，构成该区域的特征信息，并对把所有的特征信息，同roipooling的方式resize到同样尺寸。

b)利用文本相对位置，按一定的顺序逻辑，将a)中提取的特征信息集合，进行顺序的重组织，从而把布局信息隐含到了顺序中，特征集合的顺序逻辑可以有多种可行逻辑，考虑到多个目标文本区域重叠概率极低，这里给出一种示意逻辑：

定义：将特征区域网格化，如果一个编号为m目标框tm的左上顶点为落在(gi,gj)网格里，则tm排序坐标tm(x,y)＝(gi,gj),排序按优先如下逻辑排序：

tm>tn等价于tm(x)>tn(x)||[tm(x)＝tn(x)&&tm(y)>tn(y)]。

利用深度循环网络进行特征信息的“有序”融合，最终基于特征给出分类结果，这里的深度循环网络结构可以是多层的、单向、双向的rnn网络，rnn的cell单元可以是现有的任意的rnncell结构，如：lstm,gru等结构。此处以一层双向lstm层+一层单向的lstm层为例。

可选地，上述文本位置检测回归模块可以是下面的任意方法：fasterrcnn，east，ctpn，textboxes，rrcnn。特征以布局信息排序方式可以是任何按照一定逻辑的排序方式，也包含随机排序方式。rnn层的结构可以单向、双向的，单层、多层的网络结构。

本发明是基于深度卷积网络+深度循环网络框架，结合图像文本内容特征和布局特征的结构化文档分类方法，其整体精度能达到98％的准确率；具体地，其具有以下几点优点：

·整体架构上是一个端到端的模型框架，不用分开成几个独立的模型组合起来做分类，这种端到端的框架，能够让模型的监督信号同时训练调整优化全局的参数，极大抑制了组合模型带来的误差放大效应，因而精度更好。

·基于位置抽取文本区域的cnn特征，而不用识别出具体的文字内容，有两点好处：

a)无需大量的文字识别标注信息，极大降低了成本，也简化了扩展了推广的简易性；

b)无需额外的收集大量场景文本进行构建文字的词向量特征工作，本发明中从cnn特征模块里，抽取出来的特征隐含了对应文本区域的文本内容信息，因而天然就是词向量。

·结合到了结构化文档的布局信息，即便文档中的文本内容高度相似，由于他们的排版结构有差异，因而输入各rnn的顺序不一样，从而使得模型具有能处理如“住院发票/门诊发票”这类近似文本的能力。

此外，需要说明的是，本发明实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域技术人员来说，本发明可有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：侯进;黄贤俊
技术所有人：深源恒际科技有限公司
我是此专利的发明人

上一篇：一种用于闸阀的可伸缩式控制机构的制作方法
上一篇：智能分类垃圾箱的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。