一种报销单据图像文本信息校准与提取方法与流程

文档序号:27099416发布日期:2021-10-27 17:29阅读:164来源:国知局
一种报销单据图像文本信息校准与提取方法与流程

1.本发明涉及图像识别、机器学习等技术领域,具体地指一种报销单据图像文本信息校准与提取方法。


背景技术:

2.在财务对账等管理活动中,需要比对财务信息管理系统中的电子单据数据和纸质单据数据的一致性,确保财务活动的正确性和真实性,然而现实情况中经常会出现电子单据数据和纸质单据比对不一致的情况,严重财务管理的效率。目前电子单据比对和纸质单据比对主要通过财务人员人工审核的方式执行,效率低下且仍存在错误。
3.光学字符识别技术是目前纸质文档电子化的核心技术之一,为完成纸质单据和电子单据的比对提供了可行的技术路径,但存在一些技术难点:(1)纸质报销单据图像中存在较多噪声,例如纸张生产过程中产生的污点,报销单据打印过程中产生的不清晰墨迹,报销单据审核过程中产生的印章等,这些噪声十分影响光学字符识别准确性;(2)纸质报销单据打印过程中受打印纸张摆放位置的影响,经常会出现不对齐甚至错位的情况,对于准确识别并提取单据用户信息带来较大技术难点。
4.因此,本发明针对上述技术问题,实现一种基于图像识别和机器学习技术的纸质报销单据图像文本信息校准与提取方法,实现纸质单据图像用户信息提取、对齐,并与财务系统电子单据进行比对,自动审核纸质单据与电子单据的一致性,减少财务管理成本并提高财务管理效率,具有较高的实用价值。


技术实现要素:

5.本发明针对纸质报销单据电子化过程中存在的格式、印章造成的噪声问题,以及印刷造成的用户信息与模板字段错位的问题,旨在通过图像处理与识别等技术,对报销单据图像中的用户信息进行校准与提取,并生成电子单据进行自动核对,提高财务人员核对账单的效率。发明内容包括:
6.(1)报销单据图像噪声过滤方法
7.(2)报销图像文本信息校准方法
8.具体如下:
9.(1)报销单据图像噪声过滤方法
10.该方法基于otsu阈值分割和edt距离变换的图像预处理算法,对报销单据图像中存在的印章、墨点和皱褶等噪声进行过滤,并将过滤后的图像作为图像文本信息校准方法的输入。
11.提取原始图像rgb三个颜色通道的像素矩阵,采用otsu阈值分割算法进行二值化处理,生成二值掩码矩阵,对原图进行过滤,保留图像中可能为报销单据文字的深色部分,去除如印章等彩色信息的噪声干扰。
12.对上述过滤后的图像采用edt距离变换,生成以二值图保留的报销单据文字像素
为目标的欧氏距离灰度图像,其中灰度图的像素值为其与最近目标点的距离,并再次采用otsu阈值分割算法,设置阈值为单据印刷体笔画宽度的一半,获得提取后的二值图,实现文字细化。
13.对细化后的二值图做形态学开运算,消除图像中孤立的,狭小的墨点和印章噪声,分离报销单据中文字与文字、文字与表格边框线等纤细连接处的物体粘连,并消除笔画末端等较大区域的凸起部分。
14.对上述二值图采用轮廓提取算法提取图中文字,采用最大连通域算法获得文字连通域的最小外接矩形,设置文字矩形框的宽高比阈值,过滤剩余的非文字连通域,获得过滤噪声后的报销单据关键字段及用户信息。
15.(2)报销单据图像文本信息校准方法
16.为了实现报销单据信息校准与提取,本发明提出基于ssd网络的光学字符连通域语义相关性配准和基于tesseract光学字符识别的报销单据图像文本信息识别方法,对用户信息与模板字段进行对齐校准处理,识别文本与电子单据数据进行比对,实现报销单据图像文本信息的校准与提取。该方法以单据中用户信息作为检测目标,采用最大连通域算法从报销单据图像中提取用户信息连通域,并根据用户信息与单据字段的对应关系构建相关性矩阵,标记并表示报销单据用户信息与模板字段连通域关联性;基于上述连通域相关性矩阵,通过随机旋转、缩放、高斯噪声和裁剪等扰动处理,进行数据增强,采用ssd网络训练报销图像文本信息校准模型,用于对用户信息与模板字段进行对齐校准处理;采用tesseract识别单据文本框中的光学字符信息,将识别文本与电子单据数据进行比对,实现报销单据图像文本信息的校准与提取。
17.其中,ssd目标检测网络包括骨干网络和多尺度特征提取网络,ssd目标检测骨干网络为卷积神经网络resnet50去除用于分类的全连接层构成,多尺度特征提取网络是一个多层的下采样网络,通过在每一个下采样层输出目标框,实现从不同尺度提取的目标框。相关性提取器由vgg16及全连接输出层组成,其输入为一对候选连通域图像,即通道数为2的特征图,经过vgg16后将特征图平铺成1维的特征向量输入全连接层,全连接层由一个512个神经元的特征混合层及一个1个神经元的输出层组成,网络的最终输出为候选连通域相关性值。
18.ssd网络输入为从报销单据图像中提取的经噪声过滤后的用户信息和模板字段连通域图像两张图像,均采用双线性插值算法缩放至256x256尺寸,并进行min

max归一化处理;ssd网络输出包括待检测的n(n表示连通域数量)个候选连通域坐标,以及候选连通域之间的n*n相关性矩阵。
19.ssd网络架构包括两个分支:一个分支为相关性提取器,用于计算用户信息与与模板字段连通域之间的相关性系数,输入为两两配对的n*n个连通域图像,输出一个n*n的相关性矩阵m,其含义为每一对用户信息和模板字段连通域匹配的概率;另一个分支通过全连接层连接输出层,输出文本框位置以中心点

宽高(x,y,w,h)。
20.在输出的相关性矩阵m中选择这n列中相关性概率值最大的n个值,即为n组用户信息与模板字段连通域的匹配对齐关系。将n个用户信息连通域位置(x,y,w,h)从报销单据原图中切割出矩形框局部图像,分别输入tesseract模型中识别其中的光学字符信息,将识别出的文本信息与电子单据中的对应信息进行校准。
附图说明
21.图1为本发明的整体流程示意图。
22.图2为报销图像文本信息校准方法的网络架构图。
具体实施方式
23.下面结合附图对本发明的具体实施方式进行进一步的详细描述。如图1所示,本发明提出了一种基于ssd网络的光学字符连通域语义相关性配准和基于tesseract光学字符识别的报销单据图像文本信息校准与提取方法,该方法包括报销单据图像噪声过滤方法和报销图像文本信息校准方法。所述报销单据图像噪声过滤方法原始的报销单据图像进行图像去噪处理,对报销单据图像中存在的印章、墨点和皱褶等噪声进行过滤,并将过滤后的图像输入报销图像文本信息校准方法。报销图像文本信息校准方法,该方法用于报销单据图像格式校准,如图2所示,基于ssd目标检测网络和相关性提取器,利用含有标注信息的模板单据、报销单据图像,多任务训练报销单据图像中用户信息与模板字段配准模型,并基于tesseract光学字符识别技术与财务信息管理系统中的数据进行校准。具体步骤如下:
24.步骤一:报销单据图像二值化
25.提取原始图像rgb三个颜色通道的像素矩阵,采用otsu阈值分割算法进行二值化处理,生成二值掩码矩阵,对原图进行过滤,保留图像中可能为报销单据文字的深色部分,去除如印章等彩色信息的噪声干扰。其中阈值分割计算公式如下:
[0026][0027]
其中img(x,y)为二值图像在x,y坐标下的像素值,thresh为阈值(根据实际报销单据图像,根据经验设置所得)。
[0028]
步骤二:文字图像提取与细化
[0029]
对上述过滤后的图像采用edt距离变换,生成以二值图保留的报销单据文字像素为目标的欧氏距离灰度图像,其中灰度图的像素值为其与最近目标点的距离,其公式如下:
[0030]
gray(p)|
p=p(x,y)
=min
q∈t
(ed(p,q))
[0031]
其中gray(p)为灰度图中的任意像素点,t为二值图中所有值为1的像素点,ed为欧氏距离。进行距离变换后,再次采用otsu阈值分割算法,设置阈值为单据印刷体笔画宽度的一半,获得提取后的二值图,实现文字细化。
[0032]
步骤三:图像噪声过滤及文字粘连分离
[0033]
对细化后的二值图做形态学开运算,消除图像中孤立的,狭小的墨点和印章噪声,分离文字与文字、文字与表格边框线等纤细连接处物体粘连,并消除笔画末端等较大区域的凸起部分。
[0034]
步骤四:关键信息的字符连通域提取
[0035]
对上述二值图采用轮廓提取算法提取图中文字,采用最大连通域算法获得文字连通域的最小外接矩形,设置文字矩形框的宽高比阈值,过滤剩余的非文字连通域,获得过滤噪声后的报销单据关键字段及用户信息。
[0036]
步骤五:报销单据图像用户信息与模板字段连通域相关性标记
[0037]
构建报销单据图像校准模型训练数据集,包含常用报销单据图像数据,每张单据
图像包含模板字段和用户信息,以及坐标标注,例如单据id、日期、地址、金额等。采用最大连通域算法从报销单据图像中提取用户信息连通域,并根据用户信息与单据字段的对应关系构建相关性矩阵,标记并表示报销单据用户信息与模板字段连通域关联性,其中用户信息与模板字段对应连通域的相关性设置为1,非对应连通域相关性设置为0,生成大量对应连通域坐标、相关性标注作为文本信息校准模型的训练集。
[0038]
步骤六:训练数据增强
[0039]
将训练集中报销单据图像通过随机旋转、缩放、高斯噪声和裁剪等扰动处理,进行数据增强,以减少过拟合,提高模型校准的准确率。
[0040]
步骤七:基于ssd网络的报销单据校准模型训练
[0041]
采用ssd网络训练报销图像文本信息校准模型,ssd网络输入为从报销单据图像中提取的经噪声过滤后的用户信息和模板字段连通域图像两张图像,均采用双线性插值算法缩放至256x256尺寸,并进行min

max归一化处理;ssd网络输出包括待检测的n(n表示连通域数量)个候选连通域坐标,以及候选连通域之间的n*n相关性矩阵。
[0042]
ssd网络对n个连通域提取n个特征图,通过加入相关性提取器,对用户信息与模板字段进行对齐校准处理。ssd网络架构包括两个分支:一个分支为相关性提取器,用于计算用户信息与与模板字段连通域之间的相关性系数,输入为两两配对的n*n个连通域图像,输出一个n*n的相关性矩阵m,其含义为每一对用户信息和模板字段连通域匹配的概率;另一个分支通过全连接层连接输出层,输出文本框位置以中心点

宽高(x,y,w,h)。
[0043]
在输出的相关性矩阵m中选择这n列中相关性概率值最大的n个值,即为n组用户信息与模板字段连通域的匹配对齐关系。概率值匹配的计算方式如下:
[0044][0045]
其中为匹配的用户信息,argmax函数为一列中最大值的行数索引
[0046]
候选连通域利用smooth l1 loss损失函数进行回归训练,相关性矩阵对每一列进行softmax函数运算,并采用交叉熵损失函数进行分类训练。具体的训练损失函数公式如下:
[0047][0048][0049][0050]
其中:y表示符号函数(0或1),如果是同一个文本框为1,否则为0;表示预测的候选框;g表示真实的候选框;c表示预测的相关性;(i,j)表示相关性矩阵的行、列索引。
[0051]
步骤八:报销单据图像信息提取与比对
[0052]
将n个用户信息连通域位置(x,y,w,h)从报销单据原图中切割出矩形框局部图像,分别输入tesseract模型中识别其中的光学字符信息,将识别出的文本信息与财务系统电子单据中的对应数据进行校准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1