一种基于图像处理的增值税发票识别方法与流程

文档序号：15462837发布日期：2018-09-18 18:35阅读：606来源：国知局

本发明涉及一种基于图像处理的增值税发票识别方法，属于电子技术领域。

背景技术：

随着网络技术，特别是互联网技术在我国的迅速推广和普及，各种网络应用，如网上支付、电子商务、网络办公也在我国迅速发展，大大的方便了企业职员工作。然而，发票报销效率低的问题仍亟待解决。

社会经济不断发展，发票报销的工作越来越受到重视，目前的发票报销是采用人工报销的方式，基本全依赖于财务报销人员的业务能力。财务报销人员的工作效率直接影响待报销员工在报销上的用时。发票报销成为加快企业发展的绊脚石，而增值税发票报销是发票报销中重要的一部分。

现有的互联网和人工智能技术很少运用到发票报销上，针对增值税发票智能报销的系统尚未有相关专利进行披露。

OCR光学字符识别技术：OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程。先对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。

技术实现要素：

本发明提供一种基于图像处理的增值税发票识别方法，解决如何核对OCR识别出的金额是否正确、发票金额是最重要的内容、发票上有货物数量、单价、金额、税率、税额以及价税合计的大小写、要核对各项金额是否正确的技术问题。

本发明为解决上述技术问题采用以下技术方案：

本发明提供一种基于图像处理的增值税发票识别方法，包括以下步骤：

步骤1，采集发票图像并进行预处理以及几何校正；

步骤2，将步骤1中校正后的图像处理成标准尺寸；

步骤3，将步骤2处理后的图像分割出八个文本区域；

步骤4，从步骤3中的八个文本区域中，分别分割出其中的文本框；

步骤5，将步骤4中的每个文本框分别输入OCR软件进行识别，得到其中的文字信息；

步骤6，根据步骤5中识别的信息，核对发票金额。

作为本发明的进一步技术方案，所述预处理为：首先，对采集发票图像进行灰度处理，然后，通过霍夫变换算法提取发票图像的外边框，最后，裁剪掉图像外边框以外的部分。

作为本发明的进一步技术方案，根据提取的外边框使用Hough变换检测出发票图像的倾斜角，并根据进行几何校正。

作为本发明的进一步技术方案，使用Hough变换检测出发票图像的倾斜角，具体为：

步骤A，在直角坐标系下将校正后的发票图像C离散化，并计算出图像C的长m和宽n；

步骤B，建立离散化的参数空间ρ-θ，并将其初始化，建立二维累加数组K(θ,ρ)，其中，θ∈[0,180]，

步骤C，遍历步骤A中离散化的图像C，找出所有像素值不为0的点，对找出的每个点，将其坐标(x,y)带入方程ρ＝xcosθ+ysinθ中，并以1为步长遍历θ∈[0,180]，求出每个θi所对应的ρi，在相应的二维累加数组K(θi,ρi)上加1，其中，θi为第i次遍历的θ值，ρi为第i次遍历的θ值对应的ρ的值；

步骤D，遍历二维累加数组K(θ,ρ)，找出其中的最大值，最大值对应的θ值即为图像C的倾斜角。

作为本发明的进一步技术方案，根据图像C的倾斜角，将图像旋转90-θ或者180-θ即得到校正水平或者竖直的发票图像。

作为本发明的进一步技术方案，步骤2具体为：将发票图像的外边框和增值税发票的标准长度进行计算得出比例，按比例将矫正后的发票图像进行缩放，最终将图像处理成标准尺寸。

作为本发明的进一步技术方案，比例大小为：x0、y0分别为标准增值税发票上边框、左边框的长度，x、y分别为校正后的发票图像的上边框、左边框的长度。

作为本发明的进一步技术方案，步骤3具体为：根据增值税发票的内容，将步骤2处理后的图像分割出八个文本区域，其中，文本区域1：发票号码；文本区域2：开票日期；文本区域3：购买方信息；文本区域4：货物或应税劳务、服务名称和规格型号、单位、数量、单价、金额、税率、税额；文本区域5：合计；文本区域6：价税合计；文本区域7：销售方信息；文本区域8：收款人、复核、开票人、销售方。

作为本发明的进一步技术方案，步骤4具体为：分别检测八个文本区域内的文本信息，分割出其中的文本框，并依据其中文本区域中的位置按照从上往下或从左往右的顺序排列。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明能够有效提高增值税报销的效率，并且保证了发票识别的准确率，避免企业员工因报销时间太长耽误正常工作，对未来实现低成本、高效率的企业运转起到一定的推动作用。

附图说明

图1是本发明的方法流程图；

图2是增值税发票八个文本区域划分示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明提供一种基于图像处理的增值税发票识别方法，如图1所示，包括以下步骤：

步骤一：采集增值税发票图片并进行预处理以及几何校正。

将采集的图片进行灰度处理，再通过霍夫变换算法，可以测得外边框，并将外边框外的部分裁减掉。根据提取的外边框使用Hough变换检测出发票图像的倾斜角，并根据进行几何校正：

步骤A，在直角坐标系下将校正后的发票图像C离散化，并计算出图像C的长m和宽n；

步骤B，建立离散化的参数空间ρ-θ，并将其初始化，建立二维累加数组K(θ,ρ)，其中，θ∈[0,180]，

步骤D，遍历二维累加数组K(θ,ρ)，找出其中的最大值，最大值对应的θ值即为图像C的倾斜角；

步骤E，根据图像C的倾斜角，将图像旋转90-θ或者180-θ即得到校正水平或者竖直的发票图像。

步骤二：将图片按比例放大或者缩小成标准大小。

将采集的图片的外边框和标准长度进行计算得出比例，按此比例将图片整个放大或缩小，最终将图片处理成标准大小。为减小误差，分别计算标准增值税发票的上边框长与采集的图片上边框长比值和标准增值税发票的左边框长与采集的图片的左边框长比值，取均值。比例大小为：x0、y0分别为标准增值税发票上边框、左边框的长度，x、y分别为校正后的发票图像的上边框、左边框的长度。

步骤三：将图片分割成八个文本区域图片。

根据增值税发票的有用信息内容，将步骤二处理后的图像分割出八个文本区域，其中，文本区域1：发票号码；文本区域2：开票日期；文本区域3：购买方信息；文本区域4：货物或应税劳务、服务名称和规格型号、单位、数量、单价、金额、税率、税额；文本区域5：合计；文本区域6：价税合计；文本区域7：销售方信息；文本区域8：收款人、复核、开票人、销售方。

以步骤二处理后的图像左上角为坐标原点，确定八个文本区域的左上角位置坐标和每个文本区域的长宽，从而可以截取出所有文本区域。

步骤四：将每个文本区域按项目名称划分成单独的文本框。

以步骤二处理后的图像左上角为坐标原点，给每一个文本区域划定文本框：文本框1的左上角坐标为(15.0，1.0)，长3.6，宽0.7；文本框2的左上角坐标为(15.5,2.1)，长5.0，宽0.8；文本框3的左上角坐标为(0.9,3.0)，长11.5，宽2.2；文本框4的左上角坐标为(0.9，5.2)，长20，宽3.8；文本框5的左上角坐标是(0.9，9.0)，长20，宽0.6；文本框6的左上角坐标是(0.9，9.6)，长20，宽0.8；文本框7的左上角坐标是(0.9，10.4)，长11.5，宽2.0；文本框8的左上角坐标是(0.9,12.4)，长20，宽0.8。从而可以截取出所有文本框，如图2所示。

步骤五：将文本框输入OCR软件，识别出框中文字。

按照文本框在文本区域图片中排列的从上往下或从左往右的顺序将文本框挨个输入OCR软件中，识别出框中文字。在电脑上人为设定增值税发票上第一个至第N个文本框的项目名称，则可以和OCR识别的顺序一一对应，准确的获得整张发票的所有信息。

在文本区域图片④中，将除去第一行后的区域划分成多个单位行，每个单位行的宽度是一个汉字的长度，通过OCR识别，检测若金额下方单位行中无数字，则将此行和上一行合并。

步骤六：核对发票金额。

OCR识别后，将价税合计的大写转换成小写，将识别的到的单价、数量、金额、税率、税额、价税合计的大小写分别进行计算数学计算核对是否全部正确。每一行单价乘数量得到的结果和金额进行比对，金额乘税率得到的结果和税额进行比对。所有行的金额总和与合计的金额进行比对，每一行的税额总和与合计的税额比对。合计的金额和税额总和与价税合计的小写进行比对，最后将价税合计的大写换成小写，比对两个小写数字是否一致。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：桂冠;尹悦;熊健;杨洁;范山岗;张海军
技术所有人：南京邮电大学;江苏皓盘软件科技有限公司
我是此专利的发明人

上一篇：一种基于多层分形网络和关节亲属模式的多人姿态估计方法与流程
上一篇：三节复合水口的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。