发票专用章税号的提取和识别方法与流程

文档序号:16311178发布日期:2018-12-19 05:17阅读:5244来源:国知局
发票专用章税号的提取和识别方法与流程

本发明属于数字图像处理技术领域,进一步涉及文字识别技术,具体为一种发票专用章税号的提取和识别方法,可用于获取税务登记号信息。

背景技术

发票专用章是指使用发票的企业、单位和个体工商业户按税务机关规定刻制,在领购或开具发票时加盖于发票之上的专用印章,该印章印模里含有其公司单位名称、发票专用章字样及税务登记号,其中税务登记号简称税号。税号是发证机关给出的一张税务“身份证”,统一税号制度有利于强化税务登记,规范税收征管,加强纳税档案管理和税源管理,促进依法治税。因此税号的提取、识别显得尤为重要。

现阶段税号的提取和识别方法主要有两种:一是传统的人工识别方法,其通过人工辨识税号,然后输入到计算机中,这种方法效率低、误差大,而且人工和时间成本过高;二是基于深度学习的提取和识别方法,通过大量已知训练样本训练分类器,然后采用循环神经网络对预处理后的图像数字进行定位,分割出带有数字的图像,最后将分割好的图像送到训练好的分类器中进行分类,该方法可以有效改善人工识别误差大、成本高的问题,然而其所采用的循环神经网络和分类器均需要提取图像的指定特征作为输入,因此计算量较大,依然存在提取和识别速度慢的不足。



技术实现要素:

本发明的目的在于针对上述现有技术的不足,提出一种发票专用章税号的提取和识别方法,通过计算椭圆图像的质心,快速定位发票专用章中心坐标,进而选定税号所在区域,然后分割出单个数字图像,依次对其进行模板匹配,快速准确地识别发票专用章中的税号,从而提高对发票专用章税号的识别效率及精度。

为实现上述目的,本发明采取的技术方案为:

(1)获取包含发票专用章的rgb图像;

(2)将获取的rgb图像进行拉普拉斯锐化,然后将其转换到ycrcb颜色空间;

(3)将ycrcb颜色空间进行通道分离,并对分离出的cr通道进行自适应阈值处理,将图像转换为二值图,再通过膨胀腐蚀运算去除二值图的噪声,得到仅包含发票专用章的二值图;

(4)对仅包含发票专用章的二值图进行canny边缘检测,选出最外层轮廓,即发票专用章的外轮廓椭圆图像;

(5)计算外轮廓椭圆图像的质心坐标,即发票专用章的中心点坐标;

(6)根据中心点坐标截取只包含税号的矩形区域;

(7)将矩形区域中的税号分割为单个数字;

(8)制作数字0~9的搜索模板t,调整单个数字图像的大小,使其与搜索模板t中数字的大小一致,将调整后的单个数字作为被搜索图s依次送入制作好的数字搜索模板中,采用相关法对数字进行匹配,根据匹配结果识别税号。

本发明与现有技术相比,具有以下优点:

第一、由于本发明利用零阶和一阶几何矩获取发票专用章外轮廓椭圆的中心点坐标,然后根据中心点坐标精确定位税号位置,因此无需训练网络和提取图像特征,从而减小了税号定位的计算量、提高了定位精确度。

第二、由于本发明对发票专用章中的数字部分采用模板匹配的方法进行识别,因此不需要训练分类器以及提取图像特征的过程,从而加快了对数字的识别速度、提高了提取并识别税号的效率。

附图说明

图1是本发明的实现流程图;

图2是包含发票专用章的rgb图;

图3是只包含发票专用章内容的二值图;

图4是发票专用章的外轮廓图像;

图5是发票专用章外轮廓及中心点图像;

图6是只包含税号的矩形二值图;

图7是对只包含税号的矩形二值图进行颜色反转后得到的图像。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案,下面结合附图与具体实施例,对本发明作进一步详细阐述。

参照图1,发票专用章税号的提取和识别方法,包括以下步骤:

步骤1.获取包含发票专用章的rgb图像,如图2所示。

步骤2.将获取的rgb图像进行拉普拉斯锐化,然后将其转换到ycrcb颜色空间。

首先,对步骤1获取的rgb图像进行拉普拉斯锐化处理,具体如下:将低于邻域像素平均灰度值的中心像素灰度值降低,将高于邻域像素平均灰度值的中心像素灰度值提高。即,当邻域中心像素灰度低于它所在领域内其它像素的平均灰度时,降低此中心像素的灰度值;当邻域中心像素灰度高于它所在邻域内其它像素的平均灰度时,提高此中心像素的灰度值。图像经过锐化处理后,其发票专用章部分更容易提取。

然后,通过如下公式将锐化后的rgb图像转换到ycrcb颜色空间:

y=(b×1868+g×9617+r×4899+8192)÷16384;

cr=((b-y)×9241+8192)÷16384+128;

cb=((r-y)×11682+8192)÷16384+128;

其中,“r”表示rgb图像中r通道的值,“g”表示rgb图像中g通道的值,“b”表示rgb图像中b通道的值,“y”表示ycrcb图像中y通道的值,“cr”表示ycrcb图像中cr通道的值,“cb”表示ycrcb图像中cb通道的值。

ycrcb颜色空间包含三个通道,其中:“y”表示明亮度,即灰阶值;“cr”和“cb”均表示色度,“cr”指红色色度分量,“cb”指蓝色色度分量。

步骤3.对ycrcb颜色空间的cr通道进行自适应阈值处理,仅保留发票专用章的内容。

从ycrcb颜色空间中分离出cr通道,对cr通道进行自适应阈值处理,将图像转换为二值图,然后对其进行膨胀腐蚀运算去除噪声,得到只保留发票专用章的二值图,如图3所示。

步骤4.通过canny边缘检测获取发票专用章的外轮廓椭圆图像。

通过以下步骤对只保留发票专用章的二值图进行canny边缘检测:

1)使用高斯滤波器,平滑图像、滤除噪声;

2)计算图像中每个像素点的梯度强度和方向;

3)利用非极大值抑制消除边缘检测带来的杂散响应;

4)使用双阈值检测确定真实的以及潜在的边缘;

5)通过抑制孤立的弱边缘最终完成边缘检测。

完成边缘检测后选出最外层轮廓,即发票专用章的外轮廓椭圆图像,如图4所示。

步骤5.通过计算椭圆图像的质心坐标,找到发票专用章的中心点。

根据国家标准,发票专用章税号在其中心位置,因此需要找到发票专用章的中心点,用来定位税号位置。计算外轮廓椭圆图像的质心坐标的方式有多种,如几何矩、霍夫变换等,本发明采用几何矩的方式计算获取外轮廓椭圆图像的质心坐标,具体步骤如下:

离散图像的p+q阶几何矩mpq定义为:

其中,x、y分别表示外轮廓椭圆图像的横纵坐标;p表示x的阶数,q表示y的阶数,且p、q均为大于等于0的整数;m表示外轮廓椭圆图像横坐标x的界,n表示外轮廓椭圆图像纵坐标y的界,且m、n均为大于等于1的整数;

取p=0、q=0,根据式<1>得到零阶几何矩m00:

取p=1、q=0,根据式<1>得到x一阶几何矩m10:

取p=0、q=1,根据式<1>得到y一阶几何矩m01:

利用零阶和一阶几何矩,通过如下公式求得发票专用章外轮廓椭圆图像的质心坐标

发票专用章外轮廓的中心点如图5所示。

若在该步利用霍夫变换计算外轮廓椭圆图像的质心坐标,则需要如下步骤:

将平面上的二次曲线表示为:

ax2+2bxy+cy2+2dx+2ey+1=0

其中,a、b、c、d、e表示五个待求的参数,x、y表示二次曲线的横纵坐标。

利用霍夫变换求出以上五个参数,如果b2-ac<0,则二次曲线为椭圆,然后根据椭圆参数方程求解椭圆的中心坐标。

步骤6.根据中心点坐标截取只包含税号的矩形区域。

根据发票专用章样章标准,税号在印章的中间位置,可以根据中心点坐标和自适应阈值,取出最小且完整包含税号的矩形区域,即只包含税号的矩形二值图,如图6所示。

步骤7.将税号分割为单个数字。

将步骤6提取出来的将矩形区域图像进行颜色反转,得到颜色反转后的图像如图7所示,再根据自适应定阈值,对反转后图像进行分割,分割得到每个数字。将矩形区域中的税号分割为单个数字。

步骤8.对每个数字进行模板匹配,识别税号。

制作数字0~9的搜索模板t,调整单个数字图像的大小,使其与搜索模板t中数字的大小一致,将调整后的单个数字作为被搜索图s依次送入制作好的数字搜索模板中,采用相关法对数字进行匹配,根据匹配结果识别税号。

采用相关法对数字进行匹配的具体过程如下:

(8.1)设搜索模板t有m×n个像素点、被搜索图s有w×h个像素点,将t叠放在s上并进行平移,t覆盖下的s区域为子图sij,根据下式得到搜索模板t与子图sij的相似度d(i,j):

其中,i为子图左上角在被搜索图s上的横坐标,j为子图左上角在被搜索图s上的纵坐标,且1≤i≤w-m,1≤j≤h-n,sij(m,n)为sij在坐标(m,n)处的像素值,t(m,n)为t在坐标(m,n)处的像素值;

(8.2)将d(i,j)归一化,得模板匹配的相关系数r(i,j):

(8.3)相关系数r(i,j)=1表示模板和子图完全一致,由于会存在一定偏差,我们此处规定,若r(i,j)大于等于0.9则表示模板和子图一致。判断相关系数r(i,j)的值是否大于等于0.9,若是,则子图和模板一致,完成匹配搜索,确定图片对应的数字;反之,子图和模板不一致,继续迭代搜索,直到搜索到与子图一致的模板,完成匹配搜索。

本发明未详细说明部分属于本领域技术人员公知常识。

以上描述仅是本发明的实施例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理的情况下,进行形式和细节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1