一种基于扫描仪混扫的票据识别方法及系统与流程

文档序号:15888862发布日期:2018-11-09 19:58阅读:265来源:国知局
一种基于扫描仪混扫的票据识别方法及系统与流程

本发明涉及票据识别方法技术领域,具体地涉及一种基于扫描仪混扫的票据识别方法及系统。

背景技术

随着我国税制结构营改增的实施,现在增值税是我国当前最为重要的流转税税种,增值税的征税范围从原来覆盖的大部分第二产业,到现在进一步覆盖到第二、三产业的绝大部分行业。

现在增值税的征收管理更加严格,同时增值税发票量大量增多,手工录入太慢和查验真假非常耗时,且效率低下,错误率高。同时更多种类的票据也存在着这样的问题,比如各种银行回单,机打发票,火车票,定额发票等等都是传统手工录入。而企业财务人员在完成票据的认证抵扣后,还需要行单据扫描、数据录入、人工校对等工作。传统的人工录入方式,用户需要投入大量的人力成本和时间成本,不仅抬高了运营成本,而且录入速度难以提升,错误率难以降低,对提高业务处理时效、提升企业服务品质带来很多负面影响。

但是只识别一种票据也不符合现实中的使用情况,通常企业会有多种票据需要入账,比如增值税票据,机打发票,定额发票火车票,银行票据等等。因此利用现代信息技术手段开发出一款混扫票据识别的系统势在必行。



技术实现要素:

为了克服现有技术的缺陷,本发明提供一种基于扫描仪混扫的票据识别方法及系统,对多种类型票据混合扫描进行识别且识别率非常高,节省人力成本和时间成本提高效率。

具体地,本发明提供一种基于扫描仪混扫的票据识别方法,其包括以下步骤:

s1、智能识别系统对多种类型的票据进行学习后,对各类型的票据的关键信息进行存储,识别各类型票据不同的关键信息并为银行票据、机打发票、火车票以及定额发票定义关键字,通过在扫描票据过程中不断学习存储,建立票据关键信息数据库,票据关键信息数据库包括识别顺序列表、关键字列表、关键信息列表以及对应的票据类型列表,关键字列表、关键信息列表以及对应的票据类型列表是一一对应的,票据关键信息数据库如下表格所述:

s2、通过扫描仪将各种混合票据扫描成为电子版图像,上传至智能识别系统获取关键字,对于倾斜和旋转的图片,智能识别系统自动识别并校正;

s3、对得到的电子版图像根据扫描得到的信息与存储的关键信息或关键字进行比对,获取该票据的票据类型,对比顺序按照识别顺序列表的顺序进行,如果票据类型为增值税发票,则进行查验,如查验成功,则将查验结果返回至智能识别终端进行显示,如查验失败,则将该发票归为查验错误类;如果票据类型为增值税发票之外的发票类型,则将该发票的发票类型直接返回至智能识别终端进行显示,如果无法识别该发票的发票类型,则将所述无法识别发票类型的发票归为无法识别类并返回识别结果;

s4、对无法识别类或查验错误类的发票经图像处理后进行二次识别,所述图像处理的方法根据无法识别的具体原因进行确定,其具体包括锁定关键信息位置,根据像素点的坐标进行切块、消除红章、去除线条或对残缺的数字进行机器学习训练;

s5、在对无法识别类或查验错误类的发票二次识别后,重复步骤s1-s3,获取最终的票据类型以及该票据类型对应的关键信息。

优选地,步骤s3具体包括以下步骤:

s31、对得到的电子版图像直接提取关键信息,如果能直接提取到关键信息则首先将扫描得到的关键信息与票据关键信息数据库中存储的关键信息列表中的增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票的关键信息列进行对比,如果该发票属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行查验,如查验成功则返回发票类型及该发票类型对应的关键信息,如查验失败,则将该发票归为查验错误类并返回发票类型及对应的关键信息;如果该发票不属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行关键字提取并根据提取到的关键字获取该关键字对应的关键信息并进入步骤s32;

s32、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的银行票据的关键字列进行对比,如果该发票属于银行票据,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于银行票据,则进入步骤s33;

s33、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的机打发票的关键字列进行对比,如果该发票属于机打发票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于机打发票,则进入步骤s34;

s34、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的火车票的关键字列进行对比,如果该发票属于火车票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于火车票,则进入步骤s35;

s35、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的定额发票的关键字列进行对比,如果该发票属于定额发票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于定额发票,则进入步骤s36;

s36、如果无法识别该发票的发票类型,则将所述无法识别发票类型的发票归为无法识别类并返回识别结果。

优选地,对残缺的数字进行机器学习训练具体为对于容易识别错误的数字进行学习,容易识别错误的数字包括6和8,1和0,5和9以及2和0。

优选地,对于容易识别错误的数字进行学习具体包括以下步骤:

预处理:找到图像的roi部分子图像并进行大小的归一化处理;

特征提取,将图像转化为特征向量;

分类识别,采用k-近邻分类方法进行分类处理,最后根据分类结果完成识别工作,对容易识别错误的数字进行精确识别。

优选地,所述特征提取的具体步骤为:将图片打开之后,进行降噪处理,然后将其灰度化,最后设置一个阙值将其二值化保存到一个32*32的数组中,每一个点是一个像素值,将这1024(32*32)个数值,转换成(1,1024)的向量。

优选地,s3中进行增值税发票进行查验的方法为将关键字发送至国家税务总局全国增值税发票查验平台查验真伪。

优选地,一种基于扫描仪混扫的票据识别系统,其包括扫描装置、识别终端以及智能识别系统,所述扫描装置和识别终端分别与所述智能识别系统通讯连接,

所述智能识别系统包括图片处理单元,用于对图片进行处理;

关键信息提取单元,用于根据相关算法对图片进行关键信息提取;

识别单元,用于根据关键信息进行票据识别,获得票据类型;

查验单元,用于对增值税发票进行查验;

通讯单元,用于与所述智能终端进行通讯。

优选地,还包括机器学习单元,用于对残缺的数字进行机器学习训练具体为对于容易识别错误的数字进行学习,容易识别错误的数字包括6和8,1和0,5和9以及2和0。

与现有技术相比,本发明具有以下有益效果:

本发明采用的智能识别系统能够实现扫描仪混合扫描票据,不需要人工手工输入,不用整理票据类型,企业财务人员不用在完成票据的认证抵扣后,还需要行单据扫描、数据录入、人工校对等工作,大大提高了效率和正确率,节约了成本和时间,解放了人力。

本发明与现有技术相比,最大的飞跃是实现了扫描仪的混合扫描识别,不是针对单一的某一种票据识别,识别的种类更加丰富,更加智能,节约了时间成本,提高了效率,

其次识别正确率的大大提升,对于第一次识别为票面整张进行识别,对于倾斜和旋转的图片,智能识别系统能够自动识别并校正,对识别识别有误的票据,智能识别系统对其进行图像处理,锁定关键信息位置,根据像素点的坐标进行切块,消除红章,去除线条,对残缺的数字进行机器学习训练,进行二次识别。从而提高了识别正确率。

附图说明

图1为本发明的流程示意图。

具体实施方式

以下将参考附图详细说明本发明的示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。

本发明一种基于扫描仪混扫的票据识别方法,其包括以下步骤:

s1、智能识别系统对多种类型的票据进行学习后,对各类型的票据的关键信息进行存储,识别各类型票据不同的关键信息并为银行票据、机打发票、火车票以及定额发票定义关键字,通过在扫描票据过程中不断学习存储,建立票据关键信息数据库,票据关键信息数据库包括识别顺序列表、关键字列表、关键信息列表以及对应的票据类型列表,关键字列表、关键信息列表以及对应的票据类型列表是一一对应的。

具体地,票据关键信息数据库如下表格所述:

具体的学习过程为扫描大量票据,将票据的关键信息进行区分,将票据的关键信息与实际的票据类型进行关联,并针对某些特定的发票定义关键字,例如银行票据、机打发票、火车票以及定额发票,这几类发票在学习过程中定义好关键字,并将关键字与关键信息对应,在识别时,只要能扫描拾取到关键字,即能够从关键字中提取到需要的关键信息。换言之,为某些票据定义的关键字中包含需要的关键信息,只要能扫描到关键字,就能够在关键字中获取关键字包含的关键信息。数据库的学习以大量扫描为基础,在实际应用中,也可以直接定义上述列表,植入数据库或增加更多类型的发票类型植入数据库。

s2、通过扫描仪将各种混合票据扫描成为电子版图像,上传至智能识别系统获取关键字,对于倾斜和旋转的图片,智能识别系统自动识别并校正。

s3、对得到的电子版图像根据扫描得到的信息与存储的关键信息或关键字进行比对,获取该票据的票据类型,对比顺序按照识别顺序列表的顺序进行,如果票据类型为识别顺序列表中的第一类及第二类发票,(识别顺序列表中的第一类及第二类发票均属于增值税发票,以下以增值税发票代替),则进行查验,如查验成功,则将查验结果返回至智能识别终端进行显示,如查验失败,则将该发票归为查验错误类;如果票据类型为增值税发票之外的发票类型,则将该发票的发票类型直接返回至智能识别终端进行显示,如果无法识别该发票的发票类型,则将所述无法识别发票类型的发票归为无法识别类并返回识别结果。

对得到的电子版图像根据扫描得到的信息为之前定义的关键字或者关键信息,扫描得到信息的主要步骤为对扫描的发票的二维码进行定位,并对二维码内部存储的内容进行二维码解析,获取二维码内部隐藏的信息,得到该信息后按照相应的顺序进行比对,判断发票的发票类型。

优选地,步骤s3具体包括以下步骤:

s31、对得到的电子版图像直接提取关键信息,如果能直接提取到关键信息则首先将扫描得到的关键信息与票据关键信息数据库中存储的关键信息列表中的增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票的关键信息列进行对比,如果该发票属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行查验,如查验成功则返回发票类型及该发票类型对应的关键信息,如查验失败,则将该发票归为查验错误类并返回发票类型及对应的关键信息;如果该发票不属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行关键字提取并根据提取到的关键字获取该关键字对应的关键信息并进入步骤s32;

s32、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的银行票据的关键字列进行对比,如果该发票属于银行票据,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于银行票据,则进入步骤s33;

s33、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的机打发票的关键字列进行对比,如果该发票属于机打发票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于机打发票,则进入步骤s34;

s34、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的火车票的关键字列进行对比,如果该发票属于火车票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于火车票,则进入步骤s35;

s35、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的定额发票的关键字列进行对比,如果该发票属于定额发票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于定额发票,则进入步骤s36;

s36、如果无法识别该发票的发票类型,则将所述无法识别发票类型的发票归为无法识别类并返回识别结果。

s4、对无法识别类或税务局查验错误的发票经图像处理后进行二次识别,所述图像处理的方法根据无法识别的具体原因进行确定,其具体包括锁定关键信息位置,根据像素点的坐标进行切块、消除红章、去除线条或对残缺的数字进行机器学习训练。

优选地,对残缺的数字进行机器学习训练具体为对于容易识别错误的数字进行学习,容易识别错误的数字包括6和8,1和0,5和9以及2和0。

优选地,对于容易识别错误的数字进行学习具体包括以下步骤:

预处理:找到图像的roi部分子图像并进行大小的归一化处理;

特征提取,将图像转化为特征向量;

分类识别,采用k-近邻分类方法进行分类处理,最后根据分类结果完成识别工作,对容易识别错误的数字进行精确识别。

优选地,所述特征提取的具体步骤为:将图片打开之后,进行降噪处理,然后将其灰度化,最后设置一个阙值将其二值化保存到一个32*32的数组中,每一个点是一个像素值,将这1024(32*32)个数值,转换成(1,1024)的向量。

优选地,s3中进行增值税发票进行查验的方法为将关键字发送至国家税务总局全国增值税发票查验平台查验真伪。

优选地,一种基于扫描仪混扫的票据识别系统,其包括扫描装置、识别终端以及智能识别系统,所述扫描装置和识别终端分别与所述智能识别系统通讯连接,

所述智能识别系统包括图片处理单元,用于对图片进行处理;

关键信息提取单元,用于根据相关算法对图片进行关键信息提取;

识别单元,用于根据关键信息进行票据识别,获得票据类型;

查验单元,用于对增值税发票进行查验;

通讯单元,用于与所述智能终端进行通讯。

优选地,还包括机器学习单元,用于对残缺的数字进行机器学习训练具体为对于容易识别错误的数字进行学习,容易识别错误的数字包括6和8,1和0,5和9以及2和0。

具体实施例1

以一份增值税增值税专用发票为例,扫描获得的该增值税专用发票的关键信息为:发票代码:5xxx1xx1xx,发票号码:xxxx5xx4,日期:20171027,金额:88288.29。

具体实施例2

以一份增值税普通发票为例,扫描获得的该普通发票的关键信息为:发票代码:5xxx17xxx0,发票号码:0xxx4xx8,日期:20171017,校验查验码:551000。

具体实施例3

以一份增值税电子普通发票为例,扫描获得的该普通发票的关键信息为:发票代码:01xxxxxx0111,发票号码:17xxxx54,日期:20171017,校验查验码:3xxxx7。

具体实施例4

以一张银行票据为例,扫描获取的该银行票据的关键信息为:银行名称:中国农业银行,单据名称:企业网银手续费,收款方:重庆市xx区xxxx有限公司,付款方:四川xxxxxx有限公司,日期:20180206,金额:10.00,备注:企业网银交易手续费。

具体实施例5

以一张客车机打发票为例,机打发票的关键字为:机打发票,关键信息为:金额:195.00。

具体实施例6

以一张火车票为例,火车票的关键字为:铁路,12306,硬座,软座,商务座,一等座,二等座,软卧,硬卧关键信息为:出发地:北京西,目的地:郑州,日期:20170818,金额:93.00。

具体实施例7

以一张定额发票为例,定额发票的关键字为定额发票,关键信息为:金额:100.00。

与现有技术相比,本发明具有以下有益效果:

本发明采用的智能识别系统能够实现扫描仪混合扫描票据,不需要人工手工输入,不用整理票据类型,企业财务人员不用在完成票据的认证抵扣后,还需要行单据扫描、数据录入、人工校对等工作,大大提高了效率和正确率,节约了成本和时间,解放了人力。

本发明与现有技术相比,最大的飞跃是实现了扫描仪的混合扫描识别,不是针对单一的某一种票据识别,识别的种类更加丰富,更加智能,节约了时间成本,提高了效率,

其次识别正确率的大大提升,对于第一次识别为票面整张进行识别,对于倾斜和旋转的图片,智能识别系统能够自动识别并校正,对识别识别有误的票据,智能识别系统对其进行图像处理,锁定关键信息位置,根据像素点的坐标进行切块,消除红章,去除线条,对残缺的数字进行机器学习训练,进行二次识别。从而提高了识别正确率。

最后应说明的是:以上所述的各实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1