一种基于CRNN算法的发票文件真伪识别方法与流程

文档序号:20931549发布日期:2020-06-02 19:06阅读:1039来源:国知局
一种基于CRNN算法的发票文件真伪识别方法与流程

本发明涉及发票文件真伪识别技术领域,尤其涉及一种基于crnn算法的发票文件真伪识别方法。



背景技术:

在电网投标过程中,业绩作为重要评审项之一,一直以来都是影响专家评标效率和引发投标人质疑的重要因素。业绩的证明材料主要包括合同和发票,两者都具备且一一对应才被认定为有效业绩,目前多通过评标专家人工进行证明材料的审核。但是,在评标过程中经常会出现发票票面信息(包含物资名称、数量或金额等信息)被涂抹或模糊不清,存在发票造假嫌疑的情况发生,极大地影响了评标效率及准确性,而无法准确识别发票文件真伪,也给招标单位造成了巨大的经济损失及不良的社会影响。究其原因,主要包括以下几个方面:1、评标专家普遍存在不能准确查询识别发票真伪;2、人工审核操作繁琐且可靠性差,极易发生错误;3、发票制假技术与时俱进,假发票足以以假乱真,不通过税务系统查询,难以用肉眼区分。

对于发票验真,目前常采用的方法多为利用网站、手机、二维码专用扫描设备或识别软件等方式获取所持有的发票信息,然后与网上税务局发票查验平台采集的发票电子信息进行比对。若所持发票与查询获取显示的开票信息全部一致,则判断信息相符,若所持发票与查询获取显示的发票信息中任一项不一致则为异常发票。目前的发票识别验真方法中,最常用的就是ocr(光学字符识别)识别方法。

ocr识别方法主要包括三类:基于结构特征的识别方法、基于神经网络的识别方法和基于二维码的识别方法。

基于结构特征的ocr识别方法只需根据文字本身的形态特性进行识别,形态特性主要包括字符轮廓、笔划走向、特征点等,首先根据字符结构特征对字符进行归类分组,提取每一组的特征信息再利用特征信息的差异来完成识别,该方法容易受到噪声的干扰,对字符分割和去噪有较高的要求。

基于神经网络的ocr识别方法,通过学习机制形成决策区域,可以通过学习获得输入与输出之间的某种映射关系,对发票印刷体数字识别具有较好的识别效果,速度也比较快。

基于二维码的ocr识别方法,通过直接扫描解析票据中的二维码信息,获得发票号码、发票代码、金额、开票日期等,然后将获得的信息输入税务局发票查验平台,获得准确的票面信息,该方法因为无需识别发票所有票面信息,识别效率较高,但是对二维码图像清晰度有一定的要求。

但是,以上方法都是基于准确识别发票图像上的印刷体文字和数字的基础上进行,对于需要识别的信息不多的单张发票,识别的速度尚可,但是对于投标文件中的发票文件,经常需要批量识别几十张、上百张发票,识别信息量大,ocr识别方法在识别速度上无法满足其使用需求;同时,ocr识别方法容易受噪声、图像清晰度等干扰,且还需借助字符切割等手段,会进一步降低识别速度和准确度。



技术实现要素:

本发明的目的是提供一种基于crnn算法的发票文件真伪识别方法,能够快速、简便、准确地识别投标文件中的发票真伪,识别效率高,识别准确度高,可靠度强,极大提高了评标效率及准确性,进而保证投标结果的准确性,预防因投标文件真伪识别错误造成的额招标单位的经济影响及社会影响。

本发明采用的技术方案为:

一种基于crnn算法的发票文件真伪识别方法,包括以下步骤:

a、采集发票文件中二维码位置信息;

b、识别发票文件的票面信息和真实票据信息;具体包括:

提取具有相同二维码位置信息的发票文件图像中的图像块,每个图像块对应票面一项发票单项信息,采用crnn算法提取图像块对应的发票单项信息并构成发票文件的票面信息;

识别发票文件中的二维码,通过联网全国增值税发票查验平台获取发票文件的真实电子文本信息,即发票文件的真实票据信息;

c、分别提取票面信息中的n项票面关键项信息和真实票据信息中的n项真实关键项信息,票面关键项信息与真实关键项信息一一对应;

d、将票面关键项信息的字符长度与对应真实关键项信息的字符长度一一进行比对;若n项票面关键项信息的字符长度与n项真实关键项信息的字符长度均一致,则进入步骤e;反之,则进入步骤f;

e、发票文件为真,将发票文件的真实票据信息录入本地发票数据库;

f、发票文件存疑,由人工复核发票文件真伪。

进一步地,步骤b中,若识别发票文件图像中的二维码后通过联网全国增值税发票查验平台无法获取发票文件的真实电子文本信息,则直接进入步骤f。

进一步地,所述票面关键项信息包括票面信息中的购买方名称、货物或应税劳务、服务名称、单价及金额共四项单项信息;所述真实关键项信息包括真是票据信息中的购买方名称、货物或应税劳务、服务名称、单价及金额共四项单项信息。

进一步地,步骤b中采用crnn算法提取图像块对应的发票单项信息的过程具体包括:

b1:对发票文件图像进行区域图像分割,获取包含发票单项信息的分割图像块;每个图像块均对应一项发票单项信息;

b2:将分割图像块输入crnn网络的卷积层,由crnn网络卷积层对分割图像块中的数值进行特征提取;

b3:利用crnn网络的映射层将在卷积层提取到的特征信息表示为特征向量,获取特征序列;

b4:crnn网络循环层对步骤b3输出的特征序列进行预测,得到每帧特征的概率分布;

b5:特征序列解码,获取分割图像块对应发票单项信息中不定长数据的识别结果;

b6:通过字符串长度计算函数计算发票单项信息识别结果的数值长度。

进一步地,所述发票文件包括发票原件、发票图片、发票扫描件或发票复印件。

本发明具有以下有益效果:

通过采用二维码识别提取真实票据信息和采集发票文件图像块提取票面信息,并将真实票据信息和票面信息中的关键项数值长度进行比对的方法,不仅操作简单,且有效保证发票信息识别的准确度,同时替代对环境干扰要求极高的传统ocr识别方法,大大提升真伪识别速度,进而提高发票文件真伪识别效率,保障评标过程的快速、简便、可靠进行。

附图说明

图1为本发明的流程图。

具体实施方式

如图1所示,本发明包括以下步骤:

a、采集发票文件中二维码位置信息;

b、识别发票文件的票面信息和真实票据信息;具体包括:

提取具有相同二维码位置信息的发票文件图像中的图像块,每个图像块对应票面一项发票单项信息,采用crnn算法提取图像块对应的发票单项信息并构成发票文件的票面信息;

识别发票文件图像中的二维码,通过联网全国增值税发票查验平台获取发票文件的真实电子文本信息,即发票文件的真实票据信息;

c、分别提取票面信息中的n项票面关键项信息和真实票据信息中的n项真实关键项信息,票面关键项信息与真实关键项信息一一对应;

d、将票面关键项信息的字符长度与对应真实关键项信息的字符长度一一进行比对;若n项票面关键项信息的字符长度与n项真实关键项信息的字符长度均一致,则进入步骤e;反之,则进入步骤f;

e、发票文件为真,将发票文件的真实票据信息录入本地发票数据库;

f、发票文件存疑,由人工复核发票文件真伪。

为了更好地理解本发明,下面结合实施例对本发明的技术方案做进一步说明。

本发明所识别发票文件包括发票原件、发票图片、发票扫描件或发票复印件等,本实施例以投标文件中的电子版发票扫描件为例进行详细说明。

如图1所示,本发明包括以下步骤:

a、采集发票扫描件中二维码位置信息。

b、识别发票扫描件的票面信息和真实票据信息。

具体包括:

采用二维码识别仪或其他图像采集设备提取具有相同二维码位置信息的发票文件图像中的图像块,每个图像块对应票面一项发票单项信息,采用crnn算法提取图像块对应的发票单项信息并构成发票扫描件的票面信息;

采用二维码识别仪识别发票扫描件中的二维码,通过联网对接全国增值税发票查验平台获取发票扫描件的真实电子文本信息,即发票扫描件的真实票据信息;若能够获取真实票据信息,则进入下一步,若无法获取发票扫描件的真实电子文本信息,则进入步骤f。

通过识别发票扫描件中二维码获取的真实电子文本信息中,同时包含二维码所在发票页码的信息,二维码识别仪同时还可以提供投标文件中其他包含二维码的资质业绩图像的定位、解密和查验服务,并将资质业绩识别结果反馈给查验人员,包含二维码的资质业绩图像包括营业执照、许可证书、质量体系认证证书等。

采用crnn算法提取图像块对应的发票单项信息的过程具体包括:

b1:对发票扫描件进行区域图像分割,获取包含发票单项信息的分割图像块;每个图像块均对应一项发票单项信息;

b2:将分割图像块输入crnn网络的卷积层,由crnn网络卷积层对分割图像块中的数值进行特征提取;

b3:利用crnn网络的映射层将在卷积层提取到的特征信息表示为特征向量,获取特征序列;

b4:crnn网络循环层对步骤b3输出的特征序列进行预测,得到每帧特征的概率分布;

b5:特征序列解码,获取分割图像块对应发票单项信息中不定长数据的识别结果;

b6:通过字符串长度计算函数计算发票单项信息识别结果的数值长度。

c、分别提取票面信息中的四项票面关键项信息和真实票据信息中的四项真实关键项信息,票面关键项信息与真实关键项信息一一对应。

四项票面关键项信息包括票面信息中的购买方名称、货物或应税劳务、服务名称、单价及金额共四项单项信息。

四项真实关键项信息包括真是票据信息中的购买方名称、货物或应税劳务、服务名称、单价及金额共四项单项信息。

d、将四项票面关键项信息的字符长度分别与对应的真实关键项信息的字符长度一一进行比对;若四项票面关键项信息的字符长度与四项真实关键项信息的字符长度均一致,则进入步骤e;反之,则进入步骤f;

e、发票扫描件为真,将从全国增值税发票查验平台获取的发票扫描件的全部真实电子文本信息存入本地发票数据库,作为投标数据库基础数据;

f、发票扫描件存疑,由人工通过电话核实或网站核实等方法进一步复核发票扫描件的真伪。

通过本发明可以实现评标者对投标文件中发票真伪的快速、简便、准确查询,有效遏制投标环节发票造假等不良行为,避免给招标人造成重大损失,并形成发票数据库,作为投标人大数据库基础数据。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1