发票信息自动快速识别方法、系统以及装置与流程

文档序号:16882993发布日期:2019-02-15 22:21阅读:611来源:国知局
发票信息自动快速识别方法、系统以及装置与流程

本发明涉及一种发票整理方法,具体涉及一种发票信息自动快速识别方法、系统以及装置。



背景技术:

当前各企业存在大量的纸质医疗发票,企业将这些医疗发票作为结算费用的统计信息,因此需要将这些票据信息进行入库保存。在进行相应的发票数据录入工作时,传统的手工录入仍然是主要的工作方式,需要企业投入大量的成本和时间,不仅提高了企业的运营成本,而且手工录入速度难以提高,错误率也很难降低,对提高企业的整体服务质量带来了负面影响,也是企业信息化发展的一个薄弱环节。

同时,现有的医疗发票中存在底纹和印章等干扰因素,且发票数据多以表格和汉字的形式出现,这也是发票快速自动识别最困难的地方。这些难点问题主要包括发票表格线分布不均匀,以及汉字结构复杂、相似字体多等,以上问题都会导致发票识别率较低。

随着模式识别技术和深度学习技术的发展,ocr文字识别技术也得到了快速发展,其识别效率和识别精度有了大幅度提升,因此,将ocr文字识别技术用于医疗票据的识别有着极其重要的意义。



技术实现要素:

有鉴于此,本发明提供一种具有较好的抗干扰能力和鲁棒性,不仅能够提高发票的识别效率,同时能够提高ocr文字识别的准确率;且能够降低了人工分类的工作量的发票信息自动快速识别方法、系统以及装置。

一种发票信息自动快速识别方法,所述发票信息自动快速识别方法包括以下步骤:

s1、创建多个不同的目标区域模板,根据目标区域模板将采集得到发票图像中待识别的字符区域分别提取出来;

s2、将提取的字符区域输入至alexnet深度卷积神经网络模型中,由alexnet深度卷积神经网络模型对字符区域的信息进行图像特征提取识别;

s3、将识别得到的发票信息存储至数据库中。

一种发票信息自动快速识别系统,其特征在于,所述发票信息自动快速识别系统包括以下功能模块:

图像处理模块,用于创建多个不同的目标区域模板,根据目标区域模板将采集得到发票图像中待识别的字符区域分别提取出来;

信息识别模块,用于将提取的字符区域输入至alexnet深度卷积神经网络模型中,由alexnet深度卷积神经网络模型对字符区域的信息进行图像特征提取识别;

信息存储模块,用于将识别得到的发票信息存储至数据库中。

一种发票信息自动快速识别装置,所述发票信息自动快速识别装置包括发票放置区域、发票识别区域以及发票分类区域:

设置在发票识别区域导入口的发票导入模块,用于将发票一张张自发票放置区域导入至发票识别区域;

设置在发票识别区域上方的图像采集模块,用于采集传送至发票识别区域的发票图像;

与所述图像采集模块的输出端通信连接的发票自动识别模块,用于根据采集的发票图像对发票信息进行自动识别;

与所述图像采集模块的输出端通信连接的发票识别判断模块,用于根据发票信息的识别结果对发票进行正常与异常的判断;

自发票识别区域导入口延伸至导出口的发票导出模块,用于将发票一张张自发票识别区域导出至发票分类区域;

设置在发票识别区域的导出口的发票分类模块,用于根据发票信息的识别判断结果对发票进行正常与异常的分类;

与发票导入模块、图像采集模块、发票自动识别模块、发票识别判断模块、发票导出模块以及发票分类模块通信连接的中央控制模块,用于控制各模块之间的信息收发以及生成相应命令;

其中,所述发票导入模块为设置在发票识别区域的入口处的一组输送辊,所述输送辊能够相对做自发票放置区域向发票识别区域方向的旋转动作;

所述发票导出模块为自发票识别区域导入口延伸至导出口的传送带;

所述发票分类模块包括设置在发票识别区域的导出口的固定挡板和活动挡板,所述固定挡板的滑落端与正常发票分类盒连接,所述活动挡板的滑落端与异常发票分类盒连接,所述固定挡板与传送带的输出端相连接,所述活动挡板设置在固定挡板上方、且相对传送带的输出端设置,其与传送带的输出端之间设有活动间隙,所述活动挡板通过一控制元件控制能够相对传送带输出端做靠近对接或远离解决对接的动作。

本发明所述发票信息自动快速识别方法、系统以及装置,其通过创建目标区域模板,将发票图像中待将待识别的字符区域分别提取出来,从而减小图像识别的复杂度,提高图像识别的速率,接着将提取的字符区域输入至alexnet深度卷积神经网络模型中,由alexnet深度卷积神经网络模型对字符区域的信息进行图像特征提取识别,进一步提高了发票信息识别的精准度,因此,本发明基于数字图像处理技术和深度学习技术的ocr文字识别具有较好的抗干扰能力和鲁棒性,不仅能够提高发票的识别效率,同时极大提高了ocr文字识别的准确率;且能够自动完成发票的自动识别分类工作,极大的降低了人工分类的工作量。

附图说明

图1是本发明所述发票信息自动快速识别方法的流程框图;

图2是图1中步骤s1的子流程框图;

图3是图1中步骤s2的子流程框图;

图4是本发明所述发票信息自动快速识别系统的模块框图;

图5是本发明所述发票信息自动快速识别装置的结构图;

图6是本发明所述发票信息自动快速识别装置中活动挡板的控制示意图;

图7是本发明所述发票信息自动快速识别装置的模块原理框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种发票信息自动快速识别方法,如图1所示,所述发票信息自动快速识别方法包括以下步骤:

s1、采集发票图像,对采集的图像进行预处理,并将待识别的字符区域分别提取出来;

其中,如图2所示,所述步骤s1包括以下分步骤:

s11、采集发票的图像信息,对发票的图像信息进行二值化和降噪处理;

s12、根据发票类型创建多个不同的目标区域模板,根据目标区域模板对发票的图像中的相应字符区域进行定位,得到相应字符区域的具体位置;

其中,所述目标区域模板包括发票中待识别信息在发票图像中的相对位置数据,其中包括每个字符区域的语义以及每个字符区域的上、下、左、右边界值,基本形式为:(语义,btop,bbottom,bleft,bright),bleft和btop为字符区域的左上角顶点的横纵坐标值,而bright和bbottom为字符区域的右下角顶点的横纵坐标值,具体的,一般的医疗发票都具有表格框,为了更精确地定位到字符区域,以表格框的左上角顶点作为原点,表格框的宽度和高度分别作为横坐标和纵坐标的单位长度,以此来建立坐标系,根据坐标系建立医疗发票的目标区域模板如下:

(姓名,0.10127,0.24031,0.012418,0.06126)

(性别,0.30126,0.33216,0.012418,0.06126)

(医保类型,0.41205,0.62347,0.012418,0.06126)

(社会保障号码,0.73258,0.91234,0.012418,0.06126)。

将预处理得到的发票图像分别进行水平投影和垂直投影,得到两个数组phori[]和pverti[],通过数组中的第一个峰值和最后一个峰值来分别确定表格框的左上角和右下角的顶点位置,即得到表格框的左上角顶点的坐标值为(x0,y0),右下角顶点的坐标值(x1,y1),则发票表格框的宽度和高的分别为(x1-x0),(y1-y0),然后对预处理后的发票图像进行逐行扫描,再根据预先设定好的目标区域模板确定发票中待识别字符区域的具体位置,最后按具体位置输出每个字符区域的图像。

s13、根据得到的字符区域具体位置,提取得到相应字符区域的图像;

s2、将提取的字符区域输入至alexnet深度卷积神经网络模型中,由alexnet深度卷积神经网络模型对字符区域的信息进行图像特征提取识别。

其中,如图3所示,所述步骤s2包括以下分步骤:

s21、预先对alexnet深度卷积神经网络模型进行训练;

s22、将从发票图像中切分得到的字符区域输入训练后的alexnet深度卷积神经网络模型中进行识别;

s23、对输入的字符区域进行多次卷积操作,识别出字符区域图像中的有效文字信息。

所述alexnet深度卷积神经网络模型的具体实现如下:设当前层为第l层,则当前层的输出可表示为:

yl=f(xl),且xl=wlyl-1+bl(1)

其中,xl为当前层的输入向量,wl为当前层的层间线性系数组成的权重矩阵,yl-1为上一层的输出向量,bl为当前层的偏差组成的向量,f(·)是激活函数,在alexnet中采用relu激活函数,其收敛速度比一般的激活函数快且计算复杂度低。

在卷积层中,将前一层的特征图与多组卷积模板进行卷积运算,然后通过激活函数得到该层的特征图,卷积层的计算公式为:

其中,l代表当前层,代表卷积层第j个神经元输出,代表上一层的第i个神经元与当前层第j个神经元之间的权值,代表当前层的偏差组成的向量,f(·)是激活函数,mj代表输入特征图的集合。

池化层则是对上一卷积层的特征图做下采样,得到与卷积层相同数目的特征图,其计算公式为:

其中,down(·)代表下采样函数,β代表下采样系数,同样代表当前层的偏差组成的向量。

s3、将识别得到的发票信息存储至数据库中。

本发明所述发票信息自动快速识别方法,其通过创建目标区域模板,将发票图像中待将待识别的字符区域分别提取出来,从而减小图像识别的复杂度,提高图像识别的速率,接着将提取的字符区域输入至alexnet深度卷积神经网络模型中,由alexnet深度卷积神经网络模型对字符区域的信息进行图像特征提取识别,进一步提高了发票信息识别的精准度,因此,本发明基于数字图像处理技术和深度学习技术的ocr文字识别具有较好的抗干扰能力和鲁棒性,不仅能够提高发票的识别效率,同时极大提高了ocr文字识别的准确率。

基于上述发票信息自动快速识别方法,本发明还提供一种发票信息自动快速识别系统,如图4所示,所述发票信息自动快速识别方法包括以下功能模块:

图像处理模块10,用于采集发票图像,对采集的图像进行预处理,并将待识别的字符区域分别提取出来;

信息识别模块20,用于将提取的字符区域输入至alexnet深度卷积神经网络模型中,由alexnet深度卷积神经网络模型对字符区域的信息进行图像特征提取识别;

信息存储模块30,用于将识别得到的发票信息存储至数据库中。

其中,所述图像处理模块包括以下功能单元:

图像预处理单元,用于采集发票的图像信息,对发票的图像信息进行二值化和降噪处理;

区域定位单元,用于根据发票类型创建多个不同的目标区域模板,并根据目标区域模板对发票的图像中的相应字符区域进行定位,得到相应字符区域的具体位置;

区域提取单元,用于根据得到的字符区域具体位置,输出相应字符区域的图像;

所述区域定位单元包括以下功能子单元:

模板创建子单元,用于以发票表格框的左上角顶点作为原点,表格框的宽度和高度分别作为横坐标和纵坐标的单位长度,以此来建立坐标系,根据坐标系创建目标区域模板;

顶点定位子单元,用于将预处理得到的发票图像分别进行水平投影和垂直投影,确定表格框的左上角和右下角的顶点位置;

扫描查找子单元,用于对预处理后的发票图像进行逐行扫描,根据预先设定好的目标区域模板确定发票中待识别字符区域的具体位置。

所述信息识别模块包括以下功能单元:

模型训练单元,用于预先对alexnet深度卷积神经网络模型进行训练;

区域输入单元,用于将从发票图像中切分得到的字符区域输入训练后的alexnet深度卷积神经网络模型中进行识别;

信息识别单元,用于对输入的字符区域进行多次卷积操作,识别出字符区域图像中的有效文字信息。

本发明还提供一种发票信息自动快速识别装置,所述发票信息自动快速识别装置包括发票放置区域、发票识别区域以及发票分类区域:所述发票放置区域设有发票导入模块1,所述发票识别区域设有图像采集模块2、发票自动识别模块3、发票识别判断模块4以及发票导出模块5,所述发票分类区域设有发票分类模块6,所述发票信息自动快速识别装置还包括一中央控制模块9,如图7所示,所述中央控制模块9与发票导入模块1、图像采集模块2、发票自动识别模块3、发票识别判断模块4、发票导出模块5以及发票分类模块6通信连接,用于控制各模块之间的信息收发以及生成相应命令。

如图5所示,所述发票导入模块1为设置在发票识别区域的入口处的一组输送辊,所述输送辊能够相对做自发票放置区域向发票识别区域方向的旋转动作,用于将发票一张张自发票放置区域导入至发票识别区域。

如图5所示,所述发票导出模块5为自发票识别区域导入口延伸至导出口的传送带,用于将发票一张张自发票识别区域导出至发票分类区域。

所述图像采集模块2设置所述传送带上方,用于采集传送至发票识别区域的发票图像,所述发票自动识别模块3与所述图像采集模块2的输出端通信连接,用于根据采集的发票图像对发票信息进行自动识别;所述发票识别判断模块4与所述图像采集模块2的输出端通信连接,用于根据发票信息的识别结果对发票进行正常与异常的判断。

如图5所示,所述发票分类模块6包括设置在发票识别区域的导出口的固定挡板61和活动挡板62,所述固定挡板61的滑落端与正常发票分类盒7连接,所述活动挡板62的滑落端与异常发票分类盒8连接,所述固定挡板61与传送带的输出端相连接,所述活动挡板62设置在固定挡板61上方、且相对传送带的输出端设置,其与传送带的输出端之间设有活动间隙,所述活动挡板62通过一控制元件控制能够相对传送带输出端做靠近对接或远离解决对接的动作。

如图6所示,所述传送带输出端设有电磁铁63,所述活动挡板62相对传送带输出端的一端设有衔铁64,所述电磁铁63通过中央控制模块9与发票识别判断模块4电性连接,同时,所述活动挡板62的本体与一伸缩弹簧65连接设置,所述伸缩弹簧65的初始状态为保持活动挡板62与传送带的输出端之间具有活动间隙。

所述中央控制模块9根据发票识别判断模块4的判断结果控制电磁铁63通断电,从而通过电磁铁63对衔铁64的吸附和松开控制活动挡板62是否与传送带输出端对接,实现对发票进行正常与异常的分类,即在发票识别判断模块4判断当前发票信息识别异常时,中央控制模块9控制电磁铁63通电,通过衔铁64带动活动挡板62吸附至于传送带输出端对接,使发票识别区域导出的发票落入异常发票分类盒8中,此时,伸缩弹簧65被拉伸,产生回复弹力,在发票识别判断模块4判断当前发票信息识别正常时,中央控制模块9控制电磁铁63断电,电磁铁63与衔铁64断开连接,活动挡板62在伸缩弹簧65的回复弹力作用下自传送带输出端断开连接,发票识别区域导出的发票在固定挡板61的导向下落入正常发票分类盒7中。

具体的,当需要对发票进行识别分类时,首先将发票放入发票放置区域,由输送辊将发票一张张导入发票识别区域,并落在发票识别区域的传送带上,图像采集模块2对发票传送带上的发票采集图像信息,并将图像信息发送给发票自动识别模块3,所述发票自动识别模块3对发票的图像信息进行二值化和降噪处理,根据发票类型创建多个不同的目标区域模板,并根据目标区域模板对发票的图像中的相应字符区域进行定位,得到相应字符区域的具体位置,通过得到的字符区域具体位置,提取得到相应字符区域的图像,然后将从发票图像中切分得到的字符区域输入训练后的alexnet深度卷积神经网络模型中进行识别,对输入的字符区域进行多次卷积操作,识别出字符区域图像中的有效文字信息。

发票识别判断模块4根据发票信息的识别结果判断当前发票识别是否正常,并将判断结果发送给中央控制模块9,如果发票识别判断模块4判断当前发票信息识别异常时,中央控制模块9控制电磁铁63通电,通过衔铁64带动活动挡板62吸附至于传送带输出端对接,使发票识别区域导出的发票落入异常发票分类盒8中,此时,伸缩弹簧65被拉伸,产生回复弹力,如果发票识别判断模块4判断当前发票信息识别正常时,中央控制模块9控制电磁铁63断电,电磁铁63与衔铁64断开连接,活动挡板62在伸缩弹簧65的回复弹力作用下自传送带输出端断开连接,发票识别区域导出的发票在固定挡板61的导向下落入正常发票分类盒7中。

本发明所述发票信息自动快速识别装置,其设置有发票放置区域、发票识别区域以及发票分类区域三个区域,通过发票导入模块1将发票自发票放置区域导入至发票识别区域,然后通过图像采集模块2采集发票图像,利用发票自动识别模块3识别发票信息,再根据发票识别判断模块4判断发票信息识别是否成功,最后由发票分类模块6根据识别结果对发明进行分类,从而自动完成发票的自动识别分类工作,极大的降低了人工分类的工作量。

以上装置实施例与方法实施例是一一对应的,装置实施例简略之处,参见方法实施例即可。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能性一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应超过本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机储存器、内存、只读存储器、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其他形式的存储介质中。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1