一种自动识别发票的装置和方法

文档序号:6519750阅读:197来源:国知局
一种自动识别发票的装置和方法
【专利摘要】本发明提供一种自动识别发票的方法,包括:步骤S1)获得待识别的发票经光学扫描后的图像;步骤S2)对所述图片进行预处理;步骤S3)对所述预处理后的图像进行版面定位;步骤S4)对版面定位中的字符进行字符识别;步骤S5)对识别出的字符进行后处理和校对,从而获得发票号。本发明还提供一种自动识别发票的装置。本发明解决了人工查找的困难,提高了效率;而且本发明减少了人工误操作率;而且本发明还能够批量处理业务,自动对接售后服务平台系统,实现自动化处理。
【专利说明】一种自动识别发票的装置和方法
【技术领域】
[0001]本发明涉及图像识别技术。更具体地,涉及一种自动识别发票的装置和方法。
【背景技术】
[0002]在当前的售后服务中,用户申请售后服务,商家需根据用户的发票从售后服务平台系统中查询售货记录,再确定是否符合售货服务的规定。而在当前,如果要查找发票,都是需要人工查找,然后人工将发票号输入到业务系统中进行查询并核实,上述现有技术的操作方法有如下缺点:人工操作,效率低下;发票号包括一长串的数字,人工输入误操作率比较高;一次只能输入一张发票号,无法批量处理发票业务。

【发明内容】

[0003]针对上述现有技术的缺点,本发明提供一种自动识别发票的方法,包括:一种自动识别发票的方法,包括:步骤SI),获得待识别的发票经光学扫描后的图像;步骤S2),对所述图片进行预处理;
[0004]步骤S3),对所述预处理后的图像进行版面定位;步骤S4),对版面定位中的字符进行字符识别;步骤S5),对识别出的字符进行校对,从而获得发票号。
[0005]进一步,在步骤SI)中,采用OCR技术对发票进行扫描以获得所述图像。
[0006]进一步,在步骤S2)中,所述预处理包括二值化、噪点去除和倾斜校正。
[0007]进一步,在步骤S3)中,包括:1)根据发票类型设定版面识别区域;2)对该区域划定二维坐标;3)对该区域内的字符进行识别。
[0008]进一步,所述步骤S5)包括:根据所述识别出的字符是否属于预先确定的字符数据库而判断是否属于错误字符;如果是错误字符,则将该错误字符与前后的字符的逻辑性从字符数据集中找出最符合逻辑的字符,来替换所述错误字符。
[0009]进一步,所述步骤S5)包括:根据所述识别出的字符是否属于预先确定的字符数据库而判断是否属于错误字符;如果是错误字符,将所述字符数据库中的字形最相似的字符来替换所述错误字符。
[0010]本发明还提供一种自动识别发票的装置,包括:图像获取模块,所述图像获取模块用于获得待识别的发票经光学扫描后的图像;预处理模块,所述预处理模块用于对所述图片进行预处理;版面定位模块,所述版面定位模块用于对所述预处理后的图像进行版面定位;识别模块,所述识别模块用于对版面定位中的字符进行字符识别;校对模块,所述校对模块用于对识别出的字符进行后处理和校对,从而获得发票号。
[0011]进一步,所述图像获取模块包括采用OCR技术对发票进行扫描的扫描模块。
[0012]进一步,所述预处理模块被配置为对所述图像进行二值化、噪点去除和倾斜校正。
[0013]进一步,所述版面识别模块被配置为:1)根据发票类型设定版面识别区域;2)对该区域划定二维坐标;3)对该区域内的字符进行识别。
[0014]进一步,所述校对模块被配置为:根据所述识别出的字符是否属于预先确定的字符数据库而判断是否属于错误字符;如果是错误字符,则将该错误字符与前后的字符的逻辑性从字符数据集中找出最符合逻辑的字符,来替换所述错误字符。
[0015]进一步,所述校对模块被配置为:根据所述识别出的字符是否属于预先确定的字符数据库而判断是否属于错误字符;如果是错误字符,将所述字符数据库中的字形最相似的字符来替换所述错误字符。
[0016]本发明解决了人工查找的困难,提高了效率;而且本发明减少了人工误操作率;而且本发明还能够批量处理业务,自动对接售后服务平台系统,实现自动化处理。
【专利附图】

【附图说明】
[0017]图1为本发明的方法的流程图;
[0018]图2为本发明的装置的结构示意图。
【具体实施方式】
[0019]图1显示了本发明的方法的流程图。
[0020]首先,在步骤SI中,对待识别的发票进行光学扫描,获得图像。对发票的扫描可以采用OCR技术(Optical Character Recognition,光学字符识别),OCR技术利用光电技术扫描纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机可处理的文字。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。
[0021]获得的所述图像的格式可以是多样的,如果扫描率设置的很高,还可以对所述图像进行压缩保存。
[0022]在步骤S2,对所述图片进行预处理。预处理主要包括二值化(例如彩色图片,需要进行色彩处理,将其定义前景信息为黑色,背景为白色,这样有利于统一后续的发票号字符的识别),噪点去除,倾斜校正等。
[0023]在步骤S3,对所述预处理后的图像进行版面定位。
[0024]版面定位通过版面坐标确定,在对发票进行识别时,仅识别版面坐标标定的矩形区域,这样就无需关心图片的其他信息,减小了数据处理量。同时,由于发票都是机器打印,因此不存在字符切割问题(字符粘连、断笔)。
[0025]在一个优选实施例中,由于发票版面的不同,利用发票模板参数来进行版面定位,模板参数包括:版面坐标、分辨率、发票种类(普通发票、增值税发票等),扫描仪型号(不同的发票扫描仪针对不同版面的发票)等。进一步,可以将已经设置好的发票模板参数保存为模板编号(编号对应规则一般为:编号-发票类型-分辨率-扫描仪型号),这样下次直接进行提取即可。在该优选的实施例中,首先通过读取模板参数信息获取模板参数中的发票图片坐标信息,然后定位该坐标形成的矩形区域。
[0026]在步骤S4,对版面定位后的字符进行字符识别。
[0027]对版面定位后的矩形区域内的字符的识别由本发明装置的字符识别模块识别完成。针对发票号矩形区域,对其设定一个二维数组,因为图片都是由点构成的面,而先前进行的预处理已经将图片的前景信息为黑色,背景为白色,这样就能区分黑色的位置为实点,白色的位置为虚点,最后得到的实际的二维数组,就是一串数字,并将此数字保存,方便后续读取。[0028]优选地,在步骤S5,对识别出的字符进行校对,从而获得发票号。获得发票号后,即可唯一识别该发票。校对是将识别出的发票号字符进行逻辑更正。
[0029]校对包括识别错误字符,例如,发票号中出现的字符属于一个完整字符库,识别的字符不在该字符库中时,表明这是一个错误字符。校对还包括更正字符,识别出错误字符后,根据该错误字符前后的字符,从所述字符库中查找最符合逻辑的,替换所述错误字符,或者,从字符库中查找字形最相似的字符,来替换所述错误字符。
[0030]优选地,可以将上述校对过程存储在校对日志中,校对日志包括:错误字符,纠正字符,模板编号,纠正次数,形成相似的候选字符集,根据前后的识别数字字符从字符数据集中找出最符合逻辑的,进行相应的校对。
[0031]获取发票号后,即可批量处理发票至对接相应的售后服务平台系统,自动处理售后发票信息。多线程并行读取内存中的发票号,进行批量处理,根据InvoiceCode (发票号)数据的唯一标识InvoicelcK发票ID),在售后服务平台系统中查找与之对应编号afsServiceld (售后服务单号)的售后服务单,而售后服务单是依据客户订单(订单号OrderId)进行申请处理的,对此,可以判断出该申请的售后服务单数据,是否满足处理该售后发票的条件。
[0032]本发明提高了发票业务操作员工作效率,为客户带来更快更好的售后服务提供了强有力的支持。降低了公司业务生产的单位成本,为公司带来收益。本发明批量处理发票业务,对接售后服务,实现业务处理的自动化。 申请人:对本发明进行了内部测试,在应用本发明方法内的一个月内,将人工输入量和本发明方法的自动识别量进行了对比,发票拒识率、误识率降低了 10%、识别速度提高了 30%。
[0033]根据本发明的第二个方面,本发明还提出一种自动识别发票的装置,如图2所示。所述自动识别发票的装置包括图像获取模块,该图像获取块包括一扫描模块,该扫描模块对待识别的发票进行光学扫描,获得图像。该图像获取模块采用OCR技术(OpticalCharacter Recognition,光学字符识别)进行扫描。优选地,图像获取模块还具有图像压缩模块,用于在扫描率设置很高的时候,对所述图像进行压缩保存。
[0034]在一个实施方式中,所述图像获取模块可以不包括扫描模块,而是从外界获取发票经OCR扫描后的图像,例如该图像获取模块连接到一扫描仪,该扫描仪将发票扫描为图像,该图像获取模块从该扫描仪获取发票经OCR扫描后的图像。
[0035]所述自动识别发票的装置还包括预处理模块。所述预处理模块对所述扫描模块获得的图像进行预处理。预处理主要包括二值化(例如彩色图片,需要进行色彩处理,将其定义前景信息为黑色,背景为白色,这样有利于统一后续的发票号字符的识别),噪点去除,倾斜校正等。
[0036]所述自动识别发票的装置还包括版面定位模块。所述版面定位模块对所述预处理后的图像进行版面定位。
[0037]所述自动识别发票的装置还包括识别模块。所述识别模块对版面定位中的字符进行字符识别。
[0038]所述自动识别发票的装置还包括校对模块。所述校对模块对识别出的字符进行后处理和校对。
[0039]有了本发明的自动识别发票的装置,即可将该装置与现有的售后服务平台系统对接,将识别出的发票号输入到售后服务平台系统中,进行发票查询,免去了人工输入的麻烦。而且还可以进行批处理输入,提高了工作效率。
【权利要求】
1.一种自动识别发票的方法,其特征在于,包括: 步骤Si),获得待识别的发票经光学扫描后的图像; 步骤S2),对所述图片进行预处理; 步骤S3),对所述预处理后的图像进行版面定位; 步骤S4),对版面定位中的字符进行字符识别; 步骤S5 ),对识别出的字符进行校对,从而获得发票号。
2.根据权利要求1所述的自动识别发票的方法,其特征在于,在步骤SI)中,采用OCR技术对发票进行扫描以获得所述图像。
3.根据权利要求1所述的自动识别发票的方法,其特征在于,在步骤S2)中,所述预处理包括二值化、噪点去除和倾斜校正。
4.根据权利要求1所述的自动识别发票的方法,其特征在于,在步骤S3)中,包括: 1)根据发票类型设定版面识别区域; 2)对该区域划定二维坐标; 3)对该区域内的字符进行识别。
5.根据权利要求1所述的自动识别发票的方法,其特征在于,所述步骤S5)包括: 根据所述识别出的字符是否属于预先确定的字符数据库而判断是否属于错误字符;如果是错误字符,则将该错误字符与前后的字符的逻辑性从字符数据集中找出最符合逻辑的字符,来替换所述错误字符。
6.根据权利要求1所述的自动识别发票的方法,其特征在于,在,所述步骤S5)包括:根据所述识别出的字符是否属于预先确定的字符数据库而判断是否属于错误字符;如果是错误字符,将所述字符数据库中的字形最相似的字符来替换所述错误字符。
7.一种自动识别发票的装置,其特征在于,包括: 图像获取模块,所述图像获取模块用于获得待识别的发票经光学扫描后的图像; 预处理模块,所述预处理模块用于对所述图片进行预处理; 版面定位模块,所述版面定位模块用于对所述预处理后的图像进行版面定位; 识别模块,所述识别模块用于对版面定位中的字符进行字符识别; 校对模块,所述校对模块用于对识别出的字符进行后处理和校对,从而获得发票号。
8.根据权利要求7所述的自动识别发票的装置,其特征在于,所述图像获取模块包括采用OCR技术对发票进行扫描的扫描模块。
9.根据权利要求7所述的自动识别发票的装置,其特征在于,所述预处理模块被配置为对所述图像进行二值化、噪点去除和倾斜校正。
10.根据权利要求7所述的自动识别发票的装置,其特征在于,所述版面识别模块被配置为: 1)根据发票类型设定版面识别区域; 2)对该区域划定二维坐标; 3)对该区域内的字符进行识别。
11.根据权利要求7所述的自动识别发票的装置,其特征在于,所述校对模块被配置为: 根据所述识别出的字符是否属于预先确定的字符数据库而判断是否属于错误字符;如果是错误字符,则将该错误字符与前后的字符的逻辑性从字符数据集中找出最符合逻辑的字符,来替换所述错误字符。
12.根据权利要求7所述的自动识别发票的装置,其特征在于,所述校对模块被配置为: 根据所述识别出的字符是否属于预先确定的字符数据库而判断是否属于错误字符;如果是错误字符,将所述字符数据库中的字形最相似的字符来替换所述错误字符。
【文档编号】G06F17/30GK103617415SQ201310582905
【公开日】2014年3月5日 申请日期:2013年11月19日 优先权日:2013年11月19日
【发明者】刘浪 申请人:北京京东尚科信息技术有限公司, 北京京东世纪贸易有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1