应用于移动终端的票据自动识别方法和系统的制作方法

文档序号:6371299阅读:260来源:国知局
专利名称:应用于移动终端的票据自动识别方法和系统的制作方法
技术领域
本发明属于票据自动识别领域,尤其是涉及一种应用于移动终端的票据自动识别方法和系统。
背景技术
现有技术中虽然有一些设备能够实现票据的识别,但由于设别设备技术的局限,无法实现快速高效的识别,而且现有的识别设备由于本身问题,无法实现携带方便,同时也不具有一定的识别后的处理功能等问题。综上所述,制作出一设备能够实现票据的自动识别其能够便于携带或集成于其他设备中并能够进行识别后处理,便成为亟待解决的技术问题。

发明内容
本发明所要解决的技术问题是提供一种应用于移动终端的票据自动识别方法和系统,以解决识别设备由于本身问题,无法实现携带方便,同时也不具有一定的识别后的处理功能等问题。为解决上述技术问题,本发明提供了一种应用于移动终端的票据自动识别方法,该方法包括移动终端通过对拍摄后存储在其内的票据进行识别和校验,通过识别和校验产生符合要求的票据数据,并将该票据数据保存在该移动终端;所述移动终端将该票据数据保存同步到服务器端;所述服务器提取官方数据,并将官方数据与票据数据核对,判断是否与官方数据
相一致。进一步为移动终端通过对拍摄后存储在其内的票据使用光学字符识别技术和该移动终端内设置的票据字符库进行识别和校验。进一步地,其中,所述票据字符库包括票据的基本信息和特征信息。进一步为所述移动终端对拍摄后存储在其内的票据使用光学字符识别技术进行预处理;对经过预处理后的数据进行版面分析;对经过版面分析后的数据进行行分割;通过票据字符库对经过行分割的数据进行字符分割;对经过字符分割后的数据进行特征提取;对经过特征提取后的数据进行分类处理;对经过分类处理后的数据进行后处理。为解决上述技术问题,本发明还提供了一种应用于移动终端的票据自动识别系统,该系统包括终端处理模块和服务处理模块;其中所述终端处理模块,设置在移动终端中,用于对拍摄后存储在该移动终端内的票据进行识别和校验,通过识别和校验产生符合要求的票据数据并保存,然后将该票据数据保存同步到服务处理模块;所述服务处理模块,设置在服务器中,用于提取官方数据,并将官方数据与票据数据核对,判断是否与官方数据相一致。进一步地,其中,所述终端处理模块,进一步为设置在移动终端中,用于对拍摄 后存储在该移动终端内的票据使用光学字符识别技术和该移动终端内设置的票据字符库进行识别和校验,通过识别和校验产生符合要求的票据数据并保存,然后将该票据数据保存同步到服务处理模块。进一步地,其中,所述票据字符库包括票据的基本信息和特征信息。进一步地,其中,所述终端处理模块,进一步为用于对拍摄后存储在该移动终端内的票据使用光学字符识别技术进行预处理;对经过预处理后的数据进行版面分析;对经过版面分析后的数据进行行分割;通过票据字符库对经过行分割的数据进行字符分割;对经过字符分割后的数据进行特征提取;对经过特征提取后的数据进行分类处理;对经过分类处理后的数据进行后处理,产生符合要求的票据数据并保存,然后将该票据数据保存同步到服务处理模块。综上所述,与现有技术相比,本发明所述的应用于移动终端的票据自动识别方法和系统,能够实现票据的自动识别其能够便于携带或集成于其他设备中并能够进行识别后处理。


图I为本发明实施例I所述的一种应用于移动终端的票据自动识别方法流程框图。图2为本发明实施例I所述的方法中步骤101中所述的识别的具体流程框图。图3为本发明实施例2所述的一种应用于移动终端的票据自动识别系统的结构框图。
具体实施例方式以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。如图I所示,为本发明实施例I所述的一种应用于移动终端的票据自动识别方法,该方法包括如下步骤步骤101,移动终端通过对拍摄后存储在其内的票据进行识别和校验,通过识别和校验产生符合要求的票据数据,并将该票据数据保存在该移动终端。其中步骤101中所述的识别可以是在移动终端中设置票据字符库,移动终端通过使用OCR (Optical Character Recognition,光学字符识别)技术结合票据字符库判断票据本身具有的一些基本信息和特征信息。比如当彩票数据时,可以在票据字符库设置彩票数据中具有的种类信息、期号信息、时间信息、注数信息或金额信息等特征数据,还可以包括一些其他特征数据I)彩票图像的底色都是比较统一的颜色;2)彩票的文本区域和名片的图像区域一般是分开的;
3)彩票中的重要文本信息,投注内容信息比一般文本信息字体大;4)彩票中的主要字符为中文和数字,英文字符较少且为非关键性信息;5)彩票的排版一般为从左到右横排。在票据字符库中可以设置有常用的特征数据或字段,进行权重的分配,在进行识别时候可以优先考虑先使用常用的特征数据或字段。在词语权重的设置算法中,第一种方法是由专家或者用户根据自己的经验与所掌握的领域知识人为的赋上权值。同时,运用统计的方法,也就是用文本的统计信息(如词频、词之间的同现频率等)来计算项的权重,采用的权重计算公式是基于向量空间模型的TF—IDF算法。对上述两个结果进行比对后,再对差异进行校正,从而提高权重分配的精度。其中步骤101中所述的校验方法为自动校验。其中,自动校验会根据识别数据中 包含的逻辑关系,来校验结果是否正确。例如彩票的种类和玩法决定了投注方案中不可能出现一些不符合玩法规则的数字,通过这样的逻辑校验,就可以进一步提高自动校验判断的正确度,从而提高整体的识别率。利用光学字符识别技术对彩票信息进行自动和智能识别。
步骤102,所述移动终端将该票据数据保存同步到服务器端。步骤103,所述服务器提取官方数据,并将官方数据与票据数据核对,判断是否与官方数据相一致。在这里步骤103针对彩票数据来说,实际上是所述服务器提取官方的开奖数据,并把开奖数据和彩票数据自动核对,以判断用户是否中奖以及中奖的等级、金额。后续还可以进行如下操作所述服务器把判断结果传送到移动终端,移动终端接收到判断结果后自动进行提醒。同时所述服务器还可根据预先设置的算法对彩票数据中的投注方案和收益情况进行统计,将统计结果发送给移动终端。这样用户就可以通过移动终端上提供的彩票投注方案建议进行投注。如图2所示,在上述实施例中步骤101中所述的识别过程具体为包括步骤1011,移动终端对拍摄后存储在其内的票据使用光学字符识别技术进行预处理。所谓预处理是为了去噪声,加强有用的信息,并对移动终端输入设备或其它因素所造成的退化现象进行复原。通常,预处理包括对原始图像的去噪(增大图像的分辨率)、彩色图像转为灰度图像、倾斜校正、二值化;其中增大图像的分辨率,就是对图像进行插值运算,即通过图像中原有的像素点的值来确定所要增加的像素点的值;二值化为把灰度图像处理为二值(0,I)的过程,二值化的基本要求是(I)笔画中不能出现空白;(2) 二值化后的笔画基本保持原来文字的特征。为了得到理想的二值图像,采用阈值分割技术,对物体与背景有较强对比的图像的分割特别有效,它计算简单而且总能用封闭、连通的边界定义不交叠的区域。考虑到速度和实际效果等因素,本发明实施例中采用了将整体闽值法Ostu算法和局部闽值法Bernsen算法相结合的改进的二值化方法。票据的文字图像经过二值化后得到的是一个整体,其中包括了行与行之间,字与字之问的空白。倾斜校正为现有技术,是在用图像采集设备得到图像时,样张除了有可能放置颠倒,还有可能略微的倾斜,这种情况也会影响识别。倾斜可能是整个版面都存在问题,也可能是局部的文本块存在问题。当倾斜角度不大时,不影响识别过程,可以忽略不计。若倾斜角过大,就影响了识别的准确性。所以还需要进行自动倾斜纠正。步骤1012,对经过预处理后的数据进行版面分析。所谓版面分析是把文字与图像部 分分开,它是对图像进行总体分析,识别出文本段落和图像等,只是识别出文本区域,为接下来的工作做准备。所述版面分析主要是为了区分文本域、图像域以及图表域等,这样作的目的就是为了分割出文本域。我们采取了根据实际统计的彩票上的特征,采取了象素考察法,如果在某一个区域大面积的是前景图像,那么我们将视为非文本区域。步骤1013,对经过版面分析后的数据进行行分割。所谓行分割是将经过版面分析后的数据的文本图像切割成一行一行,主要要解决的问题就是行出现倾斜的情况。该步骤1013主要是提高识别精度,避免识别精度不高。步骤1014,通过票据字符库对经过行分割的数据进行字符分割。所谓字符分割是主要分为两步,第一步是将图形中的字符提取、划分成独立的小图片,每个小图片包含且仅包含一个字符;第二步是将划分好的独立字符图像进行识别。由于不同字体、字号的字符宽度高度不同,加上汉字经常出现上下结构、左右结构,给中英文、数字混排的字符分割提出了很高的要求。我们提出的方法是使用现有技术中的模板匹配技术,预先设定好票据纸张对应区域可能出现的字符类型来简化识别难度。通过模板匹配技术,我们可以通过简单预处理之后得到该票据图形可能的类型,即可知道在特定区域出现的字符图形是中文、英文还是数字,从而极大地提高了字符分割的准确度。步骤1015,对经过字符分割后的数据进行特征提取。所述特征提取采用统计梯度直方图特征,具体实现方式为1)归一化图像,然后获取梯度图像;2)将梯度图像分为多个方向平面,每个方向平面划分成N*N的cell ;3)统计每个cell中梯度的数量作为特征。所谓特征提取是票据识别的关键部分,特征提取的好坏,是决定字符识别率高低的最关键要素。这是彩票识别系统成功与否的关键,也是模式识别领域中人们研究的热点。步骤1016,对经过特征提取后的数据进行分类处理。所述分类处理为基于统计的模式识别方法,具体为计算待识别字符的特征与已训练得到的字符模板之间的距离,根据距离的大小确定识别的结果。为方便后续的上下文语义信息处理,字符分类器一般输出多个候选识别结果。分类处理的思想是在特征空间中用统计方法把识别对象归为某一类别,将不同分辨率的数据图像统一缩放到一定的尺寸,便于分析对比。分类处理的基本做法是根据制定的判决规则对被特征提取后的数据进行分类,其目的是达到错误识别率最小或引起的损失最小。步骤1017,对经过分类处理后的数据进行后处理。所述后处理为借助上下文的语言信息来纠正分类处理后的数据的某些错误。针对本发明所列举的实施例来说,实现方式为两种一种是建立彩票词典;一种是建立彩票语言模型。前者需要的训练语料相对少,后者则需要大量的语料(彩票内容文本)。对于一个文本行,分类处理识别后,每个字符图像都会得到多个候选识别结果。那么整个文本行的识别结果则有多种组合,这里的后处理是利用词典或者语言模型在分类器识别的基础上对整个的文本行的识别结果进行评价,获取评价最好的一个结果作为文本行的识别结果。后处理是为了纠正一些错误的识别,这往往是基于文法分析上的,通过在移动终端中建立语法规则库,利用词义、词频、语义等先验进行识别结果的确认或纠错。这样的处理可以进一步提闻识别率。如图3所示,为本发明实施例2所述的一种应用于移动终端的票据自动识别本系统,该系统包括终端处理模块201和服务处理模块202 ;其中所述终端处理模块201,设置在移动终端中,用于对拍摄后存储在该移动终端内的票据进行识别和校验,通过识别和校验产生符合要求的票据数据并保存,然后将该票据数据保存同步到服务处理模块202 ;所述服务处理模块202,设置在服务器中,用于提取官方数据,并将官方数据与票据数据核对,判断是否与官方数据相一致。
具体地,该发明的系统的具体操作方式和前述的发明的方法的具体步骤相一致,这里不再详细赘述。综上所述,与现有技术相比,本发明所述的应用于移动终端的票据自动识别方法,通过OCR (Optical Character Recognition,光学字符识别)技术的优化处理,将票据内的各项信息输入和保存在移动终端内,并同步到服务器端进行判断。本发明能够实现票据信息一次输入、跨网络、跨终端共享;不受网络类型、终端类型、地点和时间的限制,具有很高的移动性和便利性。本发明能够对各种不同的票据模式和版式实现智能化的自适应,方便用户使用以及运营和维护。当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
权利要求
1.ー种应用于移动终端的票据自动识别方法,其特征在于,该方法包括 移动终端通过对拍摄后存储在其内的票据进行识别和校验,通过识别和校验产生符合要求的票据数据,并将该票据数据保存在该移动終端; 所述移动終端将该票据数据保存同步到服务器端; 所述服务器提取官方数据,并将官方数据与票据数据核对,判断是否与官方数据相ー致。
2.如权利要求I所述的应用于移动终端的票据自动识别方法,其特征在于,进ー步为移动终端通过对拍摄后存储在其内的票据使用光学字符识别技术和该移动终端内设置的票据字符库进行识别和校验。
3.如权利要求2所述的应用于移动终端的票据自动识别方法,其特征在于,所述票据字符库包括票据的基本信息和特征信息。
4.如权利要求3所述的应用于移动终端的票据自动识别方法,其特征在于,进ー步为 所述移动終端对拍摄后存储在其内的票据使用光学字符识别技术进行预处理; 对经过预处理后的数据进行版面分析; 对经过版面分析后的数据进行行分割; 通过票据字符库对经过行分割的数据进行字符分割; 对经过字符分割后的数据进行特征提取; 对经过特征提取后的数据进行分类处理; 对经过分类处理后的数据进行后处理。
5.ー种应用于移动终端的票据自动识别系统,其特征在干,该系统包括終端处理模块和服务处理模块;其中 所述终端处理模块,设置在移动终端中,用于对拍摄后存储在该移动终端内的票据进行识别和校验,通过识别和校验产生符合要求的票据数据并保存,然后将该票据数据保存同步到服务处理模块; 所述服务处理模块,设置在服务器中,用于提取官方数据,并将官方数据与票据数据核对,判断是否与官方数据相一致。
6.如权利要求5所述的应用于移动终端的票据自动识别系统,其特征在于,所述终端处通ホ旲块,进一步为 设置在移动终端中,用于对拍摄后存储在该移动终端内的票据使用光学字符识别技术和该移动終端内设置的票据字符库进行识别和校验,通过识别和校验产生符合要求的票据数据并保存,然后将该票据数据保存同步到服务处理模块。
7.如权利要求6所述的应用于移动终端的票据自动识别系统,其特征在于,所述票据字符库包括票据的基本信息和特征信息。
8.如权利要求7所述的应用于移动终端的票据自动识别系统,其特征在于,所述终端处通ホ旲块,进一步为 用于对拍摄后存储在该移动终端内的票据使用光学字符识别技术进行预处理;对经过预处理后的数据进行版面分析;对经过版面分析后的数据进行行分割;通过票据字符库对经过行分割的数据进行字符分割;对经过字符分割后的数据进行特征提取;对经过特征提取后的数据进行分类处理;对经过分类处理后的数据进行后处理,产生符合要求的票据数据并保存,然后将该票据数据保存同 步到服务处理模块。
全文摘要
本发明公开了一种应用于移动终端的票据自动识别方法和系统,该方法包括移动终端通过对拍摄后存储在其内的票据进行识别和校验,通过识别和校验产生符合要求的票据数据,并将该票据数据保存在该移动终端;移动终端将该票据数据保存同步到服务器端;服务器提取官方数据,并将官方数据与票据数据核对,判断是否与官方数据相一致。本发明所述的应用于移动终端的票据自动识别方法和系统,能够实现票据的自动识别其能够便于携带或集成于其他设备中并能够进行识别后处理。
文档编号G06K9/20GK102737242SQ20121019293
公开日2012年10月17日 申请日期2012年6月12日 优先权日2012年6月12日
发明者王湘云 申请人:丰豪盈彩(北京)科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1