字符识别方法和字符识别器的制作方法

文档序号:6378192阅读:199来源:国知局
专利名称:字符识别方法和字符识别器的制作方法
技术领域
本发明涉及字符识别技术,尤其涉及一种字符识别方法和字符识别器。
背景技术
字符识别是指利用计算机等设备自动识别字符的技术,其中字符包括汉字、英文字母、数字、标点等等,即诸如包括1、2、3、A、B、C、#、字,等等。传统的字符识别技术,例如OCR (Opt ical Character Recognit ion,光学字符识别),普遍存在的问题是在处理大量固定字符集的文档时,处理效率低,这主要是由于传统的文字识别技术中对每个字符进行复杂的计算
发明内容

有鉴于此,本发明提供了一种字符识别方法和字符识别器。可以提高对字符的识别速度。本发明实施例提供的字符识别方法,包括如下步骤b、利用哈希算法计算待识别图片中字符图片的哈希值;C、从预先建立的字符集哈希值训练库中查询所述哈希值,得到所述哈希值对应的字符;其中,所述b包括bl、从所述待识别图片中抽取单字字符图片;b2、对所述单字字符图片进行单色滤镜处理;b3、利用所述哈希算法计算所述单字字符图片的哈希值;其中,所述字符集哈希值训练库包括字符编码和与所述字符编码对应的哈希值;所述c包括Cl、从预先建立的字符集哈希值训练库中查询所述哈希值,得到所述哈希值对应的字符编码;c2、将所述得到的字符编码转换为相应的字符。进一步,所述b之前还包括a、建立字符集哈希值训练库;所述a包括al、提取字符集中的单字字符图片;a2、对所述提取的单字符图片进行单色滤镜处理;a 3、利用哈希算法计算所述提取的单字字符图片的哈希值;a4、将所述提取的单字符图片的哈希值和所述单字字符图片的字符编码对应地存储到字符集哈希值训练库。进一步,所述哈希算法采用第五版消息摘要算法MD5。进一步,所述字符编码采用二进制编码。进一步,在所述预先建立的字符集哈希值训练库中,采用表的形式存储字符编码和与所述字符编码对应的哈希值。相应地,本发明实施例还提供了一种字符识别器,包括第一处理单元,用于利用哈希算法计算待识别图片中字符图片的哈希值;第二处理单元,用于从预先建立的字符集哈希值训练库中查询所述第一处理单元计算得到的哈希值,得到所述哈希值对应的字符;其中,第一处理单元包括抽取子单元,用于从所述待识别图片中抽取单字字符图片;第一滤镜处理子单元,用于对所述抽取子单元抽取的单字字符图片进行单色滤镜 处理;第一计算子单元,用于利用哈希算法计算所述第一滤镜处理子单元处理后的单字字符图片的哈希值;其中,所述字符集哈希值训练库包括字符编码和与所述字符编码对应的哈希值;所述第二处理单元,包括查询子单元,用于从预先建立的字符集哈希值训练库中查询所述哈希值,得到所述哈希值对应的字符编码;转换子单元,用于将所述查询子单元查询到的字符编码转换为相应的字符。进一步,还包括建立单元,用于建立字符集哈希值训练库,所述建立单元包括提取子单元,用于提取字符集中的单字字符图片;第二滤镜处理子单元,用于对所述提取子单元提取的单字符图片进行单色滤镜处理;第二计算子单元,用于利用哈希算法计算所述第二滤镜处理子单元处理后的单字字符图片的哈希值;存储子单元,用于将所述提取的单字符图片的哈希值和所述单字字符图片的字符编码对应地存储到字符集哈希值训练库。进一步,所述哈希算法采用第五版消息摘要算法MD5。进一步,所述字符编码采用二进制编码。进一步,在所述预先建立的字符集哈希值训练库中,采用表的形式存储字符编码和与所述字符编码对应的哈希值。 本发明的有益效果本发明实施例在对图片中的字符进行识别时,通过计算图片中的字符图片的哈希值,然后在预先建立的字符集哈希值训练库中查询该哈希值,即可以得到该字符图片的哈希值对应的字符,即实现了字符的识别。由于此种形式,通过预先建立的字符集哈希值训练库,直接利用哈希值进行比较,对字符进行识别,因此简化了字符识别过程,能够提高对字符的识别速度,适用于处理批量庞大的图片资料。


下面结合附图和实施例对本发明作进一步描述图I是本发明的字符识别方法的第一实施例的流程示意图。图2是图I中的步骤Sll的实施例的流程示意图。
图3是图I中步骤S12的实施例的流程示意图。图4是本发明的字符识别方法的第二实施例的流程示意图。图5是图4中的步骤SlO的实施例的流程示意图。图6是本发明的字符识别器的第一实施例的结构示意图。图7是图6中第一处理单元的实施例的结构示意图。图8是图6中第二处理单元的实施例的结构示意图。图9是本发明的字符识别器的第二实施例的结构示意图。图10是图9中建立单元的实施例的结构示意图。
具体实施例方式请参考图1,是本发明的字符识别方法的第一实施例的流程示意图。该方法流程主要是用于对固定字符集图片中的字符进行识别。其包括如下步骤步骤S11、利用哈希算法计算待识别图片中字符图片的哈希值。其中,哈希算法即hash,是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数,比较著名的哈希算法包括MD2 (Message Digest Algorithm〗,第二版消息摘要算法)、MD4 (第四版消息摘要算法)、MD5 (第五版消息摘要算法)和SHA (Secure HashAlgorithm,安全哈希算法)。其中MD5是一种比较成熟的、被广泛应用的哈希算法,因此在本实施例中选用MD5来计算待识别图片中字符图片的哈希值。下面介绍步骤Sll的一种具体实施方式
。如图2所示,步骤Sll在一种实施方式中包括如下步骤步骤SI 11、从所述待识别图片中抽取单字字符图片。步骤S112、对所述单字字符图片进行单色滤镜处理。步骤S113、利用所述哈希算法计算所述单字字符图片的哈希值。其中,步骤Slll待识别图片可能包括许多需要识别的字符,步骤Slll将这些字符一一地从待识别图片中进行抽取,得到单字字符图片。步骤Slll得到单字字符图片后,由于在实际中字符的颜色会发生变化,但字体的形态不变,因此可以由步骤S112将单字字符图片进行单色滤镜处理,使得单字字符图片变为单色,例如黑色,再进行后续的处理,步骤S112即实现的目的是将“JPG”、“PNG”和“GIF”等格式的图片中的字体处理为单色,通过步骤S112将图片的颜色处理为单色,可以使得后续在进行字符识别时不会受到颜色的影响,提高了字符识别的准确性和速度。经过上述处理后,再由步骤S113利用哈希算法,例如MD5,计算单字字符图片的哈希值。步骤S12、从预先建立的字符集哈希值训练库中查询所述哈希值,得到所述哈希值对应的字符。其中,字符集哈希值训练库包括字符编码和与所述字符编码对应的哈希值。该字符集哈希值训练库可以在步骤Sll之前建立,当需要对字符进行识别时,直接调用该字符集哈希值训练库即可。并且,该字符集哈希值训练库可以动态地进行更新。上述中,字符编码可以选用“UNIC0DE”、“GBK”、“GB2312”、“UTF-8”、“UTF-16”等,一串字符编码唯一地对应一个字符,因此得到哈希值对应的字符编码,也就相当于识别出了字符。字符集哈希值训练库可以采用表的形式存储字符编码和哈希值,以及它们的对应关系,在实际应用中,可以将“宋体”、“楷体”、“Arial”、“黑体”等常规字符集中的固定字体形式的字符图片求哈希值(例如哈希算法采用MD5),存入字符集哈希值训练库,字符编码可以采用UTF-8编码展示,其中字符“你”的UTF-8编码为“0xE4BDA0”,字符“ I ”的UTF-8编码为“0x31”,字符“9”的UTF-8编码为“0x39”,字符“好”的UTF-8编码为“0xE5A5BD”,例如采用表一的形式,是对“黑体”字符集中“你” “I” “9” “好”的字符图片计算出的哈希值,各字符编码对应的哈希值参见表一。表一
权利要求
1.一种字符识别方法,其特征在于包括如下步骤 b、利用哈希算法计算待识别图片中字符图片的哈希值; C、从预先建立的字符集哈希值训练库中查询所述哈希值,得到所述哈希值对应的字符; 其中,所述b包括 bl、从所述待识别图片中抽取单字字符图片; b2、对所述单字字符图片进行单色滤镜处理; b3、利用所述哈希算法计算所述单字字符图片的哈希值; 其中,所述字符集哈希值训练库包括字符编码和与所述字符编码对应的哈希值;所述c包括 Cl、从预先建立的字符集哈希值训练库中查询所述哈希值,得到所述哈希值对应的字符编码; c2、将所述得到的字符编码转换为相应的字符。
2.如权利要求I所述的字符识别方法,其特征在于 所述b之前还包括a、建立字符集哈希值训练库; 所述a包括 al、提取字符集中的单字字符图片; a2、对所述提取的单字符图片进行单色滤镜处理; a3、利用哈希算法计算所述提取的单字字符图片的哈希值; a4、将所述提取的单字符图片的哈希值和所述单字字符图片的字符编码对应地存储到字符集哈希值训练库。
3.如权利要求I或2所述的字符识别方法,其特征在于所述哈希算法采用第五版消息摘要算法MD5。
4.如权利要求I或2所述的字符识别方法,其特征在于所述字符编码采用二进制编码。
5.如权利要求I或2所述的字符识别方法,其特征在于在所述预先建立的字符集哈希值训练库中,采用表的形式存储字符编码和与所述字符编码对应的哈希值。
6.一种字符识别器,其特征在于包括 第一处理单元,用于利用哈希算法计算待识别图片中字符图片的哈希值; 第二处理单元,用于从预先建立的字符集哈希值训练库中查询所述第一处理单元计算得到的哈希值,得到所述哈希值对应的字符; 其中,第一处理单元包括 抽取子单元,用于从所述待识别图片中抽取单字字符图片; 第一滤镜处理子单元,用于对所述抽取子单元抽取的单字字符图片进行单色滤镜处理; 第一计算子单元,用于利用哈希算法计算所述第一滤镜处理子单元处理后的单字字符图片的哈希值; 其中,所述字符集哈希值训练库包括字符编码和与所述字符编码对应的哈希值;所述第二处理单元,包括查询子单元,用于从预先建立的字符集哈希值训练库中查询所述哈希值,得到所述哈希值对应的字符编码; 转换子单元,用于将所述查询子单元查询到的字符编码转换为相应的字符。
7.如权利要求6所述的字符识别器,其特征在于 还包括建立单元,用于建立字符集哈希值训练库,所述建立单元包括 提取子单元,用于提取字符集中的单字字符图片; 第二滤镜处理子单元,用于对所述提取子单元提取的单字符图片进行单色滤镜处理;第二计算子单元,用于利用哈希算法计算所述第二滤镜处理子单元处理后的单字字符图片的哈希值; 存储子单元,用于将所述提取的单字符图片的哈希值和所述单字字符图片的字符编码对应地存储到字符集哈希值训练库。
8.如权利要求6或7所述的字符识别器,其特征在于所述哈希算法采用第五版消息摘要算法MD5。
9.如权利要求6或7所述的字符识别器,其特征在于所述字符编码采用二进制编码。
10.如权利要求6或7所述的字符识别器,其特征在于在所述预先建立的字符集哈希值训练库中,采用表的形式存储字符编码和与所述字符编码对应的哈希值。
全文摘要
本发明提供的字符识别方法,包括如下步骤b、利用哈希算法计算待识别图片中字符图片的哈希值;c、从预先建立的字符集哈希值训练库中查询哈希值,得到哈希值对应的字符,其中b包括b1、从待识别图片中抽取单字字符图片;b2、对所述单字字符图片进行单色滤镜处理;b3、利用所述哈希算法计算所述单字字符图片的哈希值;其中,字符集哈希值训练库包括字符编码和与所述字符编码对应的哈希值;c包括c1、从预先建立的字符集哈希值训练库中查询所述哈希值,得到所述哈希值对应的字符编码。c2、将所述得到的字符编码转换为相应的字符。本发明还提供了一种字符识别器。采用本发明的字符识别方法或字符识别器,可以提高对字符的识别速度。
文档编号G06K9/62GK102880874SQ20121037493
公开日2013年1月16日 申请日期2012年9月29日 优先权日2012年9月29日
发明者王忻 申请人:重庆新媒农信科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1