基于光学字符识别的图像中字符识别方法及装置制造方法

文档序号:6627347阅读:312来源:国知局
基于光学字符识别的图像中字符识别方法及装置制造方法
【专利摘要】本发明涉及一种基于光学字符识别的图像中字符识别方法及装置,所述方法在一个实施例中包括以下步骤:将所述图像灰度化转化为灰度图像;滑动读取图像的窗口,循环截取预设范围的所述灰度图像直到所述图像被完全截取;根据预设的计算方法计算得到的第一阀值对当前所述截取的预设范围的图像进行二值化直到所述灰度图像被完全二值化;将所述二值化的灰度图像的灰度值离散分布通过离散傅里叶变换变换到频域,通过高斯滤波对所述频域中的点值进行调整;再将所述频域中距离中心距离小于预设值的点值均置为零,得到处理图像;将所述处理图像中的字符串进行识别,生成目标字符串。根据发明中的方法及装置,可以更准确的识别图像中的字符串。
【专利说明】基于光学字符识别的图像中字符识别方法及装置

【技术领域】
[0001] 本发明涉及光学字符识别领域,特别涉及一种基于光学字符识别的图像中字符识 别方法及装置。

【背景技术】
[0002] 图像中的字符的识别技术越来越重要,通过扫描识别影像直接获取影像中的字 符,减少字符输入的麻烦操作。光学字符识别技术已经应用到诸如车牌识别、证件信息识 另IJ、取词翻译等。现有技术中没有对于图像中有明显摩尔纹等明显阴影的字符识别的有效 方法,对于不清晰的图像中的字符识别也就成为亟待解决的问题。


【发明内容】

[0003] 有鉴于此,本发明提供一种基于光学字符识别的图像中字符识别方法及装置,可 以更准确的识别图像中的字符串。
[0004] 一种基于光学字符识别的图像中字符识别方法,所述方法用于读取图像中的字符 串,所述方法包括以下步骤:
[0005] 将所述图像灰度化转化为灰度图像;
[0006] 滑动读取图像的窗口,循环截取预设范围的所述灰度图像直到所述图像被完全截 取;
[0007] 根据预设的计算方法计算得到的第一阀值对当前所述截取的预设范围的图像进 行二值化直到所述灰度图像被完全二值化;
[0008] 将所述二值化的灰度图像的灰度值的离散分布通过离散傅里叶变换变换到频域, 通过高斯滤波对所述频域中的点值进行调整;
[0009] 再将所述频域中距离中心距离小于预设值的点值均置为零,得到处理图像;以及
[0010] 将所述处理图像中的字符串进行识别,生成目标字符串。
[0011] 一种基于光学字符识别的图像中字符识别装置,所述装置用于读取图像中的字符 串,所述装置包括以下模块:
[0012] 二值化模块,用于根据灰度化将所述图像转化为灰度图像,滑动读取图像的窗口, 循环截取预设范围的所述图像直到所述图像被完全截取,根据预设的计算方法计算得到的 第一阀值将当前所述截取的图像进行二值化;
[0013] 滤波模块,用于将所述二值化的灰度图像的灰度值的离散分布通过离散傅里叶变 换变换到频域,通过高斯滤波对所述频域中的点值进行调整;
[0014] 截断模块,用于再将所述频域中距离中心距离小于预设值的点值均置为零,得到 处理图像;以及
[0015] 识别模块,用于将所述处理图像中的字符串进行识别,生成目标字符串。
[0016] 根据上述实施例的方法及装置,通过先对图像预处理,减少较明显阴影的影响,有 效识别图像中的字符串。
[0017] 为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例, 并配合所附图式,作详细说明如下。

【专利附图】

【附图说明】
[0018] 图1为一种电子装置的结构框图。
[0019] 图2为第一实施例提供的基于光学字符识别的图像中字符识别方法流程图。
[0020] 图3为第二实施例提供的基于光学字符识别的图像中字符识别方法流程图。
[0021] 图4为第三实施例提供的基于光学字符识别的图像中字符识别方法流程图。
[0022] 图5为第四实施例提供的基于光学字符识别的图像中字符识别方法流程图。
[0023] 图6为第五实施例提供的基于光学字符识别的图像中字符识别方法流程图。
[0024] 图7为第六实施例提供的基于光学字符识别的图像中字符识别方法流程图。
[0025] 图8为第七实施例提供的基于光学字符识别的图像中字符识别装置结构框图。
[0026] 图9为第八实施例提供的基于光学字符识别的图像中字符识别装置结构框图。
[0027] 图10为第九实施例提供的基于光学字符识别的图像中字符识别装置结构框图。
[0028] 图11为第十实施例提供的基于光学字符识别的图像中字符识别装置结构框图。
[0029] 图12为第十一实施例提供的基于光学字符识别的图像中字符识别装置结构框 图。
[0030] 图13为第十二实施例提供的基于光学字符识别的图像中字符识别装置结构框 图。

【具体实施方式】
[0031] 为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合 附图及较佳实施例,对依据本发明的【具体实施方式】、结构、特征及其功效,详细说明如后。
[0032] 本发明实施例涉及一种基于光学字符识别的图像中字符识别方法及装置,其可用 于一种电子装置中。
[0033] 图1为上述电子装置的结构框图。如图1所示,电子装置100包括一个或多个(图 中仅示出一个)处理器102、存储器104、RF (Radio Frequency,射频)模块106、网络模块 108、传感器110、摄像模块112、输入模块114、显示模块116、。本领域普通技术人员可以理 解,图1所示的结构仅为示意,其并不对电子装置1〇〇的结构造成限定。例如,电子装置1〇〇 还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。上述的电 子装置100的具体实例包括但并不限于手持式计算机、移动电话、媒体播放器、车载设备、 个人数字助理及前述装置的各种组合。
[0034] 本领域普通技术人员可以理解,相对于处理器102来说,所有其他的组件均属于 外设,处理器102与这些外设之间通过多个外设接口 124相耦合。外设接口 124可基于以下 标准实现:通用异步接收 / 发送装置(Universal Asynchronous Receiver/Transmitter, UART)、通用输入 / 输出(General Purpose Input Output, GPI0)、串行外设接口(Serial Peripheral Interface, SPI)、内部集成电路(Inter-Integrated Circuit,I2C),但不并限 于上述标准。在一些实例中,外设接口 124可仅包括总线;在另一些实例中,外设接口 124 还可包括其他元件,如一个或者多个控制器,例如用于连接液晶显示面板的显示控制器或 者用于连接存储器的存储控制器122。此外,这此控制器还可以从外设接口 124中脱离出 来,而集成于处理器102内或者相应的外设内。
[0035] 存储器104可用于存储软件程序以及模块,如本发明实施例中的基于光学字符识 别的图像中字符识别方法/装置对应的程序指令/模块,处理器102通过运行存储在存储 器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的基于 光学字符识别的图像中字符识别方法。存储器104可包括高速随机存储器,还可包括非易 失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些 实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可 以通过网络连接至电子装置100。上述网络的实例包括但不限于互联网、企业内部网、局域 网、移动通信网及其组合。
[0036] RF模块106用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与 通讯网络或者其他设备进行通讯。RF模块106可包括各种现有的用于执行这些功能的电 路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SM) 卡、存储器等等。RF模块106可与各种网络如互联网、企业内部网、无线网络进行通讯或 者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网 或者城域网。上述的无线网络可以使用各种通信标准、协议及技术,包括但并不限于全球 移动通信系统(Global System for Mobile Communication, GSM)、增强型移动通信技术 (Enhanced Data GSM Environment, EDGE),宽带码分多址技术(wideband code division multiple access, W-CDMA),码分多址技术(Code division access, CDMA)、时分多址技 术(time division multiple access, TDMA),无线保真技术(Wireless, Fidelity,WiFi) (如美国电气和电子工程师协会标准IEEE802. 11a,IEEE 802. lib, IEEE802. llg和/或 IEEE 802. lln)、网络电话(Voice over internet protocal, VoIP)、全球微波互联接入 (Worldwide Interoperability for Microwave Access,Wi_Max)、其他用于邮件、即时通讯 及短消息的协议,以及任何其他合适的通讯协议,甚至可包括那些当前仍未被开发出来的 协议。
[0037] 网络模块108用于接收以及发送网络信号。上述网络信号可包括无线信号或者有 线信号。在一个实例中,上述网络信号为WiFi信号,由于WiFi的工作频率也处于射频的频 段内,此时网络模块可具有与RF模块106类似的硬件结构,即可包括天线、射频收发器、数 字信号处理器、加密/解密芯片等元件。在一个实例中,上述网络信号为有线网络信号。此 时,网络模块108可包括处理器、随机存储器、转换器、晶体振荡器等元件。
[0038] 传感器110的实例包括但并不限于:光传感器、运行传感器、及其他传感器。具体 地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可以感测环境光的明 暗,进而处理器102执行的一些模块可利用环境光传感器的输出来自动调节显示的输出。 接近传感器可在电子装置100移动到耳边时,关闭显示输出。作为运动传感器的一种,重力 加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大 小及方向,可用于识别手机姿态的应用(比如横坚屏切换、相关游戏、磁力计姿态校准)、振 动识别相关功能(比如计步器、敲击)等;至于电子装置100还可配置的陀螺仪、气压计、湿 度计、温度计等其他传感器,在此不再赘述。
[0039] 摄像模块112用于拍摄照片或者视频。拍摄的照片或者视频可以存储至存储器 104内,并可通过RF模块106发送。摄像模块112具体可包括镜头模组、影像感测器以及闪 光灯等组件。镜头模组用于对被拍摄的目标成像,并将所成的像映射至影像感测器中。影 像感测器用于接收来自镜头模组的光线,实现感光,以记录图像信息。具体地,影像感测器 可基于互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)、电荷 奉禹合元件(Charge-coupled Device,CCD)或者其他影像感测原理实现。闪光灯用于在拍摄 时进行曝光补偿。一般来说,用于电子装置100的闪光灯可为发光二极体(Light Emitting Diode, LED)闪光灯。
[0040] 输入单元114可用于接收输入的字符信息,以及产生与用户设置以及功能控制有 关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元114可包括按键以及 触控表面。按键例如可包括用于输入字符的字符按键,以及用于触发控制功能的控制按键。 控制按键的实例包括"返回主屏"按键、开机/关机按键、拍照键等等。触控表面可收集用 户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控表 面上或在触控表面附近的操作),并根据预先设定的程序驱动相应的连接装置。可选的,触 控表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸 方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置 上接收触摸信息,并将它转换成触点坐标,再送给处理器102,并能接收处理器102发来的 命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触 控表面。除了触控表面,输入单元114还可以包括其他输入设备。上述的其他输入设备包 括但不限于物理键盘、轨迹球、鼠标、操作杆等中的一种或多种。
[0041] 显示模块116用于显示由用户输入的信息、提供给用户的信息以及电子装置100 的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构 成。在一个实例中,显示模块116包括一个显示面板。显示面板例如可为一个液晶显示面 板(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode Display,0LED)显不面板、电泳显不面板(Electro-Phoretic Display, EPD)等。进一步地, 触控表面可设置于显示面板上从而与显示面板构成一个整体。在另一些实施例中,显示模 块116还可包括其他类型的显示装置,例如包括一个投影显示装置。相比于一般的显示面 板,投影显示装置还需要包括一些用于投影的部件例如透镜组。
[0042] 第一实施例
[0043] 图2为本实施例提供的一种基于光学字符识别的图像中字符识别方法流程图,如 图2所示,本实施例的方法包括以下步骤:
[0044] 步骤S101、将所述图像转化为灰度图像。
[0045] 所述图像可以是任何带有字符串的图像。可以知道的是,图像可以由多种采样颜 色组成。多种颜色会影响光学字符识别对字符的识别。所述灰度图像表示每个像素只有一 个采样颜色的图像,也就是黑白图像。
[0046] 步骤S102、滑动读取图像的窗口,截取预设范围的所述灰度图像直到所述图像被 完全截取。
[0047] 本实施例中采用局部自适应阈值二值化算法。所述局部自适应阈值二值化每次二 值化仅截图图像的一部分。通过滑动扫描图像的窗口截取部分图像。所述预设范围为根据 当前图像的大小进行设定的范围。例如,用一个SW*SW的正方形滑动窗口截取所述图像。其 中SW的值根据当前使用的扫描窗口而定。通过滑动所述窗口截取图像中像素点,直至将所 述图像中的像素点完全截取。
[0048] 步骤S103、根据预设的计算方法计算得到的第一阀值对当前所述截取的预设范围 的图像进行二值化直到所述灰度图像被完全二值化。
[0049] 在一个实例中,所述预设的计算方法可以是以下算法:其中每次基于窗口中的像 素来计算所述第一阈值T,灰度值高于T的变为白色,灰度值低于T的变为黑色。所述灰度 值指黑白图像中点的颜色深度,范围一般从0到255,白色为255,黑色为0,故黑白图片也称 灰度图像。局部阈值确定的具体算法是,滑动窗口每次截取图片中的SW*SW范围内的像素 点,对这些像素点计算它们的平均值m以及标准差s,所述算法依据如下公式计算第一阈值 T :
[0050]

【权利要求】
1. 一种基于光学字符识别的图像中字符识别方法,所述方法用于读取图像中的字符 串,其特征在于,所述方法包括以下步骤: 将所述图像转化为灰度图像; 滑动读取图像的窗口,截取预设范围的所述灰度图像直到所述图像被完全截取; 根据第一阀值对当前所述截取的预设范围的图像进行二值化直到所述灰度图像被完 全二值化; 将所述二值化的灰度图像的灰度值离散分布变换到频域,通过滤波对所述频域中的点 值进行调整; 将所述频域中距离中心距离小于预设值的点值均置为零,得到处理图像;以及 将所述处理图像中的字符串进行识别,生成目标字符串。
2. 如权利要求1所述的基于光学字符识别的图像中字符识别方法,其特征在于,所述 将所述二值化的灰度图像的灰度值离散分布变换到频域,通过滤波对所述频域中的点值进 行调整具体为: 通过离散傅里叶变换将所述二值化的灰度图像的灰度值离散分布变换到频域; 通过高斯滤波对所述频域中的点值进行调整。
3. 如权利要求1所述的基于光学字符识别的图像中字符识别方法,其特征在于,在所 述根据光学字符识别进行识别所述图像中字符串之后还包括: 计算所述图像中字符串顶部与图像顶部的距离,若所述距离小于第二阀值则将所述字 符串删除; 计算所述图像中字符串底部与图像底部的距离,若所述距离小于所述第二阀值则将所 述字符串删除。
4. 如权利要求1所述的基于光学字符识别的图像中字符识别方法,其特征在于, 若所述图像包括至少两张字符串图像时,将所述相邻两张图像字符串段落进行从上至 下遍历进行多行匹配; 计算单行匹配成功的行数占总行数的比例; 若所述比例超过第三阀值,则判断此次多行匹配成功; 比较所有匹配成功的多行匹配的行数,行数最多的所述多行匹配为最终匹配段,将所 述最终匹配段删除; 将删除最终匹配段之后的相邻段字符串进行拼接。
5. 如权利要求1所述的基于光学字符识别的图像中字符识别方法,其特征在于,若所 述图像中字符串为代码,所述方法还包括,在所述光学字符识别的识别引擎库中根据所述 代码设置白名单。
6. 如权利要求1所述的基于光学字符识别的图像中字符识别方法,其特征在于,在所 述根据光学字符识别进行识别所述图像中字符串之后还包括: 根据所述图像中字符串的包围盒的信息计算图像中字符串的行高与字符串的宽度计 算得到所述图像中字符串的之间的空白数; 根据所述计算得到的字符之间的空白数,调整所述目标字符串的格式。
7. 如权利要求6所述的基于光学字符识别的图像中字符识别方法,其特征在于,在所 述根据光学字符识别进行识别所述图像中字符串,生成目标字符串之后还包括, 将所述格式调整之后的目标字符串进行1?壳。
8. 如权利要求1所述的基于光学字符识别的图像中字符识别方法,其特征在于,当所 述图像中的字符串包括代码与英文,在所述根据光学字符识别进行识别所述图像中字符串 之后还包括: 计算当前行的字符串为代码的概率; 若所述概率超过第四阀值,判断为代码,则对所述判断为代码的区域作标记。
9. 一种基于光学字符识别的图像中字符识别装置,所述装置用于读取图像中的字符 串,其特征在于,所述装置包括以下模块: 二值化模块,用于将所述图像转化为灰度图像,滑动读取图像的窗口,截取预设范围的 所述图像直到所述图像被完全截取,根据第一阀值将当前所述截取的图像进行二值化; 滤波模块,用于将所述二值化的灰度图像的灰度值离散分布变换到频域,通过滤波对 所述频域中的点值进行调整; 截断模块,用于将所述频域中距离中心距离小于预设值的点值均置为零,得到处理图 像;以及 识别模块,用于将所述处理图像中的字符串进行识别,生成目标字符串。
10. 如权利要求9所述的基于光学字符识别的图像中字符识别装置,其特征在于,所述 滤波模块,具体用于通过离散傅里叶变换将所述二值化的灰度图像的灰度值离散分布变换 到频域,通过高斯滤波对所述频域中的点值进行调整。
11. 如权利要求9所述的基于光学字符识别的图像中字符识别装置,其特征在于,在识 别模块之后还包括: 去残模块,用于去除所述图像中残缺的字符串; 所述去残模块包括: 第一计算单元,用于计算所述图像中字符串顶部与图像顶部的距离; 删除单元,用于若所述距离小于第二阀值则将所述字符串删除; 所述第一计算单元还用于计算所述图像中字符串底部与图像底部的距离; 所述删除单元还用于若所述距离小于所述第二阀值则将所述字符串删除。
12. 如权利要求9所述的基于光学字符识别的图像中字符识别装置,其特征在于, 拼接模块,用于若所述图像包括至少两段字符串时,将所述图像中的字符串进行拼接 输出; 所述拼接模块包括: 匹配单元,用于若所述图像包括至少两张字符串图像时,将所述相邻两张图像字符串 段落进行从上至下遍历进行多行匹配; 第二计算单元,用于计算单行匹配成功的行数占总行数的比例; 判断单元,用于根据第三阀值判断此次多行匹配是否成功,若超过所述第三阀值则判 断匹配成功,若未超过所述第三阀值则判断失败; 删除单元,用于比较所有匹配成功的多行匹配的行数,行数最多的所述多行匹配为最 终匹配段,将所述最终匹配段删除; 拼接单元,用于将删除最终匹配段之后的相邻段字符串进行拼接。
13. 如权利要求9所述的基于光学字符识别的图像中字符识别装置,其特征在于,所述 图像中的字符串为代码,所装置还包括, 设置模块,用于在所述光学字符识别的识别引擎库中根据所述代码设置白名单。
14. 如权利要求9所述的基于光学字符识别的图像中字符识别装置,其特征在于,在所 述识别模块之后还包括: 格式调整模块,用于将识别模块获得的所述目标字符串的格式进行调整; 所述格式调整模块包括: 第二计算单元,用于根据所述图像中字符串的包围盒的信息计算图像中字符串的行高 与字符串的宽度并进一步得到所述图像中字符串的之间的空白数; 调整单元,用于根据所述计算得到的字符之间的空白数,调整所述目标字符串的格式。
15. 如权利要求14所述的基于光学字符识别的图像中字符识别装置,其特征在于,在 所述格式调整模块之后还包括, 1?壳|旲块,用于将所述格式调整之后的目标字符串进行1?壳。
16. 如权利要求9所述的基于光学字符识别的图像中字符识别装置,其特征在于,当所 述图像中的字符串包括代码与英文,在所述识别模块之后还包括: 标记模块,用于标记所述图像生成的字符串中的代码部分; 所述标记模块包括: 第三计算单元,用于计算当前行的字符串为代码的概率; 标记单元,用于若所述概率超过第四阀值,判断为代码,则对所述判断为代码的区域作 记。
【文档编号】G06K9/00GK104268512SQ201410475608
【公开日】2015年1月7日 申请日期:2014年9月17日 优先权日:2014年9月17日
【发明者】李德斌, 王巨宏, 许勇, 全琦, 黄志斌, 杨大威, 谭志鹏, 吴现, 杨言 申请人:清华大学, 腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1