一种图像中文字信息的提取方法及装置与流程

文档序号:12272284阅读:181来源:国知局
一种图像中文字信息的提取方法及装置与流程

本发明涉及图像识别技术领域,尤其涉及一种图片中文字信息的提取方法及装置。



背景技术:

随着数字化理念深入到生活的方方面面,人们愈发习惯通过电子产品的渠道获取信息,如在智能手机上浏览新闻、阅读电子书、发送邮件和短消息进行交流等,传统的报纸、书籍和书信等媒体形式和信息传播方式,已受到极大冲击。除此以外,随着智能手机和数码相机等的普及,人们记录信息的方式也有所改变。通过拍摄图片的方式进行信息记录,由于其方便快捷的特点,也十分普及。然而,利用图像的方式记录信息存在的问题是,若图像中主要的信息为文字信息,为了对文字信息进行再利用或者二次传播,需要将图像中的文字信息提取出来。如何准确提取图像中的文字信息,成为一个亟待解决的问题。尤其当拍摄的图像中的文本内容,为了追求艺术化的效果,具有复杂多样的排版时,其中字体、文字大小和排列方式等多种多样,更为图像中文字信息的提取增加了难度。



技术实现要素:

本发明实施例提供了一种图片中文字信息的提取方法及装置,可以结合图像中文字的排版规律进行文字信息的提取,并且数据运算量较低,速度快。

本发明实施例第一方面公开了一种图像中文字信息的提取方法,包括:

对图像进行灰度处理和二值化处理以得到二值化图像;

对所述二值化图像进行边缘检测,以获得所述二值化图像中的文字子区域;

根据所述文字子区域的分布确定所述图像中文字的排版规律;

根据所述排版规律对所述文字子区域进行字符切分以获得单个字符;

对所述单个字符进行匹配以获得所述单个字符的识别结果。

作为一种可选的实施方式,所述根据所述排版规律对所述文字子区域进行字符切分以获得单个字符,包括:

根据所述排版规律确定利用投影法进行字符切分时的扫描行距与扫描列距;

利用所述扫描行距对所述文字子区域进行行切分以获得文字行;

利用所述扫描列距对所述文字行进行字切分以获得所述单个字符。

作为一种可选的实施方式,所述对所述单个字符进行匹配以获得所述单个字符的识别结果之后,所述方法还包括:

判断所述识别结果是否为数字或字母;

若所述识别结果为数字或字母,则对所述单个字符所在的文字行进行语义识别,以纠正数字和字母混淆的错误。

作为一种可选的实施方式,所述对所述二值化图像进行边缘检测,以获得所述二值化图像中的文字子区域,包括:

对所述二值化图像进行边缘检测以划分出子区域;

通过支持向量机SVM分类器将所述子区域中不包含文字的子区域排除,以获得所述二值化图像中的所述文字子区域。

作为一种可选的实施方式,所述对所述单个字符进行匹配以获得所述单个字符的识别结果之后,所述方法还包括:

将所述识别结果按照所述排版规律输出到文档。

本发明实施例第二方面公开了一种图像中文字信息的提取装置,包括:

预处理单元,用于对图像进行灰度处理和二值化处理以得到二值化图像;

区域划分单元,用于对所述二值化图像进行边缘检测,以获得所述二值化图像中的文字子区域;

确定单元,用于根据所述文字子区域的分布确定所述图像中文字的排版规律;

字符切分单元,用于根据所述排版规律对所述文字子区域进行字符切分以获得单个字符;

字符匹配单元,用于对所述单个字符进行匹配以获得所述单个字符的识别结果。

作为一种可选的实施方式,所述字符切分单元,包括:

确定子单元,用于根据所述排版规律确定利用投影法进行字符切分时的扫描行距与扫描列距;

行切分子单元,用于利用所述扫描行距对所述文字子区域进行行切分以获得文字行;

字切分子单元,用于利用所述扫描列距对所述文字行进行字切分以获得所述单个字符。

作为一种可选的实施方式,所述装置还包括:

判断单元,用于判断所述识别结果是否为数字或字母;

纠错单元,用于当所述识别结果为数字或字母时,对所述单个字符所在的文字行进行语义识别,以纠正数字和字母混淆的错误。

作为一种可选的实施方式,所述区域划分单元,包括:

分区子单元,用于对所述二值化图像进行边缘检测以划分出子区域;

筛选子单元,用于通过支持向量机SVM分类器将所述子区域中不包含文字的子区域排除,以获得所述二值化图像中的所述文字子区域。

作为一种可选的实施方式,所述装置还包括:

输出单元,用于将所述识别结果按照所述排版规律输出到文档。

从以上技术方案可以看出,本发明实施例具有以下优点:

本发明实施例中,对图像进行灰度处理和二值化处理以得到二值化图像;对所述二值化图像进行边缘检测,以获得所述二值化图像中的文字子区域;根据所述文字子区域的分布确定所述图像中文字的排版规律;根据所述排版规律对所述文字子区域进行字符切分以获得单个字符;对所述单个字符进行匹配以获得所述单个字符的识别结果。由此可见,实施本发明实施例,可以结合图像中文字的排版规律进行文字信息的提取,并且数据运算量较低,速度快。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种图片中文字信息的提取方法的流程示意图;

图2为本发明实施例公开的另一种图片中文字信息的提取方法的流程示意图;

图3为本发明实施例公开的一种图片中文字信息的提取装置的结构示意图;

图4为本发明实施例公开的另一种图片中文字信息的提取装置的结构示意图;

图5为本发明实施例公开的一种终端设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同的对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法或设备固有的其他步骤或单元。

本发明实施例提供了一种图片中文字信息的提取方法及装置,可以结合图像中文字的排版规律进行文字信息的提取,并且数据运算量较低,速度快。以下分别进行详细说明。

请参阅图1,图1是本发明实施例公开的一种图片中文字信息的提取方法的流程示意图。其中,图1所示的方法可以包括以下步骤:

101、对图像进行灰度处理和二值化处理以得到二值化图像。

本发明实施例中,终端设备获取到图像后,首先对图像进行灰度处理和二值化处理以得到二值化图像。进行了上述两种处理后,可以去除冗余信息,显著降低图像的数据量,从而加快处理速度;并且,在对图像进行二值化处理后,可以提高图像中轮廓边缘的梯度,有利于后续边缘检测时更容易进行区域划分。

102、对上述二值化图像进行边缘检测,以获得上述二值化图像中的文字子区域。

作为一种可选的实施方式,先对上述二值化图像进行边缘检测以划分出子区域;再通过支持向量机SVM分类器将上述子区域中不包含文字的子区域排除,以获得上述二值化图像中的上述文字子区域。其中,上述边缘检测过程,可以通过Canny算法、Log算法以及Sobel算法等实现,具体采用何种算法,本发明实施例不做限定。

103、根据上述文字子区域的分布确定上述图像中文字的排版规律。

由于文本的排版,为了追求好的视觉效果,往往具有较为固定的排版规律。因此,将图像中包含文字的子区域划分出来后,可以根据上述文字子区域的位置分布和区块大小来确定该文字图像中文字的排版规律。作为一种可选的实施方式,可以先对常用的排版规律进行总结,建立排版规律数据库,在获取了图像中文字子区域的位置分布和区块大小等信息后,与数据库中的排版规律进行匹配,以确定上述图像中文字的排版规律。

104、根据上述排版规律对上述文字子区域进行字符切分以获得单个字符。

本发明实施例中,结合上述排版规律来对原有的进行字符切分的投影法进行改进,利用改进后的投影法来对上述文字子区域进行字符切分。首先,根据上述排版规律确定利用投影法进行字符切分时的扫描行距与扫描列距;再利用上述扫描行距对上述文字子区域进行行切分以获得文字行;之后利用上述扫描列距对上述文字行进行字切分以获得上述单个字符。

原有的投影法中,扫描行距与扫描列距为固定值,为了获得较好的切分效果,扫描行距与扫描列距通常设置为一个非常小的值,从而降低对符号、大小不一的文字的错误切分。因此,为了避免错误切分,原投影法需进行的数据运算量较大。而上述改进后的投影法,可以根据图像中文字的排版规律来确定扫描行距和扫描列距,当文字子区域中的字符的字号较大时,选取较大的值作为扫描行距和扫描列距,从而降低进行字符切分的运算量。

105、对上述单个字符进行匹配以获得上述单个字符的识别结果。

本发明实施例中,将上述切分出的单个字符,与数据库中的模板字符进行比对,从而确定上述单个字符的识别结果。

由此可见,利用图1所描述的方法,可以结合图像中文字的排版规律进行文字信息的提取,并且数据运算量较低,速度快。

请参阅图2,图2是本发明实施例公开的另一种图片中文字信息的提取方法的流程示意图。如图2所示,该方法可以包括以下步骤:

201、对图像进行灰度处理和二值化处理以得到二值化图像。

本发明实施例中,终端设备获取到图像后,首先对图像进行灰度处理和二值化处理以得到二值化图像。进行了上述两种处理后,可以去除冗余信息,显著降低图像的数据量,从而加快处理速度;并且,在对图像进行二值化处理后,可以提高图像中轮廓边缘的梯度,有利于后续边缘检测时更容易进行区域划分。

202、对上述二值化图像进行边缘检测,以获得上述二值化图像中的文字子区域。

作为一种可选的实施方式,先对上述二值化图像进行边缘检测以划分出子区域;再通过支持向量机SVM分类器将上述子区域中不包含文字的子区域排除,以获得上述二值化图像中的上述文字子区域。其中,上述边缘检测过程,可以通过Canny算法、Log算法以及Sobel算法等实现,具体采用何种算法,本发明实施例不做限定。

203、根据上述文字子区域的分布确定上述图像中文字的排版规律。

由于文本的排版,为了追求好的视觉效果,往往具有较为固定的排版规律。因此,将图像中包含文字的子区域划分出来后,可以根据上述文字子区域的位置分布和区块大小来确定该文字图像中文字的排版规律。作为一种可选的实施方式,可以先对常用的排版规律进行总结,建立排版规律数据库,在获取了图像中文字子区域的位置分布和区块大小等信息后,与数据库中的排版规律进行匹配,以确定上述图像中文字的排版规律。

204、根据上述排版规律对上述文字子区域进行字符切分以获得单个字符。

本发明实施例中,结合上述排版规律来对原有的进行字符切分的投影法进行改进,利用改进后的投影法来对上述文字子区域进行字符切分。首先,根据上述排版规律确定利用投影法进行字符切分时的扫描行距与扫描列距;再利用上述扫描行距对上述文字子区域进行行切分以获得文字行;之后利用上述扫描列距对上述文字行进行字切分以获得上述单个字符。

原有的投影法中,扫描行距与扫描列距为固定值,为了获得较好的切分效果,扫描行距与扫描列距通常设置为一个非常小的值,从而降低对符号、大小不一的文字的错误切分。因此,为了避免错误切分,原投影法需进行的数据运算量较大。而上述改进后的投影法,可以根据图像中文字的排版规律来确定扫描行距和扫描列距,当文字子区域中的字符的字号较大时,选取较大的值作为扫描行距和扫描列距,从而降低进行字符切分的运算量。

205、对上述单个字符进行匹配以获得上述单个字符的识别结果。

206、判断上述识别结果是否为数字或字母。

由于部分数字和字母形状比较相近,比如字母“O”和数字“0”等,因而通过算法进行自动识别的话,有较高的概率相互混淆而识别错误,因此,若上述单个字符的识别结果为数字或字母时,可采取一定的措施进行二次判断,从而纠正数字和字母混淆的错误。

207、若上述识别结果为数字或字母,则对上述单个字符所在的文字行进行语义识别,以纠正数字和字母混淆的错误。

本发明实施例中,通过对上述单个字符所在的文字行进行语义识别的方式,确定是否发生数字和字母混淆的错误,若出现上述错误,则基于语义识别的结果进行纠正。

208、将上述识别结果按照上述排版规律输出到文档。

本发明实施例中,可以将字符的识别结果依照其排版规律进行输出,最终获得的文本具有原本的排版规律,其可读性更高。

由此可见,利用图2所描述的方法,可以结合图像中文字的排版规律进行文字信息的提取,并且数据运算量较低,速度快。除此之外,本方法可以实现对数字和字母识别混淆的情况的矫正;并且,输入的文本具有原本的排版规律,其可读性更高。

请参阅图3,图3是本发明实施例公开的一种图片中文字信息的提取装置的结构示意图。如图3所示,该装置可以包括:

预处理单元301,用于对图像进行灰度处理和二值化处理以得到二值化图像。

区域划分单元302,用于对上述二值化图像进行边缘检测,以获得上述二值化图像中的文字子区域。

确定单元303,用于根据上述文字子区域的分布确定上述图像中文字的排版规律。

字符切分单元304,用于根据上述排版规律对上述文字子区域进行字符切分以获得单个字符。

字符匹配单元305,用于对上述单个字符进行匹配以获得上述单个字符的识别结果。

由此可见,利用图3所描述的装置,可以结合图像中文字的排版规律进行文字信息的提取,并且数据运算量较低,速度快。

请一并参阅图4,图4是本发明实施例公开的另一种图片中文字信息的提取装置的结构示意图。其中,图4所示的装置是由图3所示的装置进行优化得到的,与图3所示的装置相比,图4所示的装置还包括:

判断单元306,用于判断上述识别结果是否为数字或字母。

纠错单元307,用于当上述识别结果为数字或字母时,对上述单个字符所在的文字行进行语义识别,以纠正数字和字母混淆的错误。

作为一种可选的实施方式,该装置还包括:

输出单元308,用于将上述识别结果按照上述排版规律输出到文档。

作为一种可选的实施方式,上述字符切分单元304,包括:

确定子单元3041,用于根据上述排版规律确定利用投影法进行字符切分时的扫描行距与扫描列距;

行切分子单元3042,用于利用上述扫描行距对上述文字子区域进行行切分以获得文字行;

字切分子单元3043,用于利用上述扫描列距对上述文字行进行字切分以获得上述单个字符。

由此可见,利用图4所描述的装置,可以结合图像中文字的排版规律进行文字信息的提取,并且数据运算量较低,速度快。除此之外,本装置可以实现对数字和字母识别混淆的情况的矫正;并且,输入的文本具有原本的排版规律,其可读性更高。

请参阅图5,图5是本发明实施例公开的一种终端设备的结构示意图。如图5所示,该终端设备可以包括:

输入单元501、处理器单元502、输出单元503、通信单元504、存储单元505和电源506等组件。这些组件通过一条或多条总线进行通信。本领域技术人员可以理解,图5所示的装置的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图5所示的结构更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施方式中,图5所示的终端设备包括但不限于移动电话、移动电脑、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等各种终端设备。

输入单元501用于实现用户与终端设备的交互和/或信息输入到终端设备中。在本发明具体实施方式中,输入单元501可以是触控面板,触控面板也称为触摸屏或触控屏,可收集用户在其上触摸或接近的操作动作。比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或接近触控面板的位置的操作动作,并根据预先设定的程式驱动相应的连接装置。可选的,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸操作,并将检测到的触摸操作转换为电信号,以及将电信号传送给触摸控制器;触摸控制器从触摸检测装置上接收电信号,并将它转换成触点坐标,再送给处理器单元502。触摸控制器还可以接收处理器单元502发来的命令并执行。此外,可以采用电阻式、电容式、红外线(Infrared)以及表面声波等多种类型实现触控面板。除此之外,在本发明具体实施方式中,输入单元501还可以是环境光传感器,用以获取终端设备当前环境的光线强度。

处理器单元502为终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储单元505内的程序代码和/或模块,以及调用存储在存储单元505内的数据,以执行终端设备的各种功能和/或处理数据。处理器单元可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器单元502可以仅包括中央处理器(Central ProcessingUnit,简称CPU),也可以是CPU、数字信号处理器(digitalsignal processor,简称DSP)、图形处理器(Graphic Processing Unit,简称GPU)及通信单元中的控制芯片(例如基带芯片)的组合。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。

输出单元503可以包括但不限于影像输出单元、声音输出和触感输出单元。影像输出单元用于输出文字、图片和/或视频。影像输出单元可包括显示面板,例如采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)、场发射显示器(field emission display,简称FED)等形式来配置的显示面板。或者影像输出单元可以包括反射式显示器,例如电泳式(electrophoretic)显示器,或利用光干涉调变技术(Interferometric Modulation of Light)的显示器。影像输出单元可以包括单个显示器或不同尺寸的多个显示器。在本发明的具体实施方式中,上述输入单元501所采用的触控面板亦可同时作为输出单元503的显示面板。例如,显示面板提供标准键盘的视觉输出,用户根据所看到的视觉信息利用手指或触控笔等操作触控面板,当触控面板检测到在其上的触摸或接近的手势操作后,确定触摸或接近手势所指示的位置,传送给处理器单元502获取映射键盘上该位置的字符以形成输入密码。虽然在图5中,输入单元501与输出单元503是作为两个独立的部件来实现终端设备的输入和输出功能,但是在某些实施例中,可以将触控面板与显示面板集成一体而实现终端设备的输入和输出功能。例如,影像输出单元可以显示标准键盘,以供用户通过触控方式进行操作。

通信单元504用于建立通信链接,使终端设备通过通信链接与智能眼镜建立连接,实现两者间的数据交互。通信单元504可以包括无线局域网(Wireless Local Area Network,简称wireless LAN)模块、蓝牙模块、近距离无线通信(Near Field Communication,简称NFC)、基带(Base Band)模块等无线通信模块和以太网、通用串行总线(Universal Serial Bus,简称USB)、闪电接口(Lightning,目前Apple用于iPhone6/6s等设备)等有线通信模块。

存储单元505可用于存储程序代码以及模块,处理器单元502通过运行存储在存储单元505的程序代码以及模块,从而执行终端的各种功能应用以及实现数据处理。存储单元505主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的程序代码,比如获取映射键盘上显示的字符以形成输入密码的程序代码;数据存储区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。在本发明具体实施方式中,存储单元505可以包括易失性存储器,例如非挥发性动态随机存取内存(Nonvolatile RandomAccess Memory,简称NVRAM)、相变化随机存取内存(Phase Change RAM,简称PRAM)、磁阻式随机存取内存(Magetoresistive RAM,简称MRAM)等,还可以包括非易失性存储器,例如至少一个磁盘存储器件、电子可抹除可规划只读存储器(Electrically ErasableProgrammableRead-OnlyMemory,简称EEPROM)、闪存器件,例如反或闪存(NOR flash memory)或是反及闪存(NAND flash memory)。非易失存储器储存处理器单元所执行的操作系统及程序代码。处理器单元从非易失存储器加载运行程序与数据到内存并将数字内容储存于大量储存装置中。操作系统包括用于控制和管理常规系统任务,例如内存管理、存储设备控制、电源管理等,以及有助于各种软硬件之间通信的各种组件和/或驱动器。在本发明实施方式中,操作系统可以是Google公司的Android系统、Apple公司开发的iOS系统或Microsoft公司开发的Windows操作系统等,或者是Vxworks这类的嵌入式操作系统。

电源506用于给终端设备的不同部件进行供电以维持其运行。作为一般性理解,电源506可以是内置的电池,例如常见的锂离子电池、镍氢电池等,也包括直接向终端设备供电的外接电源,例如AC适配器等。在本发明的一些实施方式中,电源506还可以作更为广泛的定义,例如还可以包括电源管理系统、充电系统、电源故障检测电路、电源转换器或逆变器、电源状态指示器(如发光二极管),以及与移动终端的电能生成、管理及分布相关联的其他任何组件。

在图5所示的终端设备中,处理器单元502可以调用存储单元505中存储的程序代码,用于执行前述的图1~图2上述的操作。例如,用于执行:

对图像进行灰度处理和二值化处理以得到二值化图像;

对上述二值化图像进行边缘检测,以获得上述二值化图像中的文字子区域;

根据上述文字子区域的分布确定上述图像中文字的排版规律;

根据上述排版规律对上述文字子区域进行字符切分以获得单个字符;

对上述单个字符进行匹配以获得上述单个字符的识别结果。

作为一种可选的实施方式,处理器单元502可以调用存储单元505中存储的程序代码,还用于执行以下操作:

判断上述识别结果是否为数字或字母;

若上述识别结果为数字或字母,则对上述单个字符所在的文字行进行语义识别,以纠正数字和字母混淆的错误。

作为一种可选的实施方式,处理器单元502可以调用存储单元505中存储的程序代码,还用于执行以下操作:

将上述识别结果按照上述排版规律输出到文档。

由此可见,图5所描述的终端设备,可以结合图像中文字的排版规律进行文字信息的提取,并且数据运算量较低,速度快。除此之外,终端设备可以实现对数字和字母识别混淆的情况的矫正;并且,输入的文本具有原本的排版规律,其可读性更高。

值得注意的是,上述图片中文字信息的提取装置和终端设备实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

另外,本领域普通技术人员可以理解实现上述各方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1