文字识别方法和装置的制造方法

文档序号:10625026阅读:327来源:国知局
文字识别方法和装置的制造方法
【专利摘要】本发明公开了一种文字识别方法和装置。根据本发明的一个方面,文字识别方法包括:从包含文字的图像中提取多个连通部件;对所述多个连通部件进行分类,以生成第一语言连通部件和/或非第一语言连通部件;将所述第一语言连通部件聚类为第一语言文本行,并将所述非第一语言连通部件聚类为非第一语言文本行;以及从所述第一语言文本行和所述非第一语言文本行中识别出第一语言文字和非第一语言文字。
【专利说明】
文字识别方法和装置
技术领域
[0001] 本发明设及图像处理领域,具体设及识别图像中的地址口牌中的文字的方法和装 置。
【背景技术】
[0002] 随着具有拍摄功能的移动设备在我们的日常生活中使用得越来越普遍,比如手 机、数码相机等,运使得我们获取自然场景的照片变得十分方便。地址口牌是我们在日常生 活中十分重要的信息,人们可利用移动设备拍摄包含地址口牌的照片,W记录或分享自己 的位置。在数字地图的标注中,需要将大量照片中的地址口牌中的文字信息提取出来,进行 识别标注。由于照片的数量很大,因此需要W自动识别的方式来代替人工识别,W降低工作 量。
[0003] 图1示出了一种识别地址口牌信息的方法的流程图。如图1所示,根据该方法100, 可在步骤S110输入照片后,从照片中检测和提取口牌图像(步骤S120)。图2a和图化分 别示出了输入的照片和从该照片中提取出的口牌图像的一例。如图2a和化所示,通过步 骤S120,可从照片中检测到并提取出口牌图像。然后,对提取出的口牌图像进行文字识别, W识别出文字地址(步骤S130)。在图2a和化所示的示例中,可识别出文字地址"冶金北 路99"。最后,将所识别出的文字地址输出(步骤S140),W实现地址的自动识别标注。
[0004] 目前,从照片中检测并提取口牌图像的技术已较为成熟,其正确性和处理速度都 能够满足当前的应用需求。然而,对提取出的口牌图像进行文字识别的技术往往达不到要 求。运一方面是由于许多口牌中的文字信息的版面结构比较复杂,不易于进行文字识别。另 一方面由于在口牌中通常包含多于一种语言的文字(如,阿拉伯数字、英文字符、汉字等), 而对于每个字符,均需要使用包含多种语言字符的识别引擎来进行识别,由于多语言字符 的数量非常大,运也影响了利用字符识别引擎进行文字识别的处理速度。

【发明内容】
阳〇化]有鉴于此,本发明提出了一种文字识别方法和装置,W对图像中的文字信息进行 识别。
[0006] 根据本发明的一个方面,提供了一种文字识别方法,包括:从包含文字的图像中提 取多个连通部件;对所述多个连通部件进行分类,W生成第一语言连通部件和/或非第一 语言连通部件;将所述第一语言连通部件聚类为第一语言文本行,并将所述非第一语言连 通部件聚类为非第一语言文本行;W及从所述第一语言文本行和所述非第一语言文本行中 识别出第一语言文字和非第一语言文字。
[0007] 根据本发明的另一方面,提供了一种文字识别装置,包括:提取单元,从包含文字 的图像中提取多个连通部件;分类单元,对所述多个连通部件进行分类,W生成第一语言连 通部件和/或非第一语言连通部件;聚类单元,将所述第一语言连通部件聚类为第一语言 文本行,并将所述非第一语言连通部件聚类为非第一语言文本行;W及识别单元,从所述第 一语言文本行和所述非第一语言文本行中识别出第一语言文字和非第一语言文字。
[0008] 根据本发明所提供的技术方案,可对包含文字的图像中的文字信息进行有效识 另IJ,特别适于包含多种语言且具有一定版面结构特征的图像。
【附图说明】
[0009] 参照附图来阅读本发明的各实施方式,将更容易理解本发明的其它特征和优点, 在此描述的附图只是为了对本发明的实施方式进行示意性说明的目的,而非全部可能的实 施,并且不旨在限制本发明的范围。在附图中:
[0010] 图1示出了现有技术中识别地址口牌信息的方法的流程图; W11] 图2a和图化分别示出了输入的照片和从该照片中提取出的口牌图像的一例;
[0012] 图3示出了根据本发明一个实施方式的文字识别方法的流程图;
[0013] 图4示出了根据本发明一个实施方式从包含文字的图像中提取多个连通部件的 流程图;
[0014] 图5示出了根据本发明另一实施方式从包含文字的图像中提取多个连通部件的 可替选流程图;
[0015] 图6示出了根据本发明一个实施方式将第一语言连通部件聚类为第一语言文本 行并将非第一语言连通部件聚类为非第一语言文本行的流程图;
[0016] 图7示出了根据本发明另一实施方式将第一语言连通部件聚类为第一语言文本 行并将非第一语言连通部件聚类为非第一语言文本行的可替选流程图;
[0017] 图8示出了根据本发明一个实施方式从第一语言文本行和非第一语言文本行中 识别出第一语言文字和非第一语言文字的流程图;
[0018] 图9示出了根据本发明一个实施方式根据图像的版面结构特征确定图像在多个 版面类别中所处的版面类别的流程图;
[0019] 图10a至图lOd示出了四个版面类别的示例;
[0020] 图11示出了根据本发明一个实施方式的文字识别装置的框图;
[0021] 图12示出了根据本发明一个实施方式的识别单元的框图;
[0022] 图13示出了根据本发明一个实施方式的版面类别确定子单元的框图;
[0023] 图14示出了根据本发明一个实施方式的文本行处理子单元的框图;
[0024] 图15示出了根据本发明一个实施方式的提取单元的框图;
[0025] 图16示出了根据本发明一个实施方式的聚类单元的框图;
[00%] 图17示出了根据本发明另一实施方式的聚类单元的框图;W及
[0027] 图18示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框 图。
【具体实施方式】
[0028] 现参照附图对本发明的实施方式进行详细描述。应注意,W下描述仅仅是示例性 的,而并不旨在限制本发明。此外,在W下描述中,将采用相同的附图标号表示不同附图中 的相同或相似的部件。在W下描述的不同实施方式中的不同特征,可彼此结合,W形成本发 明范围内的其他实施方式。
[0029] 在本发明的实施方式中,假设已利用本领域技术人员已知的技术从照片中检测到 并提取出包含文字的图像区域,如图化所示的口牌图像。而本发明的实施方式中的各种处 理和操作均是在已获得该图像的基础上做出的。
[0030] 图3示出了根据本发明一个实施方式的文字识别方法的流程图。如图3所示,文 字识别方法300包括步骤S310至S340。对于已获得的包含文字的图像,在步骤S310中, 从包含文字的图像中提取多个连通部件。对连通部件的提取可采用本领域技术人员已知的 任何适用的方式。所提取出的每个连通部件可包含一个或多个文字字符或文字字符的一部 分。
[0031] 由于图像中通常包含多种语言的文字,在步骤S320中,按不同语言对所提取出的 多个连通部件进行分类,从而将连通部件分为第一语言连通部件和非第一语言连通部件。 可W理解,对于仅包含第一语言文字而不包含其他语言文字的图像,经过步骤S320的处理 后,所有提取出的连通部件均被分类为第一语言连通部件;而对于所包含的文字均不是第 一语言文字的图像,经过步骤S320的处理后,所有提取出的连通部件均被分类为非第一语 言连通部件。
[0032] 在步骤S330中,将第一语言连通部件聚类为第一语言文本行,并将非第一语言连 通部件聚类为非第一语言文本行。对连通部件的聚类可采用本领域技术人员已知的任何适 用的方式。经聚类后所得到的每个文本行可包括一个或多个第一语言文字或非第一语言文 字。
[0033] 在步骤S340中,分别从所得到的第一语言文本行和非第一语言文本行中识别出 第一语言文字和非第一语言文字,W完成对图像中文字信息的自动识别。可利用第一语言 字符串识别引擎和非第一语言字符串识别引擎分别从文本行中识别出第一语言文字和非 第一语言文字,运将在W下详述。
[0034] 根据本发明的该实施方式,通过将图像中的文字分类为第一语言和非第一语言, 从而能够从图像中识别出包括多种语言的文字信息,例如,阿拉伯数字、英文字母、汉字等。 而且,通过将不同的语言文字分别聚类成不同文本行W进行识别,能够利用不同语言的识 别引擎分别独立地处理不同语言的文本行,而无需采用多语言字符的识别引擎来处理每一 个文本行,从而提高了识别速度。
[0035] 图4示出了根据本发明一个实施方式从包含文字的图像中提取多个连通部件的 流程图。如图4所示,上述步骤S310可包括子步骤S311至S313。在子步骤S311中,从图 像中提取连通单元。对图像中连通单元的提取,可通过任何适当的现有技术的手段来完成, 在此不再详述。随后,在子步骤S312中,计算提取出的每个连通单元的识别置信度,并在子 步骤S313中,将识别置信度小于预定的置信度阔值的连通单元除去,并将所保留的连通单 元合并,W形成多个连通部件。对于每个包含文字的图像,有时会由于图像的拍摄问题或文 字区域(如口牌区域)本身具有一些污垢,而使得所提取的连通单元中有一些是噪声。为 了去除噪声,本发明的一个实施方式预设了置信度阔值。通过将提取出的每个连通单元的 识别置信度与预设的置信度阔值进行比较,从而过滤掉置信度较低的连通单元,除去噪声, W获得置信度较高连通单元。
[0036] 图5示出了根据本发明另一实施方式从包含文字的图像中提取多个连通部件的 可替选流程图。如图5所示,上述步骤S310可包括子步骤S315至S318。在子步骤S315 中,从图像中提取连通单元。随后,在子步骤S316中,计算提取出的每个连通单元的字符笔 划宽度,并计算所有连通单元的平均字符笔划宽度。在子步骤S317中,根据平均字符笔划 宽度,确定字符笔划宽度范围。例如,假定计算得到的平均字符笔划宽度为SW,可将字符笔 划宽度范围确定为0. 5*SW~1. 5*SW。随后,在子步骤S318中,将字符笔划宽度不处于该范 围内的连通单元除去,并将未除去的连通单元合并,W形成多个连通部件。图5所示的过程 是另一种可选的去噪声方式,其利用字符笔划宽度,来作为过滤条件,W除去噪声。
[0037] 另外,对于既包括深底浅字区域又包括浅底深字区域的混合图像,在从图像中提 取连通单元时,可对图像进行正面二值化和反面二值化,并将正面二值化和反面二值化的 结果分别进行分析,W分别提取连通单元。最后,将所提取的连通单元合并,W形成多个连 通部件。
[0038] 根据本发明的一个实施方式,在上述步骤S320中按不同语言对所提取出的多个 连通部件进行分类时,可利用包括所有第一语言字符的第一语言分类器进行分类。例如,设 定第一语言是阿拉伯数字0-9,则可利用包括0-9的分类器,将所提取出的连通部件分类为 第一语言连通部件(是阿拉伯数字)和非第一语言连通部件(不是阿拉伯数字)。根据本 发明的一个实施例,第一语言的字符数量小于非第一语言的字符数量,运样,可减小分类时 的计算量,提高处理速度。本领域技术人员可W理解,还可将非第一语言分类为第二语言和 非第一非第二语言(W此类推),也可获得较好的效果,其具体方式与上述相类似,在此不 再详述。
[0039] 图6示出了根据本发明一个实施方式将第一语言连通部件聚类为第一语言文本 行并将非第一语言连通部件聚类为非第一语言文本行的流程图。如图6所示,上述步骤 S330可包括子步骤S331至S334。在子步骤S331中,比较第一语言连通部件之间的水平 间隔和竖直间隔,并根据比较结果为每个第一语言连通部件设置水平标记或竖直标记。具 体地,对于每个第一语言连通部件,比较其与水平相邻的第一语言连通部件的水平间隔和 与竖直相邻的第一语言连通部件的竖直间隔的大小。如果水平间隔较小,说明在水平方向 上更加紧凑,则为该连通部件设置水平标记,反之则设置竖直标记。类似地,在子步骤S332 中,根据非第一语言连通部件之间的水平间隔和竖直间隔的比较结果,为每个非第一语言 连通部件设置水平标记或竖直标记。 W40] 然后,在子步骤S333中,将具有水平标记的第一语言连通部件和具有竖直标记的 第一语言连通部件分别聚类为第一语言水平文本行和第一语言竖直文本行。在子步骤S334 中,将具有水平标记的非第一语言连通部件和具有竖直标记的非第一语言连通部件分别聚 类为非第一语言水平文本行和非第一语言竖直文本行。
[0041] 图7示出了根据本发明另一实施方式将第一语言连通部件聚类为第一语言文本 行并将非第一语言连通部件聚类为非第一语言文本行的可替选流程图。如图7所示,上述 步骤S330可包括子步骤S335至S338。在子步骤S335中,比较第一语言连通部件之间的水 平间隔和竖直间隔与预设的阔值的大小,并根据比较结果为第一语言连通部件设置水平标 记和竖直标记。具体地,对于每个第一语言连通部件,将其与水平相邻的第一语言连通部件 之间的水平间隔与预设的阔值进行比较,并将其与竖直相邻的第一语言连通部件之间的竖 直间隔与该阔值进行比较。如果水平间隔小于该阔值,则设置水平标记,如果水平间隔大于 该阔值,则不设置水平标记。同样,如果竖直间隔小于该阔值,则设置竖直标记,如果竖直间 隔大于该阔值,则不设置竖直标记。类似地,在子步骤S336中,比较非第一语言连通部件之 间的水平间隔和竖直间隔与预设的阔值的大小,并根据比较结果为非第一语言连通部件设 置水平标记和竖直标记。
[0042] 可W理解,对于某些连通部件,可能由于其水平间隔和竖直间隔均小于该预设的 阔值,而同时被设置了水平标记和竖直标记。在子步骤S337中,对于每个既具有水平标记 又具有竖直标记的第一语言连通部件和非第一语言连通部件,根据其与同类连通部件的水 平间隔和竖直间隔的比较结果,去除其水平标记和竖直标记之一。目P,如果第一语言连通部 件在水平方向上更接近另一第一语言连通部件,则保留其水平标记,反之,则保留其竖直标 记。随后,在子步骤S338中,将具有水平标记的第一语言连通部件和具有竖直标记的第一 语言连通部件分别聚类为第一语言水平文本行和第一语言竖直文本行,并将具有水平标记 的非第一语言连通部件和具有竖直标记的非第一语言连通部件分别聚类为非第一语言水 平文本行和非第一语言竖直文本行。
[0043] 通过上述处理,可得到已经过语言分类并确定了文字识别方向的不同文本行,但 还需确定不同文本行之间的识别顺序。为此,本申请提出了一种通过预设的版面模板来确 定待处理图像的版面类别,从而确定不同文本行之间的识别顺序。
[0044] 图8示出了根据本发明一个实施方式从第一语言文本行和非第一语言文本行中 识别出第一语言文字和非第一语言文字的流程图。如图8所示,上述步骤S340可包括子步 骤S341至S343。在子步骤S341中,根据第一语言文本行和非第一语言文本行计算图像的 版面结构特征。随后,在子步骤S342中,根据所计算出的版面结构特征,确定该图像在已知 的多个版面类别中属于哪个版面类别。在确定了版面类别后,即确定了不同文本行之间的 处理顺序。在子步骤S343中,根据该图像的版面类别处理其中的第一语言文本行和非第一 语言文本行,W识别出第一语言文字和非第一语言文字。
[0045] 根据本发明的一个实施方式,在上述子步骤S341中计算的图像的版面结构特征 可包括:第一语言文本行中最长的文本行的几何特征和识别置信度W及非第一语言文本行 中最长的文本行的几何特征。 阳046] 具体地,文本行的几何特征可包括该文本行的上边界、下边界、左边界、右边界、该 文本行内的连通部件的平均宽高比和/或相邻连通部件的平均间隔。
[0047] 根据本发明的一个实施例,图像的版面结构特征可包括:第一语言最长文本行 的识别置信度(P),第一语言最长文本行的6维几何特征(上边界-yo、下边界-yl、左边 界-xO、右边界-XI的相对位置、连通部件的平均宽高比、相邻连通部件的平均间隔)W及第 二语言最长文本行的6维几何特征(上边界-yO、下边界-yl、左边界-xO、右边界-XI的相 对位置、连通部件的平均宽高比、相邻连通部件的平均间隔)。其中,第一语言最长文本行 的识别置信度(巧指的是该文本行中所有候选连通部件的平均识别置信度,其计算方式如 下: 1^0048] P - (P cci~*~P cc2~*~......+Ρ(χμ)/Μ
[0049] 其中Μ表示第一语言的最长文本行中候选连通部件的个数。除此之外,该平均识 别置信度还可W采用其他计算方式,比如:该文本行中所有候选连通部件的基于宽度加权 的平均识别置信度,即: 阳化0]
阳051] 其中WecM表示该文本行中第Μ个候选连通部件的宽度,W表示该文本行的宽度。
[0052] 图9示出了根据本发明一个实施方式根据图像的版面结构特征确定图像在多个 版面类别中所处的版面类别的流程图。如图9所示,上述子步骤S342可包括子步骤S342a 至S342b。在子步骤S342a中,根据图像的版面结构特征,计算该图像与多个版面类别中的 每个的置信度概率。随后,在子步骤S342b中,将与该图像的置信度概率最大的版面类别确 定为其版面类别。根据一个实施例,图像与每个版面类别的置信度概率由经训练确定的判 别函数通过阔值受限的非线性变换计算得出,并且该判别函数可W是线性的或非线性的。
[0053] 根据本发明的一个实施方式,可利用多个训练样本,按照版面结构的不同,预先定 义N种版面类别。图10a至图lOd示出了四个版面类别的示例。利用多个已知的训练样 本,可计算出它们的版面结构特征,从而可W训练一个N类的分类器,可W是线性分类器或 者非线性分类器,比如,判别模型中的经典线性SVM分类器。
[0054] 将属于每一个版面类别的样本看成该类别的正样本,其他所有样本看成该类别的 负样本,能够训练得到一个线性判别函数,W达到区分开正、负样本的目的,如下式所示。 阳化5] fi (X) = WiTy+bi, i 二 1, . . . , N
[0056] 其中,X表示版面结构特征向量,系数和b 1是线性分类器中与版面类别i相关 的经训练而确定的参数,fi(x)表示版面类别i关于版面结构特征X的线性函数。
[0057] 然后将该线性判别函数通过如下Sigmoid变换转换为置信度概率:
[0058]
[0059] 其中,参数α为正数,参数β为实数,均是预设的系数,可由实验确定。例如,可 将α和β分别设置为1和0。各个类别可W共享相同的参数α和β。Pi (X)表示图像与 版面类别i的置信度概率。 W60] 上述N类分类器的参数Wi、bi、α和β可W通过本领域已知的训练方法获得。可 采用开源的LibSVM工具包进行Ν类线性SVM的训练。
[0061] 在实际操作中,可将计算出的图像的版面结构特征输入到上述训练好的N类分类 器,W将具有最大的分类置信度输出概率的类别确定为该图像在已知的多个版面类别中所 处的版面类别。
[0062] 根据本发明的一个实施方式,上述子步骤S343可包括:分别利用第一语言字符串 识别引擎和非第一语言字符串识别引擎识别第一语言文字和非第一语言文字。并且,可预 设一个校正阔值。对于输入的图像,当所得到的最大置信度概率小于该预设的校正阔值时, 则可改变分别用于识别第一语言文本行和/或非第一语言文本行的字符串识别引擎。此 夕F,还可预设另一校正阔值。对于输入的图像,当其最长的第一语言文本行中所有连通部件 的平均识别置信度均小于该预设的另一校正阔值时,可调整第一语言文本行和/或非第一 语言文本行的文本行识别方向。由此,可通过预设的阔值调整对图像的处理方式,W提高正 确率。
[0063] 图11示出了根据本发明一个实施方式的文字识别装置的框图。如图11所示,文字 识别装置1100可包括:提取单元1110、分类单元1120、聚类单元1130和识别单元1140。提 取单元1110可从包含文字的图像中提取多个连通部件。分类单元1120可对提取单元1110 提取的多个连通部件进行分类,W生成第一语言连通部件和/或非第一语言连通部件。聚 类单元1130可将分类单元1120所生成的第一语言连通部件聚类为第一语言文本行,并将 非第一语言连通部件聚类为非第一语言文本行。识别单元1140可从聚类单元1130所聚类 的第一语言文本行和非第一语言文本行中识别出第一语言文字和非第一语言文字。
[0064] 图12示出了根据本发明一个实施方式的识别单元的框图。如图12所示,识别单 元1140可包括:版面结构特征计算子单元1141、版面类别确定子单元1142和文本行处理 子单元1143。版面结构特征计算子单元1141可根据聚类单元1130所聚类的第一语言文本 行和非第一语言文本行计算图像的版面结构特征。版面类别确定子单元1142可根据版面 结构特征计算子单元1141所计算的图像的版面结构特征,确定图像在多个版面类别中所 处的版面类别。文本行处理子单元1143可根据版面类别确定子单元1142为该图像确定的 版面类别处理第一语言文本行和非第一语言文本行,W识别出第一语言文字和非第一语言 文字。
[0065] 根据本发明的一个实施方式,图像的版面结构特征可包括:第一语言文本行中最 长的文本行的几何特征和识别置信度W及非第一语言文本行中最长的文本行的几何特征。
[0066] 图13示出了根据本发明一个实施方式的版面类别确定子单元的框图。如图13 所示,版面类别确定子单元1142可包括:置信度概率计算模块1142a和版面类别确定模块 1142b。置信度概率计算模块1142a可根据图像的版面结构特征,计算该图像与预设的多个 版面类别中的每个版面类别的置信度概率。版面类别确定模块114化可将与该图像的置信 度概率最大的版面类别确定为该图像的版面类别。
[0067] 图14示出了根据本发明一个实施方式的文本行处理子单元的框图。如图14所示, 文本行处理子单元1143可包括:第一语言字符串识别引擎1143曰、非第一语言字符串识别 引擎1143b、识别引擎切换模块1143c和识别方向切换模块1143d。第一语言字符串识别引 擎1143a和非第一语言字符串识别引擎1143b可分别用于识别第一语言文字和非第一语言 文字。对于所输入的图像,当其最大置信度概率小于预定的第一校正阔值时,识别引擎切换 模块1143c可改变分别用于识别第一语言文本行和/或非第一语言文本行的字符串识别引 擎。对于所输入的图像,当其最长的第一语言文本行中所有连通部件的平均识别置信度均 小于预定的第二校正阔值时,识别方向切换模块1143d可调整第一语言文本行和/或非第 一语言文本行的文本行识别方向。 W側图15示出了根据本发明一个实施方式的提取单元的框图。如图15所示,提取单 元1110可包括:提取子单元1111、识别置信度计算子单元1112、字符笔划宽度计算子单元 1113、范围确定子单元1114和合并子单元1115。提取子单元1111可从图像中提取连通单 元。识别置信度计算子单元1112可计算提取子单元1111所提取出的每个连通单元的识别 置信度。字符笔划宽度计算子单元1113可计算提取子单元1111所提取出的每个连通单元 的字符笔划宽度和平均字符笔划宽度。范围确定子单元1114可根据所计算出的平均字符 笔划宽度,确定字符笔划宽度范围。合并子单元1115可将识别置信度小于预定的置信度阔 值的连通单元和字符笔划宽度不处于字符笔划宽度范围中的连通单元除去,并将所保留的 连通单元合并,W形成多个连通部件。
[0069] 图16示出了根据本发明一个实施方式的聚类单元的框图。如图16所示,聚类单 元1130可包括:比较子单元1131、标记子单元1132和聚类子单元1133。比较子单元1131 可将第一语言连通部件之间的水平间隔与竖直间隔进行比较,并将非第一语言连通部件之 间的水平间隔与竖直间隔进行比较。标记子单元1132可根据比较子单元1131的比较结果 为每个第一语言连通部件和非第一语言连通部件设置水平标记或竖直标记。聚类子单元 1133可将具有水平标记的第一语言连通部件和非第一语言连通部件分别聚类为第一语言 水平文本行和非第一语言水平文本行,并将具有竖直标记的第一语言连通部件和非第一语 言连通部件分别聚类为第一语言竖直文本行和非第一语言竖直文本行。
[0070] 图17示出了根据本发明另一实施方式的聚类单元的框图。如图17所示,聚类单 元1130可包括:比较子单元1135、标记子单元1136、标记去除子单元1137和聚类子单元 1138。比较子单元1135可将第一语言连通部件之间的水平间隔和竖直间隔W及非第一语 言连通部件之间的水平间隔和竖直间隔分别与预设的阔值进行比较。标记子单元1136可 根据比较子单元1135的比较结果为第一语言连通部件和非第一语言连通部件设置水平标 记和竖直标记。对于标记有水平标记和竖直标记二者的第一语言连通部件和非第一语言连 通部件中的每个,标记去除子单元1137可根据其与同类连通部件的水平间隔和竖直间隔 的大小,去除其水平标记和竖直标记之一。聚类子单元1138可将具有水平标记的第一语言 连通部件和非第一语言连通部件分别聚类为第一语言水平文本行和非第一语言水平文本 行,并将具有竖直标记的第一语言连通部件和非第一语言连通部件分别聚类为第一语言竖 直文本行和非第一语言竖直文本行。
[0071] 本领域技术人员可W理解,本发明所提供的文字识别方法和装置既可用于识别所 拍摄照片中的口牌图像区域中的口牌文字信息,也可用于识别任何包含文字的图像中的文 字信息,尤其适于具有一定版面结构特征的、属于某种版面类型的、包含多种语言文字的图 像。
[0072] 另外,运里尚需指出的是,上述装置中各个组成部件可W通过软件、固件、硬件或 其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不 再寶述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算 机(例如图18所示的通用计算机1800)安装构成该软件的程序,该计算机在安装有各种程 序时,能够执行各种功能等。
[0073] 图18示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框 图。 阳074] 在图18中,中央处理单元仰U) 1801根据只读存储器(ROM) 1802中存储的程序或 从存储部分1808加载到随机存取存储器(RAM) 1803的程序执行各种处理。在RAM 1803中, 还根据需要存储当CPU 1801执行各种处理等等时所需的数据。CPU 180UR0M 1802和RAM 1803经由总线1804彼此连接。输入/输出接口 1805也连接到总线1804。 阳0巧]下述部件连接到输入/输出接口 1805 :输入部分1806 (包括键盘、鼠标等等)、输 出部分1807(包括显示器,比如阴极射线管(CRT)、液晶显示器化CD)等,和扬声器等)、存 储部分1808 (包括硬盘等)、通信部分1809 (包括网络接口卡比如LAN卡、调制解调器等)。 通信部分1809经由网络比如因特网执行通信处理。根据需要,驱动器1810也可连接到输入 /输出接口 1805。可拆卸介质1811比如磁盘、光盘、磁光盘、半导体存储器等等可W根据需 要被安装在驱动器1810上,使得从中读出的计算机程序根据需要被安装到存储部分1808 中。
[0076] 在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆 卸介质1811安装构成软件的程序。
[0077] 本领域的技术人员应当理解,运种存储介质不局限于图18所示的其中存储有程 序、与设备相分离地分发W向用户提供程序的可拆卸介质1811。可拆卸介质1811的例子 包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘 值VD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可W是 ROM 1802、存储部分1808中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起 被分发给用户。
[0078] 本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机 器读取并执行时,可执行上述根据本发明实施方式的方法。
[0079] 相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包 括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等 等。
[0080] 应当注意,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可W按 照其他的次序顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对 本发明的技术范围构成限制。
[0081] W上对本发明各实施方式的描述是为了更好地理解本发明,其仅仅是示例性的, 而非旨在对本发明进行限制。应注意,在W上描述中,针对一种实施方式描述和/或示出的 特征可W W相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的 特征相组合,或替代其它实施方式中的特征。本领域技术人员可W理解,在不脱离本发明的 发明构思的情况下,针对W上所描述的实施方式进行的各种变化和修改,均属于本发明的 范围内。
[0082] 综上,在根据本发明的实施例中,本发明提供了如下技术方案。
[0083] 方案1、一种文字识别方法,包括:
[0084] 从包含文字的图像中提取多个连通部件;
[00化]对所述多个连通部件进行分类,W生成第一语言连通部件和/或非第一语言连通 部件;
[0086] 将所述第一语言连通部件聚类为第一语言文本行,并将所述非第一语言连通部件 聚类为非第一语言文本行;W及
[0087] 从所述第一语言文本行和所述非第一语言文本行中识别出第一语言文字和非第 一语言文字。
[0088] 方案2、如方案1所述的方法,其中从所述第一语言文本行和所述非第一语言文本 行中识别出第一语言文字和非第一语言文字包括:
[0089] 根据所述第一语言文本行和所述非第一语言文本行计算所述图像的版面结构特 征;
[0090] 根据所述图像的版面结构特征,确定所述图像在多个版面类别中所处的版面类 另0;化及
[0091] 根据所述图像的版面类别处理所述第一语言文本行和所述非第一语言文本行,W 识别出第一语言文字和非第一语言文字。
[0092] 方案3、如方案2所述的方法,其中所述图像的版面结构特征包括:第一语言文本 行中最长的文本行的几何特征和识别置信度W及非第一语言文本行中最长的文本行的几 何特征。
[0093] 方案4、如方案3所述的方法,其中文本行的几何特征包括该文本行的上边界、下 边界、左边界、右边界、该文本行内的连通部件的平均宽高比和/或相邻连通部件的平均间 隔。
[0094] 方案5、如方案2-4中任一项所述的方法,其中根据所述图像的版面结构特征,确 定所述图像在多个版面类别中所处的版面类别包括:
[0095] 根据所述图像的版面结构特征,计算所述图像与所述多个版面类别中的每个的置 信度概率;W及
[0096] 将与所述图像的置信度概率最大的版面类别确定为所述图像的版面类别。
[0097] 方案6、如方案5所述的方法,其中所述图像与每个类别的置信度概率由经训练确 定的判别函数通过阔值受限的非线性变换计算得出,所述判别函数是线性的或非线性的。 [009引方案7、如方案5或6所述的方法,其中根据所述图像的版面类别处理所述第一语 言文本行和所述非第一语言文本行,W识别出第一语言文字和非第一语言文字包括:
[0099] 分别利用第一语言字符串识别引擎和非第一语言字符串识别引擎识别第一语言 文字和非第一语言文字;并且
[0100] 其中,对于最大置信度概率小于预定的第一校正阔值的图像,改变分别用于识别 第一语言文本行和/或非第一语言文本行的字符串识别引擎;W及 阳101] 其中,对于最长的第一语言文本行中所有连通部件的平均识别置信度均小于预定 的第二校正阔值的图像,调整第一语言文本行和/或非第一语言文本行的文本行识别方 向。 阳102] 方案8、如方案1-7中任一项所述的方法,其中从包含文字的图像中提取多个连通 部件包括:
[0103] 从所述图像中提取连通单元; 阳104] 计算提取出的每个连通单元的识别置信度;W及
[0105] 将识别置信度小于预定的置信度阔值的连通单元除去,并将未除去的连通单元合 并,W形成所述多个连通部件。 阳106] 方案9、如方案1-8中任一项所述的方法,其中从包含文字的图像中提取多个连通 部件包括:
[0107] 从所述图像中提取连通单元; 阳10引计算提取出的每个连通单元的字符笔划宽度和平均字符笔划宽度;
[0109] 根据平均字符笔划宽度,确定字符笔划宽度范围;W及
[0110] 将字符笔划宽度不处于所述字符笔划宽度范围中的连通单元除去,并将未除去的 连通单元合并,W形成所述多个连通部件。 阳111] 方案10、如方案1-9中任一项所述的方法,其中将所述第一语言连通部件聚类为 第一语言文本行,并将所述非第一语言连通部件聚类为非第一语言文本行包括:
[0112] 根据第一语言连通部件之间的水平间隔和竖直间隔的比较结果W及非第一语言 连通部件之间的水平间隔和竖直间隔的比较结果,为每个第一语言连通部件和非第一语言 连通部件设置水平标记或竖直标记;
[0113] 将具有水平标记的第一语言连通部件和非第一语言连通部件分别聚类为第一语 言水平文本行和非第一语言水平文本行;W及
[0114] 将具有竖直标记的第一语言连通部件和非第一语言连通部件分别聚类为第一语 言竖直文本行和非第一语言竖直文本行。
[0115] 方案11、如方案1-9中任一项所述的方法,其中将所述第一语言连通部件聚类为 第一语言文本行,并将所述非第一语言连通部件聚类为非第一语言文本行包括:
[0116] 根据第一语言连通部件之间的水平间隔与预设的阔值的比较结果W及非第一语 言连通部件之间的水平间隔与所述预设的阔值的比较结果,为第一语言连通部件和非第一 语言连通部件设置水平标记;
[0117] 根据第一语言连通部件之间的竖直间隔与所述预设的阔值的比较结果W及非第 一语言连通部件之间的竖直间隔与所述预设的阔值的比较结果,为第一语言连通部件和非 第一语言连通部件设置竖直标记;
[0118] 对于标记有水平标记和竖直标记二者的第一语言连通部件和非第一语言连通部 件中的每个,根据其与同类连通部件的水平间隔和竖直间隔的比较结果,去除其水平标记 和竖直标记之一;W及
[0119] 将具有水平标记的第一语言连通部件和非第一语言连通部件分别聚类为第一语 言水平文本行和非第一语言水平文本行,并将具有竖直标记的第一语言连通部件和非第一 语言连通部件分别聚类为第一语言竖直文本行和非第一语言竖直文本行。
[0120] 方案12、如方案1-11中任一项所述的方法,其中第一语言的字符数量小于非第一 语言的字符数量。 阳121] 方案13、一种文字识别装置,包括:
[0122] 提取单元,从包含文字的图像中提取多个连通部件;
[0123] 分类单元,对所述多个连通部件进行分类,W生成第一语言连通部件和/或非第 一语言连通部件;
[0124] 聚类单元,将所述第一语言连通部件聚类为第一语言文本行,并将所述非第一语 言连通部件聚类为非第一语言文本行;W及
[01巧]识别单元,从所述第一语言文本行和所述非第一语言文本行中识别出第一语言文 字和非第一语言文字。 阳126] 方案14、如方案13所述的装置,其中所述识别单元包括:
[0127] 版面结构特征计算子单元,根据所述第一语言文本行和所述非第一语言文本行计 算所述图像的版面结构特征;
[0128] 版面类别确定子单元,根据所述图像的版面结构特征,确定所述图像在多个版面 类别中所处的版面类别;W及
[0129] 文本行处理子单元,根据所述图像的版面类别处理所述第一语言文本行和所述非 第一语言文本行,W识别出第一语言文字和非第一语言文字。
[0130] 方案15、如方案14所述的装置,其中所述图像的版面结构特征包括:第一语言文 本行中最长的文本行的几何特征和识别置信度W及非第一语言文本行中最长的文本行的 几何特征。 阳131] 方案16、如方案14或15所述的装置,其中所述版面类别确定子单元包括:
[0132] 置信度概率计算模块,根据所述图像的版面结构特征,计算所述图像与所述多个 版面类别中的每个的置信度概率;W及
[0133] 版面类别确定模块,将与所述图像的置信度概率最大的版面类别确定为所述图像 的版面类别。
[0134] 方案17、如方案16所述的装置,其中所述文本行处理子单元包括:
[0135] 第一语言字符串识别引擎和非第一语言字符串识别引擎,分别用于识别第一语言 文字和非第一语言文字;
[0136] 识别引擎切换模块,对于最大置信度概率小于预定的第一校正阔值的图像,改变 分别用于识别第一语言文本行和/或非第一语言文本行的字符串识别引擎;W及
[0137] 识别方向切换模块,对于最长的第一语言文本行中所有连通部件的平均识别置信 度均小于预定的第二校正阔值的图像,调整第一语言文本行和/或非第一语言文本行的文 本行识别方向。
[0138] 方案18、如方案13-17中任一项所述的装置,其中所述提取单元包括:
[0139] 提取子单元,从所述图像中提取连通单元;
[0140] 识别置信度计算子单元,计算提取出的每个连通单元的识别置信度; 阳141] 字符笔划宽度计算子单元,计算提取出的每个连通单元的字符笔划宽度和平均字 符笔划宽度; 阳142] 范围确定子单元,根据平均字符笔划宽度,确定字符笔划宽度范围;W及 阳143] 合并子单元,将识别置信度小于预定的置信度阔值的连通单元和字符笔划宽度不 处于所述字符笔划宽度范围中的连通单元除去,并将未除去的连通单元合并,W形成所述 多个连通部件。
[0144] 方案19、如方案13-18中任一项所述的装置,其中所述聚类单元包括:
[0145] 比较子单元,将第一语言连通部件之间的水平间隔与竖直间隔进行比较,并将非 第一语言连通部件之间的水平间隔与竖直间隔进行比较; 阳146] 标记子单元,根据所述比较子单元的比较结果为每个第一语言连通部件和非第一 语言连通部件设置水平标记或竖直标记;W及
[0147] 聚类子单元,将具有水平标记的第一语言连通部件和非第一语言连通部件分别聚 类为第一语言水平文本行和非第一语言水平文本行,将具有竖直标记的第一语言连通部件 和非第一语言连通部件分别聚类为第一语言竖直文本行和非第一语言竖直文本行。
[0148] 方案20、如方案13-18中任一项所述的装置,其中所述聚类单元包括:
[0149] 比较子单元,将第一语言连通部件之间的水平间隔和竖直间隔W及非第一语言连 通部件之间的水平间隔和竖直间隔分别与预设的阔值进行比较;
[0150] 标记子单元,根据所述比较子单元的比较结果为第一语言连通部件和非第一语言 连通部件设置水平标记和竖直标记; 阳151] 标记去除子单元,对于标记有水平标记和竖直标记二者的第一语言连通部件和非 第一语言连通部件中的每个,根据其与同类连通部件的水平间隔和竖直间隔的大小,去除 其水平标记和竖直标记之一;W及
[0152] 聚类子单元,将具有水平标记的第一语言连通部件和非第一语言连通部件分别聚 类为第一语言水平文本行和非第一语言水平文本行,将具有竖直标记的第一语言连通部件 和非第一语言连通部件分别聚类为第一语言竖直文本行和非第一语言竖直文本行。
【主权项】
1. 一种文字识别方法,包括: 从包含文字的图像中提取多个连通部件; 对所述多个连通部件进行分类,以生成第一语言连通部件和/或非第一语言连通部 件; 将所述第一语言连通部件聚类为第一语言文本行,并将所述非第一语言连通部件聚类 为非第一语言文本行;以及 从所述第一语言文本行和所述非第一语言文本行中识别出第一语言文字和非第一语 言文字。2. 如权利要求1所述的方法,其中从所述第一语言文本行和所述非第一语言文本行中 识别出第一语言文字和非第一语言文字包括: 根据所述第一语言文本行和所述非第一语言文本行计算所述图像的版面结构特征; 根据所述图像的版面结构特征,确定所述图像在多个版面类别中所处的版面类别;以 及 根据所述图像的版面类别处理所述第一语言文本行和所述非第一语言文本行,以识别 出第一语言文字和非第一语言文字。3. 如权利要求2所述的方法,其中所述图像的版面结构特征包括:第一语言文本行中 最长的文本行的几何特征和识别置信度以及非第一语言文本行中最长的文本行的几何特 征。4. 如权利要求2或3所述的方法,其中根据所述图像的版面结构特征,确定所述图像在 多个版面类别中所处的版面类别包括: 根据所述图像的版面结构特征,计算所述图像与所述多个版面类别中的每个的置信度 概率;以及 将与所述图像的置信度概率最大的版面类别确定为所述图像的版面类别。5. 如权利要求4所述的方法,其中根据所述图像的版面类别处理所述第一语言文本行 和所述非第一语言文本行,以识别出第一语言文字和非第一语言文字包括: 分别利用第一语言字符串识别引擎和非第一语言字符串识别引擎识别第一语言文字 和非第一语言文字;并且 其中,对于最大置信度概率小于预定的第一校正阈值的图像,改变分别用于识别第一 语言文本行和/或非第一语言文本行的字符串识别引擎;以及 其中,对于最长的第一语言文本行中所有连通部件的平均识别置信度均小于预定的第 二校正阈值的图像,调整第一语言文本行和/或非第一语言文本行的文本行识别方向。6. 如权利要求1-3中任一项所述的方法,其中从包含文字的图像中提取多个连通部件 包括: 从所述图像中提取连通单元; 计算提取出的每个连通单元的识别置信度;以及 将识别置信度小于预定的置信度阈值的连通单元除去,并将未除去的连通单元合并, 以形成所述多个连通部件。7. 如权利要求1-3中任一项所述的方法,其中从包含文字的图像中提取多个连通部件 包括: 从所述图像中提取连通单元; 计算提取出的每个连通单元的字符笔划宽度和平均字符笔划宽度; 根据平均字符笔划宽度,确定字符笔划宽度范围;以及 将字符笔划宽度不处于所述字符笔划宽度范围中的连通单元除去,并将未除去的连通 单元合并,以形成所述多个连通部件。8. 如权利要求1-3中任一项所述的方法,其中将所述第一语言连通部件聚类为第一语 言文本行,并将所述非第一语言连通部件聚类为非第一语言文本行包括: 根据第一语言连通部件之间的水平间隔和竖直间隔的比较结果以及非第一语言连通 部件之间的水平间隔和竖直间隔的比较结果,为每个第一语言连通部件和非第一语言连通 部件设置水平标记或竖直标记; 将具有水平标记的第一语言连通部件和非第一语言连通部件分别聚类为第一语言水 平文本行和非第一语言水平文本行;以及 将具有竖直标记的第一语言连通部件和非第一语言连通部件分别聚类为第一语言竖 直文本行和非第一语言竖直文本行。9. 如权利要求1-3中任一项所述的方法,其中将所述第一语言连通部件聚类为第一语 言文本行,并将所述非第一语言连通部件聚类为非第一语言文本行包括: 根据第一语言连通部件之间的水平间隔与预设的阈值的比较结果以及非第一语言连 通部件之间的水平间隔与所述预设的阈值的比较结果,为第一语言连通部件和非第一语言 连通部件设置水平标记; 根据第一语言连通部件之间的竖直间隔与所述预设的阈值的比较结果以及非第一语 言连通部件之间的竖直间隔与所述预设的阈值的比较结果,为第一语言连通部件和非第一 语言连通部件设置竖直标记; 对于标记有水平标记和竖直标记二者的第一语言连通部件和非第一语言连通部件中 的每个,根据其与同类连通部件的水平间隔和竖直间隔的比较结果,去除其水平标记和竖 直标记之一;以及 将具有水平标记的第一语言连通部件和非第一语言连通部件分别聚类为第一语言水 平文本行和非第一语言水平文本行,并将具有竖直标记的第一语言连通部件和非第一语言 连通部件分别聚类为第一语言竖直文本行和非第一语言竖直文本行。10. -种文字识别装置,包括: 提取单元,从包含文字的图像中提取多个连通部件; 分类单元,对所述多个连通部件进行分类,以生成第一语言连通部件和/或非第一语 言连通部件; 聚类单元,将所述第一语言连通部件聚类为第一语言文本行,并将所述非第一语言连 通部件聚类为非第一语言文本行;以及 识别单元,从所述第一语言文本行和所述非第一语言文本行中识别出第一语言文字和 非第一语言文字。
【文档编号】G06K9/00GK105989341SQ201510086612
【公开日】2016年10月5日
【申请日】2015年2月17日
【发明人】许亮, 范伟, 孙俊, 直井聪
【申请人】富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1