字符串识别方法和装置的制造方法_2

文档序号:8259550阅读:来源:国知局
"吕"等,"镁"可能被识别为"镁"、"鎂"、"镁"、"美"等,这样得到一个如图2C所 示的切分识别候选网格。
[0042] 在步骤S140中,根据多个识别器对每个候选字符模式的识别结果,对切分识别候 选网格中的候选路径进行过滤。
[0043] 具体地,根据多个识别器对每个候选字符模式的识别结果对每个候选字符模式进 行分类;如果候选字符模式被分类为可靠的,则在候选路径中仅保留将候选字符模式的识 别结果中排在第一位的识别结果作为节点的候选路径。
[0044] 基于多个识别器的识别结果,可以把每个候选字符模式分为两类:1.可靠,2.不 可靠。
[0045] 一种优选的分类准则是:如果超过半数的识别器都输出同样的类别结果,则该候 选字符模式是可靠的。反之,该候选字符模式是不可靠的。
[0046] 除了该分类准则之外,另一优选的分类准则是:为M个识别器中的每一个保留对 候选字符模式的前N个候选识别结果,以识别置信度为权值对K (K〈=M*N)个候选识别结 果进行加权投票得到各自的一个投票分值,对投票分值从大到小进行排序,如果第一候选 结果的投票分值比第二候选结果的投票分值大预定阈值,则将该候选字符模式分类为可靠 的。反之,该候选字符模式是不可靠的。
[0047] 如果一个候选字符模式是可靠的,则只保留识别置信度最高的识别结果,该候选 字符模式的其他识别结果不再允许出现在一条候选路径中。对于不可靠的候选字符模式, 不同识别器的输出结果将被合并为一个识别候选列表。也就是说,如果候选字符模式被分 类为可靠的,则在候选路径中仅保留将候选字符模式的识别结果中排在第一位的识别结果 作为一个节点的候选路径。
[0048] 例如,在图3中假定"铝" "镁" "外"是可靠的模式,而"合""金""壳"是不可靠 的模式,则约简后的切分识别候选网格如图3所示。
[0049] 候选字符模式可能包含多个相邻的基本单元。在图4示出的切分候选网格中只考 虑了相邻两个基本单元组合的情况。在图4中,被判定为可靠的候选字符模式用虚线框表 示。如果某个候选字符模式被判定为可靠的,则组成它的所有基本单元不允许单独出现在 一条候选路径中。也就是说,从候选路径中去除以构成候选字符模式的多个基本单元中的 部分基本单元作为一个节点的路径。例如图4中,候选路径",,吕"是非法的。因为"韦" 是"铝"的一部分,而"铝"已经被判定为是可靠的候选字符模式,因此以"韦"作为一个节点 的路径会被过滤掉。通过这种方法,大量的候选路径可以被过滤掉。
[0050] 在本发明的实施例中,通过利用多个识别器的输出结果对所有候选路径进行过 滤。不同识别器可以具有各自独立的文字特征或者采用各自独立的分类算法。
[0051] 首先,不同的识别器可以从不同的角度相互独立的提取与文字相关的互补特征。 这里所说的互补特征可以包括灰度特征和二值特征。
[0052] 灰度特征:将切分好的字符图像归一化成指定的尺度(如:10xl0像素),则每个像 素的亮度值作为特征向量(1〇〇维)中的一维。灰度特征擅长描述字符的整体形状,对于模 糊的字符表现较好,但受输入字符的长宽比影响较大。
[0053] 二值特征:提取二值化图像中的字符形状细节特征,如笔画轮廓弯曲度,字符空洞 数目,笔画密度等统计特征。二值特征不易受字符长宽比变化影响,但对低分辨率模糊图 像,由于缺乏细节,提取的特征会不准确。
[0054] 融合多个分类器的输出可以获得比依靠单个分类器更高的识别率。对于具有一定 基本图像质量的输入字符,不同的分类器通常会给出相同或相近的分类结果。只有当输入 字符的图像质量很低的情况下,不同的分类器才会输出分歧较大的分类结果。
[0055] 如果不同识别器对某个候选字符模式给出大致相同的分类结果,就可以固定相应 的识别结果,去除那些不合理的候选路径。
[0056] 不同识别器采用的各自独立的分类算法可以包括高斯模型、SVM(支持向量机)等。
[0057] 在步骤S150中,在经过过滤的候选路径中搜索最优路径,以得到字符串识别结 果。
[0058] 通过以上步骤S120-S140,切分识别候选网格中的候选路径数目被大大削减。然后 可以利用传统的动态规划方法,并结合识别置信度和语言模型,可以快速搜索到最优路径。
[0059] 图5是示出根据本发明的一个实施例的字符串识别装置500的示例性配置的框 图。
[0060] 如图5所示,字符串识别装置500包括图像切分单元510、候选字符模式构成单元 520、切分识别候选网格形成单元530、候选路径过滤单元540和字符串识别单元550。
[0061] 图像切分单元510用于将包含字符串的图像切分为多个基本单元,每个基本单元 包含一个字符或者一个字符的部件。候选字符模式构成单元520用于将一个基本单元或多 个相邻基本单元的组合构成候选字符模式,以形成切分候选网格。切分识别候选网格形成 单元530用于通过多个识别器分别对切分候选网格中的每个候选字符模式进行识别,以得 到切分识别候选网格。候选路径过滤单元540用于根据多个识别器对每个候选字符模式的 识别结果,对切分识别候选网格中的候选路径进行过滤。字符串识别单元550用于在经过 过滤的候选路径中搜索最优路径,以得到字符串识别结果。
[0062] 优选地,如图6所示,候选路径过滤单元540可以包括分类单元610和第一候选路 径过滤单元620。分类单元610用于根据多个识别器对每个候选字符模式的识别结果对每 个候选字符模式进行分类。如果候选字符模式被分类为可靠的,则第一候选路径过滤单元 620用于在候选路径中仅保留将候选字符模式的识别结果中排在第一位的识别结果作为节 点的候选路径。
[0063] 优选地,如图7所示,候选路径过滤单元540还可以包括第二候选路径过滤单元 730。如果候选字符模式被分类为可靠的,且候选字符模式由多个基本单元构成,则第二候 选路径过滤单元730用于从候选路径中去除包括如下节点的候选路径,该节点由构成候选 字符模式的多个基本单元中的部分基本单元构成。
[0064] 在另一个实施例中,如图8所示,候选路径过滤单元540可以包括分类单元610和 第二候选路径过滤单元730。分类单元610用于根据多个识别器对每个候选字符模式的识 别结果对每个候选字符模式进行分类。如果候选字符模式被分类为可靠的,且候选字符模 式由多个基本单元构成,则第二候选路径过滤单元730用于从候选路径中去除包括如下节 点的候选路径,该节点由构成候选字符模式的多个基本单元中的部分基本单元构成。
[0065]优选地,分类单元610可以被配置为:如果多个识别器中一半以上的识别器对候 选字符模式的识别
[0066] 优选地,分类单元610还可以被配置为:为M个识别器中的每一个保留对候选字符 模式的前N个候选识别结果,以识别置信度为权值对K (K〈=M*N)个候选识别结果进行加权 投票得到各自的投票分值,对投票分值从大到小进行排序,如果第一候选结果的投票分值 比第二候选结果的投票分值大预定阈值,则将候选字符模式分类为可靠的。
[0067] 优选地,切分识别候选网格形成单元530可以被配置为:多个识别器利用文字的 互补特征对每个候选字符模式进行识别。互补特征可以包括灰度特征和二值特征。
[0068] 优选地,多个识别器可以采用各自独立的分类算法对每个候选字符模式进行识 另IJ。分类算法可以包括高斯模型和支持向量机。
[0069] 优选地,字符串识别单元550可以被配置为:利用语言模型来搜索最优路径,以得 到字符串识别结果。字符串可以为中文字符串。
[0070] 关于字符串识别装置500的各个部分的操作和功能的细节可以参照结合图1至图 4描述的本发明的字符串识别方法的实施例,这里不再详细描述。
[0071] 在此需要说明的是,图5-8所示的字符串识别装置500及其组成单元的结构仅仅 是示例性的,本领域技术人员可以根据需要对图5-8所示的结构框图进行修改。
[0072] 本发明提出了一种利用多个识别器的识别结果,来过滤切分识别候选网格中的候 选路径的字符串识别方法。通过将候选字符模式分为可靠或不可靠两类,快速锁定存在歧 义的候选字符模式(不可靠),排除无需考虑其他候选的候选字符模式(可靠),从而简化了 候选网格,加速了路径搜索过程。
[0073] 以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的 普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在 任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者 它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们 的基本编程技能就能实现的。
[0074] 因此,本发明的目的还
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1