基于hmm和决策树的阿拉伯语光学字母识别方法_2

文档序号:9304833阅读:来源:国知局
r>[0055] 在提取特征后,每个字母形状被建模为隐马尔可夫模型(HiddenMarkovModel, 简称HMM);
[0056] (4)将特征提取的结果输入隐马尔可夫模型,以生成表示每个阿拉伯语字母的隐 马尔可夫模型;
[0057] (5)对生成的表示每个阿拉伯语字母的隐马尔可夫模型进行迭代训练,直至满足 似然比准则为止;
[0058] (6)将迭代训练后的隐马尔可夫模型输入决策树,以预测读音符号的位置和类 另IJ,并生成最终识别结果。
[0059] 每个字母形状是通过单个具有8种状态的左右HMM建模,并且每种状态除了其 自身外,还具有到其随后两种状态的过渡。剑桥大学的隐马尔可夫模型工具包(Hidden MarkovModelToolKit,简称HTK)被用于实现该系统。HTK支持识别过程中的多个步骤: 数据准备、训练、识别以及后处理。HTK在识别阶段使用混合高斯分布(本发明系统中有9 个)以及维特比算法(Viterbialgorithm)对特征向量进行建模,该算法在给定输入特征 向量下搜索最可能的字母序列。
[0060] 为了使HTK能够成功解码给定输入,字典和解码网络与该维特比解码器共同工 作。字典仅仅是包含HMM和最终输出之间映射列表的单个文本文件。在本发明中,最终输 出是字母形状名,这是由于识别器工作在没有读音符号的字母级别。网络描述了构成每个 PAW的HMM序列,这是本发明的核心,其中使用现有阿拉伯语书写系统中一直被看做难点的 字母连通性,并将其变为本发明的优点。
[0061] 按照PAW规则,通过基于图4中所示的字母位置属性来构建适合各种PAW的解码 网络。字母位置属性使用其先前和/或前一个字母位置定义了PAW中的字母序列、给定位置 提供的字母形状的数量、以及给定字母位置之间提供的连接性。在该网络中定义了三种非 发射态:一种401在网络的起始,一种402在网络的末尾,用于使PAW模型能够级联以连续 识别输入PAW,第三种非发射态403 (后续称为中间态)位于起始位置405和末尾位置406 之间,使得在PAW仅具有2个字母的情况下脱离中间位置407。
[0062] 中间态403用于将同一网络中具有两个字母的PAW与具有三个或更多字母的PAW 结合。中间态403和中间位置407之间的连接是并联,并同样形成环路,使得能够解码PAW 中任意数量的中间形状,因此这是本发明最重要的部分。例如,对于具有5个字母的PAW而 言,网络会将第一个字母分配给起始位置,然后为中间位置进入环路三次,并最终将最后的 一个字母分配给末尾位置。然而,如果PAW仅仅包含两个字母,网络会直接从起始位置405 移动到末尾位置406。在PAW仅仅包含一个字母的情况下,网络会直接穿过孤立位置404。
[0063] 阿拉伯语文本中的延长线是一条水平线,其用于连接字母,并可位于字母形状的 起始形式和中间形式之后。延长线大多数用于文本对齐。然而,当使用HMM将PAW建模为 时间过程时,这些延长线会占据特定的持续时间,并使维特比解码器在延长线存在的位置 输出无效标记(尤其是在存在长的延长线时)。在本发明中,通过引入延长线模型408解决 了此问题,该模型具有三种完整的连接状态,与中间态403并联连接,并可随意出现并重复 多次。
[0064] 基于阿拉伯语书写系统的语法,字母形状与读音符号类别存在着非常有用的关 系。对于大多数阿拉伯语字母而言,每个无读音字母与具有读音符号的字母具有等同的字 母形状。在预处理步骤中,从输入PAW图像中去除了所有读音符号,然后基于HMM的输出结 果预测读音符号是否存在。如果需要,也会识别读音符号类别。读音符号识别主要是基于 阿拉伯语字体设计原理。然而,虽然读音符号看上去是独立于字母形状的,但实际上读音符 号是字母形状的固定部分,通过使用键盘上的按键,就可以与字母形状一起被输入。因此, 当调整字母大小或改变其字体类型时,读音符号也会变化,但其相对于字母位置的位置保 持不变。
[0065] 因此,除了字母形状类型以外,HMM还输出字母形状的大致边界。可使用该边界信 息来限定搜索区域,并标记围绕该字母形状的所有对象,以确定这些对象中的一个是否是 读音符号。从字母形状提取的主要特征包括字体大小(其可能不是真实的字体大小,但是 读音符号会与其具有相同的大小)、读音符号中心、读音符号和字母形状之间的宽度比、以 及读音符号位置(在字母形状上方或下方)。这些特征用于将围绕字母形状的对象进行分 类,并检测这些对象中的哪一个是读音符号。
[0066] 有读音符号有关的字母形状可被分为五个不同的群组:
[0067] 1、不具有读音符号的字母形状:在此情况下,HMM的输出将会是最终的识别结果;
[0068] 2、具有特定位置处(一直在字母形状上方)读音符号的字母形状:在此情况下,字 母形状上方是否存在读音符号足以给出最终的识别结果;
[0069] 3、仅具有一个读音符号类别的字母形状,但该读音符号可能在字母形状的上方或 下方:在此情况下,读音符号的位置足以给出最终的识别结果;
[0070] 4、具有特定位置处(一直在字母形状上方)的多个读音符号类别的字母形状:在 此情况下,读音符号类别足以给出最终的识别结果;
[0071] 5、具有字母形状上方或下方处的多个读音符号类别的字母形状:在此情况下,需 要读音符号类别及其位置给出最终的识别结果。
[0072] 需要注意的是,需要识别读音符号类别的两种情况仅仅出现在3个字母时。
[0073] 如图5所示,HMM输出与决策树形式的读音符号特征组合。在读音符号识别期间, 〇个或更多围绕字母形状的对象被标记为读音符号。将每个读音符号对象与字母形状组合, 以创建字母列表。该列表(以字母排序)中顶部的有效字母会被选择作为最终识别的字母。
[0074] 本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以 限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含 在本发明的保护范围之内。
【主权项】
1. 一种基于HMM和决策树的阿拉伯语光学字母识别方法,其特征在于,包括以下步骤: (1) 接收包含阿拉伯语文本的输入图像; (2) 通过检测所述输入图像中每个读音符号的边界框、并将其坐标与文本主体的边界 框坐标比较去除所有读音符号; (3) 将每个输入图像划分为四层,并对所述四层执行特征提取; (4) 将特征提取的结果输入隐马尔可夫模型,以生成表示每个阿拉伯语字母的隐马尔 可夫模型; (5) 对生成的表示每个阿拉伯语字母的隐马尔可夫模型进行迭代训练,直至满足似然 比准则为止; (6) 将迭代训练后的隐马尔可夫模型输入决策树,以预测读音符号的位置和类别,并生 成最终识别结果。2. 根据权利要求1所述的阿拉伯语光学字母识别方法,其特征在于,确定围绕文本主 体区域的区域的边界框,并在所述边界框处于所述文本主体的边界框内时将所述围绕文本 主体区域的区域标记为读音符号。3. 根据权利要求1所述的阿拉伯语光学字母识别方法,其特征在于,如果围绕文本主 体区域的区域的横坐标与所述文本主体区域的横坐标相交,则将所述围绕文本主体区域的 区域标记为读音符号。4. 根据权利要求1所述的阿拉伯语光学字母识别方法,其特征在于,将每个输入图像 划分为四层,每次从所述输入图像的顶部一列开始垂直扫描所述输入图像,并将每列所包 括的每个连通黑色像素段与各个层进行匹配。5. 根据权利要求4所述的阿拉伯语光学字母识别方法,其特征在于,如果所述列仅包 含一个连通黑色像素段,则将该连通黑色像素段与第四层进行匹配。6. 根据权利要求1所述的阿拉伯语光学字母识别方法,其特征在于,对所述四层执行 特征提取具体为,以3个像素宽的窗口同时在所述四层上移动,且所述窗口一次移动一个 像素。7. 根据权利要求1所述的阿拉伯语光学字母识别方法,其特征在于,对所述四层执行 特征提取的过程包括以下子步骤: 提取第一特征,其等于包含黑色像素的层的数量; 提取第二特征,其等于第一层和第四层和的均值; 提取第三特征,其等于第二层和第三层和的均值; 提取第四、第五和第六特征,其等于所有四层垂直投影的和; 提取第七、第八和第九特征,其等于第三层垂直投影。8. 根据权利要求1所述的阿拉伯语光学字母识别方法,其特征在于, 对每个阿拉伯语字母形状使用单独的HMM模型; 字母之间延长线的建模是使用HMM模型。9. 一种文字识别过程中使用阿拉伯语字母的连通性规则建立HMM的编码网络的方法, 其特征在于,包括以下步骤: 定义网络中的三种非发射态:一种在网络的起始,一种在网络的末尾,一种在网络的中 间; 将起始非发射态连接到孤立位置字母模型,然后将该孤立位置字母模型连接到末尾非 发射态; 将起始非发射态连接到起始位置字母模型,然后将起始位置字母模型连接到中间非发 射态; 将中间非发射态连接到末尾位置字母模型,然后将末尾位置字母模型连接得到末尾非 发射态; 将中间非发射态与中间位置字母模型并联,然后将中间位置字母模型连接到中间非发 射态,以形成中间非发射态与每个中间位置字母模型之间的环路; 将中间非发射态连接到延长模型,然后将延长模型连接到中间非发射态,以形成中间 非发射态与延长模型之间的环路; 将末尾非发射态连接到起始非发射态。10.根据权利要求9所述的连通性规则编码方法,其特征在于, 使解码网络输出最佳字母序列; 使用决策树将HMM的输出与读音符号特征组合,以输出最终识别结果。
【专利摘要】本发明公开了一种阿拉伯语光学字母识别方法,包括以下步骤:接收包含阿拉伯语文本的输入图像,通过检测所述输入图像中每个读音符号的边界框、并将其坐标与文本主体的边界框坐标比较去除所有读音符号,将每个输入图像划分为四层,并对所述四层执行特征提取,将特征提取的结果输入隐马尔可夫模型,以生成表示每个阿拉伯语字母的隐马尔可夫模型,对生成的表示每个阿拉伯语字母的隐马尔可夫模型进行迭代训练,直至满足似然比准则为止,将迭代训练后的隐马尔可夫模型输入决策树,以预测读音符号的位置和类别,并生成最终识别结果。本发明能够利用阿拉伯语的书写特性使识别任务更简单,并具有较高的识别精度。
【IPC分类】G06K9/68
【公开号】CN105023028
【申请号】CN201510420294
【发明人】尤新革, 罗特飞
【申请人】华中科技大学
【公开日】2015年11月4日
【申请日】2015年7月17日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1