基于hmm和决策树的阿拉伯语光学字母识别方法_2

文档序号：9304833阅读：来源：国知局

r>[0055] 在提取特征后，每个字母形状被建模为隐马尔可夫模型（HiddenMarkovModel，简称HMM);
[0056] (4)将特征提取的结果输入隐马尔可夫模型，以生成表示每个阿拉伯语字母的隐马尔可夫模型；
[0057] (5)对生成的表示每个阿拉伯语字母的隐马尔可夫模型进行迭代训练，直至满足似然比准则为止；
[0058] (6)将迭代训练后的隐马尔可夫模型输入决策树，以预测读音符号的位置和类另IJ，并生成最终识别结果。
[0059] 每个字母形状是通过单个具有8种状态的左右HMM建模，并且每种状态除了其自身外，还具有到其随后两种状态的过渡。剑桥大学的隐马尔可夫模型工具包（Hidden MarkovModelToolKit，简称HTK)被用于实现该系统。HTK支持识别过程中的多个步骤：数据准备、训练、识别以及后处理。HTK在识别阶段使用混合高斯分布（本发明系统中有9 个）以及维特比算法（Viterbialgorithm)对特征向量进行建模，该算法在给定输入特征向量下搜索最可能的字母序列。
[0060] 为了使HTK能够成功解码给定输入，字典和解码网络与该维特比解码器共同工作。字典仅仅是包含HMM和最终输出之间映射列表的单个文本文件。在本发明中，最终输出是字母形状名，这是由于识别器工作在没有读音符号的字母级别。网络描述了构成每个 PAW的HMM序列，这是本发明的核心，其中使用现有阿拉伯语书写系统中一直被看做难点的字母连通性，并将其变为本发明的优点。
[0061] 按照PAW规则，通过基于图4中所示的字母位置属性来构建适合各种PAW的解码网络。字母位置属性使用其先前和/或前一个字母位置定义了PAW中的字母序列、给定位置提供的字母形状的数量、以及给定字母位置之间提供的连接性。在该网络中定义了三种非发射态：一种401在网络的起始，一种402在网络的末尾，用于使PAW模型能够级联以连续识别输入PAW，第三种非发射态403 (后续称为中间态）位于起始位置405和末尾位置406 之间，使得在PAW仅具有2个字母的情况下脱离中间位置407。
[0062] 中间态403用于将同一网络中具有两个字母的PAW与具有三个或更多字母的PAW 结合。中间态403和中间位置407之间的连接是并联，并同样形成环路，使得能够解码PAW 中任意数量的中间形状，因此这是本发明最重要的部分。例如，对于具有5个字母的PAW而言，网络会将第一个字母分配给起始位置，然后为中间位置进入环路三次，并最终将最后的一个字母分配给末尾位置。然而，如果PAW仅仅包含两个字母，网络会直接从起始位置405 移动到末尾位置406。在PAW仅仅包含一个字母的情况下，网络会直接穿过孤立位置404。
[0063] 阿拉伯语文本中的延长线是一条水平线，其用于连接字母，并可位于字母形状的起始形式和中间形式之后。延长线大多数用于文本对齐。然而，当使用HMM将PAW建模为时间过程时，这些延长线会占据特定的持续时间，并使维特比解码器在延长线存在的位置输出无效标记（尤其是在存在长的延长线时）。在本发明中，通过引入延长线模型408解决了此问题，该模型具有三种完整的连接状态，与中间态403并联连接，并可随意出现并重复多次。
[0064] 基于阿拉伯语书写系统的语法，字母形状与读音符号类别存在着非常有用的关系。对于大多数阿拉伯语字母而言，每个无读音字母与具有读音符号的字母具有等同的字母形状。在预处理步骤中，从输入PAW图像中去除了所有读音符号，然后基于HMM的输出结果预测读音符号是否存在。如果需要，也会识别读音符号类别。读音符号识别主要是基于阿拉伯语字体设计原理。然而，虽然读音符号看上去是独立于字母形状的，但实际上读音符号是字母形状的固定部分，通过使用键盘上的按键，就可以与字母形状一起被输入。因此，当调整字母大小或改变其字体类型时，读音符号也会变化，但其相对于字母位置的位置保持不变。
[0065] 因此，除了字母形状类型以外，HMM还输出字母形状的大致边界。可使用该边界信息来限定搜索区域，并标记围绕该字母形状的所有对象，以确定这些对象中的一个是否是读音符号。从字母形状提取的主要特征包括字体大小（其可能不是真实的字体大小，但是读音符号会与其具有相同的大小）、读音符号中心、读音符号和字母形状之间的宽度比、以及读音符号位置（在字母形状上方或下方）。这些特征用于将围绕字母形状的对象进行分类，并检测这些对象中的哪一个是读音符号。
[0066] 有读音符号有关的字母形状可被分为五个不同的群组：
[0067] 1、不具有读音符号的字母形状：在此情况下，HMM的输出将会是最终的识别结果；
[0068] 2、具有特定位置处（一直在字母形状上方）读音符号的字母形状：在此情况下，字母形状上方是否存在读音符号足以给出最终的识别结果；
[0069] 3、仅具有一个读音符号类别的字母形状，但该读音符号可能在字母形状的上方或下方：在此情况下，读音符号的位置足以给出最终的识别结果；
[0070] 4、具有特定位置处（一直在字母形状上方）的多个读音符号类别的字母形状：在此情况下，读音符号类别足以给出最终的识别结果；
[0071] 5、具有字母形状上方或下方处的多个读音符号类别的字母形状：在此情况下，需要读音符号类别及其位置给出最终的识别结果。
[0072] 需要注意的是，需要识别读音符号类别的两种情况仅仅出现在3个字母时。
[0073] 如图5所示，HMM输出与决策树形式的读音符号特征组合。在读音符号识别期间，〇个或更多围绕字母形状的对象被标记为读音符号。将每个读音符号对象与字母形状组合，以创建字母列表。该列表（以字母排序）中顶部的有效字母会被选择作为最终识别的字母。
[0074] 本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。
【主权项】
1. 一种基于HMM和决策树的阿拉伯语光学字母识别方法，其特征在于，包括以下步骤： (1) 接收包含阿拉伯语文本的输入图像； (2) 通过检测所述输入图像中每个读音符号的边界框、并将其坐标与文本主体的边界框坐标比较去除所有读音符号； (3) 将每个输入图像划分为四层，并对所述四层执行特征提取； (4) 将特征提取的结果输入隐马尔可夫模型，以生成表示每个阿拉伯语字母的隐马尔可夫模型； (5) 对生成的表示每个阿拉伯语字母的隐马尔可夫模型进行迭代训练，直至满足似然比准则为止； (6) 将迭代训练后的隐马尔可夫模型输入决策树，以预测读音符号的位置和类别，并生成最终识别结果。2. 根据权利要求1所述的阿拉伯语光学字母识别方法，其特征在于，确定围绕文本主体区域的区域的边界框，并在所述边界框处于所述文本主体的边界框内时将所述围绕文本主体区域的区域标记为读音符号。3. 根据权利要求1所述的阿拉伯语光学字母识别方法，其特征在于，如果围绕文本主体区域的区域的横坐标与所述文本主体区域的横坐标相交，则将所述围绕文本主体区域的区域标记为读音符号。4. 根据权利要求1所述的阿拉伯语光学字母识别方法，其特征在于，将每个输入图像划分为四层，每次从所述输入图像的顶部一列开始垂直扫描所述输入图像，并将每列所包括的每个连通黑色像素段与各个层进行匹配。5. 根据权利要求4所述的阿拉伯语光学字母识别方法，其特征在于，如果所述列仅包含一个连通黑色像素段，则将该连通黑色像素段与第四层进行匹配。6. 根据权利要求1所述的阿拉伯语光学字母识别方法，其特征在于，对所述四层执行特征提取具体为，以3个像素宽的窗口同时在所述四层上移动，且所述窗口一次移动一个像素。7. 根据权利要求1所述的阿拉伯语光学字母识别方法，其特征在于，对所述四层执行特征提取的过程包括以下子步骤：提取第一特征，其等于包含黑色像素的层的数量；提取第二特征，其等于第一层和第四层和的均值；提取第三特征，其等于第二层和第三层和的均值；提取第四、第五和第六特征，其等于所有四层垂直投影的和；提取第七、第八和第九特征，其等于第三层垂直投影。8. 根据权利要求1所述的阿拉伯语光学字母识别方法，其特征在于，对每个阿拉伯语字母形状使用单独的HMM模型；字母之间延长线的建模是使用HMM模型。9. 一种文字识别过程中使用阿拉伯语字母的连通性规则建立HMM的编码网络的方法，其特征在于，包括以下步骤：定义网络中的三种非发射态：一种在网络的起始，一种在网络的末尾，一种在网络的中间；将起始非发射态连接到孤立位置字母模型，然后将该孤立位置字母模型连接到末尾非发射态；将起始非发射态连接到起始位置字母模型，然后将起始位置字母模型连接到中间非发射态；将中间非发射态连接到末尾位置字母模型，然后将末尾位置字母模型连接得到末尾非发射态；将中间非发射态与中间位置字母模型并联，然后将中间位置字母模型连接到中间非发射态，以形成中间非发射态与每个中间位置字母模型之间的环路；将中间非发射态连接到延长模型，然后将延长模型连接到中间非发射态，以形成中间非发射态与延长模型之间的环路；将末尾非发射态连接到起始非发射态。10.根据权利要求9所述的连通性规则编码方法，其特征在于，使解码网络输出最佳字母序列；使用决策树将HMM的输出与读音符号特征组合，以输出最终识别结果。
【专利摘要】本发明公开了一种阿拉伯语光学字母识别方法，包括以下步骤：接收包含阿拉伯语文本的输入图像，通过检测所述输入图像中每个读音符号的边界框、并将其坐标与文本主体的边界框坐标比较去除所有读音符号，将每个输入图像划分为四层，并对所述四层执行特征提取，将特征提取的结果输入隐马尔可夫模型，以生成表示每个阿拉伯语字母的隐马尔可夫模型，对生成的表示每个阿拉伯语字母的隐马尔可夫模型进行迭代训练，直至满足似然比准则为止，将迭代训练后的隐马尔可夫模型输入决策树，以预测读音符号的位置和类别，并生成最终识别结果。本发明能够利用阿拉伯语的书写特性使识别任务更简单，并具有较高的识别精度。
【IPC分类】G06K9/68
【公开号】CN105023028
【申请号】CN201510420294
【发明人】尤新革, 罗特飞
【申请人】华中科技大学
【公开日】2015年11月4日
【申请日】2015年7月17日

完整全部详细技术资料下载

当前第2页1 2