基于hmm和决策树的阿拉伯语光学字母识别方法

文档序号:9304833阅读:864来源:国知局
基于hmm和决策树的阿拉伯语光学字母识别方法
【技术领域】
[0001] 本发明属于光学字母识别技术领域,更具体地,涉及一种基于HMM和决策树的阿 拉伯语光学字母识别方法。
【背景技术】
[0002] 光学字母识别(OCR)是计算机模式识别中最古老的问题之一,并且其已经被列为 穿孔技术后最古老的数据录入。OCR可被定义为将打字或印刷文本的扫描或拍摄图像转换 为机器编码/计算机可读文本。虽然对于许多语言、尤其是拉丁语和汉语而言,OCR是成熟 的技术,但对于阿拉伯语而言,其仍然处于初级阶段。
[0003] 由于阿拉伯语书写系统的特性,文本图像识别任务比其它语言更复杂。这些特性 包括:文本方向是从右到左、以手写和机器印刷文本的草体书写、每个字母在字中的不同位 置具有不同的形状、字母上下的点号和读音符号、字母之间连线的延长线长度可变、垂直或 水平连写、以及不同字母的不同大小(高度和宽度)。所有这些特性以不同方式影响了阿拉 伯语字母的处理和识别,并使得简单适用于拉丁语的基于字母的处理变得不可能。
[0004] 现存阿拉伯语OCR方法的主要问题是,它们都没有将阿拉伯语文本特性视为会简 化问题的优势,而仅仅将这些特性描述为会增加识别的复杂度。

【发明内容】

[0005] 针对现有技术的以上缺陷或改进需求,本发明提供了一种使用隐马尔可夫模型和 决策树的阿拉伯语光学字母识别方法,其能够利用阿拉伯语的书写特性使识别任务更简 单,并具有较高的识别精度。
[0006] 为实现上述目的,按照本发明的一个方面,提供了一种基于HMM和决策树的阿拉 伯语光学字母识别方法,包括以下步骤:
[0007] (1)接收包含阿拉伯语文本的输入图像;
[0008] (2)通过检测所述输入图像中每个读音符号的边界框、并将其坐标与文本主体的 边界框坐标比较去除所有读音符号;
[0009] (3)将每个输入图像划分为四层,并对所述四层执行特征提取;
[0010] (4)将特征提取的结果输入隐马尔可夫模型,以生成表示每个阿拉伯语字母的隐 马尔可夫模型;
[0011] (5)对生成的表示每个阿拉伯语字母的隐马尔可夫模型进行迭代训练,直至满足 似然比准则为止;
[0012] (6)将迭代训练后的隐马尔可夫模型输入决策树,以预测读音符号的位置和类别, 并生成最终识别结果。
[0013] 优选地,确定围绕文本主体区域的区域的边界框,并在所述边界框处于所述文本 主体的边界框内时将所述围绕文本主体区域的区域标记为读音符号。
[0014] 优选地,如果围绕文本主体区域的区域的横坐标与所述文本主体区域的横坐标相 交,则将所述围绕文本主体区域的区域标记为读音符号。
[0015] 优选地,将每个输入图像划分为四层具体为,每次从所述输入图像的顶部一列开 始垂直扫描所述输入图像,并将每列所包括的每个连通黑色像素段与各个层进行匹配。
[0016] 优选地,如果所述列仅包含一个连通黑色像素段,则将该连通黑色像素段与第四 层进行匹配。
[0017] 优选地,对所述四层执行特征提取具体为,以3个像素宽的窗口同时在所述四层 上移动,且所述窗口 一次移动一个像素。
[0018] 优选地,对所述四层执行特征提取的过程包括以下子步骤:
[0019] 提取第一特征,其等于包含黑色像素的层的数量;
[0020] 提取第二特征,其等于第一层和第四层和的均值;
[0021] 提取第三特征,其等于第二层和第三层和的均值;
[0022] 提取第四、第五和第六特征,其等于所有四层垂直投影的和;
[0023] 提取第七、第八和第九特征,其等于第三层垂直投影。
[0024] 优选地,对每个阿拉伯语字母形状使用单独的HMM模型,字母之间延长线的建模 是使用HMM模型。
[0025] 按照本发明的另一方面,提供了一种文字识别过程中使用阿拉伯语字母的连通性 规则建立HMM的编码网络的方法,包括以下步骤:
[0026] 定义网络中的三种非发射态:一种在网络的起始,一种在网络的末尾,一种在网络 的中间;
[0027] 将起始非发射态连接到孤立位置字母模型,然后将该孤立位置字母模型连接到末 尾非发射态;
[0028] 将起始非发射态连接到起始位置字母模型,然后将起始位置字母模型连接到中间 非发射态;
[0029] 将中间非发射态连接到末尾位置字母模型,然后将末尾位置字母模型连接得到末 尾非发射态;
[0030] 将中间非发射态与中间位置字母模型并联,然后将中间位置字母模型连接到中间 非发射态,以形成中间非发射态与每个中间位置字母模型之间的环路;
[0031] 将中间非发射态连接到延长模型,然后将延长模型连接到中间非发射态,以形成 中间非发射态与延长模型之间的环路;
[0032] 将末尾非发射态连接到起始非发射态。
[0033] 优选地,使用解码网络输出最佳字母序列,使用决策树将HMM的输出与读音符号 特征组合,以输出最终识别结果。
[0034] 总体而言,通过本发明所构思的以上技术方案与现有技术相比,通过从字母形状 中分离读音符号,并使读音符号和/或字母形状彼此影响,能够大大提高阿拉伯语字母的 识别精度。
【附图说明】
[0035] 图1是三个阿拉伯语字的示例,其每个都具有不同数量的字分段;
[0036] 图2是本发明方法中预处理的过程。
[0037] 图3是本发明方法中特征提取的过程。
[0038] 图4是HMM使用的解密网络。
[0039] 图5是用于读音符号分类的决策树的示意图。
【具体实施方式】
[0040] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要 彼此之间未构成冲突就可以相互组合。
[0041] 阿拉伯语是一种字母语言,具有28个字母,每个字母取决于其在字中的位置(起 始、中间或是否孤立末尾)具有2种或4种不同的形状,这等于有100种字母形状。此外, 取决于字体类型,连体和读音符号会引入新的形状,这在某些字体中会产生120种不同的 形状。实际上,如此庞大数量的字母形状和读音符号在它们之间具有许多相似性。例如,会 发现四个具有不同四种形状的字母其区别仅仅在于与其相关联的读音符号。类似地,相同 的读音符号可附属于许多不同的字母形状,这意味着存在许多可在不同的字母和读音符号 之间共享的信息。在读音符号类别和字母形状之间存在强关系,其中读音符号类别的知识 会增加或降低给定字母形状存在于某个字中的概率,反之亦然。因此,通过从字母形状中分 离读音符号,并建立读音符号与字母形状之间的关联性,肯定能够大大提高识别精度,这也 是对于任何OCR系统而言的主要目标。
[0042] 在阿拉伯语中,每个字包括一个或多个相连接的字母,但并不是所有的字母都具 有中间形状,这是一个关键点,这是由于其导致字被分为许多子字,或许多出版物中被称 为"阿拉伯语字分段"(PieceofArabicWord,简称PAW)。相应的,如图1所示,每个PAW 可以是在其孤立的形状101、102、103、104、108中仅具有一个字母的PAW,或者是具有两个 字母的PAW:-个在其起始形状中,另一个在其末尾形状中,或者是具有三个或更多字母的 PAW:-个在其起始形状中,一个在其末尾形状中,一个或更多的在其中间形状106、109中, 并且这展现出阿拉伯语书写系统的一个非常重要的属性:字母的中间形状是阿拉伯语书写 系统中最常出现的形状。这意味着对于任何阿拉伯语OCR系统而言,字母的中间形状比其 它形状需要更多的注意力。
[0043] 因此,在识别阶段,由于每个字母形状一直具有专用的位置标记,因此字母的位置 属性及其与字母形状的关系可用于证实识别结果是否服从上述PAW规则。例如,如果PAW 包含5个字母,则识别器输出应该是5个字母形状,其中第一个字母是起始形式的形状,最 后一个字母是末尾形式的形状,其它三个字母是中间形式的字母形状,除此以外的任何结 果可以被丢弃。
[0044] 本发明阿拉伯语光学字母识别方法包括以下步骤:
[0045] (1)接收包含阿拉伯语文本的输入图像;
[0046] (2)通过检测所述输入图像中每个读音符号的边界框、并将其坐标与文本主体的 边界框坐标比较去除所有读音符号;去除读音符号所使用的算法是基于字体设计原理:当 设计阿拉伯语字体时,读音符号的中心一直与字母形状的中心垂直对齐,并且其大小小于 字母大小。这样,读音符号连通区域的边界框将被包括在文本主体连通区域203的边界框 内,或者至少读音符号图像的横坐标将会与文本主体图像204的横坐标相交,如图2所示。 对于围绕PAW文本主体的所有对象,包括读音符号和任何噪声对象,重复该过程。
[0047] (3)将每个输入图像划分为四层,并对所述四层执行特征提取;
[0048] 对于每个PAW而言,上浮和下浮是任何字母形状的主要部分。事实上,相连字母之 间的区别和分离主要是基于该上浮和下浮。因此,捕捉与每个字母的上浮和下浮相关的信 息将高度增加字母之间的区别。在本发明中,通过使用多层分离技术从PAW中提取这些特 征。每次从输入图像的顶部一列开始垂直扫描该输入图像,并将每列所包括的每个连通黑 色像素段与各个层进行匹配(如图3所示)。如果该列仅包含一个连通黑色像素段,则将该 连通黑色像素段与最后一层进行匹配。四层对于绝大部分阿拉伯语字体而言是足够的。与 第二层和第三层比较,第一层和第四层包含更多的PAW文本主体。在将PAW与层匹配后,3 个像素宽的滑动窗口 305每次同时沿着四层滑动1个像素用于特征提取。基于层中像素的 分布,从每个窗口提取到9个不同的特征如下:
[0049] F1 =包含连通黑色像素的层数;
[0050] F2 =mean(L1+L4)
[0051] F3 =mean(L2+L3)
[0052]
垂直投影(Li)
[0053] F7~F9 =垂直投影(L3)
[0054] 其中F表示提取的特征,Li表示层,且1 <i< 4,mean表示取均值。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1