一种联机手写藏文音节识别方法及装置的制造方法_2

文档序号:9304834阅读:来源:国知局
点序列:(Xl,yi),(x2,y2),… (xn,yn),其中n表示输入音节轨迹中的点数,轨迹中点的顺序按书写的时间先后排列,笔划 之间用结束标志点断开。首先去除孤立点,即由单个噪声点组成的笔划,以消除孤立噪声点 对字符和部件分割及部件识别的影响,然后对音节的轨迹进行等距离重采样,最后用高斯 滤波进行点的平滑,以克服轨迹中点的波动。在等距离重采样中,点的距离设置为〇. 5 ;在 高斯平滑中,方差设置为1.2。
[0041] (2)过分割
[0042] 将经过预处理的藏文音节过分割成两层标记结果,每一层标记结果均由子结构块 序列组成。子结构块是完整的部件或部件的一部分。藏文音节由1~4个藏文字符在水平 方向组合组成,每个字符由一个或多个部件在垂直方向按上下叠加的纵向形式组合而成, 如图2所示。所述的部件是指字符的子笔划序列,是易被计算机分割算法提取、比笔划结构 更稳定的结构基元。由于字符由部件组成,不同的字符共用相同的部件,因而部件的类别数 远小于字符的类别数。结合藏文音节的一般书写顺序,过分割的具体步骤如下:
[0043] a、水平方向的字符分割:
[0044] 首先将藏文音节从水平书写方向切分为字符序列。初始假定每一个笔划为一个子 结构块,迭代归并任意两个在水平方向重叠度较大的子结构块,直到没有可归并的为止。假 定最初每个笔划是一个子结构块,基于这个信息,如果两个子结构块(笔划序列)在水平 方向有间隔或两个子结构块在水平方向重叠且重叠度小于〇. 1,就将这两个子结构块分割; 如果两个子结构块在水平方向重叠且重叠度大于〇. 1,就将这两个子结构块归并。所述的水 平方向重叠度是指两个子结构块在水平方向的重叠程度的度量。
[0045] 通常手写藏文音节时,一般字符之间在水平方向存在明显的间隔,可通过以上迭 代方式进行归并,如图3所示为正确字符分割结果。然而,由于书写的随意性,元音在水 平方向的宽度较大,藏文音节中某个带有元音的字符常常和其它字符在水平方向有较大重 叠,如图4所示,通过检测元音的位置,进行强制断开,从而解决错误归并的问题。
[0046] b、垂直方向的部件分割:
[0047] 基于水平方向的字符分割结果,针对每个字符,从垂直方向进行部件分割。采用类 似于水平方向重叠度的计算方法进行归并,相比字符之间的间隔或重叠,一般部件之间在 垂直方向存在空白间隔较小或部件之间的重叠较大,设置重叠度归并的经验值为〇. 2,垂直 方向的部件分割结果如图5所示。
[0048] 藏文字符内的部件之间可能连笔,通过角点检测方法,将连笔断开,从而保证部件 的正确分割。
[0049] (3)基于半马尔科夫条件随机场的分割假设验证
[0050] 将藏文音节识别看成是两层部件串的识别,即水平方向和垂直方向分割的部件串 识别,关键问题是如何从经过步骤(2)所得的两层标记结果的子结构块序列中得到正确的 部件串分割点及部件识别结果。本发明采用了基于半马尔科夫条件随机场的分割假设验证 方法,将部件分类器、几何上下文和语言上下文集成到一个统一识别框架下,对不同的分割 假设进行验证,获得最优的分割路径及部件串的识别结果。对上述各模型分别说明如下:
[0051] a、部件分类器
[0052] 部件分类器采用基于深度神经网络的多特征多分类融合模型,从不同角度利用深 度神经网络对藏文字丁进行特征表示,然后用不同的统计分类器进行分类,实现多特征多 分类融合的藏文部件识别方法。对于联机特征,联机手写藏文部件由笔划序列组成,首先通 过坐标归一化方法(NCFE)提取原始特征,然后利用深度信念网(DBN)通过多层的非线性 变换,得到更高层的特征,采用最近原型分类器(NPC)分类得到基于联机特征的分类结果。 对于脱机特征,先将由笔划序列组成的藏文部件转换成二值化图像,以最底层的像素作为 特征表示的输入,利用深度卷积神经网络(DCNN)提取特征,采用修正二次判别函数分类器 (MQDF)分类得到基于脱机特征的分类结果,最后融合基于联机和脱机的分类结果得到藏文 部件识别结果。
[0053] 本发明实施例采用藏文部件为基本识别单元,与字符类别相比,部件的类别总数 约为字符类别的1/5,这使得部件分类器的词典存储量较小,可以满足移动设备的存储需 求;此外,较小的部件类别中相似的部件也大大减少,有助于提高最终的音节识别精度。
[0054] b、几何上下文
[0055] 几何上下文包括音节内字符之间的几何上下文和字符内部件之间的几何上下文。 音节内字符之间的几何上下文是指候选字符模式相对于整个藏文音节的高度、宽度、位置 和相邻候选字符之间的距离、相对位置等信息。针对音节内字符之间的几何上下文,分别为 每一类字符建立一元几何特征,并为音节内的每两个连续字符之间建立二元几何特征,分 别用不同的二次判别函数来模型化一元和二元特征。本实施例一共使用了 6个一元几何特 征,包括候选字符的宽度,高度,外接矩形对角线长度,外接矩形的中心、上边界和下边界与 字符串水平中心线的距离,这6个特征需要用平均藏文字符高度进行归一化。一共使用了 4 个二元几何特征,包括相邻藏文字符外接矩形上边界、下边界、上边界与下边界以及水平中 心线之间的差,上述特征都用平均藏文字符高度进行归一化。
[0056] 字符内部件之间的几何上下文是指候选部件模式相对于整个藏文字符的高度、宽 度、相对位置等信息。针对每一类字符,分别为字符内的每一个部件建立一元几何特征,并 为字符内的每两个连续部件(按上边界排列)之间建立二元几何特征,分别用不同的高斯 概率密度函数来模型化一元和二元几何特征。部件层的一元和二元几何特征提取方法类似 于字符层的方法,提取的特征都用平均藏文部件高度进行归一化。
[0057] c、语言上下文
[0058] 藏文音节中字符的类别之间以及藏文字符中部件的类别之间有着一定的关系,即 语言上下文,语言上下文分别从字符层和部件层构建语言模型。对于字符层和部件层的语 言模型,都使用二元文法来描述,语言上下文的特征函数定义为二元文法概率的对数,且是 与字符或部件类别有关的二元特征函数。
[0059] 上述三个模型的建模均需要首先在字符层和部件层对藏文音节样本进行标定,并 通过标定结果从藏文音节样本中获取字符和部件样本以及确定字符和部件的类别,其中字 符和部件的类别分别为562类和120类。标定方法采用基于半监督学习的方法,大大缩减 人工干预的工作量。
[0060] 在构建部件分类器、几何上下文和语言上下文模型后,利用基于半马尔科夫条件 随机场的分割假设验证方法,对步骤(2)得到的两层标记结果的子结构块序列进行分割假 设的进一步验证。
[0061] 基于两层标记结果的子结构块序列,经过候选部件模式的分类,生成候选切 分-识别网格,在网格中构建半马尔科夫条件随机场模型。假定藏文音节过分割结果(两 层标记结果)为X,网格中候选路径的类别为Y(类别序列),则对应的切分为S:Y(候选部 件序列),根据半马尔科夫条件随机场模型,候选路径(S,Y)的条件概率P(S,Y|X)表示为:
[0062]
[0063] 其中c表示随机场中的最大团,Y。表示c的类别,WJX,Yc)为定义在c上的势函 数,归一化因子Z(X)是网格中所有候选路径的势函数之和,E(X,S,Y)表示能量函数:
[0064]
[0065]fk(H)是定义在c上的第k个特征函数,分别用来描述部件分类模型、音节内 字符之间的一元和二元特征函数、字符内部件之间的一元和二元特征函数、基于字符的语 言模型和基于部件的语言模型。基于半马尔科夫条件随机场的分割假设验证方法通过权值 将各个子模型集成到一个统一识别框架下,权值Xk以及各个子模型的参数采用基于最 小化负对数似然度损失函数的准则训练得到。
[0066] ⑷识别输出
[0067] 基于步骤(3)得到的部件串的分割假设验证结果,查看音节的字符串表示词典以 及字符的部件串表示词典,可以得到音节内包括的字符类别,从而确定输入的藏文
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1