一种联机手写维吾尔文单词数据增强方法与流程

文档序号:15689128发布日期:2018-10-16 21:40阅读:187来源:国知局

本发明属于手写识别技术领域,涉及一种联机手写维吾尔文单词数据增强方法,具体地说,涉及一种基于多种算法结合的联机手写维吾尔文单词数据增强方法。



背景技术:

手写识别是模式识别以及机器学习领域中的热题。随着机器学习研究的进步,用机器学习算法来构造和训练手写识别模型已经成为手写识别领域的普遍方法。在机器学习研究中,训练数据量越大,训练出来的模型泛化能力往往会越强。这种情况在深度学习研究中更为明显。数据量的大小是直接影响深度模型泛化能力的重要因素。数据量的大小直接联系到数据的表示能力。收集的数据量越大能包含的样本变化越多,越接近于实际情况。在手写识别研究中,收集大量手写样本往往需要的大量的人力和财力,是一个很困难而且漫长的过程。手写数据增强用少量的原始手写数据来构造更多的伪造样本,从而增加数据量并提高数据表示能力,是减轻或弥补数据缺少问题的一种有效途径。

手写识别有两大类,联机手写识别和脱机手写识别。联机和脱机手写识别对象的数据表示和存储方式有所不同。联机手写识别在手写过程中记录下来的手写轨迹上进行分析和识别;脱机手写识别则对手写完成之后的图像信息上进行处理和识别。简单地说,联机手写识别的对象是带有时间顺序的手写轨迹点序列;脱机手写识别的对象一般是只有空间信息的图像。由于联机手写数据和脱机手写数据的表示方式不同,其对应的数据增强技术和方法也有所区别。脱机手写数据增强方法可以直接采用普遍的图像数据增强技术,比如,图像旋转,尺寸和位置变换,加噪声等。根据手写样本的特性,还可以用更有效的数据增强方法。

联机手写数据是表示真实手写过程的非常好的方法。跟脱机手写数据相比,联机手写数据包含的信息更多。联机手写样本一般带有手写轨迹中每一点按时间前后顺序和坐标,样本总笔画数、笔画分界点,笔画顺序以及每一个点所属于的笔画等信息。通过这些信息不仅能够如实观察实际手写过程的属性,而且为手写数据增强提供更好的条件。本发明根据维吾尔文联机手写单词书写特性,提出多种手写数据增强技术结合应用的方法,构造更多有效的伪造样本,减轻手写单词数据短缺的问题。

目前使用的现代维吾尔文是在阿老伯和部分波斯字母基础上适应维吾尔语特性的拼音文字。现代维吾尔文有32个基本字母类型,其中有24个辅音和8个元音。每个字母类型在单词中不同的位置用不同的字母形式,比如前连式、后连式、双连式和独立式等。手写是充满多样性和随机性的过程。每个人都有各自的手写风格,而且在不同的环境中会有变化,导致同一个字母或单词能写成的样式多种多样。下面以维吾尔文单词为例,简单分析一下手写过程的一些属性。

a)手写样本轨迹中点顺序和笔画顺序有随机性

为同一个单词收集的联机手写样本不仅在总体形状上有区别,而且在手写轨迹中每一点出现的前后顺序都不同。这种情况在各笔画的前后顺序上发生得更明显。手写轨迹中构成样本主体的笔画叫做主笔画,放在主体的上下边并起区分性作用的笔画叫做延迟笔画或次笔画。主体笔画的序列长度和形状比较大,延迟笔画则相比起来比较短小甚至只包含一个点。有时候,这种情况也不一定。某个人根据他的书写风格可能首先写长度大的主要笔画,然后去写其它较小的笔画或者用相反的顺序。在手写过程中,哪个主笔画先写或者哪个延迟笔画后写是很难预定的。

b)每个笔画有不同程度的倾斜情况

除了顺序的随机性以外,每个笔画的形状可能有不同程度的倾斜情况。手写单词中某些字母的主体部分直接一个笔画连写的情况很常见。这些连写的大笔画和其对应的延迟笔画叫做连体段。某一个字母的主体部分在不同的连体段中形成的倾斜度有不同。很多书写者在写完了整体单词或单词总某个连体段的主体部分之后再去补写需要的延迟笔画。因延迟笔画较小,延迟笔画形成的倾斜度更有随机性。

c)整体样本有不同程度的倾斜情况

整体样本的倾斜情况在拼音文字的单词手写过程中经常遇见。单词包含的字母数越多,整体倾斜度会越明显。整体样本形成倾斜度的情况跟个人手写风格,手写环境,书写着的手写姿势有关。同时,也会受书写者在手写过程中的心里和生理因素的影响。整体样本的倾斜情况主要表现为开段高后段低或者相反。

d)整体样本以及每个笔画的长度有随机性

联机手写样本的长度一般用它包含的轨迹点数来表示,叫做轨迹长度。同一个单词或字母的手写样本在轨迹长度上的随机性不需解释的普遍情况。手写单词中每一个笔画的轨迹长度也因例而变。这种情况不仅仅有关于手写采集设备的物理特性,还归因于书写者的手写速度,手写时用的力度和态度等主观因素。比如,书写者有时候非常认真得写,有时候写得很随便;在写某一个单词过程中可能突然慢下来,导致对应部分的轨迹点分布很密,甚至某些点被重复记录下来。

e)样本在手写板上写的位置有随机性

在手写样本收集过程中,如果没有明确限制,书写者每一次写的手写屏幕位置大不相同。虽然样本位置的变化对样本形状的影响不大,但过度依靠屏幕框边写的样本可能会产生一些重复点和噪声点。

众多因素会影响联机手写样本的实际点轨迹和形状,导致手写样本可能形成的样式无穷。手写样本的多种变化属性看起来增大手写识别研究的难度,但同时为手写数据增强提供了非常好的着手点。

既然联机手写数据和脱机手写数据的表示方式不同,应该采用适合并能够充分利用数据信息的方法来进行数据增强。在图像数据增强方面的很多技术可以应用于脱机手写数据增强,比如图像旋转以及各种变换。联机手写数据同时提供手写样本的空间信息和时间信息。可以选择和采用的数据增强技术更加丰富,数据增强的效果更好。但实际应用中应该注意各种文字的书写特性。下面以维吾尔文手写单词为例,分析几种经典联机手写数据增强方法对手写样本带来的效果和影响。

a)笔画丢弃

实际手写过程难免发生有些笔画的缺失。笔画丢弃通过随机丢弃原始轨迹中的一些笔画来逼近实际手写过程。这种情况虽然影响手写样本的质量,样本总体还会有可读性,同样可以利用。有时候某个笔画的缺失会让一个样本所属的类别变化,而且不能预先知道变成哪个类别,导致原始数据分布不均匀,标签错误率高。维吾尔文单词对其延迟笔画的变化十分敏感,笔画丢弃的方法很显然不符合维吾尔文手写单词数据增强。

b)轨迹段丢弃

手写过程总书写者色手写速度很难保持平稳。再加上手的颤抖等生理状况容易产生点分布不均匀的手写样本轨迹。在样本轨迹中有些分段稀疏,相邻点之间的距离很大。根据以上属性,通过丢弃原始手写样本轨迹中的某些分段来模仿实际手写过程,叫做分段丢弃。分段丢弃比笔画丢弃更适合实际情况,具有通用性。但分段丢弃对延迟笔画敏感的文种来说还是有局限性。

c)轨迹点丢弃

按照某种比例对手写轨迹中的点进行随机丢弃的方式来逼近真实手写样本的属性,可以更方便地制造更多伪造样本。这种方法可以简单地被称为轨迹点丢弃方法。跟以上两种丢弃方案相比,轨迹点丢弃方法具有通用性,实现也简单。所以在深度学习领域中得到了普遍应用。采用轨迹点丢弃方法的获得的伪造样本跟原始样本总体形状上的差别不大。这可能是它的一个缺点。在延迟笔画敏感的文字上采用轨迹点丢弃方法的时候还是要小心,因为此方法可能丢弃那些只有一个点组成的延迟笔画,导致样本所属类型的变化。有些方法如果直接应用于整体手写单词轨迹会导致不理想的结果。



技术实现要素:

本发明的目的在于提供一种联机手写维吾尔文单词数据增强方法。该方法根据维吾尔文单词的手写特性,借鉴脱机和联机手写数据增强方法,本发明提出或采用的数据增强算法分别在个别笔画和整体样本上实现。

其具体技术方案为:

一种联机手写维吾尔文单词数据增强方法,包括以下步骤:

步骤1、笔画轨迹长度随机变化

以额定长度的轨迹分段为单位访问手写样本轨迹。如果当前分段是横向平直分段,把这个分段右边的样本轨迹坐标以随机长度往右平移。最后,对样本轨迹进行轨迹点插入来弥补平移后产生的轨迹空隙。

轨迹分段平直性判断方法是:首先用公式(1)和(2)计算分段的两头和中点形成的转折角度。然后,用公式(3)计算该分段两头对于横轴形成的倾斜角度。如果转折角度和倾斜角度符合额定平直判断条件,则该分段被认为横向平直分段;

a=|b-c|,b=|a-c|,c=|a-b|(1)

其中,a,b,c分别为轨迹分段的起点,中点和终点。a,b,c是由a,b,c形成的三角形的对应边长,∠b和∠o是该轨迹段的中心转折角度和对于横轴的倾斜角度。

步骤2、笔画轨迹弹性变换

2.1本文采用的笔画轨迹弹性变换把轨迹分段随机旋转的方法来实现。分段长度和旋转的角度取值范围要相互配合。分段长度过长或旋转角度过大会破坏原始样本的形状,伪造样本的可读性不好甚至所属类别变化;如果选的太小则轨迹变换的效果不明显。轨迹分段的旋转用公式(4)和(5)实现。

其中,(xi,yi)和(xrot,yrot)是原始和变换以后的点坐标,n是轨迹段长度,(xc,yc)是旋转中心,θ是旋转角度(弧度)。分段长度小的时候,选用轨迹段终点或起点作为旋转中心的弹性变换效果比较明显。

2.2多级轨迹弹性变换

在手写轨迹上用不同的分段长度和旋转角度多次进行轨迹弹性变换来实现多级轨迹弹性变换。调好各级相关参数的多级轨迹弹性变换比简单轨迹弹性变换效果更明显。分段长度调大的时候,旋转角度的范围要小一点;分段长度调小则可以加大旋转角度范围。手写轨迹的弹性变换在原始轨迹上产生轨迹间断或空隙。所以,轨迹弹性变换以后要采用轨迹点插入等方法来弥补所造成的轨迹不均匀情况。

步骤3、笔画轨迹随机旋转

在这一步中,在手写样本轨迹中的每一个笔画为单词进行随机旋转。笔画轨迹旋转公式如步骤2公式(4)和公式(5)所示。旋转中心是笔画轨迹的重点,即笔画轨迹中所有点坐标的平均值。旋转角度的范围小一点就行,否则在较长的笔画轨迹旋转后出现异常。也可以考虑对不同长度的笔画采用不同幅度为旋转角度。

步骤4、整体样本随机倾斜化

采用的倾斜化操作通过对样本轨迹或形状进行随机错切变换来实现。错切变换只对一个坐标进行变换,另一个坐标却保持不变。手写轨迹进行错切变换之后的点坐标用公式(6)计算。

x=x+y·tan(θ),y=y(6)

其中(x,y)和(x,y)分别是错切变换以前和以后的点坐标。θ是错切变换角度。

步骤5、整体样本随机旋转

最后,对整体样本轨迹或形状进行随机旋转来模仿实际手写中的总体基线倾斜化的情况。对总体样本轨迹的倾斜化还是用步骤2中的公式(4)和公式(5)所示。来实现。选用的旋转中心是总体样本轨迹的重点。旋转角度的范围可以大一些。

步骤6、笔画轨迹随机点丢弃

为了避免一些非常小但有区分性作用的延迟笔画的失去,在笔画轨迹上进行随机轨迹点丢弃,轨迹点丢弃用一定的比例对原始轨迹点序列进行丢弃或选取,采用把丢弃比例的选用也为随机化,更加逼近实际手写过程,根据具体情况可以相应调整丢弃比例的范围。

进一步,在手写轨迹随机变长算法中符合轨迹段转折角度>120°和倾斜角度<20°的条件的轨迹分段被判为横向平直分段。选用的分段长度为5,样本轨迹平移长度是分段长度的1~5倍之间随机选用的。本发明对笔画轨迹进行了两级轨迹弹性变换。首先用较长的轨迹分段上做了较小的旋转,旋转中心为轨迹分段的重点,分度长度为20,旋转角度范围是[-10°,10°].然后用较短的轨迹段和较大的旋转角度,分别为5和[-15°,15°]。笔画轨迹随机旋转的旋转角度范围是[-5°,5°].用[-45°,45°]范围的错切变换角度实现了整体样本的横向倾斜化。轨迹点丢弃中的随机丢弃比例可选范围是(0,2~0.4).对手写轨迹整体的随机旋转角度在[-10°,10°]之间。

与现有技术相比,本发明的有益效果:

本发明结合使用多种数据增强算法来提高数据增强的总体性能并在联机手写维吾尔文单词上实现。考虑到维吾尔文单词对延迟笔画十分敏感,部分增强方法在笔画轨迹上进行,避免了丢失长度很小的延迟笔画。在很多联机手写单词样本上的测试表明本发明提出的多种增强方法结合应用的方法大幅度提高了总体数据增强效果。用本发明提出的方案很容易构造出跟原始样本不同风格的伪造样本,很大程度上可以解决很多机器学习研究中的数据缺少的问题。

附图说明

图1为多种数据增强算法结合应用框图;

图2为分段转折角度和倾斜角度;

图3为错切变换原理;

图4为手写轨迹随机变长效果,其中,图4(a)原始样本和平直分段,图4(b)轨迹分段平移以后,图4(c)轨迹点插入以后;

图5为手写单词轨迹各数据增强阶段的变化,图5(a)原始样本,图5(b)轨迹随机变长以后,图5(c)笔画轨迹弹性变换和旋转以后,图5(d)整体倾斜化以后,图5(e)整体轨迹旋转以后,图5(f)笔画轨迹点丢弃以后;

图6为联机手写维吾尔单词数据增强效果,其中,图6(a)原始样本,图6(b)数据增强以后的伪造样本。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步详细地说明。

1.基于多种算法结合的维吾尔文联机手写数据增强方法

如图1中所示。按照不同数据增强方法的优缺点,本发明提出或采用的数据增强算法分别在个别笔画和整体样本上实现。

1.1笔画轨迹长度随机变化

手写单词轨迹中平直的分段的变化是最容易改变样本轨迹长度,以及整体样本形状的宽度和高度。在维吾尔文手写单词中,横向平直分段的变化比纵向平直分段变化对整体样本更有影响力。所以,本发明只对轨迹中横向平直分段进行随机长度变化。本发明提出的轨迹长度随机变化算法逐笔画进行,简单描述如下:

以额定长度的轨迹分段为单位访问手写样本轨迹。如果当前分段是横向平直分段,把这个分段右边的样本轨迹坐标以随机长度往右平移。最后,对样本轨迹进行轨迹点插入来弥补平移后产生的轨迹空隙,见图4.(b)和(c)。其中,轨迹分段平直性判断方法是:首先用公式(1)和(2)计算分段的两头和中点形成的转折角度。然后,用公式(3)计算该分段两头对于横轴形成的倾斜角度。如果转折角度和倾斜角度符合额定平直判断条件,则该分段被认为横向平直分段,见图2。

a=|b-c|,b=|a-c|,c=|a-b|(1)

其中,a,b,c分别为轨迹分段的起点,中点和终点。a,b,c是由a,b,c形成的三角形的对应边长,∠b和∠o是该轨迹段的中心转折角度和对于横轴的倾斜角度。

1.2.笔画轨迹弹性变换

1.2.1笔画轨迹弹性变换

本发明采用的笔画轨迹弹性变换把轨迹分段随机旋转的方法来实现。分段长度和旋转的角度取值范围要相互配合。分段长度过长或旋转角度过大会破坏原始样本的形状,伪造样本的可读性不好甚至所属类别变化;如果选的太小则轨迹变换的效果不明显。轨迹分段的旋转用公式(4)和(5)实现。

其中,(xi,yi)和(xrot,yrot)是原始和变换以后的点坐标,n是轨迹段长度,(xc,yc)是旋转中心,θ是旋转角度(弧度)。分段长度小的时候,选用轨迹段终点或起点作为旋转中心的弹性变换效果比较明显。

1.2.2多级轨迹弹性变换

在手写轨迹上用不同的分段长度和旋转角度多次进行轨迹弹性变换来实现多级轨迹弹性变换。调好各级相关参数的多级轨迹弹性变换比简单轨迹弹性变换效果更明显。分段长度调大的时候,旋转角度的范围要小一点;分段长度调小则可以加大旋转角度范围。手写轨迹的弹性变换在原始轨迹上产生轨迹间断或空隙。所以,轨迹弹性变换以后要采用轨迹点插入等方法来弥补所造成的轨迹不均匀情况。

1.3.笔画轨迹随机旋转

在这一步中,在手写样本轨迹中的每一个笔画为单词进行随机旋转。笔画轨迹旋转公式如公式(4)所示。旋转中心是笔画轨迹的重点,即笔画轨迹中所有点坐标的平均值,用公式公式(4)来计算。旋转角度的范围小一点就行,否则在较长的笔画轨迹旋转后出现异常。也可以考虑对不同长度的笔画采用不同幅度为旋转角度。

1.4.整体样本随机倾斜化

本发明采用的倾斜化通过对样本轨迹或形状进行随机错切变换来实现。错切变换只对一个坐标进行变换,另一个坐标却保持不变。错切变换的原理如图3所示。手写轨迹进行错切变换之后的点坐标用公式(6)计算。

x=x+y·tan(θ),y=y(6)

其中(x,y)和(x,y)分别是错切变换以前和以后的点坐标。θ是错切变换角度。

1.5.整体样本随机旋转

最后,对整体样本轨迹或形状进行随机旋转来模仿实际手写中的总体基线倾斜化的情况。对总体样本轨迹的倾斜化还是用公式(4)和公式(5)来实现。选用的旋转中心是总体样本轨迹的重点。旋转角度的范围可以大一些。

1.6.笔画轨迹随机点丢弃(抽样)

为了避免一些非常小但有区分性作用的延迟笔画的失去,本发明在笔画轨迹上进行随机轨迹点丢弃。一般,轨迹点丢弃用一定的比例对原始轨迹点序列进行丢弃或选取。本发明采用把丢弃比例的选用也为随机化,更加逼近实际手写过程。根据具体情况可以相应调整丢弃比例的范围。

2联机手写数据增强效果分析

本发明结合应用多种数据增强方法提高联机手写数据增强效果。本发明在联机手写维吾尔文单词上实现和测试了此结合方案的有效性。考虑到维吾尔文对延迟笔画的变换非常敏感,本发明提出和采用的手写数据增强方法逐笔画进行,避免了丢失一些具有区分能力的延迟笔画。

本发明提出的手写轨迹随机变长算法中符合轨迹段转折角度>120°和倾斜角度<20°的条件的轨迹分段被判为横向平直分段。选用的分段长度为5,样本轨迹平移长度是分段长度的1~5倍之间随机选用的。图4中显示轨迹随机变长方法在一个手写维吾尔文单词样本轨迹和形状上发生的变化。可以看出,原始样本在轨迹长度和总体样本宽度上都有了明显的变化。

对笔画轨迹进行了两级轨迹弹性变换。首先用较长的轨迹分段上做了较小的旋转,旋转中心为轨迹分段的重点,分度长度为20,旋转角度范围是[-10°,10°].然后用较短的轨迹段和较大的旋转角度,分别为5和[-15°,15°]。笔画轨迹随机旋转的旋转角度范围是[-5°,5°].用[-45°,45°]范围的错切变换角度实现了整体样本的横向倾斜化。轨迹点丢弃中的随机丢弃比例可选范围是(0,2~0.4).对手写轨迹整体的随机旋转角度在[-10°,10°]之间。轨迹随机变长操作以后产生轨迹空隙用轨迹点插入来进行了改善。数据增强完成后对伪造样本轨迹进行了简单去重复点操作。图5中显示一个手写维吾尔文单词样本在各数据增强阶段的变化。

从图5中可以看出,每一阶段采用的数据增强方法在原始手写轨迹中发生了变化。同时保证了伪造样本的可读性和有效性,避免了数据增强过程中丢失延迟笔画和产生额外噪声。各阶段的参数都是随机选用,有时候可能选得很小,导致该阶段上的轨迹变化不太明显,见图5.(c)和(d)。但各阶段同时选用小参数的情况极少,多种数据增强方法结合应用的总体增强效果还是很明显,见图5.(e)和(f)。随着手写数据增强阶段的增加,伪造样本和原始样本之间的差别越来越大,产生了跟原始手写风格根本不一样的单词轨迹和总体形状。这种结果提供了用非常少的原始样本来构造具有不同手写风格的更多伪造样本,大幅度提高了手写数据增强效果。更多手写维吾尔文单词上的数据增强效果在图6中显示。

3.结论

数据增强是解决数据短缺问题的有效方法。通过分析实际手写过程的属性,本发明提出了手写轨迹随机变长算法。借鉴各种手写数据增强方法,本发明结合使用多种数据增强算法来提高数据增强的总体性能并在联机手写维吾尔文单词上实现。考虑到维吾尔文单词对延迟笔画十分敏感,部分增强方法在笔画轨迹上进行,避免了丢失长度很小的延迟笔画。在很多联机手写单词样本上的测试表明本发明提出的多种增强方法结合应用的方法大幅度提高了总体数据增强效果。用本发明提出的方案很容易构造出跟原始样本不同风格的伪造样本,很大程度上可以解决很多机器学习研究中的数据缺少的问题。

以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1