一种获得识别模型的方法及装置的制造方法_2

文档序号:9727806阅读:来源:国知局
图1为本发明实施例一种获得识别模型的方法流程图;
[0083] 图2为本发明实施例中一种对样本数据进行弹性形变获得形变样本数据的方法 流程图;
[0084] 图3为图2所示实施例中选择多个随机点的方法流程图;
[0085] 图4为图3所示实施例中划分的子区域及各子区域内的随机点的示意图;
[0086] 图5为图3所示实施例中产生的牵引力的示意图;
[0087] 图6为对图4所示的样本数据修正后获得的形变样本点的示意图;
[0088] 图7为本发明实施例中一种对样本数据进行随机形变获得形变样本数据的方法 流程图;
[0089] 图8为本发明实施例另一种获得识别模型的方法流程图;
[0090] 图9为本发明实施例中一种对样本数据进行筛选的方法流程图;
[0091] 图10为本发明实施例中另一种对样本数据进行筛选的方法流程图;
[0092] 图11为本发明实施例中进行模型训练获得识别模型的方法流程图;
[0093] 图12为本发明实施例中设置权重的方法流程图;
[0094] 图13为本发明实施例一种获得识别模型的装置的结构示意图;
[0095] 图14为本发明实施例中一种数据形变单元的结构示意图;
[0096] 图15为本发明实施例中另一种数据形变单元的结构示意图;
[0097] 图16为本发明实施例中另一种获得识别模型的装置的结构示意图;
[0098] 图17为本发明实施例中一种筛选单元的结构示意图;
[0099] 图18为本发明实施例中另一种筛选单元的结构示意图;
[0100] 图19为本发明实施例中一种模型训练单元的结构示意图。
【具体实施方式】
[0101] 为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实 施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施 例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通 技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护 的范围。
[0102] 为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本申请作进一步详细的说明。
[0103] 参见图1,为本发明实施例一种获得识别模型的方法流程图。
[0104] 该方法可以包括:
[0105] 步骤101,获得样本数据。
[0106] 首先获得少量的样本数据,例如少数民族语言的手写样本数据。
[0107] 步骤102,对样本数据进行弹性形变和/或随机形变获得形变样本数据。
[0108] 该对样本数据进行形变的过程可以是弹性形变或随机形变,也可以是两种形变的 结合,例如先进行弹性形变再进行随机形变或反之。
[0109] 该对样本数据进行形变的过程包括提取样本数据上的样本点,并对该样本点的位 置或坐标进行修正,由修正后的样本点形成形变样本数据。具体请参见后续实施例的描述。 [0110] 形变生成的形变样本数据量可以根据模型复杂度或由用户预先指定。一般来说字 符模型越复杂,如字符GMM模型中高斯数越多,则需要生成越多的形变样本数据。
[0111] 步骤103,利用样本数据及形变样本数据进行模型训练,获得识别模型。
[0112] 在获得形变样本数据后,即可结合样本数据及形变样本数据进行模型训练获得识 别模型了。该模型训练的过程以及建立识别模型的过程与现有技术类似,此处不再赘述。
[0113] 本发明实施例通过对少量样本数据进行形变获得形变样本数据来扩充数据量,从 而可以以大量样本数据为基础构建得到对应的手写识别模型,该方法有效增加了样本数据 量,较好地解决了因样本数据量匮乏而导致的识别模型不稳定,识别准确率低的问题,尤其 对于少数民族语言,如藏语维吾尔语等,手写识别样本难以采集造成的手写识别模型构建 问题。本方法通过自动生成形变样本数据,极大地减少了收集手写样本的人力成本,提高了 手写识别系统的性能,进而提高了识别准确率。
[0114] 在本发明另一实施例中,在对样本数据进行形变时,均可以首先对样本数据进行 预处理,然后再对预处理后的样本数据进行形变。其中,该预处理可以包括重采样和平滑, 以保证引入的形变对样本数据产生均匀形变的效果。其中,重采样是指在样本数据相邻采 样点之间按照一定的步长重采样;平滑处理具体指对重采样后的采样点作一些数学处理如 加权平均,使得采样点更合理。该重采样和平滑处理与现有技术类似,此处不再赘述。
[0115] 本发明实施例中,在对样本数据进行形变时,一种对样本数据进行弹性形变获得 形变样本数据的方法,如图2所示,可以包括:
[0116] 步骤201,在样本数据的作用区域内确定至少一个随机点。
[0117] 其中,样本数据的作用区域为样本数据所占据的区域,假设采集到的手写的样本 数据在区域[o,w]x[o,h]中,该作用区域即为[0,《]乂[0,1 1],其中《为样本数据的宽度,11 为样本数据的高度。
[0118] 随机点是指在作用域内随机产生一个点,以便确定样本数据的字体笔迹在进行弹 性形变时牵引力的作用方向。
[0119] 如果样本数据的字体笔迹比较简单或作用区域比较小,则可以在作用区域内随机 产生一个随机点,在区间[0,w]中随机生成一个数X,在区间[0,h]中随机生成一个数Y,则 点(X,Y)即是所需随机点。
[0120] 如果样本数据的字体笔迹比较复杂或作用区域比较大时,还可以选择多个随机 点,具体可以设置一定的作用区域阈值或规则来衡量是否需要选择多个随机点。该选择多 个随机点的方法,如图3,图4所示,可以包括:
[0121] 步骤301,计算样本数据的长宽比。
[0122] 该样本数据的长宽比为
[0123] 步骤302,根据长宽比将样本数据的作用区域划分为至少两个子区域。
[0124] 具体的,可以根据长宽比,将样本数据占据的作用区域分成近似正方形的 若干块子区域,如图4所示的子区域41、42。假设ratio彡m时第一块子区域为 [0, min (w, h) ] X [0, min (w, h)],第二块子区域为[min (w, h),2 Xmin (w, h) ] X [0, min (w, h)] …,最后一块子区域为[ratio Xmin (w, h),max (w, h) ] X [0, min (w, h)]。
[0125] 步骤303,在各子区域内分别确定一个随机点。
[0126] 然后按照前述生成随机点的方法在各个子区域内分别确定一个随机点,如图4所 示的随机点43、44。
[0127] 在获得一个或多个随机点后执行步骤202。
[0128] 步骤202,计算随机点对作用区域内样本数据上的样本点的牵引力。
[0129] 其中,样本点可以根据一定的提取算法在样本数据中提取。然后按照如下公式计 算随机点(X,Y)对样本数据的作用区域内各样本点的牵引力;
[0130]
[0131 ] 其中,xn、yn分别为样本点的横、纵坐标。
[0132] 如果上步骤中确定的随机点有多个,则可以按照上述公式分别计算随机点对其所 在子区域内的样本数据上的样本点的牵引力,如图5中箭头所示的牵引力。
[0133] 步骤203,根据牵引力对作用区域内的样本点进行位置修正,获得形变样本点。
[0134] 在获得牵引力d后,根据牵引力对其对应区域内的各样本点进行位置修正,具体 的,如果随机点为一个,则对应计算的牵引力为一个,则应用该牵引力对样本数据的作用区 域内的所有样本点进行位置修正。如果随机点为多个,则对应计算的牵引力也为多个,则分 别应用各牵引力对其对应的各子区域内的样本点进行位置修正。在对样本点修正后获得形 变样本点H,λ,)如图6所示为对图4所示的样本数据修正后获得的形变样本点61。 G
[0135] 形变样本点获取公式
其中,
[0136] 优选的,本案还可以采用自适应调整方法,采取的调整力度计算为
[0137] 其中,boxsize为当前随机点所对应的区域的边长;k为弹性形变系数,用于控制 形变程度的大小,可以根据实验及经验系统预先设置。
[0138] 步骤204,根据形变样本点确定形变样本数据。
[0139] 根据由位置修正后获得的形变样本点, 即可组成形变样本数据。
[0140] 本发明另一实施例中,在对样本数据进行形变时,一种对样本数据进行随机形变 获得形变样本数据的方法,如图7所示,可以包括:
[0141] 步骤701,对样本数据上的每个样本点依次生成单位随机向量。
[0142] 首先通过现有样本点提取方法在样本数据中提取样本点,然后对每个样本点依次 生成单位随机向量(X n,Yn)。
[0143] 具体的,假设样本点坐标为(x^ ,(x2, y2),......,(xN, yN),对标个桂太占处 标相应生成一个单位随机向量(Χη, Υη) (η = 1,2,…,N),生成公式为:
;中sn、tn为(0, 1)之间随机生成的两个数。
[0144] 步骤702,对单位随机向量进行平滑处理和归一化处理。[0145] 其中平滑处理方法具体如下所示:
[0146]
[0147]
[0148] 其中
σ参数用于控制随机形变处理的随机程度,〇 越小,随机性越大,σ越大,随机性越小。
[0149] 平滑向量(足4,)归一化处理,具体方法如下:
[0150]
[0151]
[0152] 步骤703,根据处理后的单位随机向量分别对其对应的样本点进行修正,获得形变 样本点。
[0153] 对样本点(xn,yn)修正获得形变样本点
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1