一种获得识别模型的方法及装置的制造方法

文档序号:9727806阅读:402来源:国知局
一种获得识别模型的方法及装置的制造方法
【技术领域】
[0001] 本申请涉及手写识别技术领域,尤其涉及一种获得识别模型的方法及装置。
【背景技术】
[0002] 随着信息技术的迅猛发展以及智能触屏类的移动终端设备日益普及,新的智能人 机交互应用日新月异。手写输入作为最常见、最主流的人机交互方式之一,其特点在于操作 方便、识别正确率高,适用于各类人群,特别是文化程度不高、不能较好掌握拼音的人群。因 此,手写输入方式得到了越来越多用户的青睐。
[0003] 目前手写识别系统主要采用基于数据驱动的方法,通过大量采集真实的样本数 据,利用样本数据进行模型训练获得手写识别模型,以实现字符的区分。显然,手写识别系 统性能和样本数据密切相关,样本数据覆盖面越广、内容越丰富则系统性能越好。然而,样 本数据的收集、标注往往需耗费较大的人力、财力。特别是少数民族语言的数据采集工作更 是困难重重,如藏语、维吾尔语等少数民族的手写样本数据。显然,若训练样本数据较为匮 乏,则手写识别系统容易产生过拟合问题,从而导致识别准确率较低。

【发明内容】

[0004] 为解决上述技术问题,本申请实施例提供一种获得识别模型的方法及装置,能够 有效增加样本数据,提高识别准确率。技术方案如下:
[0005] -方面,提供一种获得识别模型的方法,包括:
[0006] 获得样本数据;
[0007] 对所述样本数据进行弹性形变和/或随机形变获得形变样本数据;
[0008] 利用所述样本数据及所述形变样本数据进行模型训练,获得识别模型。
[0009] 进一步,所述对所述样本数据进行弹性形变获得形变样本数据包括:
[0010] 在所述样本数据的作用区域内确定至少一个随机点;所述作用区域为所述样本数 据所占据的区域;
[0011] 计算所述随机点对所述作用区域内所述样本数据上的样本点的牵引力;
[0012] 根据所述牵引力对所述作用区域内的所述样本点进行位置修正,获得形变样本 占.
[0013] 根据所述形变样本点确定形变样本数据。
[0014] 进一步,所述在所述样本数据的作用区域内确定至少一个随机点,包括:
[0015] 计算所述样本数据的长宽比;
[0016] 根据所述长宽比将所述样本数据的作用区域划分为至少两个子区域;
[0017] 在各所述子区域内分别确定一个随机点;
[0018] 所述计算所述随机点对所述作用区域内所述样本数据上的样本点的牵引力,包 括:
[0019] 计算所述随机点对其所在的所述子区域内所述样本数据上的样本点的牵引力。
[0020] 进一步,所述对所述样本数据进行随机形变获得形变样本数据包括:
[0021] 对所述样本数据上的每个样本点依次生成单位随机向量;
[0022] 对所述单位随机向量进行平滑处理和归一化处理;
[0023] 根据处理后的所述单位随机向量分别对其对应的样本点进行修正,获得形变样本 占.
[0024] 根据所述形变样本点确定形变样本数据。
[0025] 进一步,在对所述样本数据进行弹性形变和/或随机形变获得形变样本数据之 后,还包括:
[0026] 对所述形变样本数据进行筛选;
[0027] 所述利用所述样本数据及所述形变样本数据进行模型训练,获得识别模型,包 括:
[0028] 利用所述样本数据及筛选后的所述形变样本数据进行模型训练,获得识别模型。
[0029] 进一步,所述对所述形变样本数据进行筛选,包括:
[0030] 利用预建识别模型对所述形变样本数据进行识别;所述预建识别模型为预先根据 所述样本数据进行模型训练获得的;
[0031] 将识别错误且位于前N个候选的形变样本数据作为筛选后的形变样本数据,N为 预设候选数量阈值。
[0032] 进一步,所述对所述形变样本数据进行筛选,包括:
[0033] 分别提取所述形变样本数据的第一特征向量及所述样本数据对应的标准数据的 第二特征向量;
[0034] 计算所述第一特征向量与所述第二特征向量的距离;
[0035] 将所述距离小于预设距离阈值的形变样本数据作为筛选后的形变样本数据。
[0036] 进一步,所述利用所述样本数据及所述形变样本数据进行模型训练,获得识别模 型,包括:
[0037] 设置所述形变样本数据的权重;
[0038] 利用所述样本数据及占有不同权重的所述形变样本数据进行模型训练,获得识别 模型。
[0039] 进一步,所述设置所述形变样本数据的权重,包括:
[0040] 分别提取所述形变样本数据的第一特征向量及所述样本数据对应的标准数据的 第二特征向量;
[0041] 计算所述第一特征向量与所述第二特征向量的距离;
[0042] 根据所述距离设置所述形变样本数据的权重,其中,所述距离越大的形变样本数 据权重越小。
[0043] 另一方面,提供一种获得识别模型的装置,包括:
[0044] 数据获取单元,用于获得样本数据;
[0045] 数据形变单元,用于对所述样本数据进行弹性形变和/或随机形变获得形变样本 数据;
[0046] 模型训练单元,用于利用所述样本数据及所述形变样本数据进行模型训练,获得 识别模型。
[0047] 进一步,所述数据形变单元包括:
[0048] 选取子单元,用于在所述样本数据的作用区域内确定至少一个随机点;所述作用 区域为所述样本数据所占据的区域;
[0049] 计算子单元,用于计算所述随机点对所述作用区域内所述样本数据上的样本点的 牵引力;
[0050] 第一修正子单元,用于根据所述牵引力对所述作用区域内的所述样本点进行位置 修正,获得形变样本点;
[0051] 第一数据确定子单元,用于根据所述形变样本点确定形变样本数据。
[0052] 进一步,所述选取子单元包括:
[0053] 第一计算子单元,用于计算所述样本数据的长宽比;
[0054] 划分子单元,用于根据所述长宽比将所述样本数据的作用区域划分为至少两个子 区域;
[0055] 确定子单元,用于在各所述子区域内分别确定一个随机点;
[0056] 所述计算子单元,具体用于计算所述随机点对其所在的所述子区域内所述样本数 据上的样本点的牵引力。
[0057] 进一步,所述数据形变单元包括:
[0058] 生成子单元,用于对所述样本数据上的每个样本点依次生成单位随机向量;
[0059] 处理子单元,用于对所述单位随机向量进行平滑处理和归一化处理;
[0060] 第二修正子单元,用于根据处理后的所述单位随机向量分别对其对应的样本点进 行修正,获得形变样本点;
[0061] 第二数据确定子单元,用于根据所述形变样本点确定形变样本数据。
[0062] 进一步,所述装置还包括:
[0063] 筛选单元,用于在所述数据形变单元获得形变样本数据之后,对所述形变样本数 据进行筛选;
[0064] 所述模型训练单元,具体用于利用所述样本数据及筛选后的所述形变样本数据进 行模型训练,获得识别模型。
[0065] 进一步,所述筛选单元包括:
[0066] 识别子单元,用于利用预建识别模型对所述形变样本数据进行识别;所述预建识 别模型为预先根据所述样本数据进行模型训练获得的;
[0067] 第一选择子单元,用于将识别错误且位于前N个候选的形变样本数据作为筛选后 的形变样本数据,N为预设候选数量阈值。
[0068] 进一步,所述筛选单元包括:
[0069] 第一提取子单元,用于分别提取所述形变样本数据的第一特征向量及所述样本数 据对应的标准数据的第二特征向量;
[0070] 第一距离计算子单元,用于计算所述第一特征向量与所述第二特征向量的距离;
[0071] 第二选择子单元,用于将所述距离小于预设距离阈值的形变样本数据作为筛选后 的形变样本数据。
[0072] 进一步,所述模型训练单元包括:
[0073] 权重设置子单元,用于设置所述形变样本数据的权重;
[0074] 训练子单元,用于利用所述样本数据及占有不同权重的所述形变样本数据进行模 型训练,获得识别模型。
[0075] 进一步,所述权重设置子单元包括:
[0076] 第二提取子单元,用于分别提取所述形变样本数据的第一特征向量及所述样本数 据对应的标准数据的第二特征向量;
[0077] 第二距离计算子单元,用于计算所述第一特征向量与所述第二特征向量的距离;
[0078] 设置子单元,用于根据所述距离设置所述形变样本数据的权重,其中,所述距离越 大的形变样本数据权重越小。
[0079] 本发明实施例至少具有以下有益效果:
[0080] 本发明实施例通过对少量样本数据进行形变获得形变样本数据来扩充数据量,从 而可以以大量样本数据为基础构建得到对应的手写识别模型,该方法有效增加了样本数据 量,较好地解决了因样本数据量匮乏而导致的识别模型不稳定,识别准确率低的问题,尤其 对于少数民族语言,如藏语维吾尔语等,手写识别样本难以采集造成的手写识别模型构建 问题。本方法通过自动生成形变样本数据,极大地减少了收集手写样本的人力成本,提高了 手写识别系统的性能,进而提高了识别准确率。
【附图说明】
[0081] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
[0082]
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1