一种获得识别模型的方法及装置的制造方法

文档序号：9727806阅读：402来源：国知局

一种获得识别模型的方法及装置的制造方法
【技术领域】
[0001] 本申请涉及手写识别技术领域，尤其涉及一种获得识别模型的方法及装置。
【背景技术】
[0002] 随着信息技术的迅猛发展以及智能触屏类的移动终端设备日益普及，新的智能人机交互应用日新月异。手写输入作为最常见、最主流的人机交互方式之一，其特点在于操作方便、识别正确率高，适用于各类人群，特别是文化程度不高、不能较好掌握拼音的人群。因此，手写输入方式得到了越来越多用户的青睐。
[0003] 目前手写识别系统主要采用基于数据驱动的方法，通过大量采集真实的样本数据，利用样本数据进行模型训练获得手写识别模型，以实现字符的区分。显然，手写识别系统性能和样本数据密切相关，样本数据覆盖面越广、内容越丰富则系统性能越好。然而，样本数据的收集、标注往往需耗费较大的人力、财力。特别是少数民族语言的数据采集工作更是困难重重，如藏语、维吾尔语等少数民族的手写样本数据。显然，若训练样本数据较为匮乏，则手写识别系统容易产生过拟合问题，从而导致识别准确率较低。

【发明内容】

[0004] 为解决上述技术问题，本申请实施例提供一种获得识别模型的方法及装置，能够有效增加样本数据，提高识别准确率。技术方案如下：
[0005] -方面，提供一种获得识别模型的方法，包括：
[0006] 获得样本数据；
[0007] 对所述样本数据进行弹性形变和/或随机形变获得形变样本数据；
[0008] 利用所述样本数据及所述形变样本数据进行模型训练，获得识别模型。
[0009] 进一步，所述对所述样本数据进行弹性形变获得形变样本数据包括：
[0010] 在所述样本数据的作用区域内确定至少一个随机点；所述作用区域为所述样本数据所占据的区域；
[0011] 计算所述随机点对所述作用区域内所述样本数据上的样本点的牵引力；
[0012] 根据所述牵引力对所述作用区域内的所述样本点进行位置修正，获得形变样本占.
[0013] 根据所述形变样本点确定形变样本数据。
[0014] 进一步，所述在所述样本数据的作用区域内确定至少一个随机点，包括：
[0015] 计算所述样本数据的长宽比；
[0016] 根据所述长宽比将所述样本数据的作用区域划分为至少两个子区域；
[0017] 在各所述子区域内分别确定一个随机点；
[0018] 所述计算所述随机点对所述作用区域内所述样本数据上的样本点的牵引力，包括：
[0019] 计算所述随机点对其所在的所述子区域内所述样本数据上的样本点的牵引力。
[0020] 进一步，所述对所述样本数据进行随机形变获得形变样本数据包括：
[0021] 对所述样本数据上的每个样本点依次生成单位随机向量；
[0022] 对所述单位随机向量进行平滑处理和归一化处理；
[0023] 根据处理后的所述单位随机向量分别对其对应的样本点进行修正，获得形变样本占.
[0024] 根据所述形变样本点确定形变样本数据。
[0025] 进一步，在对所述样本数据进行弹性形变和/或随机形变获得形变样本数据之后，还包括：
[0026] 对所述形变样本数据进行筛选；
[0027] 所述利用所述样本数据及所述形变样本数据进行模型训练，获得识别模型，包括：
[0028] 利用所述样本数据及筛选后的所述形变样本数据进行模型训练，获得识别模型。
[0029] 进一步，所述对所述形变样本数据进行筛选，包括：
[0030] 利用预建识别模型对所述形变样本数据进行识别；所述预建识别模型为预先根据所述样本数据进行模型训练获得的；
[0031] 将识别错误且位于前N个候选的形变样本数据作为筛选后的形变样本数据，N为预设候选数量阈值。
[0032] 进一步，所述对所述形变样本数据进行筛选，包括：
[0033] 分别提取所述形变样本数据的第一特征向量及所述样本数据对应的标准数据的第二特征向量；
[0034] 计算所述第一特征向量与所述第二特征向量的距离；
[0035] 将所述距离小于预设距离阈值的形变样本数据作为筛选后的形变样本数据。
[0036] 进一步，所述利用所述样本数据及所述形变样本数据进行模型训练，获得识别模型，包括：
[0037] 设置所述形变样本数据的权重；
[0038] 利用所述样本数据及占有不同权重的所述形变样本数据进行模型训练，获得识别模型。
[0039] 进一步，所述设置所述形变样本数据的权重，包括：
[0040] 分别提取所述形变样本数据的第一特征向量及所述样本数据对应的标准数据的第二特征向量；
[0041] 计算所述第一特征向量与所述第二特征向量的距离；
[0042] 根据所述距离设置所述形变样本数据的权重，其中，所述距离越大的形变样本数据权重越小。
[0043] 另一方面，提供一种获得识别模型的装置，包括：
[0044] 数据获取单元，用于获得样本数据；
[0045] 数据形变单元，用于对所述样本数据进行弹性形变和/或随机形变获得形变样本数据；
[0046] 模型训练单元，用于利用所述样本数据及所述形变样本数据进行模型训练，获得识别模型。
[0047] 进一步，所述数据形变单元包括：
[0048] 选取子单元，用于在所述样本数据的作用区域内确定至少一个随机点；所述作用区域为所述样本数据所占据的区域；
[0049] 计算子单元，用于计算所述随机点对所述作用区域内所述样本数据上的样本点的牵引力；
[0050] 第一修正子单元，用于根据所述牵引力对所述作用区域内的所述样本点进行位置修正，获得形变样本点；
[0051] 第一数据确定子单元，用于根据所述形变样本点确定形变样本数据。
[0052] 进一步，所述选取子单元包括：
[0053] 第一计算子单元，用于计算所述样本数据的长宽比；
[0054] 划分子单元，用于根据所述长宽比将所述样本数据的作用区域划分为至少两个子区域；
[0055] 确定子单元，用于在各所述子区域内分别确定一个随机点；
[0056] 所述计算子单元，具体用于计算所述随机点对其所在的所述子区域内所述样本数据上的样本点的牵引力。
[0057] 进一步，所述数据形变单元包括：
[0058] 生成子单元，用于对所述样本数据上的每个样本点依次生成单位随机向量；
[0059] 处理子单元，用于对所述单位随机向量进行平滑处理和归一化处理；
[0060] 第二修正子单元，用于根据处理后的所述单位随机向量分别对其对应的样本点进行修正，获得形变样本点；
[0061] 第二数据确定子单元，用于根据所述形变样本点确定形变样本数据。
[0062] 进一步，所述装置还包括：
[0063] 筛选单元，用于在所述数据形变单元获得形变样本数据之后，对所述形变样本数据进行筛选；
[0064] 所述模型训练单元，具体用于利用所述样本数据及筛选后的所述形变样本数据进行模型训练，获得识别模型。
[0065] 进一步，所述筛选单元包括：
[0066] 识别子单元，用于利用预建识别模型对所述形变样本数据进行识别；所述预建识别模型为预先根据所述样本数据进行模型训练获得的；
[0067] 第一选择子单元，用于将识别错误且位于前N个候选的形变样本数据作为筛选后的形变样本数据，N为预设候选数量阈值。
[0068] 进一步，所述筛选单元包括：
[0069] 第一提取子单元，用于分别提取所述形变样本数据的第一特征向量及所述样本数据对应的标准数据的第二特征向量；
[0070] 第一距离计算子单元，用于计算所述第一特征向量与所述第二特征向量的距离；
[0071] 第二选择子单元，用于将所述距离小于预设距离阈值的形变样本数据作为筛选后的形变样本数据。
[0072] 进一步，所述模型训练单元包括：
[0073] 权重设置子单元，用于设置所述形变样本数据的权重；
[0074] 训练子单元，用于利用所述样本数据及占有不同权重的所述形变样本数据进行模型训练，获得识别模型。
[0075] 进一步，所述权重设置子单元包括：
[0076] 第二提取子单元，用于分别提取所述形变样本数据的第一特征向量及所述样本数据对应的标准数据的第二特征向量；
[0077] 第二距离计算子单元，用于计算所述第一特征向量与所述第二特征向量的距离；
[0078] 设置子单元，用于根据所述距离设置所述形变样本数据的权重，其中，所述距离越大的形变样本数据权重越小。
[0079] 本发明实施例至少具有以下有益效果：
[0080] 本发明实施例通过对少量样本数据进行形变获得形变样本数据来扩充数据量，从而可以以大量样本数据为基础构建得到对应的手写识别模型，该方法有效增加了样本数据量，较好地解决了因样本数据量匮乏而导致的识别模型不稳定，识别准确率低的问题，尤其对于少数民族语言，如藏语维吾尔语等，手写识别样本难以采集造成的手写识别模型构建问题。本方法通过自动生成形变样本数据，极大地减少了收集手写样本的人力成本，提高了手写识别系统的性能，进而提高了识别准确率。
【附图说明】
[0081] 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0082]

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴嘉嘉;竺博;何婷婷;乔玉平;魏思;胡国平;胡郁;刘庆峰;
技术所有人：科大讯飞股份有限公司;
我是此专利的发明人

上一篇：一种描红临摹笔迹识别的方法及系统的制作方法
上一篇：一种前景物体检测方法和设备的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。