一种获得识别模型的方法及装置的制造方法_3

文档序号：9727806阅读：来源：国知局

(?，Λ)的具体方法可以为：
[0154]
[0155]
[0156] 其中，α为随机形变系数，此系数控制形变程度的大小，由系统预先设定。[0157] 优选的，本案还可以采用自适应调整方法：
[0158]
[0159]
[0160] 其中，boxsize为当前样本数据的作用区域的边长。
[0161] 步骤704,根据形变样本点确定形变样本数据。
[0162] 根据由位置修正后获得的形变样本点(?η,Λ)即可组成形变样本数据。
[0163] 在本发明的另一实施例中，在对样本数据进行形变时，还可以将弹性形变和随机形变进行结合，例如先按照步骤201~204进行弹性形变，然后再按照步骤701~704进行随机形变，或者反之。
[0164] 通过上述对样本数据的形变处理即可获得丰富的样本数据以进行模型训练。然而，基于形变生成的样本由于带有随机性，能够生成各式各样的样本，其中有些形变样本数据与原有样本数据相似度过大，属于冗余样本；而有些样本产生了畸变，不具备字符特征。对此，还可以增加对形变样本数据进行筛选的步骤，具体如图8所示。
[0165] 参见图8,为本发明实施例另一种获得识别模型的方法流程图。
[0166] 该方法可以包括：
[0167] 步骤801，获得样本数据。
[0168] 步骤802,对样本数据进行弹性形变和/或随机形变获得形变样本数据。
[0169] 步骤801~802与前述实施例中的对应步骤类似，此处不再赘述。
[0170] 步骤803,对形变样本数据进行筛选。
[0171] 其中一种对样本数据进行筛选的方法，如图9所示，可以包括：
[0172] 步骤901，利用预建识别模型对形变样本数据进行识别。
[0173] 预先根据已获得的样本数据进行模型训练获得预建识别模型。然后基于该预建识别模型对上步骤获得的形变样本数据进行识别。
[0174] 步骤902,将识别错误且位于前N个候选的形变样本数据作为筛选后的形变样本数据，N为预设候选数量阈值。
[0175] 将返回的识别错误的识别结果中位于前N个候选的形变样本数据作为筛选后的形变样本数据。
[0176] 另外一种对样本数据进行筛选的方法，如图10所示，可以包括：
[0177] 步骤1001，分别提取形变样本数据的第一特征向量及样本数据对应的标准数据的第二特征向量。
[0178] 样本数据对应的标准数据也即标准字符。可以采用现有方法提取特征向量。
[0179] 步骤1002,计算第一特征向量与第二特征向量的距离。
[0180] 可以计算第一特征向量与第二特征向量的欧式距离。
[0181] 步骤1003,将距离小于预设距离阈值的形变样本数据作为筛选后的形变样本数据。
[0182] 当然还可以采用其它方法筛选形变样本数据。
[0183] 步骤804,利用样本数据及筛选后的形变样本数据进行模型训练，获得识别模型。
[0184] 该模型训练的过程可以与现有技术类似，此处不再赘述。
[0185] 本实施例通过增加对形变样本数据进行筛选的步骤，使得模型训练所依据的样本数据更加符合真实情况，从而可以获得更加稳定可靠的识别模型。
[0186] 在上述进行模型训练获得识别模型时，可以将样本数据与筛选后的形变样本数据等同对待，也可以差别对待。在另一实施例中，该进行模型训练获得识别模型的过程，如图 11所示，还可以包括：
[0187] 步骤1101，设置形变样本数据的权重。
[0188] 形变样本数据权重的设置可以根据需要或经验值设置，也可以采用如图12中所示的方法设置，该方法可以包括：
[0189] 步骤1201，分别提取形变样本数据的第一特征向量及样本数据对应的标准数据的第二特征向量。
[0190] 步骤1202,计算第一特征向量与第二特征向量的距离。
[0191] 步骤1201~1202与前述步骤1001~1002类似。该距离具体可以是欧式距离。
[0192] 步骤1203,根据距离设置形变样本数据的权重。
[0193] 其中，距离越大的形变样本数据权重越小。
[0194] 步骤1102,利用样本数据及占有不同权重的形变样本数据进行模型训练，获得识别丰吴型。
[0195] 本实施例中通过对不同形变程度的样本数据赋予不同权重，提高了识别模型的鲁棒性和准确性。
[0196] 以上是对本发明方法实施例的说明，下面对实现上述方法的装置进行介绍。
[0197] 参见图13,为本发明实施例一种获得识别模型的装置的结构示意图。
[0198] 该装置可以包括：
[0199] 数据获取单元1301，用于获得样本数据。
[0200] 数据形变单元1302,用于对样本数据进行弹性形变和/或随机形变获得形变样本数据。
[0201] 模型训练单元1303,用于利用样本数据及形变样本数据进行模型训练，获得识别模型。
[0202] 本发明实施例通过上述单元对少量样本数据进行形变获得形变样本数据来扩充数据量，从而可以以大量样本数据为基础构建得到对应的手写识别模型，该装置有效增加了样本数据量，较好地解决了因样本数据量匮乏而导致的识别模型不稳定，识别准确率低的问题，尤其对于少数民族语言，如藏语维吾尔语等，手写识别样本难以采集造成的手写识别模型构建问题。本装置通过自动生成形变样本数据，极大地减少了收集手写样本的人力成本，提高了手写识别系统的性能，进而提高了识别准确率。
[0203] 在其中一实施例中，如图14所示，数据形变单元1302可以包括：
[0204] 选取子单元1401，用于在所述样本数据的作用区域内确定至少一个随机点；所述作用区域为所述样本数据所占据的区域。
[0205] 计算子单元1402,用于计算所述随机点对所述作用区域内所述样本数据上的样本点的牵引力。
[0206] 第一修正子单元1403,用于根据所述牵引力对所述作用区域内的所述样本点进行位置修正，获得形变样本点。
[0207] 第一数据确定子单元1404,用于根据所述形变样本点确定形变样本数据。
[0208] 其中，选取子单元1401可以进一步包括：
[0209] 第一计算子单元，用于计算所述样本数据的长宽比。
[0210] 划分子单元，用于根据所述长宽比将所述样本数据的作用区域划分为至少两个子区域。
[0211] 确定子单元，用于在各所述子区域内分别确定一个随机点。
[0212] 计算子单元1402,具体用于计算所述随机点对其所在的所述子区域内所述样本数据上的样本点的牵引力。
[0213] 在另一实施例中，如图15所示，数据形变单元1302可以包括：
[0214] 生成子单元1501，用于对所述样本数据上的每个样本点依次生成单位随机向量。
[0215] 处理子单元1502,用于对所述单位随机向量进行平滑处理和归一化处理。
[0216] 第二修正子单元1503,用于根据处理后的所述单位随机向量分别对其对应的样本点进行修正，获得形变样本点。
[0217] 第二数据确定子单元1504,用于根据所述形变样本点确定形变样本数据。
[0218] 在另一实施例中，如图16所示，该装置除了可以包括数据获取单元1301，数据形变单元1302,模型训练单元1303之外，还可以包括：
[0219] 筛选单元1601，用于在所述数据形变单元获得形变样本数据之后，对所述形变样本数据进行筛选。
[0220] 模型训练单元1303,具体用于利用所述样本数据及筛选后的所述形变样本数据进行模型训练，获得识别模型。
[0221] 在一种实现方式中，如图17所示，筛选单元1601可以进一步包括：
[0222] 识别子单元1701，用于利用预建识别模型对所述形变样本数据进行识别；所述预建识别模型为预先根据所述样本数据进行模型训练获得的；
[0223] 第一选择子单元1702,用于将识别错误且位于前N个候选的形变样本数据作为筛选后的形变样本数据，N为预设候选数量阈值。
[0224] 在另一实现方式中，如图18所示，该筛选单元1601可以进一步包括：
[0225] 第一提取子单元1801，用于分别提取所述形变样本数据的第一特征向量及所述样本数据对应的标准数据的第二特征向量。
[0226] 第一距离计算子单元1802,用于计算所述第一特征向量与所述第二特征向量的距离。
[0227] 第二选择子单元1803,用于将所述距离小于预设距离阈值的形变样本数据作为筛选后的形变样本数据。
[0228] 本实施例通过增加筛选单元使得模型训练所依据的样本数据更加符合真实情况，从而可以获得更加稳定可靠的识别模型。
[0229] 在本发明另一实施例中，如图19所示，模型训练单元1303可以进一步包括：
[0230] 权重设置子单元1901，用于设置所述形变样本数据的权重。
[0231] 训练子单元1902,用于利用所述样本数据及占有不同权重的所述形变样本数据进行模型训练，获得识别模型。
[0232] 其中，权重设置子单元1901可以进一步包括：
[0233] 第二提取子单元1，用于分别提取所述形变样本数据的第一特征向量及所述样本数据对应的标准数据的第二特征向量。
[0234] 第二距离计算子单元，用于计算所述第一特征向量与所述第二特征向量的距离。
[0235] 设置子单元，用于根据所述距离设置所述形变样本数据的权重，其中，所述距离越大的形变样本数据权重越小。
[0236] 本实施例中通过上述单元对

完整全部详细技术资料下载

当前第3页1 2 3 4