一种训练样本生成的方法、装置、计算机设备及存储介质与流程

文档序号：26550994发布日期：2021-09-08 00:17阅读：来源：国知局

技术特征：
1.一种训练样本生成的方法，其特征在于，包括：获取初始训练样本和目标训练样本，并对所述初始训练样本和所述目标训练样本进行拼接，得到样本匹配对；将所述样本匹配对导入到预设的第一处理模型，得到初始目标样本集，其中，所述初始目标样本集包含若干个初始目标样本；将所述目标训练样本和所述初始目标样本集导入到预设的第二处理模型，通过所述第二处理模型依次计算所述目标训练样本和每一个所述初始目标样本的相似度；获取与所述目标训练样本的相似度大于预设阈值的初始目标样本，得到相似目标样本；将所述相似目标样本与所述初始训练样本进行组合，得到训练样本集。2.如权利要求1所述的训练样本生成的方法，其特征在于，所述获取初始训练样本和目标训练样本，并对所述初始训练样本和所述目标训练样本进行拼接，得到样本匹配对的步骤，具体包括：分别对所述初始训练样本和所述目标训练样本进行预处理，其中，所述预处理包括分词和去除停用词；分别提取预处理后所述初始训练样本和所述目标训练样本的文本实体；分别对所述初始训练样本的文本实体和所述目标训练样本的文本实体进行匹配，得到样本匹配对。3.如权利要求1所述的训练样本生成的方法，其特征在于，在所述将所述样本匹配对导入到预设的第一处理模型，得到初始目标样本集，其中，所述初始目标样本集包含若干个初始目标样本之前，还包括：获取第一训练集，并生成所述第一训练集对应的掩膜标识；构建初始第一处理模型，通过所述掩膜标识调整所述初始第一处理模型的掩膜矩阵；通过所述第一训练集对掩膜矩阵调整后的所述初始第一处理模型进行模型训练，得到第一处理模型。4.如权利要求3所述的训练样本生成的方法，其特征在于，所述第一训练集包括初始样本和目标样本，通过调整所述掩膜矩阵可以调节所述初始第一处理模型的网络，以获得单向模型、双向模型和序列到序列模型，所述构建初始第一处理模型，通过所述掩膜标识调整所述初始第一处理模型的掩膜矩阵的步骤，具体包括：基于transformer网络结构构建所述初始第一处理模型；通过所述掩膜标识对所述初始第一处理模型的掩膜矩阵进行第一调整，将所述初始第一处理模型调整为所述双向模型，所述双向模型用于处理所述初始样本；通过所述掩膜标识对所述初始第一处理模型的掩膜矩阵进行第二调整，将所述初始第一处理模型调整为所述单向模型，所述双向模型用于处理所述目标样本。5.如权利要求3所述的训练样本生成的方法，其特征在于，在所述通过所述第一训练集对掩膜矩阵调整后的所述初始第一处理模型进行模型训练，得到第一处理模型的步骤之后，还包括：获取第一验证集，并将所述第一验证集导入所述第一处理模型，得到验证结果；基于所述验证结果与预设标准结果，使用反向传播算法进行拟合，获取处理误差；
将处理误差与预设误差阈值进行比较，若所述处理误差大于预设误差阈值，则对第一处理模型进行迭代更新，直至所述处理误差小于或等于预设误差阈值为止；输出所述处理误差小于或等于预设误差阈值的第一处理模型。6.如权利要求1至5任意一项所述的训练样本生成的方法，其特征在于，所述将所述样本匹配对导入到预设的第一处理模型，得到初始目标样本集，其中，所述初始目标样本集包含若干个初始目标样本的步骤，具体包括：依次对所述样本匹配对中的每一个文本实体进行向量转化，得到向量矩阵；通过所述第一处理模型对所述向量矩阵进行处理，输出的若干个初始目标样本；获取所述第一处理模型输出的若干个所述初始目标样本，通过若干个所述初始目标样本构建所述初始目标样本集。7.如权利要求6所述的训练样本生成的方法，其特征在于，所述将所述目标训练样本和所述初始目标样本集导入到预设的第二处理模型，通过所述第二处理模型依次计算所述目标训练样本和每一个所述初始目标样本的相似度的步骤，具体包括：将所述目标训练样本导入到所述第二处理模型的嵌入层，得到第一嵌入值；分别将每一个所述初始目标样本导入到所述第二处理模型嵌入层，得到若干个第二嵌入值；基于所述第一嵌入值和每一个所述第二嵌入值依次计算的每一个所述初始目标样本与所述目标训练样本的相似度。8.一种训练样本生成的装置，其特征在于，包括：样本获取模块，用于获取初始训练样本和目标训练样本，并对所述初始训练样本和所述目标训练样本进行拼接，得到样本匹配对；第一处理模块，用于将所述样本匹配对导入到预设的第一处理模型，得到初始目标样本集，其中，所述初始目标样本集包含若干个初始目标样本；第二处理模块，用于将所述目标训练样本和所述初始目标样本集导入到预设的第二处理模型，通过所述第二处理模型依次计算所述目标训练样本和每一个所述初始目标样本的相似度；相似度比对模块，用于获取与所述目标训练样本的相似度大于预设阈值的初始目标样本，得到相似目标样本；样本集生成模块，用于将所述相似目标样本与所述初始训练样本进行组合，得到训练样本集。9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的训练样本生成的方法的步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的训练样本生成的方法的步骤。

技术总结
本申请公开了一种训练样本生成的方法、装置、计算机设备和存储介质，属于人工智能技术领域，本申请通过对初始训练样本和目标训练样本进行拼接，得到样本匹配对，将样本匹配对导入到第一处理模型，得到初始目标样本集，将目标训练样本和初始目标样本集导入到第二处理模型，获取目标训练样本和每一个初始目标样本的相似度，将与目标训练样本的相似度大于预设阈值的初始目标样本作为相似目标样本，将相似目标样本与初始训练样本进行组合，得到训练样本集。此外，本申请还涉及区块链技术，初始训练样本和目标训练样本可存储于区块链中。本申请通过第一处理模型生成初始目标样本，通过第二处理模型对初始目标样本进行筛选，提高生成训练样本的精度。练样本的精度。练样本的精度。

技术研发人员：莫琪
受保护的技术使用者：平安普惠企业管理有限公司
技术研发日：2021.06.24
技术公布日：2021/9/7

完整全部详细技术资料下载

当前第2页1 2