数据筛选方法、装置及电子设备与流程

文档序号：26587878发布日期：2021-09-10 19:54阅读：来源：国知局

技术特征：
1.一种数据筛选方法，包括：获取预设模型对应的待标注样本数据集，其中，所述待标注样本数据集中包括多个样本数据及每个所述样本数据对应的第一预测结果；对每个所述第一预测结果进行编码，以生成每个所述样本数据对应的第一预测结果的第一编码数据；将每个所述第一编码数据输入预设的自编码器，以生成每个所述样本数据对应的第一重建数据与第二重建数据；根据每个所述样本数据对应的第一预测结果的第一编码数据分别与所述第一重建数据及所述第二重建数据之间的差异，确定每个所述样本数据对应的第一损失值与第二损失值；根据每个所述样本数据对应的第一损失值与第二损失值，对所述待标注样本数据集进行筛选。2.如权利要求1所述的方法，其中，所述获取预设模型对应的待标注样本数据集，包括：将每个所述样本数据输入所述预设模型，生成每个所述样本数据对应的第一预测结果。3.如权利要求1所述的方法，其中，所述预设的自编码器中包括第一解码器与第二解码器，所述将每个所述第一编码数据输入预设的自编码器，以生成每个所述样本数据对应的第一重建数据与第二重建数据，包括：将每个所述第一编码数据输入第一解码器，以生成每个所述样本数据对应的第一重建数据；将每个所述第一编码数据输入第二解码器，以生成每个所述样本数据对应的第二重建数据。4.如权利要求1所述的方法，其中，所述预设的自编码器包括编码器、第一解码器及第二解码器，所述将每个所述第一编码数据输入预设的自编码器，以生成每个所述样本数据对应的第一重建数据与第二重建数据，包括：将每个所述第一编码数据输入所述编码器，以对每个所述第一编码数据进行升维处理，生成每个所述第一编码数据对应的高维特征；将每个所述第一编码数据对应的高维特征输入所述第一解码器，以生成每个所述样本数据对应的第一重建数据；将每个所述第一编码数据对应的高维特征输入所述第二解码器，以生成每个所述样本数据对应的第二重建数据。5.如权利要求1所述的方法，其中，所述根据每个所述样本数据对应的第一损失值与第二损失值，对所述待标注样本数据集进行筛选，包括：将对应的所述第一损失值大于第一阈值、且所述第二损失值大于第二阈值的所述样本数据，确定为待标注的样本数据进行标注。6.如权利要求1
‑
5任一所述的方法，其中，所述将每个所述第一编码数据输入预设的自编码器，以生成每个所述样本数据对应的第一重建数据与第二重建数据之前，还包括：获取所述预设的自编码器对应的训练数据集，其中，所述训练数据集中包括多个训练数据及每个所述训练数据对应的标注结果；
将每个所述训练数据输入所述预设模型，以生成每个所述训练数据对应的第二预测结果；对每个所述第二预测结果进行编码，以生成每个所述训练数据对应的第二预测结果的第二编码数据；对每个所述标注结果进行编码，以生成每个所述训练数据的对应的标注结果的第三编码数据；将每个所述第二编码数据输入初始自编码器，以生成每个所述训练数据对应的第三重建数据与第四重建数据；根据每个所述训练数据对应的第二预测结果的第二编码数据与所述第三重建数据之间的差异，确定每个所述训练数据对应的第三损失值；根据每个所述训练数据对应的标注结果的第三编码数据与所述第四重建数据之间的差异，确定每个所述训练数据对应的第四损失值；根据每个所述训练数据对应的第三损失值与第四损失值，确定目标损失值；根据所述目标损失值，对所述初始自编码器的网络参数进行更新，直至所述目标损失值小于或等于第三阈值，将更新后的初始自编码器确定为所述预设的自编码器。7.如权利要求6所述的方法，所述初始自编码器中包括初始第一解码器与初始第二解码器，所述将每个所述第二编码数据输入初始自编码器，以生成每个所述训练数据对应的第三重建数据与第四重建数据，包括：将每个所述第二编码数据输入所述初始第一解码器，以生成每个所述训练数据对应的第三重建数据；将每个所述第二编码数据输入所述初始第二解码器，以生成每个所述训练数据对应的第四重建数据；所述根据每个所述训练数据对应的第三损失值与第四损失值，确定目标损失值，包括：根据每个所述训练数据对应的第三损失值，确定第一目标损失值；根据每个所述训练数据对应的第四损失值，确定第二目标损失值；所述根据所述目标损失值，对所述初始自编码器的网络参数进行更新，包括：根据所述第一目标损失值，对所述初始第一解码器的网络参数进行更新；根据所述第二目标损失值，对所述初始第二解码器的网络参数进行更新。8.如权利要求6所述的方法，其中，所述初始自编码器还包括初始编码器，所述根据所述目标损失值，对所述初始自编码器的网络参数进行更新，包括：根据所述目标损失值，对所述初始编码器的网络参数进行更新。9.一种数据筛选装置，包括：第一获取模块，用于获取预设模型对应的待标注样本数据集，其中，所述待标注样本数据集中包括多个样本数据及每个所述样本数据对应的第一预测结果；第一生成模块，用于对每个所述第一预测结果进行编码，以生成每个所述样本数据对应的第一预测结果的第一编码数据；第二生成模块，用于将每个所述第一编码数据输入预设的自编码器，以生成每个所述样本数据对应的第一重建数据与第二重建数据；第一确定模块，用于根据每个所述样本数据对应的第一预测结果的第一编码数据分别
与所述第一重建数据及所述第二重建数据之间的差异，确定每个所述样本数据对应的第一损失值与第二损失值；筛选模块，用于根据每个所述样本数据对应的第一损失值与第二损失值，对所述待标注样本数据集进行筛选。10.如权利要求9所述的装置，其中，所述第一获取模块，包括：第一生成单元，用于将每个所述样本数据输入所述预设模型，生成每个所述样本数据对应的第一预测结果。11.如权利要求9所述的装置，其中，所述预设的自编码器中包括第一解码器与第二解码器，所述第二生成模块，包括：第二生成单元，用于将每个所述第一编码数据输入第一解码器，以生成每个所述样本数据对应的第一重建数据；第三生成单元，用于将每个所述第一编码数据输入第二解码器，以生成每个所述样本数据对应的第二重建数据。12.如权利要求11所述的装置，其中，所述预设的自编码器包括编码器、第一解码器及第二解码器，所述第二生成模块，包括：第四生成单元，用于将每个所述第一编码数据输入所述编码器，以对每个所述第一编码数据进行升维处理，生成每个所述第一编码数据对应的高维特征；第五生成单元，用于将每个所述第一编码数据对应的高维特征输入所述第一解码器，以生成每个所述样本数据对应的第一重建数据；第六生成单元，用于将每个所述第一编码数据对应的高维特征输入所述第二解码器，以生成每个所述样本数据对应的第二重建数据。13.如权利要求9所述的装置，其中，所述筛选模块，包括：第一确定单元，用于将对应的所述第一损失值大于第一阈值、且所述第二损失值大于第二阈值的所述样本数据，确定为待标注的样本数据进行标注。14.如权利要求9
‑
13任一所述的装置，其中，还包括：第二获取模块，用于获取所述预设的自编码器对应的训练数据集，其中，所述训练数据集中包括多个训练数据及每个所述训练数据对应的标注结果；第三生成模块，用于将每个所述训练数据输入所述预设模型，以生成每个所述训练数据对应的第二预测结果；第四生成模块，用于对每个所述第二预测结果进行编码，以生成每个所述训练数据对应的第二预测结果的第二编码数据；第五生成模块，用于对每个所述标注结果进行编码，以生成每个所述训练数据的对应的标注结果的第三编码数据；第六生成模块，用于将每个所述第二编码数据输入初始自编码器，以生成每个所述训练数据对应的第三重建数据与第四重建数据；第二确定模块，用于根据每个所述训练数据对应的第二预测结果的第二编码数据与所述第三重建数据之间的差异，确定每个所述训练数据对应的第三损失值；第三确定模块，用于根据每个所述训练数据对应的标注结果的第三编码数据与所述第四重建数据之间的差异，确定每个所述训练数据对应的第四损失值；
第四确定模块，用于根据每个所述训练数据对应的第三损失值与第四损失值，确定目标损失值；更新模块，用于根据所述目标损失值，对所述初始自编码器的网络参数进行更新，直至所述目标损失值小于或等于第三阈值，将更新后的初始自编码器确定为所述预设的自编码器。15.如权利要求14所述的装置，所述初始自编码器中包括初始第一解码器与初始第二解码器，所述第六生成模块，包括：第七生成单元，用于将每个所述第二编码数据输入所述初始第一解码器，以生成每个所述训练数据对应的第三重建数据；第八生成单元，用于将每个所述第二编码数据输入所述初始第二解码器，以生成每个所述训练数据对应的第四重建数据；所述第四确定模块，包括：第二确定单元，用于根据每个所述训练数据对应的第三损失值，确定第一目标损失值；第三确定单元，用于根据每个所述训练数据对应的第四损失值，确定第二目标损失值；所述更新模块，包括：第一更新单元，用于根据所述第一目标损失值，对所述初始第一解码器的网络参数进行更新；第二更新单元，用于根据所述第二目标损失值，对所述初始第二解码器的网络参数进行更新。16.如权利要求14所述的装置，其中，所述初始自编码器还包括初始编码器，所述更新模块，包括：第三更新单元，用于根据所述目标损失值，对所述初始编码器的网络参数进行更新。17.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1
‑
8中任一项所述的方法。18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1
‑
8中任一项所述的方法。19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1
‑
8中任一项所述方法。

技术总结
本申请公开了一种数据筛选方法、装置及电子设备，涉及人工智能技术领域，具体涉及计算机视觉和深度学习技术领域。具体实现方案为：获取包括多个样本数据及每个样本数据对应的第一预测结果的待标注样本数据集；对每个第一预测结果进行编码，以生成每个第一预测结果的第一编码数据；将每个第一编码数据输入预设的自编码器，以生成每个样本数据对应的第一重建数据与第二重建数据；根据每个第一编码数据分别与第一重建数据及第二重建数据之间的差异，确定每个样本数据对应的第一损失值与第二损失值；根据每个第一损失值与第二损失值，对待标注样本数据集进行筛选。由此，通过这种数据筛选方法，不仅保证了模型的训练效益，而且降低了数据标注成本。低了数据标注成本。低了数据标注成本。

技术研发人员：王鹏谢群义钦夏孟姚锟
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.06.09
技术公布日：2021/9/9

完整全部详细技术资料下载

当前第2页1 2