一种数据分类方法、装置、设备及存储介质与流程

文档序号：30390697发布日期：2022-06-11 15:25阅读：来源：国知局

技术特征：
1.一种数据分类方法，其特征在于，包括：将获取到的待处理数据集输入到第一目标分类模型中；其中，所述待处理数据集包括待处理支撑集和待处理查询集，所述待处理支撑集包含多个有标签数据，所述待处理查询集包含多个无标签数据，所述第一目标分类模型包括训练完成的第一目标特征嵌入模型和第一目标图结构模型；通过所述第一目标特征嵌入模型，提取所述待处理支撑集和待处理查询集分别对应的待处理支撑特征和待处理查询特征，并将所述待处理支撑特征和所述待处理查询特征输出给所述第一目标图结构模型；通过所述第一目标图结构模型，基于预设目标函数和所述待处理支撑特征，对基于所述待处理查询特征确定的初始图结构进行优化更新，得到更新结果，并基于所述更新结果，确定所述待处理查询集中各待处理查询数据分别对应的分类标签。2.根据权利要求1所述的方法，其特征在于，所述有标签数据包含支撑图片数据和与所述支撑图片数据对应的分类标签数据，所述无标签数据包含查询图片数据，相应的，所述初始图结构用于表征所述待处理查询集中各查询图片数据之间的初始局部几何信息。3.根据权利要求2所述的方法，其特征在于，所述更新结果包括目标图结构与所述目标图结构对应的目标标签概率分布矩阵，相应的，所述基于预设目标函数和所述待处理支撑特征，对基于所述待处理查询特征确定的初始图结构进行优化更新，得到更新结果，包括：基于预设目标函数、所述待处理支撑特征以及基于待处理查询特征确定的初始图结构，确定初始标签概率分布矩阵；基于所述初始标签概率分布矩阵和所述预设目标函数，确定目标图结构，并基于所述目标图结构和所述预设目标函数，确定目标标签概率分布矩阵；其中，所述目标图结构用于表征待处理查询集中各查询图片数据之间在特征空间和标签空间中的目标局部几何信息，所述目标标签概率分布矩阵用于表征所述待处理查询集中各查询图片数据分别与所述待处理支撑集对应的分类标签数据之间的目标标签概率，所述预设目标函数用于表征图结构与标签概率分布矩阵之间的函数关系。4.根据权利要求3所述的方法，其特征在于，所述基于所述初始标签概率分布矩阵和所述预设目标函数，确定目标图结构，包括：基于所述初始标签概率分布矩阵和所述预设目标函数，确定所述待处理查询集中各查询图片数据之间在标签空间中的标签概率距离；基于所述待处理查询特征和所述预设目标函数，确定所述待处理查询集中各查询图片数据之间在特征空间中的特征距离；基于所述标签概率距离和所述特征距离，确定目标图结构。5.根据权利要求4所述的方法，其特征在于，所述基于所述标签概率距离和所述特征距离，确定目标图结构，包括：基于所述标签概率距离和所述特征距离，确定目标几何距离；针对所述待处理查询集中的每个查询图片数据，基于预设分类算法，对所述查询图片数据与所述待处理查询集中其他查询图片数据之间的目标几何距离进行分类筛选；基于筛选到的目标几何距离，确定所述查询图片数据对应的目标子图结构。6.根据权利要求3所述的方法，其特征在于，所述方法还包括：
基于所述目标图结构和所述目标标签概率分布矩阵，判断所述预设目标函数对应的函数损失值是否收敛；如果是，则基于所述目标标签概率分布矩阵，确定所述待处理查询集中各查询图片数据分别对应的分类标签；如果否，则基于所述目标标签概率分布矩阵和所述预设目标函数，确定优化后的目标标签概率分布矩阵，并基于优化后的目标概率分布矩阵，重复执行判断所述预设目标函数对应的函数损失值是否收敛的操作。7.根据权利要求3-6任一项所述的方法，其特征在于，所述预设目标函数满足公式：其中，y表示标签概率分布矩阵，w表示图结构，c表示所述待处理支撑集对应的分类标签数据的种类，m表示所述待处理查询集中查询图片数据的数量，y
ic
表示所述待处理查询集中第i个查询图片数据与所述待处理支撑集中第c个分类标签数据之间的标签概率，x
i
表示所述待处理查询集中第i个查询图片数据的待处理查询特征，x
j
表示所述待处理查询集中第j个查询图片数据的待处理查询特征，m
c
表示所述待处理支撑集中第c个分类标签数据对应的支撑图片数据的待处理支撑特征，w(x
i
,x
j
)表示第i个查询图片数据与第j个查询图片数据之间的局部几何信息，d(x
i
,m
c
)表示第i个待处理查询特征与第c个待处理支撑特征之间的特征距离，y
i
表示所述待处理查询集中第i个查询图片数据对应的标签概率，y
j
表示所述待处理查询集中第j个查询图片数据对应的标签概率，表示α和β表示第一目标图结构模型中的支撑参数。8.根据权利要求7所述的方法，其特征在于，所述方法还包括：将获取到的验证数据集分别输入到至少两种第一初始分类模型中；其中，所述验证数据集包括验证支撑集和验证查询集，所述第一初始分类模型包括第一初始图结构模型和第一目标特征嵌入模型，不同第一初始分类模型中第一初始图结构模型对应的支撑参数不同；针对每个第一初始分类模型，基于所述验证查询集中各无标签数据分别对应的真实分类标签和所述第一初始分类模型输出的各无标签数据分别对应的预测分类标签，确定所述第一初始分类模型对应的识别率；将识别率最高的第一初始分类模型作为第一目标分类模型。9.根据权利要求8所述的方法，其特征在于，所述方法还包括：将获取到的测试数据集输入到所述第一目标分类模型中；其中，所述测试数据集包括测试支撑集和测试查询集；基于所述测试查询集中各无标签数据分别对应的真实分类标签和所述第一目标分类模型输出的各无标签数据分别对应的预测分类标签，确定所述第一目标分类模型的目标分类精度，并将所述目标分类精度进行输出。10.根据权利要求8所述的方法，其特征在于，所述方法还包括：
将获取到的基类数据集输入到第二初始分类模型中；其中，所述基类数据集包含多个有标签数据，所述第二初始分类模型包含未训练的第二初始特征嵌入模型和第二初始分类器；基于所述基类数据集中各有标签数据分别对应的真实分类标签和所述第二初始分类模型输出的所述各有标签数据分别对应的预测分类标签，对所述第二初始特征嵌入模型中的模型参数进行调整，得到训练完成的第二目标分类模型；将所述第二目标分类模型中的第二目标特征嵌入模型作为所述第一初始分类模型中的第一目标特征嵌入模型。11.根据权利要求10所述的方法，其特征在于，在将所述第二目标分类模型中的第二目标特征嵌入模型作为所述第一初始分类模型中的第一目标特征嵌入模型之前，所述方法还包括：基于获取到的验证数据集，确定所述第二目标分类模型对应的训练分类精度，并判断所述训练分类精度是否满足预设精度范围；如果是，则将所述第二目标分类模型中的第二目标特征嵌入模型作为所述第一初始分类模型中的第一目标特征嵌入模型；如果否，则对所述第二目标分类模型中的超参数进行调整，并将调整后的第二目标分类模型作为第二初始分类模型，重新执行将获取到的基类数据集输入到第二初始分类模型中的操作。12.一种数据分类装置，其特征在于，包括：待处理数据集输入模块，用于将获取到的待处理数据集输入到第一目标分类模型中；其中，所述待处理数据集包括待处理支撑集和待处理查询集，所述待处理支撑集包含多个有标签数据，所述待处理查询集包含多个无标签数据，所述第一目标分类模型包括训练完成的第一目标特征嵌入模型和第一目标图结构模型；特征提取模块，用于通过所述第一目标特征嵌入模型，提取所述待处理支撑集和待处理查询集分别对应的待处理支撑特征和待处理查询特征，并将所述待处理支撑特征和所述待处理查询特征输出给所述第一目标图结构模型；分类标签确定模块，用于通过所述第一目标图结构模型，基于预设目标函数和所述待处理支撑特征，对基于所述待处理查询特征确定的初始图结构进行优化更新，得到更新结果，并基于所述更新结果，确定所述待处理查询集中各待处理查询数据分别对应的分类标签。13.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的数据分类方法。14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-11任一项所述的数据分类方法。

技术总结
本发明公开了一种数据分类方法、装置、设备及存储介质，包括：将获取到的待处理数据集输入到第一目标分类模型中；其中，待处理数据集包括待处理支撑集和待处理查询集；通过第一目标分类模型中的第一目标特征嵌入模型，提取待处理支撑集和待处理查询集分别对应的待处理支撑特征和待处理查询特征，并将待处理支撑特征和待处理查询特征进行输出；通过第一目标分类模型中的第一目标图结构模型，基于预设目标函数和待处理支撑数据，对基于待处理查询特征确定的初始图结构进行优化更新，得到更新结果，并基于更新结果，确定待处理查询集中各待处理查询数据分别对应的分类标签。本发明解决了图结构的构建方法固定的问题，提高了分类模型的识别性能。型的识别性能。型的识别性能。

技术研发人员：傅司超曹琼詹忆冰陶大程
受保护的技术使用者：京东科技信息技术有限公司
技术研发日：2022.03.01
技术公布日：2022/6/10

完整全部详细技术资料下载

当前第2页1 2