本说明书涉及计算机,尤其涉及一种基于模型处理结果的辅助甄别方法、装置及设备。
背景技术:
1、随着人工智能的发展,数据标注需求应运而生,结合深度学习的数据标注技术得到了极大发展。数据标注可以是指对未标记标签的文本、视频、图像等数据进行分类得到的分类标签。
2、在数据标注领域,目前的主要方法是通过样本数据训练生成模型,利用模型来自动进行数据标注。该方法能够降低分析人员的人工标记的工作量,但是由于模型的自身性能、数据特征偏移等原因,在通过模型进行自动打标,实现数据标注的过程中,经常存在结果存疑、错误等现象。但是由于基于模型获得的数据标注结果,通常无法提供用于进一步核实的辅助信息,为了保证数据标注结果的准确性,往往还需要靠人工经验核实或人工查找支撑证据核实,存在工作量大,效率低的问题。
3、基于此,需要一种基于模型处理结果的辅助甄别方法。
技术实现思路
1、本说明书实施例提供一种基于模型处理结果的辅助甄别方法、装置及设备,用于解决以下技术问题:现有技术中,由于基于模型获得的数据标注结果,通常无法提供用于进一步核实的辅助信息,为了保证数据标注结果的准确性,往往还需要靠人工经验核实或人工查找支撑证据核实,存在工作量大,效率低的问题。
2、为解决上述技术问题,本说明书实施例是这样实现的:
3、本说明书实施例提供一种基于模型处理结果的辅助甄别方法,包括:
4、对待处理数据进行数据转换和数据分段,作为待处理数据集,所述待处理数据包括属性集合及模型识别结果集合;
5、确定所述待处理数据集的待甄别数据记录作为特定数据记录;
6、基于所述特定数据记录中的属性集合中每一个属性,确定所述特定数据记录中的属性集合中每一个属性的取值分布,所述特定数据记录中的属性集合中每一个属性的取值分布构成属性取值分布集合;
7、对所述属性取值分布集合中的每一个属性的属性分布进行计算,生成待核实属性分布;
8、基于所述待核实属性分布,生成反面属性集合和正面属性集合;
9、以二维平面图形式展示所述待核实属性分布、所述正面属性集合及所述反面属性集合。
10、本说明书实施例还提供一种基于模型处理结果的辅助甄别装置,包括:
11、初始化模块,对待处理数据进行数据转换和数据分段,作为待处理数据集,所述待处理数据包括属性集合及模型识别结果集合;
12、待甄别数据记录确定模块,确定所述待处理数据集的待甄别数据记录作为特定数据记录;
13、属性取值分布集合构建模块,基于所述特定数据记录中的属性集合中每一个属性,确定所述特定数据记录中的属性集合中每一个属性的取值分布,所述特定数据记录中的属性集合中每一个属性的取值分布构成属性取值分布集合;
14、待核实属性分布生成模块,对所述属性取值分布集合中的每一个属性的属性分布进行计算,生成待核实属性分布;
15、反面属性集合和正面属性集合生成模块,基于所述待核实属性分布,生成反面属性集合和正面属性集合;
16、展示模块,以二维平面图形式展示所述待核实属性分布、所述正面属性集合及所述反面属性集合。
17、本说明书实施例还提供一种电子设备,包括:
18、至少一个处理器;以及,
19、与所述至少一个处理器通信连接的存储器;其中,
20、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
21、对待处理数据进行数据转换和数据分段,作为待处理数据集,所述待处理数据包括属性集合及模型识别结果集合;
22、确定所述待处理数据集的待甄别数据记录作为特定数据记录;
23、基于所述特定数据记录中的属性集合中每一个属性,确定所述特定数据记录中的属性集合中每一个属性的取值分布,所述特定数据记录中的属性集合中每一个属性的取值分布构成属性取值分布集合;
24、对所述属性取值分布集合中的每一个属性的属性分布进行计算,生成待核实属性分布;
25、基于所述待核实属性分布,生成反面属性集合和正面属性集合;
26、以二维平面图形式展示所述待核实属性分布、所述正面属性集合及所述反面属性集合。
27、本说明书实施例提供的一种基于模型处理结果的辅助甄别方法,利用数据统计分析、相似度计算等方法,针对模型处理结果即数据标注结果,从数据集中自动识别出具备显著统计特征的正反支撑属性值,辅助用户判断数据标注结果的正确性,提升数据标注准确率,且该方法不需要依赖专家及额外专家模型资源,仅依赖自身数据信息,因此,实现成本低,且能够支持在大规模数据集上应用。
1.一种基于模型处理结果的辅助甄别方法,其特征在于,所述辅助甄别方法包括:
2.如权利要求1所述的辅助甄别方法,其特征在于,所述待处理数据为文本类型数据或数值类型数据,所述对待处理数据进行数据转换和数据分段,作为待处理数据集,具体包括:
3.如权利要求2所述的辅助甄别方法,其特征在于,所述预设分段规则具体为:所述待处理数据的模型识别结果集合为离散型数据,则所述数据分段结果为离散型数据的类别的个数;所述待处理数据的模型识别结果集合为连续性数据,则所述数据分段结果为10乘以分段系数。
4.如权利要求1所述的辅助甄别方法,其特征在于,所述基于所述特定数据记录中的属性集合中每一个属性,确定所述特定数据记录中的属性集合中每一个属性的取值分布,具体包括:
5.如权利要求1所述的辅助甄别方法,其特征在于,所述对所述属性取值分布集合中的每一个属性的属性分布进行计算,生成待核实属性分布,具体包括:
6.如权利要求5所述的辅助甄别方法,其特征在于,所述基于所述属性取值分布集合中的每一个属性的属性分布中结果取值为value的若干条记录,生成所述待核实属性分布,具体包括:
7.如权利要求5所述的辅助甄别方法,其特征在于,所述第一方差临界值的计算为:
8.如权利要求1所述的辅助甄别方法,其特征在于,所述基于所述待核实属性分布,生成反面属性集合和正面属性集合,具体包括:
9.如权利要求8所述的辅助甄别方法,其特征在于,所述最小第二方差临界值为:
10.一种基于模型处理结果的辅助甄别装置,其特征在于,所述辅助甄别装置包括:
11.一种电子设备,包括: