本申请涉及人工智能,尤其涉及一种数据纠偏方法、装置和设备。
背景技术:
1、数据识别模型用于进行数据识别、数据分类等操作,数据识别模型在完成训练上线后,其识别能力一般是固化的。而在用户使用数据识别模型的过程中,经常存在用户经验结果与模型推理结果相冲突的情况,影响数据识别模型的准确度。因此,实现数据识别模型的在线修正很有必要。
2、现有技术中,为了提高数据识别、数据分类的准确性,往往采用以机器自动标注为代表的数据标注技术。数据标注技术在实现模型自动构建的同时,在模型能力方面融入了部分的用户经验。但该技术在本质上仍属于模型构建手段,无法支持模型上线后的能力修正,更无法将用户经验持续在线融合。
3、因此,需要一种新的数据纠偏方法,以提高数据识别、数据分类的准确性。
技术实现思路
1、本说明书实施例提供一种数据纠偏方法、装置和设备,用于解决如下技术问题:现有的以机器自动标注为代表的数据标注技术,提高数据识别、数据分类的准确性的方法,在本质上仍属于模型构建手段,无法支持模型上线后的能力修正,更无法将用户经验持续在线融合。
2、为解决上述技术问题,本说明书实施例是这样实现的:
3、本说明书实施例提供的一种数据纠偏方法,包括:
4、基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息;
5、当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;
6、基于所述更新的样本库,对修正模型进行重训,获得新修正模型;
7、基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;
8、若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。
9、本说明书实施例提供的一种数据纠偏装置,所述装置包括:
10、判断模块,基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息;
11、样本库更新模块,当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;
12、重训模块,基于所述更新的样本库,对修正模型进行重训,获得新修正模型;
13、决策模块,基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;
14、修正模块,若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。
15、本说明书实施例提供的一种数据纠偏设备,包括:
16、至少一个处理器;以及,
17、与所述至少一个处理器通信连接的存储器;其中,
18、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
19、基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息;
20、当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;
21、基于所述更新的样本库,对修正模型进行重训,获得新修正模型;
22、基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;
23、若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。
24、本说明书一个实施例至少能够达到以下有益效果:基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息;当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;基于所述更新的样本库,对修正模型进行重训,获得新修正模型;基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。该方法应用于模型上线后,能够支持模型上线后的用户经验成果的即时融合,且能够支持模型自动修正优化,进而实现局部数据识别能力的持续提升。
1.一种数据纠偏方法,其特征在于,所述方法包括:
2.如权利要求1所述的数据纠偏方法,其特征在于,所述基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,具体包括:
3.如权利要求2所述的数据纠偏方法,其特征在于,所述若所述用户输入为给定key,查询并输出对应的value值,则基于预设的优先级,确定所述给定key的value值,具体包括:
4.如权利要求2所述的数据纠偏方法,其特征在于,所述若所述用户输入为针对输出结果的修改或确认操作,则基于所述修改操作,更新所述白名单或者更新所述规则库,或者基于所述确认操作,更新所述白名单,具体包括:
5.如权利要求1所述的数据纠偏方法,其特征在于,所述当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库,具体包括:
6.如权利要求1所述的数据纠偏方法,其特征在于,所述当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库,进一步包括:
7.如权利要求1所述的数据纠偏方法,其特征在于,所述基于所述新修正模型的准确率及修正模型的准确率,确定上线模型,具体包括:
8.如权利要求7所述的数据纠偏方法,其特征在于,所述若(第二准确率-第一准确率)/第一准确率大于等于预设比例,则将所述新修正模型作为所述上线模型,进一步包括:
9.一种数据纠偏装置,其特征在于,所述装置包括:
10.一种数据纠偏设备,包括: