本发明涉及数据安全,具体涉及一种敏感数据识别方法、装置、设备及存储介质。
背景技术:
1、近年来,数据泄露和隐私滥用等数据违规事件屡见不鲜,数据管控势在必行,但是并不是所有数据都需要管控,否则既不便于用户使用,也会使得数据管控的压力过大。这就需要对数据进行敏感度识别,即识别数据的敏感程度,以便只对敏感程度较高的数据进行管控。现有技术中存在的常见方案包括人工处理、规则引擎、自然语言技术等,但是现有方案中数据敏感度分级模型的对数据敏感度识别的准确度较低,并且通过数据清洗和更深的特征工程的方法,也无法显著提高模型的准确度。
技术实现思路
1、本发明提供一种敏感数据识别方法、装置、设备及存储介质,用以解决现有技术中数据敏感度识别的准确度较低的技术问题。
2、为了解决上述技术问题,第一方面,本发明提供一种敏感数据识别方法,该方法包括:
3、监听新增和/或变更的元数据,并对所述元数据进行敏感字段识别,确定敏感字段和非敏感字段;
4、获取所述元数据的操作信息并进行解析,确定所述元数据中各数据表的字段引用信息;
5、根据所述敏感字段、所述非敏感字段以及所述字段引用信息,基于预训练的元数据质量检测模型,确定所述元数据中待整改的数据表;
6、对所述待整改的数据表进行整改,得到变更的元数据。
7、可选地,所述根据所述敏感字段、所述非敏感字段以及所述字段引用信息,基于预训练的元数据质量检测模型,确定所述元数据中待整改的数据表,包括:
8、基于预训练的元数据质量检测模型执行:
9、根据预设信息中存在空值的非敏感字段以及敏感度感知模型,确定疑似敏感字段,其中,所述敏感度感知模型是根据所述敏感字段和所述预设信息中不存在空值的非敏感字段训练得到的;
10、根据各数据表中的所述疑似敏感字段、所述预设信息的空值信息以及所述字段引用信息,基于预设评分规则,确定各数据表的评分值;
11、将所述评分值与预设阈值进行比较,确定所述元数据中待整改的数据表;
12、基于预训练的强化学习模型,更新所述预设评分规则以及所述预设阈值。
13、可选地,所述基于预训练的强化学习模型,更新所述预设评分规则以及所述预设阈值,包括:
14、获取所述元数据中待整改的数据表是否被整改的整改信息,并根据所述评分值、所述预设阈值以及所述整改信息,确定奖励值;
15、根据所述奖励值、历史整改信息以及预训练的强化学习模型的策略,更新所述预设评分规则以及所述预设阈值。
16、可选地,所述根据所述评分值、所述预设阈值以及所述整改信息,确定奖励值,包括:
17、根据所述评分值、所述预设阈值、所述整改信息的取值以及奖励计算公式,确定奖励值,所述奖励计算公式为f=αx+β(y-n)
18、其中,f为所述奖励值,α、β为权值参数,y为所述评分值,n为所述预设阈值,x为所述整改信息的取值,当所述元数据中待整改的数据表被整改时,x为1,否则x为-1。
19、可选地,所述预训练的强化学习模型的训练步骤包括:
20、根据当前的奖励值、历史整改信息以及当前的强化学习模型的策略,更新当前的预设评分规则和预设阈值;
21、根据更新后的预设评分规则和预设阈值,确定更新后的评分值和所述元数据中待整改的数据表;
22、获取所述元数据中待整改的数据表是否被整改的整改信息,并根据更新后的评分值和预设阈值以及获取的整改信息,更新当前的奖励值;
23、根据更新后的奖励值,更新当前的强化学习模型的策略,重复迭代直至所述强化学习模型的策略收敛。
24、可选地,所述根据预设信息中存在空值的非敏感字段以及敏感度感知模型,确定疑似敏感字段,包括:
25、将预设信息中存在空值的非敏感字段作为预测样本;
26、利用预训练的大语言模型对所述预测样本进行向量化并拼接,得到预测样本向量;
27、将所述预测样本向量输入至所述敏感度感知模型中,得到疑似敏感字段。
28、可选地,所述敏感度感知模型的训练步骤包括:
29、将所述敏感字段和所述预设信息中不存在空值的非敏感字段作为训练样本;
30、利用预训练的大语言模型对所述训练样本进行向量化并拼接,得到训练样本向量;
31、利用所述训练样本向量对预设分类器进行训练,得到所述敏感度感知模型。
32、第二方面,本发明提供一种敏感数据识别装置,包括字段识别模块、引用信息确定模块、待整改数据表确定模块以及整改模块;
33、所述字段识别模块,用于监听新增和/或变更的元数据,并对所述元数据进行敏感字段识别,确定敏感字段和非敏感字段;
34、所述引用信息确定模块,用于获取所述元数据的操作信息并进行解析,确定所述元数据中各数据表的字段引用信息;
35、所述待整改数据表确定模块,根据所述敏感字段、所述非敏感字段以及所述字段引用信息,基于预训练的元数据质量检测模型,确定所述元数据中待整改的数据表;
36、所述整改模块,用于对所述待整改的数据表进行整改,得到变更的元数据。
37、第三方面,本发明提供一种敏感数据识别设备,包括存储器和处理器,其中:
38、所述存储器用于存储计算机程序;
39、所述处理器用于读取所述存储器中的程序并执行如上述第一方面提供的敏感数据识别方法的步骤。
40、第四方面,本发明提供一种计算机可读存储介质,其上存储有可读的计算机程序,该程序被处理器执行时实现如上述第一方面提供敏感数据识别方法的步骤。
41、与现有技术相比,本发明提供的一种敏感数据识别方法、装置、设备及存储介质,具有以下有益效果:
42、通过监听新增和/或变更的元数据,并对所述元数据进行敏感字段识别,确定敏感字段和非敏感字段;获取所述元数据的操作信息并进行解析,确定所述元数据中各数据表的字段引用信息;根据所述敏感字段、所述非敏感字段以及所述字段引用信息,基于预训练的元数据质量检测模型,确定所述元数据中待整改的数据表;可以获取待整改的数据表,并对所述待整改的数据表进行整改,得到变更的元数据;在得到变更的元数据后,基于变更的元数据开启新一轮的敏感字段识别从而提高数据敏感度识别的准确度。
1.一种敏感数据识别方法,其特征在于,包括:
2.根据权利要求1所述的敏感数据识别方法,其特征在于,所述根据所述敏感字段、所述非敏感字段以及所述字段引用信息,基于预训练的元数据质量检测模型,确定所述元数据中待整改的数据表,包括:
3.根据权利要求2所述的敏感数据识别方法,其特征在于,所述基于预训练的强化学习模型,更新所述预设评分规则以及所述预设阈值,包括:
4.根据权利要求3所述的敏感数据识别方法,其特征在于,所述根据所述评分值、所述预设阈值以及所述整改信息,确定奖励值,包括:
5.根据权利要求2~4任一所述的敏感数据识别方法,其特征在于,所述预训练的强化学习模型的训练步骤包括:
6.根据权利要求2所述的敏感数据识别方法,其特征在于,所述根据预设信息中存在空值的非敏感字段以及敏感度感知模型,确定疑似敏感字段,包括:
7.根据权利要求2或6所述的敏感数据识别方法,其特征在于,所述敏感度感知模型的训练步骤包括:
8.一种敏感数据识别装置,其特征在于,包括字段识别模块、引用信息确定模块、待整改数据表确定模块以及整改模块;
9.一种敏感数据识别设备,其特征在于,包括存储器和处理器,其中:
10.一种计算机可读存储介质,其特征在于,其上存储有可读的计算机程序,该程序被处理器执行时实现如权利要求1~7任一所述的敏感数据识别方法的步骤。