文本脱敏模型的训练方法、文本脱敏方法及应用与流程

文档序号：33787444发布日期：2023-04-19 04:08阅读：257来源：国知局

本发明是关于计算机数据处理领域，特别是关于一种文本脱敏模型的训练方法及装置、文本脱敏方法及装置、电子设备及计算机可读介质。

背景技术：

1、随着互联网技术的发展，用户的隐私以及文件中重要信息变得不再安全，为了保证用户的隐私以及文件中重要信息的安全性，出现了文本脱敏技术。文本脱敏技术是指将用户的隐私或者文件中较为重要的信息进行替换或者进行数据的变形，从而保证用户隐私中重要信息以及文件中重要信息的安全性。现有的文本脱敏方案，文本语义特征抽取能力较弱，对于部分敏感数据识别效果较差，难以实现不同场景下文本脱敏模型的快速部署。

2、因此，针对上述技术问题，有必要提供一种新的文本脱敏模型的训练方法、文本脱敏方法及应用。

技术实现思路

1、本发明的目的在于提供一种文本脱敏模型的训练方法、文本脱敏方法及应用，其具有较佳的敏感数据识别效果，且能够实现不同场景下的文本脱敏模型快速部署。

2、为实现上述目的，本发明提供的技术方案如下：

3、第一方面，本发明提供了一种文本脱敏模型的训练方法，其包括：

4、基于含有标签信息的样本集，训练得到初始模型；基于所述初始模型，确定待脱敏文本中各个词的标签概率分布；基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本；若是，获取所述待脱敏文本中各个词的标签，并作为训练样本对所述初始模型进行增量训练。

5、在一个或多个实施方式中，基于含有标签信息的样本集，训练得到初始模型，具体包括：

6、为预处理后的文本语料中的各个词标注标签；利用词典将标注标签后的文本语料映射为序列化的文本表示；将所述序列化的文本裁剪或填充为固定长度，以获得含有标签信息的样本集；基于所述样本集，对神经网络模型进行训练，以获得初始模型。

7、在一个或多个实施方式中，基于所述样本集，对神经网络模型进行训练，具体包括：

8、将所述样本集中的各样本映射为向量化样本；获取所述向量化样本中各个词的上下文语义信息；基于所述语义信息，确定所述向量化样本中各个词的标签概率分布；基于所述标签概率分布，预测所述样本集中各样本的各个词的标签；基于所述预测的标签和所述标注的标签，计算损失误差，以修正神经网络模型的参数。

9、在一个或多个实施方式中，基于所述初始模型，确定待脱敏文本中各个词的标签概率分布，具体包括：

10、基于所述初始模型，获取待脱敏文本中各个词的上下文语义信息；基于所述语义信息，确定所述待脱敏文本中各个词的标签概率分布。

11、在一个或多个实施方式中，基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本，具体包括：

12、基于所述待脱敏文本中各个词的标签概率分布，确定各所述标签概率分布中的最大概率标签为所述待脱敏文本中各个词的预测标签；当所述待脱敏文本中任一个词的预测标签为脱敏标签，且该词的预测标签对应的标签概率小于第一阈值时，所述待脱敏文本确定为低置信度样本。

13、在一个或多个实施方式中，基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本，具体包括：

14、基于所述待脱敏文本中各个词的标签概率分布，确定各所述标签概率分布中的最大概率标签为所述待脱敏文本中各个词的预测标签；当所述待脱敏文本中任一个词的预测标签为非脱敏标签，且该词的预测标签对应的标签概率小于第二阈值，且该词的标签概率分布中概率最大的三个标签中具有脱敏标签时，所述待脱敏文本确定为低置信度样本。

15、在一个或多个实施方式中，基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本，具体包括：

16、基于所述待脱敏文本中各个词的标签概率分布，计算各个词的标签概率分布的标准差；当所述待脱敏文本中任一个词的标签概率分布的标准差小于第三阈值时，所述待脱敏文本确定为低置信度样本。

17、第二方面，本发明提供了一种文本脱敏方法，其包括：

18、基于如前所述的文本脱敏模型的训练方法，训练得到文本脱敏模型；基于所述文本脱敏模型，对待脱敏文本进行脱敏。

19、第三方面，本发明提供了一种文本脱敏模型的训练装置，其包括：

20、预训练模块，用于基于含有标签信息的样本集，训练得到初始模型；第一确定模块，用于基于所述初始模型，确定待脱敏文本中各个词的标签概率分布；第二确定模块，用于基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本；增量训练模块，用于在所述待脱敏文本确定为低置信度样本时，获取所述待脱敏文本中各个词的标签，以作为训练样本对所述初始模型进行增量训练。

21、第四方面，本发明提供了一种文本脱敏模装置，其特征在于，包括：

22、训练模块，用于基于如前所述的文本脱敏模型的训练方法，训练得到文本脱敏模型；脱敏模块，用于基于所述文本脱敏模型，对待脱敏文本进行脱敏。

23、第五方面，本发明提供了一种电子设备，包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如前所述的文本脱敏模型的训练方法和文本脱敏方法。

24、第六方面，本发明提供了一种计算机可读介质，所述计算机可读介质中承载有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如前所述的文本脱敏模型的训练方法和文本脱敏方法。

25、与现有技术相比，本发明提供的文本脱敏模型的训练方法、文本脱敏方法及应用，通过初始模型预测待脱敏文本的标签概率分布序列，以筛选出低置信度的样本，并获取低置信度的样本标签信息，以作为训练样本送入初始模型进行增量训练；一方面可以快速干预错误脱敏的数据，另一方面可以在不同场景下进行带个性化的快速部署；同时，随着使用场景的增加与模型迭代更新，模型部署的时间将不断缩短。

技术特征：

1.一种文本脱敏模型的训练方法，其特征在于，包括：

2.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于含有标签信息的样本集，训练得到初始模型，具体包括：

3.如权利要求2所述的文本脱敏模型的训练方法，其特征在于，基于所述样本集，对神经网络模型进行训练，具体包括：

4.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于所述初始模型，确定待脱敏文本中各个词的标签概率分布，具体包括：

5.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本，具体包括：

6.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本，具体包括：

7.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本，具体包括：

8.一种文本脱敏方法，其特征在于，包括：

9.一种文本脱敏模型的训练装置，其特征在于，包括：

10.一种文本脱敏模装置，其特征在于，包括：

11.一种电子设备，包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1~8中任一项所述方法。

12.一种计算机可读介质，其特征在于，所述计算机可读介质中承载有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1~8中任一项所述的方法。

技术总结
本发明公开了一种文本脱敏模型的训练方法、文本脱敏方法及应用，该文本脱敏模型的训练方法包括：基于含有标签信息的样本集，训练得到初始模型；基于所述初始模型，确定待脱敏文本中各个词的标签概率分布；基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本；若是，获取所述待脱敏文本中各个词的标签，并作为训练样本对所述初始模型进行增量训练。本发明提供的文本脱敏模型的训练方法，一方面可以快速干预错误脱敏的数据，另一方面可以在不同场景下进行带个性化的快速部署；同时，随着使用场景的增加与模型迭代更新，模型部署的时间将不断缩短。

技术研发人员：唐小雅,王永明,徐刚,李思泽
受保护的技术使用者：杭州太美星程医药科技有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐小雅王永明徐刚李思泽
技术所有人：杭州太美星程医药科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。