一种文本敏感信息检测方法、装置、设备及存储介质与流程

文档序号：36420351发布日期：2023-12-20 08:55阅读：54来源：国知局

本发明涉及深度学习，特别涉及一种文本敏感信息检测方法、装置、设备及存储介质。

背景技术：

1、为了解决隐私泄露的问题，数据脱敏技术应运而生。数据脱敏技术流程为首先对敏感信息进行识别，然后对识别出来的敏感信息进行替换、加密等脱敏操作。

2、目前，传统的敏感识别方法为人为指定或者使用正则表达式对文本进行匹配识别等，此类方式只能对单一数据项进行整体识别，识别范围小、不够灵活，并且无法对长文本中出现的敏感信息进行精准识别。因此，如何对长文本中出现的敏感信息进行精准识别是需要解决的。

技术实现思路

1、有鉴于此，本发明的目的在于提供一种文本敏感信息检测方法、装置、设备及存储介质，能够对长文本中出现的敏感信息进行精准识别。其具体方案如下：

2、第一方面，本申请公开了一种文本敏感信息检测方法，包括：

3、基于预设文本处理方法对获取到的待检测文本进行文本预处理以得到处理后文本；

4、基于预设训练语料长度和预设词嵌入模型对所述处理后文件进行转化拼接以得到目标文本向量；

5、基于预设目标识别模型构建目标敏感信息检测模型，并将所述目标文本向量输入至所述目标敏感信息检测模型中以得到目标识别结果；

6、基于所述目标识别结果确定所述待检测文本的敏感信息识别结果。

7、可选的，所述基于预设文本处理方法对获取到的待检测文本进行文本预处理以得到处理后文本，包括：

8、基于双向最大匹配算法对获取到的待检测文本进行分词处理以得到分词后文本；

9、对所述分词后文本中的字符进行调整以得到处理后文本。

10、可选的，所述基于预设训练语料长度和预设词嵌入模型对所述处理后文件进行转化拼接以得到目标文本向量，包括：

11、基于预设语料长度对所述处理后文件中的字符长度调整为目标长度以得到调整后文本；

12、基于连续词袋模型将所述调整后文本中的字符转化为词向量，并将所有所述词向量进行拼接以得到目标文本向量。

13、可选的，所述基于预设语料长度对所述处理后文件中的字符长度调整为目标长度以得到调整后文本，包括：

14、基于预设填充代码指令和预设语料长度将所述处理后文件中的字符长度调整至目标长度以得到调整后文本。

15、可选的，所述基于预设目标识别模型构建目标敏感信息检测模型，包括：

16、对faster r-cnn模型中的anchor和rpn进行修改以得到目标敏感信息检测模型。

17、可选的，所述基于所述目标识别结果确定所述待检测文本的敏感信息识别结果，包括：

18、将所述目标识别结果通过预设映射方法输入至所述待检测文本上，以得到所述待检测文本的敏感信息识别结果。

19、第二方面，本申请公开了一种文本敏感信息检测装置，包括：

20、文本预处理模块，用于基于预设文本处理方法对获取到的待检测文本进行文本预处理以得到处理后文本；

21、文本转化模块，用于基于预设训练语料长度和预设词嵌入模型对所述处理后文件进行转化拼接以得到目标文本向量；

22、模型识别模块，用于基于预设目标识别模型构建目标敏感信息检测模型，并将所述目标文本向量输入至所述目标敏感信息检测模型中以得到目标识别结果；

23、结果确定模块，用于基于所述目标识别结果确定所述待检测文本的敏感信息识别结果。

24、可选的，所述文本预处理模块，包括：

25、文本分词单元，用于基于双向最大匹配算法对获取到的待检测文本进行分词处理以得到分词后文本；

26、字符调整单元，用于对所述分词后文本中的字符进行调整以得到处理后文本。

27、第三方面，本申请公开了一种电子设备，包括：

28、存储器，用于保存计算机程序；

29、处理器，用于执行所述计算机程序以实现前述的文本敏感信息检测方法。

30、第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的文本敏感信息检测方法。

31、可见，本申请中，首先基于预设文本处理方法对获取到的待检测文本进行文本预处理以得到处理后文本；基于预设训练语料长度和预设词嵌入模型对所述处理后文件进行转化拼接以得到目标文本向量；基于预设目标识别模型构建目标敏感信息检测模型，并将所述目标文本向量输入至所述目标敏感信息检测模型中以得到目标识别结果；基于所述目标识别结果确定所述待检测文本的敏感信息识别结果。即，通过对获取到的待检测文本进行预先处理、转化拼接得到长度、维度统一的目标文本向量；然后通过基于预设目标识别模型构建成的目标敏感信息检测模型对所述目标文本向量进行识别以得到目标识别结果进而确定敏感信息识别结果。这样一来，解决了传统敏感发现算法只能对整段输入整体检测的弊端，同时无需提前设定检测种类，进而提高了检测的灵活性。

技术特征：

1.一种文本敏感信息检测方法，其特征在于，包括：

2.根据权利要求1所述的文本敏感信息检测方法，其特征在于，所述基于预设文本处理方法对获取到的待检测文本进行文本预处理以得到处理后文本，包括：

3.根据权利要求1所述的文本敏感信息检测方法，其特征在于，所述基于预设训练语料长度和预设词嵌入模型对所述处理后文件进行转化拼接以得到目标文本向量，包括：

4.根据权利要求3所述的文本敏感信息检测方法，其特征在于，所述基于预设语料长度对所述处理后文件中的字符长度调整为目标长度以得到调整后文本，包括：

5.根据权利要求1所述的文本敏感信息检测方法，其特征在于，所述基于预设目标识别模型构建目标敏感信息检测模型，包括：

6.根据权利要求1至5任一项所述的文本敏感信息检测方法，其特征在于，所述基于所述目标识别结果确定所述待检测文本的敏感信息识别结果，包括：

7.一种文本敏感信息检测装置，其特征在于，包括：

8.根据权利要求7所述的文本敏感信息检测装置，其特征在于，所述文本预处理模块，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的文本敏感信息检测方法。

技术总结
本申请公开了一种文本敏感信息检测方法、装置、设备及存储介质，涉及深度学习技术领域，包括：基于预设文本处理方法对获取到的待检测文本进行文本预处理以得到处理后文本；基于预设训练语料长度和预设词嵌入模型对所述处理后文件进行转化拼接以得到目标文本向量；基于预设目标识别模型构建目标敏感信息检测模型，并将所述目标文本向量输入至所述目标敏感信息检测模型中以得到目标识别结果；基于所述目标识别结果确定所述待检测文本的敏感信息识别结果。这样一来，通过将长文本信息进行分词及向量化后，将其输入至目标敏感信息检测模型中，解决了传统敏感发现算法只能对整段输入整体检测的弊端，同时无需提前设定检测种类，提高了检测的灵活性。

技术研发人员：贾荫鹏,李彬,孙善宝,罗清彩,李锐
受保护的技术使用者：山东浪潮科学研究院有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贾荫鹏李彬孙善宝罗清彩李锐
技术所有人：山东浪潮科学研究院有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。