一种敏感信息识别方法、装置及网络设备与流程

文档序号:33422469发布日期:2023-03-11 00:14阅读:26来源:国知局
一种敏感信息识别方法、装置及网络设备与流程

1.本发明涉及敏感信息识别技术领域,特别是指一种敏感信息识别方法、装置及网络设备。


背景技术:

2.目前,敏感内容信息识别检测方案中,有的单纯基于敏感词库规则进行判断,有的使用机器学习或者深度学习模型进行判断。其中,通常用到的识别方式包括:利用敏感词库进行过滤识别,或者使用朴素贝叶斯的统计方式,或者使用gru网络学习识别等。
3.然而,上述方案存在如下缺点:使用词库过滤不能挖掘到语义层面的信息,对于包含词库中没有的敏感词的敏感内容识别时会造成误判或漏判,使用简单的神经网络进行识别时识别结果精确度不高,使用大型预训练模型精确性高但是耗时巨大,难以应用到实时性要求高的场景。
4.综上,现有的敏感信息识别方案难以准确有效地识别敏感信息,容易造成误判或漏判。


技术实现要素:

5.本发明的目的是提供一种敏感信息识别方法、装置及网络设备,解决了现有的敏感信息识别模型难以兼顾识别精度和识别速度的问题。
6.为达到上述目的,本发明的实施例提供一种敏感信息识别方法,包括:
7.通过知识蒸馏,对集成模型进行压缩,得到目标识别模型;所述集成模型由至少三个神经网络模型集成得到;
8.通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标审核结果;
9.其中,所述目标审核结果用于指示所述待审核内容是否为敏感信息。
10.可选地,在所述通过知识蒸馏,对集成模型进行压缩,得到目标识别模型之前,所述敏感信息识别方法还包括:
11.利用目标训练数据,分别对所述至少三个神经网络模型进行训练,并在训练过程中进行调参,得到至少三个基础模型;
12.将所述至少三个基础模型进行集成,确定所述集成模型以及所述集成模型的输出结果。
13.可选地,在所述利用目标训练数据,分别对所述至少三个神经网络模型进行训练之前,所述敏感信息识别方法还包括:
14.通过第一方式对训练数据进行数据增强,得到所述目标训练数据:
15.其中,所述第一方式包括以下至少一项:
16.回译;
17.分布估计算法(estimation of distribution algorithm,eda);
18.掩码语言模型(mask language model,mlm)。
19.可选地,所述集成模型的输出结果的确定方式,包括:
20.针对每一所述目标训练数据,分别利用所述至少三个基础模型对所述目标训练数据进行敏感信息识别,得到每一所述基础模型对所述目标训练数据的审核结果,以及所述审核结果对应的第一概率;
21.根据所述审核结果和所述第一概率,确定所述目标训练数据输入所述集成模型得到的输出结果;
22.其中,所述第一概率和所述集成模型的输出结果为未归一化的对数概率。
23.可选地,所述根据所述审核结果和所述第一概率,确定所述目标训练数据输入所述集成模型得到的输出结果,包括:
24.在所述至少三个基础模型的所述审核结果均一致的情况下,将所述审核结果对应的第一概率的第一平均值确定为所述集成模型的输出结果;
25.在所述至少三个基础模型的所述审核结果不一致的情况下,将频数高的所述审核结果对应的第一概率的第一平均值确定为所述集成模型的输出结果。
26.可选地,所述通过知识蒸馏,对集成模型进行压缩,得到目标识别模型,包括:
27.根据每一所述基础模型以及所述集成模型,获取每一所述目标训练数据在每一所述基础模型中对应的第一概率和在所述集成模型中对应的输出结果;
28.利用带有温度参数的归一化指数函数,对每一所述目标训练数据对应的所述第一概率和所述输出结果进行归一化处理,获取每一所述目标训练数据在每一所述基础模型中对应的第二概率和在所述集成模型中对应的第三概率;
29.根据所述目标训练数据的标签值、所述第二概率和所述第三概率,确定所述目标识别模型对应的损失函数;
30.利用所述损失函数,对选定的待训练模型进行训练,得到所述目标识别模型;
31.其中,所述第二概率和所述第三概率为归一化的分类概率。
32.可选地,所述损失函数表示为:
33.l=ah(y,s)+b1mse(s,s_t)+b2mse(s,sa_t)+b3mse(s,sb_t)+b4mse(s,sc_t);
34.其中,a、b1、b2和b3表示系数,且a、b1、b2、b3和b4之和为1;h表示交叉熵损失函数;y表示目标训练数据的标签值;s表示所述目标训练数据输入所述待训练模型得到未归一化的对数概率后,再输入归一化指数函数得到的归一化的分类概率;mse表示均方误差损失函数;s_t表示所述第三概率;sa_t、sb_t和sc_t分别表示不同的所述基础模型对应的第二概率。
35.可选地,b2、b3和b4满足以下至少一项:
36.在sa_t、sb_t和sc_t中sa_t的值最大的情况下,b2为预设值,b3和b4为0;
37.在sa_t、sb_t和sc_t中sb_t的值最大的情况下,b3为预设值,b2和b4为0;
38.在sa_t、sb_t和sc_t中sc_t的值最大的情况下,b4为预设值,b2和b3为0。
39.可选地,所述通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标审核结果,包括:
40.通过所述目标识别模型,对待审核内容进行敏感信息识别,确定所述待审核内容对应的目标审核结果。
41.可选地,所述通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标
审核结果,包括:
42.通过所述目标识别模型,对待审核内容进行敏感信息识别,获取所述待审核内容对应的第一审核结果;以及
43.利用动态规则库,对所述待审核内容进行敏感信息识别,得到第二审核结果;
44.根据所述第一审核结果和所述第二审核结果,确定所述目标审核结果。
45.可选地,所述根据所述第一审核结果和所述第二审核结果,确定所述目标审核结果,包括以下至少一项:
46.若所述第一审核结果和所述第二审核结果中的至少一个为敏感,则所述目标审核结果为敏感;
47.若所述第一审核结果和所述第二审核结果均为非敏感,则所述目标审核结果为非敏感。
48.可选地,所述利用动态规则库,对所述待审核内容进行敏感信息识别,得到第二审核结果,包括:
49.利用所述动态规则库和预先建立的敏感词库,对所述待审核内容进行敏感信息识别,得到第二审核结果;
50.其中,所述动态规则库是基于敏感信息相关的正则库,通过命名实体识别(named entity recognition,简称ner)对所述待审核内容进行实体识别而动态生成的。
51.为达到上述目的,本发明的实施例提供一种敏感信息识别装置,包括:
52.模型处理模块,用于通过知识蒸馏,对集成模型进行压缩,得到目标识别模型;所述集成模型由至少三个神经网络模型集成得到;
53.信息识别模块,用于通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标审核结果;
54.其中,所述目标审核结果用于指示所述待审核内容是否为敏感信息。
55.可选地,所述敏感信息识别装置还包括:
56.模型训练模块,用于利用目标训练数据,分别对所述至少三个神经网络模型进行训练,并在训练过程中进行调参,得到至少三个基础模型;
57.模型集成模块,用于将所述至少三个基础模型进行集成,确定所述集成模型以及所述集成模型的输出结果。
58.可选地,所述敏感信息识别装置还包括:
59.数据增强模块,用于通过第一方式对训练数据进行数据增强,得到所述目标训练数据:
60.其中,所述第一方式包括以下至少一项:
61.回译;
62.分布估计算法eda;
63.掩码语言模型mlm。
64.可选地,所述模型集成模块包括:
65.第一处理单元,用于针对每一所述目标训练数据,分别利用所述至少三个基础模型对所述目标训练数据进行敏感信息识别,得到每一所述基础模型对所述目标训练数据的审核结果,以及所述审核结果对应的第一概率;
66.第二处理单元,用于根据所述审核结果和所述第一概率,确定所述目标训练数据输入所述集成模型得到的输出结果;
67.其中,所述第一概率和所述集成模型的输出结果为未归一化的对数概率。
68.可选地,所述第二处理单元包括:
69.第一处理子单元,用于在所述至少三个基础模型的所述审核结果均一致的情况下,将所述审核结果对应的第一概率的第一平均值确定为所述集成模型的输出结果;
70.第二处理子单元,用于在所述至少三个基础模型的所述审核结果不一致的情况下,将频数高的所述审核结果对应的第一概率的第一平均值确定为所述集成模型的输出结果。
71.可选地,所述模型处理模块包括:
72.第三处理单元,用于根据每一所述基础模型以及所述集成模型,获取每一所述目标训练数据在每一所述基础模型中对应的第一概率和在所述集成模型中对应的输出结果;
73.归一化处理单元,用于利用带有温度参数的归一化指数函数,对每一所述目标训练数据对应的所述第一概率和所述输出结果进行归一化处理,获取每一所述目标训练数据在每一所述基础模型中对应的第二概率和在所述集成模型中对应的第三概率;
74.函数确定单元,用于根据所述目标训练数据的标签值、所述第二概率和所述第三概率,确定所述目标识别模型对应的损失函数;
75.模型训练单元,用于利用所述损失函数,对选定的待训练模型进行训练,得到所述目标识别模型;
76.其中,所述第二概率和所述第三概率为归一化的分类概率。
77.可选地,所述损失函数表示为:
78.l=ah(y,s)+b1mse(s,s_t)+b2mse(s,sa_t)+b3mse(s,sb_t)+b4mse(s,sc_t);
79.其中,a、b1、b2和b3表示系数,且a、b1、b2、b3和b4之和为1;h表示交叉熵损失函数;y表示目标训练数据的标签值;s表示所述目标训练数据输入所述待训练模型得到未归一化的对数概率后,再输入归一化指数函数得到的归一化的分类概率;mse表示均方误差损失函数;s_t表示所述第三概率;sa_t、sb_t和sc_t分别表示不同的所述基础模型对应的第二概率。
80.可选地,b2、b3和b4满足以下至少一项:
81.在sa_t、sb_t和sc_t中sa_t的值最大的情况下,b2为预设值,b3和b4为0;
82.在sa_t、sb_t和sc_t中sb_t的值最大的情况下,b3为预设值,b2和b4为0;
83.在sa_t、sb_t和sc_t中sc_t的值最大的情况下,b4为预设值,b2和b3为0。
84.可选地,所述信息识别模块包括:
85.第一识别单元,用于通过所述目标识别模型,对待审核内容进行敏感信息识别,确定所述待审核内容对应的目标审核结果。
86.可选地,所述信息识别模块包括:
87.第二识别单元,用于通过所述目标识别模型,对待审核内容进行敏感信息识别,获取所述待审核内容对应的第一审核结果;以及
88.第三识别单元,用于利用动态规则库,对所述待审核内容进行敏感信息识别,得到第二审核结果;
89.第四识别单元,用于根据所述第一审核结果和所述第二审核结果,确定所述目标审核结果。
90.可选地,所述第四识别单元包括:
91.第一识别子单元,用于若所述第一审核结果和所述第二审核结果中的至少一个为敏感,则所述目标审核结果为敏感;
92.第二识别子单元,用于若所述第一审核结果和所述第二审核结果均为非敏感,则所述目标审核结果为非敏感。
93.可选地,所述第三识别单元包括:
94.第三识别子单元,用于利用所述动态规则库和预先建立的敏感词库,对所述待审核内容进行敏感信息识别,得到第二审核结果;
95.其中,所述动态规则库是基于敏感信息相关的正则库,通过命名实体识别ner对所述待审核内容进行实体识别而动态生成的。
96.为达到上述目的,本发明的实施例提供一种网络设备,包括处理器和收发机,其中,所述处理器用于:
97.通过知识蒸馏,对集成模型进行压缩,得到目标识别模型;所述集成模型由至少三个神经网络模型集成得到;
98.通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标审核结果;
99.其中,所述目标审核结果用于指示所述待审核内容是否为敏感信息。
100.可选地,所述处理器还用于:
101.利用目标训练数据,分别对所述至少三个神经网络模型进行训练,并在训练过程中进行调参,得到至少三个基础模型;
102.将所述至少三个基础模型进行集成,确定所述集成模型以及所述集成模型的输出结果。
103.可选地,所述处理器还用于:
104.通过第一方式对训练数据进行数据增强,得到所述目标训练数据:
105.其中,所述第一方式包括以下至少一项:
106.回译;
107.分布估计算法eda;
108.掩码语言模型mlm。
109.可选地,所述集成模型的输出结果的确定方式,包括:
110.针对每一所述目标训练数据,分别利用所述至少三个基础模型对所述目标训练数据进行敏感信息识别,得到每一所述基础模型对所述目标训练数据的审核结果,以及所述审核结果对应的第一概率;
111.根据所述审核结果和所述第一概率,确定所述目标训练数据输入所述集成模型得到的输出结果;
112.其中,所述第一概率和所述集成模型的输出结果为未归一化的对数概率。
113.可选地,所述处理器在根据所述审核结果和所述第一概率,确定所述目标训练数据输入所述集成模型得到的输出结果时,具体用于:
114.在所述至少三个基础模型的所述审核结果均一致的情况下,将所述审核结果对应
的第一概率的第一平均值确定为所述集成模型的输出结果;
115.在所述至少三个基础模型的所述审核结果不一致的情况下,将频数高的所述审核结果对应的第一概率的第一平均值确定为所述集成模型的输出结果。
116.可选地,所述处理器在通过知识蒸馏,对集成模型进行压缩,得到目标识别模型时,具体用于:
117.根据每一所述基础模型以及所述集成模型,获取每一所述目标训练数据在每一所述基础模型中对应的第一概率和在所述集成模型中对应的输出结果;
118.利用带有温度参数的归一化指数函数,对每一所述目标训练数据对应的所述第一概率和所述输出结果进行归一化处理,获取每一所述目标训练数据在每一所述基础模型中对应的第二概率和在所述集成模型中对应的第三概率;
119.根据所述目标训练数据的标签值、所述第二概率和所述第三概率,确定所述目标识别模型对应的损失函数;
120.利用所述损失函数,对选定的待训练模型进行训练,得到所述目标识别模型;
121.其中,所述第二概率和所述第三概率为归一化的分类概率。
122.可选地,所述损失函数表示为:
123.l=ah(y,s)+b1mse(s,s_t)+b2mse(s,sa_t)+b3mse(s,sb_t)+b4mse(s,sc_t);
124.其中,a、b1、b2和b3表示系数,且a、b1、b2、b3和b4之和为1;h表示交叉熵损失函数;y表示目标训练数据的标签值;s表示所述目标训练数据输入所述待训练模型得到未归一化的对数概率后,再输入归一化指数函数得到的归一化的分类概率;mse表示均方误差损失函数;s_t表示所述第三概率;sa_t、sb_t和sc_t分别表示不同的所述基础模型对应的第二概率。
125.可选地,b2、b3和b4满足以下至少一项:
126.在sa_t、sb_t和sc_t中sa_t的值最大的情况下,b2为预设值,b3和b4为0;
127.在sa_t、sb_t和sc_t中sb_t的值最大的情况下,b3为预设值,b2和b4为0;
128.在sa_t、sb_t和sc_t中sc_t的值最大的情况下,b4为预设值,b2和b3为0。
129.可选地,所述处理器在通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标审核结果时,具体用于:
130.通过所述目标识别模型,对待审核内容进行敏感信息识别,确定所述待审核内容对应的目标审核结果。
131.可选地,所述处理器在通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标审核结果时,具体用于:
132.通过所述目标识别模型,对待审核内容进行敏感信息识别,获取所述待审核内容对应的第一审核结果;以及
133.利用动态规则库,对所述待审核内容进行敏感信息识别,得到第二审核结果;
134.根据所述第一审核结果和所述第二审核结果,确定所述目标审核结果。
135.可选地,所述根据所述第一审核结果和所述第二审核结果,确定所述目标审核结果,包括以下至少一项:
136.若所述第一审核结果和所述第二审核结果中的至少一个为敏感,则所述目标审核结果为敏感;
137.若所述第一审核结果和所述第二审核结果均为非敏感,则所述目标审核结果为非敏感。
138.可选地,所述处理器在利用动态规则库,对所述待审核内容进行敏感信息识别,得到第二审核结果时,具体用于:
139.利用所述动态规则库和预先建立的敏感词库,对所述待审核内容进行敏感信息识别,得到第二审核结果;
140.其中,所述动态规则库是基于敏感信息相关的正则库,通过命名实体识别ner对所述待审核内容进行实体识别而动态生成的。
141.为达到上述目的,本发明的实施例提供一种网络设备,包括收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令;所述处理器执行所程序或指令时实现如上所述的敏感信息识别方法。
142.为达到上述目的,本发明的实施例提供一种可读存储介质,其上存储有程序或指令,所述程序或指令被处理器执行时实现如上所述的敏感信息识别方法中的步骤。
143.本发明的上述技术方案的有益效果如下:
144.本发明实施例的方法,集成模型是通过多个模型集成的,能够提高识别精度,而通过知识蒸馏得到的目标识别模型,能够在损失少量精度的情况下缩短推理时间,适用于实时处理的场景,兼顾了识别的精度和耗时。
附图说明
145.图1为本发明实施例的敏感信息识别方法的流程图;
146.图2为本发明实施例的敏感信息识别方法的示意图;
147.图3为本发明另一实施例的敏感信息识别装置的结构图;
148.图4为本发明实施例的网络设备的结构图;
149.图5为本发明另一实施例的网络设备的结构图。
具体实施方式
150.为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
151.应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
152.在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
153.另外,本文中术语“系统”和“网络”在本文中常可互换使用。
154.在本技术所提供的实施例中,应理解,“与a相应的b”表示b与a相关联,根据a可以确定b。但还应理解,根据a确定b并不意味着仅仅根据a确定b,还可以根据a和/或其它信息确定b。
155.如图1所示,本发明实施例的一种敏感信息识别方法,包括:
156.步骤101,通过知识蒸馏,对集成模型进行压缩,得到目标识别模型;所述集成模型由至少三个神经网络模型集成得到;
157.步骤102,通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标审核结果;
158.其中,所述目标审核结果用于指示所述待审核内容是否为敏感信息。
159.该实施例中,集成模型是通过多个模型集成的,能够提高识别精度,而通过知识蒸馏得到的目标识别模型,能够在损失少量精度的情况下缩短推理时间,适用于实时处理的场景,兼顾了识别的精度和耗时。
160.可选地,在所述通过知识蒸馏,对集成模型进行压缩,得到目标识别模型之前,所述敏感信息识别方法还包括:
161.(一)利用目标训练数据,分别对所述至少三个神经网络模型进行训练,并在训练过程中进行调参,得到至少三个基础模型。
162.作为本发明一可选实施例,三个神经网络模型可以是如下三个大型模型:roberta-wwm-ext-zh-large-rcnn、xlnet-zh-mid-cnn和multilingual t5-rcnn(简称mt5)模型。下面,结合数据增强后得到的7n条数据(即目标训练数据),对三个大型模型的训练过程进行说明:
163.(1)roberta-wwm-ext-zh-large-rcnn为roberta-large模型连接rcnn模型,具体结构为:首先,数据(即目标训练数据)通过roberta-wwm-ext模型可以得到每个字符的编码,相当于通过roberta-wwm-ext将数据的每个字符进行embedding(嵌入)得到embedding向量;embedding向量再通过一个双向的lstm模型得到编码;得到的编码再通过卷积核大小为2,3,4的卷积神经网络(convolutional neural networks,简称cnn)模型进行卷积池化操作,最后拼接在一起,通过一个全连接层输出分类的结果。
164.在训练这个网络的时候,微调roberta-wwm-ext模型需要用到一个很小的学习率(例如可采用lr=5e-6),在训练rcnn层的时候使用一个比较大的学习率(例如可采用lr=1e-3)。由于rcnn需要重头开始学,roberta-wwm-ext参数只需要微调,对学习率采用指数衰减的模拟退火算法进行衰减。当模型接近收敛的时候,停止对roberta-wwm-ext参数的微调更新,只更新rcnn参数,直至训练到模型收敛。
165.(2)训练xlnet-zh-mid-cnn模型的方法与训练roberta-wwm-ext-zh-large-rcnn的方法比较类似。这里,可以先将数据通过xlnet-zh-mid模型得到每个字符的编码,也就是说,把模型当做编码器,得到每个字符的embedding表示;然后,要通过一层self-attention层计算自注意力;接着,通过卷积核大小为2,3,4的cnn模型进行卷积和池化操作,最后拼接在一起通过一个全连接层得到输出分类的结果。
166.其中,在训练时,微调xlnet-zh-mid使用较小的学习率(例如可采用lr=1e-5),使用指数衰减的模拟退火算法进行衰减。当模型接近收敛时,停止更新xlnet-zh-mid的参数,只更新cnn的参数,直到模型收敛。
167.(3)训练mt5-rcnn模型,mt5模型的训练可以使用bert4keras提供的默认模型的加载以及训练方式。具体的,在模型输出后,经过一层self-attenion计算自注意力;然后,再通过一个双向的lstm层,得到的编码在通过卷积核大小为2,3,4的cnn模型进行卷积池化操
作,最后拼接在一起通过一个全连接层输出分类的结果。
168.这里,可以使用的mt5的学习率可使用lr=2e10-6,rcnn层可使用学习率lr=1e10-3。不同的是,训练的方式是采用seq2seq的方式进行训练的。在任务场景中,通过这样来转化为seq2seq的训练方式,比如,输入为:识别该内容是否敏感:我想出去喝酒。输出为:是(或否)。这种通过转化为seq2seq方式训练有监督的敏感识别任务的转化思想和gpt2 gpt3的思想是一致的,都是希望用文字把任务表达出来,然后转化为文字预测。按照上述方式训练,直到模型收敛。
169.需要说明的是,选择大模型(即大型的神经网络模型)外接cnn或者rcnn或者引入注意力等结构,配合调参可以训练出效果最好的模型。按照上述方式,可以训练多个基于大模型的基础模型,通过调参达到最好效果。
170.训练了3个大模型后,可以通过细致的调参,将每个基础模型调至最好的效果。为了进一步挖掘3个模型的潜力,得到精度最高的模型,可以采用模型集成的方式,将基础模型集合,这样,可以集合三个高精度的大型模型之力,进一步提高模型预测的精度。
171.(二)将所述至少三个基础模型进行集成,确定所述集成模型以及所述集成模型的输出结果。
172.该步骤中,将训练得到的多个基于大模型的基础模型进行集成,离线得到关于每条目标训练数据的输出结果(即logits)。
173.可选地,在所述利用目标训练数据,分别对所述至少三个神经网络模型进行训练之前,所述敏感信息识别方法还包括:
174.通过第一方式对训练数据进行数据增强,得到所述目标训练数据:
175.其中,所述第一方式包括以下至少一项:
176.回译;
177.分布估计算法eda;
178.掩码语言模型mlm。
179.需要说明的是,在业务场景中,常常会遇到数据量不足的情况,因此,本发明实施例中,可以使用三种数据增强的方式对数据进行增强,从而得到更丰富的训练数据,即目标训练数据。
180.例如,本发明一可选实施例中,对于某类敏感信息的约6000千条数据,以及特定业务场景的两千条数据,共8000多条数据进行数据增强,这里将训练数据的数据总数记为n。具体的,对第一方式中的各个数据增强方式详述如下:
181.第一种,通过回译的方式进行数据增强:调用有道翻译api(application programming interface,应用程序接口),通过有道翻译将上述n条数据从中文翻译为英文,再将翻译得到的英文数据通过有道翻译翻译为中文,从而得到n条增强数据。
182.第二种,使用eda的方式进行数据增强:首先,进行同义词替换(synonyms replace,sr),具体的,在分词后不考虑stopwords(停用词)的情况下,在句子(即训练数据)里随机抽取n个词(1≤n≤3),接着,从同义词词典中随机抽取同义词,对随机抽取的词进行替换;其次,进行随机插入(randomly insert,ri),具体的,在分词后不考虑stopwords的情况下,随机抽取一个词,接着,在该词的同义词集合里随机选择一个,插入原句字中的随机位置,该过程可以重复n(1≤n≤3)次;接下来,进行随机交换(randomly swap,rs),具体的,
在句子中,随机选择两个词,进行位置交换,该过程可进行一次;最后,进行随机删除(randomly delete,rd),具体的,对句子中的每个词,以概率p随机删除(p=0.1),若没有删除则再进行一次,直至出现删除词。通过该数据增强方式,可以得到4n条增强数据。
183.第三种,掩码语言模型mlm:使用大型mlm进行,例如,可以使用chinese-roberta-wwm-ext-large。具体的,首先将句子进行分词,随机选择某个词用[mask]标记替换,将替换后的句子输入roberta-zh-large模型;若输出的句子和原句子相同,则重新选择mask并再次输出,直到得到不同的句子,该句子即为数据增强后的句子。通过该数据增强方式,可以得到n条增强数据。
[0184]
利用以上三个维度的数据增强方式对训练数据(即任务语料)进行数据增强后,一共可以得到6n条增强数据(即扩充了6倍语料),大大扩充了训练数据,更利于神经网络的训练。
[0185]
该实施例中的数据增强方式融合了回译、eda以及大型预训练模型将内容mask并预测的方式进行数据增强,可以将原数据集扩充6倍以上,非常适用与数据量不够大而需要训练神经网络,还可以增强模型的泛化能力;融合了大模型的先验知识,能够在比其他方案数据更少的情况下,训练拟合一个效果不错的模型。
[0186]
可选地,所述集成模型的输出结果的确定方式,包括:
[0187]
针对每一所述目标训练数据,分别利用所述至少三个基础模型对所述目标训练数据进行敏感信息识别,得到每一所述基础模型对所述目标训练数据的审核结果,以及所述审核结果对应的第一概率;
[0188]
根据所述审核结果和所述第一概率,确定所述目标训练数据输入所述集成模型得到的输出结果;
[0189]
其中,所述第一概率和所述集成模型的输出结果为未归一化的对数概率。
[0190]
该实施例中的集成模型,集成了多种大模型的知识,识别准确率较高。
[0191]
可选地,所述根据所述审核结果和所述第一概率,确定所述目标训练数据输入所述集成模型得到的输出结果,包括:
[0192]
在所述至少三个基础模型的所述审核结果均一致的情况下,将所述审核结果对应的第一概率的第一平均值确定为所述集成模型的输出结果;
[0193]
在所述至少三个基础模型的所述审核结果不一致的情况下,将频数高的所述审核结果对应的第一概率的第一平均值确定为所述集成模型的输出结果。
[0194]
例如,将三个模型oberta-wwm-ext-zh-large-rcnn、xlnet-zh-mid-cnn和multilingual t5分别设为a、b和c,则有如下两种情况:
[0195]
情况一:模型a、b和c的预测结果均一致(例如都判断为敏感内容),这时,可以将模型a、b和c输出的logits(即未归一化的对数概率)的结果[a1,a2]、[b1,b2]和[c1,c2]取均值,得到集成模型的输出结果,即[(a1+b1+c1)/3,(a2+b2+c2)/3];
[0196]
情况二:模型a、b和c的预测结果不一致(例如,a和b判断为敏感内容,c则判断为非敏感内容),这时,可以取模型a和b输出的logits(即未归一化的对数概率)的结果[a1,a2]和[b1,b2],取均值得到集成模型的输出结果,即[(a1+b1)/2,(a2+b2)/2]。
[0197]
按照上述方式,依次使用三个模型对目标训练数据进行预测并集成,得到每条训练数据的集成模型的logits(即输出结果)的分布,并保存下来。另外,分别记录三个大模型
各自的logits并保存下来,需要指出,这些步骤均是在离线的环境下进行的。
[0198]
需要说明的是,通过如上步骤,分别训练三个大模型,调参到最优状态,得到三个基础模型,并将三个基础模型进行集成,可以使得到的集成模型的预测精度达到极优的状态。然而,在生产环境中,特别是实时性要求高的环境中,大模型虽然精度高,但是用来预测时耗时非常严重,难以应用于对实时性有要求的场景,大模型集成进行预测的耗时更是难以被接受。因此,可以用训练数据训练一个效果还不错的小模型,用小模型部署在实际的生产环境中来进行预测推断,但由于小模型的效果对比大模型有一定的差距,为了尽最大可能弥补这种差距,可以使用集成三个最优大模型的知识蒸馏到小模型的方式,弥补小模型精度的不足。
[0199]
具体的,将多个老师模型(即基础模型)采用策略进行集成后,使用集成模型的知识外加最好的那个老师模型来训练学生模型,让多个老师模型的知识得到最充分的使用,达到更好的效果。
[0200]
作为本发明一可选实施例,可以选择textcnn作为小模型。textcnn模型本身的精度还不错,虽然比不上大模型,但是textcnn模型的预测推理速度非常快,而且cnn可以并行计算,大大提高了模型的推理速度。其中,从多个大模型知识蒸馏到textcnn的方式具体如下:
[0201]
可选地,所述通过知识蒸馏,对集成模型进行压缩,得到目标识别模型,包括:
[0202]
(一)根据每一所述基础模型以及所述集成模型,获取每一所述目标训练数据在每一所述基础模型中对应的第一概率和在所述集成模型中对应的输出结果。
[0203]
该步骤中,可以离线计算出每条目标训练数据的集成模型logits(即集成模型的输出结果)分布并保存下来。
[0204]
(二)利用带有温度参数的归一化指数函数,对每一所述目标训练数据对应的所述第一概率和所述输出结果进行归一化处理,获取每一所述目标训练数据在每一所述基础模型中对应的第二概率和在所述集成模型中对应的第三概率。
[0205]
在训练textcnn模型的过程中,对于每条目标训练数据,在计算loss的时候,首先将该条数据离线计算出的集成模型的logits带入带有温度参数t的softmax函数(即归一化指数函数)中,softmax函数表示如下:
[0206][0207]
其中,z表示集成模型的logits;t表示温度;通过softmax函数可以计算出集成模型带温度参数t的softmax值(即归一化的分类概率)记为s_t;
[0208]
另外,分别将三个大模型(即基础模型)各自的logits值(即第一概率)带入上述公式,分别计算出每个大模型的带温度参数t的softmax值,分别记为sa_t、sb_t和sc_t;
[0209]
然后,可以计算目标训练数据通过textcnn模型之后的logits再通过普通softmax函数得到的softmax值,该softmax值记为s;也就是说,s表示所述目标训练数据输入所述待训练模型得到未归一化的对数概率后,再输入归一化指数函数得到的归一化的分类概率;
[0210]
此外,每条目标训练数据的真实标签的onthot表示记为y,即标签值。
[0211]
(三)根据所述目标训练数据的标签值、所述第二概率和所述第三概率,确定所述目标识别模型对应的损失函数。
[0212]
可选地,所述损失函数表示为:
[0213]
l=ah(y,s)+b1mse(s,s_t)+b2mse(s,sa_t)+b3mse(s,sb_t)+b4mse(s,sc_t);
[0214]
其中,a、b1、b2和b3表示系数,且a、b1、b2、b3和b4之和为1;h表示交叉熵损失函数;y表示目标训练数据的标签值;s表示所述目标训练数据输入所述待训练模型得到未归一化的对数概率后,再输入归一化指数函数得到的归一化的分类概率;mse(mean squared error)表示均方误差损失函数;s_t表示所述第三概率;sa_t、sb_t和sc_t分别表示不同的所述基础模型对应的第二概率。
[0215]
需要说明的是,在训练过程中,温度参数t的取值可以为3,这样能够尽可能地拉大敏感信息与非敏感信息的概率值的差异;a取值可以为0.1,这样能够让模型更多地从集成模型和各自的大模型学习知识,获得更好的学习效果。
[0216]
(四)利用所述损失函数,对选定的待训练模型进行训练,得到所述目标识别模型;
[0217]
其中,所述第二概率和所述第三概率为归一化的分类概率。
[0218]
可选地,b2、b3和b4满足以下至少一项:
[0219]
在sa_t、sb_t和sc_t中sa_t的值最大的情况下,b2为预设值,b3和b4为0;
[0220]
在sa_t、sb_t和sc_t中sb_t的值最大的情况下,b3为预设值,b2和b4为0;
[0221]
在sa_t、sb_t和sc_t中sc_t的值最大的情况下,b4为预设值,b2和b3为0。
[0222]
例如,作为本发明一可选实施例,b1、b2、b3和b4的取值由以下方式确定:
[0223]
集成模型的参数b1取值为0.6;
[0224]
如果基础模型a、b和c的预测结果一致(例如都判断为敏感内容),则选择模型a、b和c中预测结果确信度最高的模型,即预测正确的概率值最大的那个模型,将其参数设为0.3,剩余两个模型的参数均设为0。例如,a最大,则b2取值0.3,b3和b4取值为0;
[0225]
如果基础模型a、b和c的预测结果不一致(比如a和b判断为敏感内容,c判断为非敏感内容),则选择a和b中预测结果确信度最高的模型,即预测正确的概率值最大的那个模型,将其参数设为0.3,剩余两个模型的参数均设为0。例如a最大,则b2取值0.3,b3和b4取值为0。
[0226]
上述过程,实际上是针对每条目标训练数据,使用集成模型和确信度最高的模型(即基础模型)的知识蒸馏到小模型,得到目标识别模型。其中,学习率可以取lr=1e-3,并采用warmup的方式预热学习率,让目标识别模型有一个更好的收敛。
[0227]
其中,上述参数是通过调参得到的最优参数,可以按照上述方式和参数设置来训练小模型(例如textcnn模型),直至收敛。通过上述方式知识蒸馏得到的textcnn模型,比普通的textcnn模型的准确率能够提高7个百分点,基本可以达到89%,比上述集成模型的准确率仅少了3个百分点。而且,由于textcnn模型可并行计算的特性,其推理一条数据的耗时仅为0.008ms,而大模型推理一条数据则需耗时80ms,且经过蒸馏的textcnn模型的精度已经逼近了集成过的大模型,速度也能够达到实时性任务场景的要求。
[0228]
因此,本发明实施例的敏感信息识别方法中得到的目标识别模型,捕捉语义信息的能力更加强大,且通过利用知识蒸馏,能够在保持大型预训练模型强大的语义捕捉能力的同时,提升推理速度,使之满足实时性要求高的场景需求。
[0229]
本发明实施例中,使用集成模型的知识蒸馏,利用上述集成模型推断的每条目标训练数据的logits,以及各个大模型(即基础模型)推断的目标训练数据的logits,将知识
蒸馏到textcnn模型,让得到的目标识别模型能够兼顾预测的精度以及推理的时间速度,因此该目标识别模型推理速度快,适用于实时性要求高的场景。
[0230]
可选地,所述通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标审核结果,包括:
[0231]
通过所述目标识别模型,对待审核内容进行敏感信息识别,确定所述待审核内容对应的目标审核结果。
[0232]
该实施例中的目标识别模型,集成了多种最优的大模型的知识,充分利用了针对各条目标训练数据效果最好的大模型的知识,蒸馏到小模型,得到目标识别模型,因此,利用该目标识别模型进行敏感信息识别,能够更准确地确定待审核内容对应的目标审核结果,提高了目标识别模型的预测准度,还能够极大地缩短预测耗时,适用于实时性要求高的场景。
[0233]
可选地,所述通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标审核结果,包括:
[0234]
通过所述目标识别模型,对待审核内容进行敏感信息识别,获取所述待审核内容对应的第一审核结果;以及
[0235]
利用动态规则库,对所述待审核内容进行敏感信息识别,得到第二审核结果;
[0236]
根据所述第一审核结果和所述第二审核结果,确定所述目标审核结果。
[0237]
该实施例中,可以采用基于动态规则和知识蒸馏神经网络(即目标识别模型)两种方式进行敏感内容识别。需要指出,这两种方式并没有顺序的相关依赖,可以并行完成,进一步压缩耗时,使的目标识别模型更适合运行于实时性要求高的场景中。
[0238]
因此,使用分布式的方式搭建目标识别模型,对待审核内容进行分布式快速识别。例如,在nodea节点运行动态规则敏感内容识别进程,在nodeb节点运行知识蒸馏神经网络进程(需要gpu)。这样,在master节点接收用户输入的审核内容后,可以同时发送给nodea和nodeb节点;nodea和nodeb节点计算完毕返回审核结果给master节点;master节点判断两个节点的返回结果均通过审核表示非敏感内容,若有一个节点的返回结果为敏感内容则为敏感内容。其中,两个节点的判断结果优先级是动态规则节点的优先级最高。
[0239]
本发明实施例通过上述方式,通过建立动态规则库和敏感词库过滤敏感内容,在速度满足实时性要求的情况下加入语义层面的内容审核,从而通过规则和知识蒸馏的神经网络两重维度来识别敏感信息,大大提高了敏感信息识别准确率和召回率,成功实现了垂直领域高准度低耗时的敏感内容的实时识别。
[0240]
需要指出,由于本发明结合了知识蒸馏的神经网络和动态规则生成的两种方式来识别敏感内容,并使用分布式的方式构建识别系统(即目标识别模型),并行处理提高响应速度,大大缩短了系统运行耗时,更适用于实时性要求高的场景。以识别准确率为指标,单神经网络的识别准确率可达89%,结合动态规则的识别可提升至96%。而知识蒸馏与分布式化大大缩短了运行耗时,可更好地适用于实时性要求高的场景。
[0241]
可选地,所述根据所述第一审核结果和所述第二审核结果,确定所述目标审核结果,包括以下至少一项:
[0242]
若所述第一审核结果和所述第二审核结果中的至少一个为敏感,则所述目标审核结果为敏感;
[0243]
若所述第一审核结果和所述第二审核结果均为非敏感,则所述目标审核结果为非敏感。
[0244]
本发明实施例的目标识别模型,是通过学习集成了多个大模型知识,并利用对于各条目标训练数据预测效果最好的大模型的知识,蒸馏到小型的神经网络得到的,因此,相比其他方案,有更高的准确率,相比使用大模型的方案降低了推断耗时,适用于实时性要求高的场景。
[0245]
可选地,所述利用动态规则库,对所述待审核内容进行敏感信息识别,得到第二审核结果,包括:
[0246]
利用所述动态规则库和预先建立的敏感词库,对所述待审核内容进行敏感信息识别,得到第二审核结果;
[0247]
其中,所述动态规则库是基于敏感信息相关的正则库,通过命名实体识别ner对所述待审核内容进行实体识别而动态生成的。
[0248]
需要说明的是,在实际的应用场景中,有若干敏感词一旦出现在句子中该句内容即被判断为敏感内容;或者某些固定句式,一定符合这种固定句式,该部分内容也会被判定为敏感内容。因此,本发明实施例中,在上述的知识蒸馏神经网络的敏感内容识别方法基础之上,可以加上一层基于敏感词和规则库的过滤,从而进一步提高敏感内容识别的精确度。
[0249]
这里,规则库根据审核内容进行动态的生成和扩充,例如根据ner自动生成扩充规则库,进一步减轻手工规则设计的工作量,具体详述如下:
[0250]
首先,可以建立一个敏感词库,将审核内容使用敏感词库进行过滤。其中,过滤的过程中可以加入拼音过滤,即除了字面的匹配,还可以将句子和敏感词都转化为拼音的形式,再进行匹配。
[0251]
另外,初步建立一个可以判断为敏感内容的正则库,库里的部分实体内容不完全确定,比如这个正则式:.*(人名).*毒.*,只要符合这种正则式的模式都是敏感内容。具体的,将要识别内容使用ner进行实体识别,若句子里有人名,则将人名替换到此正则式中动态加入正则库。
[0252]
这里,对于ner识别通用的人名、地名和机构名等,可以使用通用ner标注语料训练bilstm-crf模型,来识别通用实体,使用通用ner词典,采用前向后向匹配算法负责识别;对于场景的特定实体,可以通过训练一个实体识别模型进行识别,例如,精度较高的模型可以用bert等大型预训练模型bilstm加上crf进行识别。但是,特定场景语料有限,这里可以仅训练一个crf模型进行识别即可,将场景的语料按照bios方式进行标注,然后训练crf模型,通过训练好的crf模型预测场景特定实体。对每一个模板重复上述过程,生成对应的正则式加入正则库。最后,对整个正则库进行正则匹配,判断该内容是否属于规则上的敏感内容。该过程适用于动态规则生成与处理,结合ner算法,能够一定程度自动化构建和扩充规则库,减少了人工构建成本,提升了敏感信息的识别准确率和召回率。
[0253]
该实施例中,通过使用ner进行实体识别,动态生成规则库,采用动态规则库过滤,配合敏感词库,能够从规则层面进行敏感内容的识别;通过判断敏感词和特定的句式,从规则上进一步提高敏感内容识别的精度,能够提高信息和句子语义信息的捕捉能力,对准确率和召回率有了极大的改善,提高敏感内容的检测质量。
[0254]
该实施例的敏感信息识别方法,如图2所示,利用以上三个维度的数据增强方式对
训练数据进行数据增强,扩充了训练数据;使用大模型的集成模型提高了识别精度;通过集成模型和最优模型知识蒸馏到小模型,获得的目标识别模型,能够在损失少量精度的情况下大大缩短推理时间,从而能够适用于实时处理的场景,兼顾了识别的精度和耗时;此外,同时利用规则库和强大又精巧的目标识别模型捕捉语义信息,强化敏感信息识别效果。
[0255]
如图3所示,本发明实施例的一种敏感信息识别装置,包括:
[0256]
模型处理模块310,用于通过知识蒸馏,对集成模型进行压缩,得到目标识别模型;所述集成模型由至少三个神经网络模型集成得到;
[0257]
信息识别模块320,用于通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标审核结果;
[0258]
其中,所述目标审核结果用于指示所述待审核内容是否为敏感信息。
[0259]
该实施例中,集成模型是通过多个模型集成的,能够提高识别精度,而通过知识蒸馏得到的目标识别模型,能够在损失少量精度的情况下缩短推理时间,适用于实时处理的场景,兼顾了识别的精度和耗时。
[0260]
可选地,所述敏感信息识别装置还包括:
[0261]
模型训练模块,用于利用目标训练数据,分别对所述至少三个神经网络模型进行训练,并在训练过程中进行调参,得到至少三个基础模型;
[0262]
模型集成模块,用于将所述至少三个基础模型进行集成,确定所述集成模型以及所述集成模型的输出结果。
[0263]
可选地,所述敏感信息识别装置还包括:
[0264]
数据增强模块,用于通过第一方式对训练数据进行数据增强,得到所述目标训练数据:
[0265]
其中,所述第一方式包括以下至少一项:
[0266]
回译;
[0267]
分布估计算法eda;
[0268]
掩码语言模型mlm。
[0269]
可选地,所述模型集成模块包括:
[0270]
第一处理单元,用于针对每一所述目标训练数据,分别利用所述至少三个基础模型对所述目标训练数据进行敏感信息识别,得到每一所述基础模型对所述目标训练数据的审核结果,以及所述审核结果对应的第一概率;
[0271]
第二处理单元,用于根据所述审核结果和所述第一概率,确定所述目标训练数据输入所述集成模型得到的输出结果;
[0272]
其中,所述第一概率和所述集成模型的输出结果为未归一化的对数概率。
[0273]
可选地,所述第二处理单元包括:
[0274]
第一处理子单元,用于在所述至少三个基础模型的所述审核结果均一致的情况下,将所述审核结果对应的第一概率的第一平均值确定为所述集成模型的输出结果;
[0275]
第二处理子单元,用于在所述至少三个基础模型的所述审核结果不一致的情况下,将频数高的所述审核结果对应的第一概率的第一平均值确定为所述集成模型的输出结果。
[0276]
可选地,所述模型处理模块310包括:
[0277]
第三处理单元,用于根据每一所述基础模型以及所述集成模型,获取每一所述目标训练数据在每一所述基础模型中对应的第一概率和在所述集成模型中对应的输出结果;
[0278]
归一化处理单元,用于利用带有温度参数的归一化指数函数,对每一所述目标训练数据对应的所述第一概率和所述输出结果进行归一化处理,获取每一所述目标训练数据在每一所述基础模型中对应的第二概率和在所述集成模型中对应的第三概率;
[0279]
函数确定单元,用于根据所述目标训练数据的标签值、所述第二概率和所述第三概率,确定所述目标识别模型对应的损失函数;
[0280]
模型训练单元,用于利用所述损失函数,对选定的待训练模型进行训练,得到所述目标识别模型;
[0281]
其中,所述第二概率和所述第三概率为归一化的分类概率。
[0282]
可选地,所述损失函数表示为:
[0283]
l=ah(y,s)+b1mse(s,s_t)+b2mse(s,sa_t)+b3mse(s,sb_t)+b4mse(s,sc_t);
[0284]
其中,a、b1、b2和b3表示系数,且a、b1、b2、b3和b4之和为1;h表示交叉熵损失函数;y表示目标训练数据的标签值;s表示所述目标训练数据输入所述待训练模型得到未归一化的对数概率后,再输入归一化指数函数得到的归一化的分类概率;mse表示均方误差损失函数;s_t表示所述第三概率;sa_t、sb_t和sc_t分别表示不同的所述基础模型对应的第二概率。
[0285]
可选地,b2、b3和b4满足以下至少一项:
[0286]
在sa_t、sb_t和sc_t中sa_t的值最大的情况下,b2为预设值,b3和b4为0;
[0287]
在sa_t、sb_t和sc_t中sb_t的值最大的情况下,b3为预设值,b2和b4为0;
[0288]
在sa_t、sb_t和sc_t中sc_t的值最大的情况下,b4为预设值,b2和b3为0。
[0289]
可选地,所述信息识别模块320包括:
[0290]
第一识别单元,用于通过所述目标识别模型,对待审核内容进行敏感信息识别,确定所述待审核内容对应的目标审核结果。
[0291]
可选地,所述信息识别模块320包括:
[0292]
第二识别单元,用于通过所述目标识别模型,对待审核内容进行敏感信息识别,获取所述待审核内容对应的第一审核结果;以及
[0293]
第三识别单元,用于利用动态规则库,对所述待审核内容进行敏感信息识别,得到第二审核结果;
[0294]
第四识别单元,用于根据所述第一审核结果和所述第二审核结果,确定所述目标审核结果。
[0295]
可选地,所述第四识别单元包括:
[0296]
第一识别子单元,用于若所述第一审核结果和所述第二审核结果中的至少一个为敏感,则所述目标审核结果为敏感;
[0297]
第二识别子单元,用于若所述第一审核结果和所述第二审核结果均为非敏感,则所述目标审核结果为非敏感。
[0298]
可选地,所述第三识别单元包括:
[0299]
第三识别子单元,用于利用所述动态规则库和预先建立的敏感词库,对所述待审核内容进行敏感信息识别,得到第二审核结果;
[0300]
其中,所述动态规则库是基于敏感信息相关的正则库,通过命名实体识别ner对所述待审核内容进行实体识别而动态生成的。
[0301]
该实施例的敏感信息识别装置,使用大模型的集成模型提高了识别精度,通过集成模型和最优模型知识蒸馏到小模型,获得的目标识别模型,能够在损失少量精度的情况下大大缩短推理时间,从而能够适用于实时处理的场景,兼顾了识别的精度和耗时。
[0302]
如图4所示,本发明实施例的一种网络设备400,包括处理器410和收发机420,其中,所述处理器用于:
[0303]
通过知识蒸馏,对集成模型进行压缩,得到目标识别模型;所述集成模型由至少三个神经网络模型集成得到;
[0304]
通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标审核结果;
[0305]
其中,所述目标审核结果用于指示所述待审核内容是否为敏感信息。
[0306]
该实施例中,集成模型是通过多个模型集成的,能够提高识别精度,而通过知识蒸馏得到的目标识别模型,能够在损失少量精度的情况下缩短推理时间,适用于实时处理的场景,兼顾了识别的精度和耗时。
[0307]
可选地,所述处理器还用于:
[0308]
利用目标训练数据,分别对所述至少三个神经网络模型进行训练,并在训练过程中进行调参,得到至少三个基础模型;
[0309]
将所述至少三个基础模型进行集成,确定所述集成模型以及所述集成模型的输出结果。
[0310]
可选地,所述处理器还用于:
[0311]
通过第一方式对训练数据进行数据增强,得到所述目标训练数据:
[0312]
其中,所述第一方式包括以下至少一项:
[0313]
回译;
[0314]
分布估计算法eda;
[0315]
掩码语言模型mlm。
[0316]
可选地,所述集成模型的输出结果的确定方式,包括:
[0317]
针对每一所述目标训练数据,分别利用所述至少三个基础模型对所述目标训练数据进行敏感信息识别,得到每一所述基础模型对所述目标训练数据的审核结果,以及所述审核结果对应的第一概率;
[0318]
根据所述审核结果和所述第一概率,确定所述目标训练数据输入所述集成模型得到的输出结果;
[0319]
其中,所述第一概率和所述集成模型的输出结果为未归一化的对数概率。
[0320]
可选地,所述处理器在根据所述审核结果和所述第一概率,确定所述目标训练数据输入所述集成模型得到的输出结果时,具体用于:
[0321]
在所述至少三个基础模型的所述审核结果均一致的情况下,将所述审核结果对应的第一概率的第一平均值确定为所述集成模型的输出结果;
[0322]
在所述至少三个基础模型的所述审核结果不一致的情况下,将频数高的所述审核结果对应的第一概率的第一平均值确定为所述集成模型的输出结果。
[0323]
可选地,所述处理器在通过知识蒸馏,对集成模型进行压缩,得到目标识别模型
时,具体用于:
[0324]
根据每一所述基础模型以及所述集成模型,获取每一所述目标训练数据在每一所述基础模型中对应的第一概率和在所述集成模型中对应的输出结果;
[0325]
利用带有温度参数的归一化指数函数,对每一所述目标训练数据对应的所述第一概率和所述输出结果进行归一化处理,获取每一所述目标训练数据在每一所述基础模型中对应的第二概率和在所述集成模型中对应的第三概率;
[0326]
根据所述目标训练数据的标签值、所述第二概率和所述第三概率,确定所述目标识别模型对应的损失函数;
[0327]
利用所述损失函数,对选定的待训练模型进行训练,得到所述目标识别模型;
[0328]
其中,所述第二概率和所述第三概率为归一化的分类概率。
[0329]
可选地,所述损失函数表示为:
[0330]
l=ah(y,s)+b1mse(s,s_t)+b2mse(s,sa_t)+b3mse(s,sb_t)+b4mse(s,sc_t);
[0331]
其中,a、b1、b2和b3表示系数,且a、b1、b2、b3和b4之和为1;h表示交叉熵损失函数;y表示目标训练数据的标签值;s表示所述目标训练数据输入所述待训练模型得到未归一化的对数概率后,再输入归一化指数函数得到的归一化的分类概率;mse表示均方误差损失函数;s_t表示所述第三概率;sa_t、sb_t和sc_t分别表示不同的所述基础模型对应的第二概率。
[0332]
可选地,b2、b3和b4满足以下至少一项:
[0333]
在sa_t、sb_t和sc_t中sa_t的值最大的情况下,b2为预设值,b3和b4为0;
[0334]
在sa_t、sb_t和sc_t中sb_t的值最大的情况下,b3为预设值,b2和b4为0;
[0335]
在sa_t、sb_t和sc_t中sc_t的值最大的情况下,b4为预设值,b2和b3为0。
[0336]
可选地,所述处理器在通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标审核结果时,具体用于:
[0337]
通过所述目标识别模型,对待审核内容进行敏感信息识别,确定所述待审核内容对应的目标审核结果。
[0338]
可选地,所述处理器在通过所述目标识别模型,对待审核内容进行敏感信息识别,获取目标审核结果时,具体用于:
[0339]
通过所述目标识别模型,对待审核内容进行敏感信息识别,获取所述待审核内容对应的第一审核结果;以及
[0340]
利用动态规则库,对所述待审核内容进行敏感信息识别,得到第二审核结果;
[0341]
根据所述第一审核结果和所述第二审核结果,确定所述目标审核结果。
[0342]
可选地,所述根据所述第一审核结果和所述第二审核结果,确定所述目标审核结果,包括以下至少一项:
[0343]
若所述第一审核结果和所述第二审核结果中的至少一个为敏感,则所述目标审核结果为敏感;
[0344]
若所述第一审核结果和所述第二审核结果均为非敏感,则所述目标审核结果为非敏感。
[0345]
可选地,所述处理器在利用动态规则库,对所述待审核内容进行敏感信息识别,得到第二审核结果时,具体用于:
[0346]
利用所述动态规则库和预先建立的敏感词库,对所述待审核内容进行敏感信息识别,得到第二审核结果;
[0347]
其中,所述动态规则库是基于敏感信息相关的正则库,通过命名实体识别ner对所述待审核内容进行实体识别而动态生成的。
[0348]
该实施例的网络设备,使用大模型的集成模型提高了识别精度,通过集成模型和最优模型知识蒸馏到小模型,获得的目标识别模型,能够在损失少量精度的情况下大大缩短推理时间,从而能够适用于实时处理的场景,兼顾了识别的精度和耗时。
[0349]
本发明另一实施例的网络设备,如图5所示,包括收发器510、处理器500、存储器520及存储在所述存储器520上并可在所述处理器500上运行的程序或指令;所述处理器500执行所述程序或指令时实现上述应用于敏感信息识别方法。
[0350]
所述收发器510,用于在处理器500的控制下接收和发送数据。
[0351]
其中,在图5中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器500代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发器510可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器500负责管理总线架构和通常的处理,存储器520可以存储处理器500在执行操作时所使用的数据。
[0352]
本发明实施例的一种可读存储介质,其上存储有程序或指令,所述程序或指令被处理器执行时实现如上所述的敏感信息识别方法中的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
[0353]
进一步需要说明的是,此说明书中所描述的终端包括但不限于智能手机、平板电脑等,且所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。
[0354]
本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
[0355]
实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
[0356]
在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(vlsi)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
[0357]
上述范例性实施例是参考该些附图来描述的,许多不同的形式和实施例是可行而不偏离本发明精神及教示,因此,本发明不应被建构成为在此所提出范例性实施例的限制。更确切地说,这些范例性实施例被提供以使得本发明会是完善又完整,且会将本发明范围传达给那些熟知此项技术的人士。在该些图式中,组件尺寸及相对尺寸也许基于清晰起见而被夸大。在此所使用的术语只是基于描述特定范例性实施例目的,并无意成为限制用。如在此所使用地,除非该内文清楚地另有所指,否则该单数形式“一”、“一个”和“该”是意欲将该些多个形式也纳入。会进一步了解到该些术语“包含”及/或“包括”在使用于本说明书时,表示所述特征、整数、步骤、操作、构件及/或组件的存在,但不排除一或更多其它特征、整数、步骤、操作、构件、组件及/或其族群的存在或增加。除非另有所示,陈述时,一值范围包含该范围的上下限及其间的任何子范围。
[0358]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1