一种敏感信息确定方法及装置与流程

文档序号:18465721发布日期:2019-08-17 02:26阅读:181来源:国知局
一种敏感信息确定方法及装置与流程
本申请涉及机器学习
技术领域
,具体而言,涉及一种敏感信息确定方法及装置。
背景技术
:目前,将信息系统中的大量数据传输给其它公司的数据分析系统进行分析时,该信息系统中的大量数据通常包含大量的个人隐私信息,以医疗信息系统为例,医疗信息系统中包含大量的病人病历的隐私敏感信息。如果要将该信息系统中的大量数据传输给其它公司的数据分析系统进行分析,出于隐私保护的角度考虑,通常需要对这些敏感信息进行脱敏处理。信息系统中的大量数据包含大量的短文本信息,现有技术中大都是基于规则匹配来识别信息系统中的短文本信息是否为敏感信息的,例如,基于正则表达式的方法进行规则匹配,当满足该正则表达式的匹配要求,则判定该文本信息为敏感信息,然而这种基于正则表达式的方法适应不规范数据的能力较差,导致从文本信息中识别敏感信息的正确率比较低。技术实现要素:本申请实施例的目的在于提供一种敏感信息确定方法,用于改善从文本信息中识别敏感信息的正确率比较低的问题。本申请实施例提供了的一种敏感信息确定方法,包括:利用预先训练的词嵌入模型提取第一数据的第一特征向量,所述第一数据是将获得的文本信息进行编码、对齐和索引获得的;利用预先训练的长短记忆网络模型识别与所述第一特征向量对应的标签,获得第一标签;判断所述第一标签是否为预设标签,所述预设标签为表征所述文本信息为敏感内容的标签;若是,则确定所述文本信息为敏感信息。通过以上的方法步骤,使用大量数据预先训练的词嵌入模型和长短记忆网络模型对文本信息进行处理和识别,从而有效地改善了从文本信息中识别敏感信息的正确率比较低的问题。可选地,在本申请实施例中,所述判断所述第一标签是否为预设标签,包括:判断所述第一标签是否为姓名、身份证号、社保账号中的一种,若是则确定所述第一标签为预设标签。通过以上的方法步骤,判断获得的第一标签是否为个人隐私信息,例如姓名、身份证号、社保账号中的一种,来判断是否为预设标签,从而有效的提高了从文本信息中识别敏感信息的正确率。可选地,在本申请实施例中,在所述确定所述文本信息为敏感信息之后,还包括:将所述文本信息中的至少一个字符替换为预设字符。通过以上的方法步骤,将文本信息中的敏感信息的至少一个字符替换为预设字符,有效地降低了文本信息中的敏感信息的比例。可选地,在本申请实施例中,在所述利用预先训练的词嵌入模型提取第一数据的第一特征向量之前,还包括:对所述文本信息的字符数量进行增加或删除,以使所述文本信息的长度与所述长短记忆网络模型的输入量长度相同。通过以上的方法步骤,对文本信息的字符数量进行增加或删除,以使文本信息的长度与长短记忆网络模型的输入量长度相同,从而有效地缩短了长短记忆网络模型对文本信息的处理时间。可选地,在本申请实施例中,还包括:获得多个第二特征向量和多个与所述第二特征向量对应的第二标签;以所述第二特征向量为输入量,以所述第二特征向量对应的第二标签为输出量,对长短记忆网络进行训练,获得所述长短记忆网络模型。通过以上的方法步骤,将多个第二特征向量和对应的第二标签输入长短记忆网络进行训练,有效地提升了训练后的长短记忆网络模型从文本信息中识别敏感信息的正确率。可选地,在本申请实施例中,所述获得多个第二特征向量和多个与所述第二特征向量对应的第二标签,包括:获得多个第二数据;利用所述词嵌入模型对每个所述第二数据提取所述第二特征向量,获得所述多个第二特征向量,所述第二数据与所述第二特征向量对应;将所述多个第二数据按照数据类型划分为多个分类标签,获得多个与所述第二特征向量对应的第二标签。通过以上的方法步骤,将多个第二数据提取获得第二特征向量,以及按照数据类型将第二数据划分为多个分类标签获得第二标签,准备好训练的数据从而有效地缩短了长短记忆网络模型的训练时间。可选地,在本申请实施例中,所述获得多个第二数据,包括:获得预设数量的信息记录,所述信息记录包括多个类型的信息数据;将所述信息数据按照所述多个类型分别进行预设处理,获得所述多个第二数据。通过以上的方法步骤,获得包括多个类型的信息数据的信息记录,并按照多个类型分别进行预设处理获得多个第二数据,有效地增加了数据的多样性,从而增强了长短记忆网络模型的泛化能力,即对多样性数据的适应能力。本申请实施例还提供了一种敏感信息确定装置,包括:第一数据提取模块,用于利用预先训练的词嵌入模型提取第一数据的第一特征向量,所述第一数据是将获得的文本信息进行编码、对齐和索引获得的;第一标签获得模块,用于利用预先训练的长短记忆网络模型识别与所述第一特征向量对应的标签,获得第一标签;第一标签判断模块,用于判断所述第一标签是否为预设标签,所述预设标签为表征所述文本信息为敏感内容的标签;敏感信息确定模块,用于确定所述文本信息为敏感信息。使用以上的装置,通过大量数据预先训练的词嵌入模型和长短记忆网络模型对文本信息进行处理和识别,从而有效地改善了从文本信息中识别敏感信息的正确率比较低的问题。可选地,在本申请实施例中,所述第一标签判断模块包括:预设标签确定模块,用于判断所述第一标签是否为姓名、身份证号、社保账号中的一种,若是则确定所述第一标签为预设标签。可选地,在本申请实施例中,还包括:文本信息替换模块,用于将所述文本信息中的至少一个字符替换为预设字符。可选地,在本申请实施例中,还包括:文本信息增删模块,用于对所述文本信息的字符数量进行增加或删除,以使所述文本信息的长度与所述长短记忆网络模型的输入量长度相同。可选地,在本申请实施例中,还包括:第二标签获得模块,用于获得多个第二特征向量和多个与所述第二特征向量对应的第二标签;训练模型获得模块,用于以所述第二特征向量为输入量,以所述第二特征向量对应的第二标签为输出量,对长短记忆网络进行训练,获得所述长短记忆网络模型。可选地,在本申请实施例中,还包括:第二数据获得模块,用于获得多个第二数据;第二数据提取模块,用于利用所述词嵌入模型对每个所述第二数据提取所述第二特征向量,获得所述多个第二特征向量,所述第二数据与所述第二特征向量对应;第二标签获得模块,用于将所述多个第二数据按照数据类型划分为多个分类标签,获得多个与所述第二特征向量对应的第二标签。可选地,在本申请实施例中,所述第二数据获得模块包括:信息记录获得模块,用于获得预设数量的信息记录,所述信息记录包括多个类型的信息数据;第二数据处理模块,用于将所述信息数据按照所述多个类型分别进行预设处理,获得所述多个第二数据。本申请实施例还提供了一种电子设备,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如上所述的方法。本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上所述的方法。本申请实施例中提供一种敏感信息确定方法及装置,通过对文本信息进行编码、对齐和索引获得第一数据后,再通过预先训练的词嵌入模型提取第一数据的第一特征向量,然后通过预先训练的长短记忆网络模型识别该第一特征向量获得第一标签,最后通过判断第一标签是否为预设标签来确定文本信息是否为敏感信息。通过大量数据预先训练的词嵌入模型和长短记忆网络模型对文本信息进行处理和识别,从而有效地改善了从文本信息中识别敏感信息的正确率比较低的问题。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本申请实施例提供的电子设备的结构示意图;图2示出了本申请实施例提供的敏感信息确定方法流程示意图;图3示出了本申请实施例提供的敏感信息确定方法中使用的lstm模型示意图;图4示出了本申请实施例提供的敏感信息确定方法步骤s100之前的流程示意图;图5示出了本申请实施例提供的敏感信息确定装置结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。请参见图1,图1示出了本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备101,包括:处理器102和存储器103,存储器103存储有处理器102可执行的机器可读指令,机器可读指令被处理器102执行时执行如下的方法。请参见图1,本申请实施例还提供了一种存储介质104,该存储介质104上存储有计算机程序,该计算机程序被处理器102运行时执行如下的方法。其中,存储介质104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(staticrandomaccessmemory,简称sram),电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,简称eeprom),可擦除可编程只读存储器(erasableprogrammablereadonlymemory,简称eprom),可编程只读存储器(programmablered-onlymemory,简称prom),只读存储器(read-onlymemory,简称rom),磁存储器,快闪存储器,磁盘或光盘。第一实施例请参见图2,图2示出了本申请实施例提供的敏感信息确定方法流程示意图。本申请实施例提供了的一种敏感信息确定方法,包括:步骤s100:利用预先训练的词嵌入模型提取第一数据的第一特征向量。其中,这里的预先训练的词嵌入模型,是指可以根据训练该词嵌入模型的词典获得索引号,再根据该索引号获得特征向量的模型。在具体实施过程中可以使用预先训练的跳字模型,也可以使用预先训练的连续词袋(continuousbagofwords,cbow)模型。当然,这里的词嵌入模型可以直接采用已经训练好的词嵌入模型,也可以构造词典训练该词嵌入模型。这里的第一数据可以是将获得的文本信息进行预处理获得的,预处理的过程可以包括编码、对齐和索引;第一数据可以为索引号,而第一特征向量可以是通过根据第一数据输入上述的词嵌入模型获得的,第一数据详细的获得过程请参见下文中的步骤s101至步骤s103。当然,在具体的实施过程中,有些数据是可以不用执行步骤s101进行编码的,例如,身份证号和社保账号等全为数字的文本信息;有些数据的位数在已经满足对齐要求的情况下,也可以不用执行步骤s102示出的对齐步骤,例如,对齐的位数为18位,而身份证号的位数本身就是18位,所以可以不用执行步骤s102来对齐数据。请参见图4,图4示出了本申请实施例提供的敏感信息确定方法步骤s100之前的流程示意图。可选地,在本申请实施例中,在步骤s100之前,还包括:步骤s101:对文本信息进行编码,获得编码数据。在具体的实施方式中,可以先对文本信息中的汉字内容进行编码,可以将汉字内容转换为base64编码,也可以将汉字内容转换为unicode编码,例如:姓名为张三,则将张三转换为base64编码5byg5lij,或者是unicode编码\u5f20\u4e09。如果为数字和字母组成的文本信息,则可以不用编码。步骤s102:对编码数据的字符数量进行增加或删除,获得对齐数据,以使文本信息的长度与长短记忆网络模型的输入量长度相同。在具体的实施方式中,这里以姓名为张三被转换为unicode编码为例的编码数据继续说明,将编码后的字符串补0至预设位数。这里的预设位数例如20位或者30位,以20位的预设位数为例,获得对齐后的字符串如:5f20,4e09,0000,0000,0000,为了便于浏览的展示方式阅读,该字符串中每4个字符插入一个逗号,在实际训练或者应用运算的过程中可以没有逗号分割,因此,下面的展示方式也是类似的展示方式。再例如:社保账号可以为1234456778900987,则可以将社保账号后面补0对齐,简称后补,这种后补的方式获得对齐后的字符串如:1234,4567,7890,0987,0000。以上的对齐方式为后补方式,当然除了此种方式还有前补的方式进行对齐。这里仍以上面的社保账号为例,前补的方式获得对齐后的字符串如:0000,1234,4567,7890,0987。当然,如果需要的预设位数小于原始数据的位数,则可以采用前截和后截的方式进行对齐,预设位数例如12位,仍以上面的社保账号为例,前截的方式获得的对齐后的字符串如:4567,7890,0987。后截的方式获得的对齐后的字符串如:1234,4567,7890。因此,这里的对数据的具体对齐方式不应理解为对本申请实施例的限制。通过以上的方法步骤,对文本信息的字符数量进行增加或删除,以使文本信息的长度与长短记忆网络模型的输入量长度相同,从而有效地缩短了长短记忆网络模型对文本信息的处理时间。步骤s103:根据预设词典查找对齐数据的索引,获得第一数据。在具体的实施过程中,预设词典是根据训练数据获得的,这部分内容将在下面的模型训练过程中详细说明。预设词典中可以存储经步骤s102处理过的对齐后的数据以及与对齐后的数据对应的索引号。预设词典的数据大小可以根据实际情况设置,预设词典的索引也可以根据实际情况进行选择,例如可以采用当前时间的时间戳作为索引,又可以采用uuid算法作为索引,还可以采用计数器作为预设词典的索引。为了简单且便于说明,这里采用计数器作为预设词典的索引,该预设词典中包括上述的数据如下表所示,当对齐数据为5f20,4e09,0000,0000,0000时,可以从下面的预设词典中查找到该对齐数据对应的索引为0001;又例如,当对齐数据为1234,4567,7890,0987,0000时,可以从下面的预设词典中查找到该对齐数据对应的索引为0002。文本类型编码数据对齐数据索引号姓名:张三\u5f20\u4e095f20,4e09,0000,0000,00000001社保账号12344567789009871234,4567,7890,0987,00000002.........0003身份证号78945612301209877894,5612,3012,0987,00000004可以理解,上表中右侧两列:对齐数据和索引号为预设词典中的内容,左侧两列:文本类型和编码数据为便于理解增加的内容,左侧两列可以不记录在预设词典中。将上述查找到的索引号作为第一数据,例如,当对齐数据为5f20,4e09,0000,0000,0000时,找到的索引为0001作为第一数据;而如果当对齐数据为1234,4567,7890,0987,0000时,找到的索引为0002作为第一数据。在本申请的一种具体实施方式中,对于词嵌入模型,可以使用大量的数据对进行训练,数据对中包括索引号和索引号对应的特征向量,可以以索引号为输入量,以特征向量为输出量对该词嵌入模型进行训练,从而得到训练好的词嵌入模型。以使用预先训练的跳字模型为例,预先训练的跳字模型的权重是一个矩阵,该矩阵内的数字为训练得出的参数,该矩阵的行数为上述的预设词典中所包含的对齐数据的数量,列数为每个特征向量的维度,特征向量的维度可以是指特征向量中的数值个数,这里的每个特征向量的维度可以根据实际需要进行设置,经过跳字模型输出的多个特征向量可作为长短记忆网络模型的输入。预先训练的跳字模型的权重,可以如下表所示:将第一数据(即上面获得的索引号)带入预先训练的跳字模型的权重中,获得特征向量(即上述的特征向量)。权重的每行的行数为索引的具体索引号,权重的每行的内容为与具体索引号对应的特征向量,具体的例如,在普遍的编程语言中,列表均是以0开始计数的,因此,这里当第一数据即索引为0000时,则获得的特征向量[0.370582220.05148934-0.107866920.021630320.09203203];需要说明的是,这里的0000是前补0时的结果,在具体的实施过程中,可能是没有补0的索引可能直接是0,以下的索引号也是类似的原理,例如索引号为0001,在具体实施过程中的为1,又例如索引号为0002,在具体实施过程中的为2。当第一数据即索引为0001时,则获得的特征向量为[0.143625510.10297184-0.28591380.0554023-0.27419347];而当第一数据即索引为0002时,则获得的特征向量为[0.01251250.04235296-0.468121050.1323239-0.15456168]。步骤s200:利用预先训练的长短记忆网络模型识别与第一特征向量对应的标签,获得第一标签。请参见图3,图3示出了本申请实施例提供的敏感信息确定方法中使用的lstm模型示意图。长短记忆网络(longshort-termmemory,lstm),是一种常用的门控循环神经网络(recurrentneuralnetwork,rnn),lstm中引入了3个门,即输入门(inputgate)、遗忘门(forgetgate)和输出门(outputgate),以及与隐藏状态形状相同的记忆细胞,从而记录额外的信息。长短期记忆的门的输入均为当前时间步输入xt与上一时间步隐藏状态ht-1,输出由激活函数为sigmoid函数的全连接层计算得到。lstm假设隐藏单元个数为h,给定时间步t的小批量输入(样本数为n,输入个数为d)和上一时间步隐藏状态时间步t的输入门遗忘门和输出门分别计算公式如下:it=σ(xtwxi+ht-1whi+bi),ft=σ(xtwxf+ht-1whf+bf),ot=σ(xtwxo+ht-1who+bo),其中,上述的计算公式中,和是权重参数,是偏差参数,σ表示激活函数,xt表示第t个时间步的小批量输入样本数据,ht-1表示第t-1个时间步即上一个时间步的隐藏状态。长短期记忆需要计算候选记忆细胞它的计算与上面介绍的3个门类似,但使用了值域在[-1,1][-1,1]的tanh函数作为激活函数。具体来说,时间步t的候选记忆细胞的计算公式如下:其中,和是权重参数,是偏差参数。当然,可以通过元素值域在[0,1][0,1]的输入门、遗忘门和输出门来控制隐藏状态中信息的流动,这一般也是通过使用按元素乘法(符号为⊙)来实现的。当前时间步记忆细的计算组合了上一时间步记忆细胞和当前时间步候选记忆细胞的信息,并通过遗忘门和输入门来控制信息的流动:遗忘门控制上一时间步的记忆细胞ct-1中的信息是否传递到当前时间步,而输入门则控制当前时间步的输入xt通过候选记忆细胞如何流入当前时间步的记忆细胞。如果遗忘门一直近似1且输入门一直近似0,过去的记忆细胞将一直通过时间保存并传递至当前时间步。这个设计可以应对循环神经网络中的梯度衰减问题,并更好地捕捉时间序列中时间步距离较大的依赖关系。当然,还可以通过输出门来控制从记忆细胞至隐藏状态的信息的流动:ht=ot⊙tanh(ct)。这里的tanh函数确保该隐藏状态元素值在-1到1之间。需要注意的是,当输出门近似1时,记忆细胞信息将传递到隐藏状态供输出层使用;当输出门近似0时,记忆细胞信息只自己保留。需要说明的是,为了使用lstm模型完成多分类任务,可以将softmax函数接在lstm模型的输出上,以便可以进行多分类的任务。具体地例如:lstm模型的输出为{0.1,4.5,-0.2,3.3,5.4},那使用softmax函数对lstm模型的输出进行处理后获得{0.00324611,0.264398,0.00240478,0.0796353,0.650315},其中,0.00324611表示该第一特征向量为姓名的概率,0.264398表示该第一特征向量为身份证号的概率,0.00240478表示该第一特征向量为社保账号的概率,0.0796353表示该第一特征向量为性别的概率,0.650315表示该第一特征向量为其它类别的概率。经过对比发现,该第一特征向量为其它类别的概率大于其它类别的概率,此时,将其它类别作为第一标签。当然在具体的实施过程中,为了防止lstm模型在训练时过拟合,以增加lstm模型的泛化能力,可以选择在lstm模型与softmax函数之间添加dropout函数,使lstm模型在测试集和模型应用的时候提高识别的正确率。步骤s300:判断第一标签是否为预设标签,预设标签为表征文本信息为敏感内容的标签。其中,这里的预设标签是指可以根据该信息唯一辨别人的信息类别,该预设标签可以包括:姓名、身份证号和社保账号,当然也可以包括电话号码、微信号码和护照号码等等。因此,这里的预设标签的具体内容和类别不应理解为对本申请实施例的限制。需要说明的是,在本申请实施例中,步骤s300中具体的判断方法可以包括如下步骤:步骤s310:判断第一标签是否为姓名、身份证号、社保账号中的一种。其中,若第一标签是否为姓名、身份证号或社保账号,则确定第一标签为预设标签,然后判定文本信息为敏感信息。当然,这里只是列举了三种预设标签,这里的预设标签可以指可以根据该信息唯一辨别人的信息类别,其它类似的预设标签例如:电话号码、微信号码和护照号码等等。步骤s320:若确定第一标签为预设标签,则确定第一标签为预设标签。通过以上的方法步骤,判断获得的第一标签是否为个人隐私信息,例如姓名、身份证号、社保账号中的一种,来判断是否为预设标签,从而有效的提高了从文本信息中识别敏感信息的正确率。步骤s400:若是,则确定文本信息为敏感信息。其中,通过上述步骤确定第一标签为预设标签,则判定文本信息为敏感信息。这里的敏感信息同上面的描述,可以指可以根据该信息唯一辨别人的信息,例如:姓名、身份证号和社保账号,又例如:电话号码、微信号码和护照号码等等。通过以上方法步骤,使用大量数据预先训练的词嵌入模型和长短记忆网络模型对文本信息进行处理和识别,从而有效地改善了从文本信息中识别敏感信息的正确率比较低的问题。可选地,在本申请实施例中,在步骤s400之后,还包括:步骤s500:将文本信息中的至少一个字符替换为预设字符。其中,将文本信息中的至少一个字符替换为预设字符的具体的方式,例如:姓名张三使用*字符替换为张*;身份证号可以使用*替换第5到第8位的数字,张三的真实身份证号被*替换为:5110281989****1234。通过以上的方法步骤,将文本信息中的敏感信息的至少一个字符替换为预设字符,有效地降低了文本信息中的敏感信息的比例。可选地,在本申请实施例中,该方法还包括:步骤s600:获得多个第二特征向量和多个与第二特征向量对应的第二标签。其中,lstm的模型训练需要获得多个第二特征向量和多个与第二特征向量对应的第二标签,这里的第二特征向量的获取过程和上面描述的第一特征向量的获取过程是类似的,可以对训练数据集执行步骤s101和步骤s102来获得对齐数据,区别在于在模型训练时,需要将对齐数据进行分组,以加快对数据的处理过程,以缩短对数据的处理时间。下面将对步骤s600包括的如下步骤进行详细说明:步骤s610:获得多个第二数据。其中,获得多个第二数据的详细过程描述如下:步骤s611:获得预设数量的信息记录,信息记录包括多个类型的信息数据。其中,这里的预设数量可以根据实际情况进行设置,例如:预设数量可以为两万、三万或者四万,信息记录是指数据库中的数据表里的一条数据记录,数据记录例如:{姓名:张三,社保账号:1234456778900987,身份证号:7894561230120987,性别:男}。这条信息记录包括多个类型的信息数据,以上面的例子继续说明,多个类型包括:姓名、身份证号、社保账号和性别。步骤s612:将信息数据按照多个类型分别进行预设处理,获得多个第二数据。其中,以上面的数据继续说明,在获得包括多个类型的信息数据的信息记录后,将信息数据按照多个类型分别使用标签标记,例如:将姓名数据作为第一类,将身份证号数据作为第二类,将社保账号数据作为第三类,将性别数据作为第四类,总之,每一数据均有对应的分类标签,每一数据对应的分类标签均可记为该数据对应的第二标签,第二标签可以由人为划分。然后可以对多个第二数据执行步骤s101和步骤s102来获得对齐数据,该对齐数据例如下表:5f21,4e09,0000,0000,00001234,4567,7890,0987,00004567,4567,7890,0987,00007890,5612,3012,0987,00000123,5612,3012,0987,00003456,5612,3012,0987,00006789,5612,3012,0987,00009012,5612,3012,0987,0000在获得对齐数据后,可以将该对齐数据进行分组,分组产生的小组数量可以根据实际情况进行设置,例如,小组数量可以为2,或者小组数量可以为3,又或者小组数量可以为4。这里以小组数量为2举例,分组后获得的多个分组数据如下表:将获得的多个分组数据中的每个均执行上述的步骤s103,即根据预设词典查找小组中每个对齐数据的索引号,获得多个索引号作为多个第二数据。通过以上的方法步骤,获得包括多个类型的信息数据的信息记录,并按照多个类型分别进行预设处理获得多个第二数据,有效地增加了数据的多样性,从而增强了长短记忆网络模型的泛化能力,即对多样性数据的适应能力。步骤s620:利用词嵌入模型对每个第二数据提取第二特征向量,获得多个第二特征向量,第二数据与第二特征向量对应。其中,这里的利用词嵌入模型对每个第二数据提取第二特征向量与上述步骤s100获取第一特征向量的原理和方法类似,区别在于,利用词嵌入模型对每个第二数据提取第二特征向量时,需要将多个第二数据进行分组后再执行步骤s100,以加快多个第二数据的处理速度,即加快获取第二特征向量的速度,缩短lstm模型的训练时间。步骤s630:将多个第二数据按照数据类型划分为多个分类标签,获得多个与第二特征向量对应的第二标签。其中,如上面的描述,可以对多个第二数据按照数据类型进行划分,在获得包括多个类型的信息数据的信息记录后,将信息数据按照多个类型分别使用标签标记,例如:将姓名数据作为第一类,将身份证号数据作为第二类,将社保账号数据作为第三类,将性别数据作为第四类,总之,每一数据均有对应的分类标签,每一数据对应的分类标签可记为该数据对应的第二标签,每个第二数据对应一个第二特征向量,每个第二特征向量均有对应的第二标签,将第二特征向量以及与之对应的第二标签输入lstm模型进行训练,获得训练后的lstm模型。通过以上的方法步骤,从多个第二数据中提取获得第二特征向量,以及按照数据类型将第二数据划分为多个分类标签获得第二标签,准备好训练的数据从而有效地缩短了长短记忆网络模型的训练时间。步骤s700:以第二特征向量为输入量,以第二特征向量对应的第二标签为输出量,对长短记忆网络进行训练,获得长短记忆网络模型。其中,每个第二特征向量均有对应的分类标签,将第二特征向量以及与之对应的第二标签输入lstm模型进行训练,获得训练后的lstm模型。在lstm模型训练的时候,以单个特征向量为输入量,以与该特征向量对应的标签为输出量,输入到该lstm模型中,对该模型进行训练。为了加快训练速度,可以一次性输入多个特征向量作为输入量,和多个特征向量中的每个特征向量对应的标签作为输出量。通过以上的方法步骤,将多个第二特征向量和对应的第二标签输入长短记忆网络进行训练,有效地提升了训练后的长短记忆网络模型从文本信息中识别敏感信息的正确率。第二实施例请参见图5,图5示出了本申请实施例提供的敏感信息确定装置结构示意图。本申请实施例提供了的一种敏感信息确定装置100,包括:第一数据提取模块110,用于利用预先训练的词嵌入模型提取第一数据的第一特征向量,第一数据是将获得的文本信息进行编码、对齐和索引获得的。第一标签获得模块120,用于利用预先训练的长短记忆网络模型识别与第一特征向量对应的标签,获得第一标签。第一标签判断模块130,用于判断第一标签是否为预设标签,预设标签为表征文本信息为敏感内容的标签。敏感信息确定模块140,用于确定文本信息为敏感信息。使用以上的敏感信息确定装置,通过大量数据预先训练的词嵌入模型和长短记忆网络模型对文本信息进行处理和识别,从而有效地改善了从文本信息中识别敏感信息的正确率比较低的问题。可选地,在本申请实施例中,第一标签判断模块包括:预设标签确定模块,用于判断第一标签是否为姓名、身份证号、社保账号中的一种,若是则确定第一标签为预设标签。可选地,在本申请实施例中,该装置还包括:文本信息替换模块,用于将文本信息中的至少一个字符替换为预设字符。可选地,在本申请实施例中,该装置还可以包括:文本信息增删模块,用于对文本信息的字符数量进行增加或删除,以使文本信息的长度与长短记忆网络模型的输入量长度相同。可选地,在本申请实施例中,敏感信息确定装置还包括:第二标签获得模块,用于获得多个第二特征向量和多个与第二特征向量对应的第二标签。训练模型获得模块,用于以第二特征向量为输入量,以第二特征向量对应的第二标签为输出量,对长短记忆网络进行训练,获得长短记忆网络模型。可选地,在本申请实施例中,敏感信息确定装置还可以包括:第二数据获得模块,用于获得多个第二数据。第二数据提取模块,用于利用词嵌入模型对每个第二数据提取第二特征向量,获得多个第二特征向量,第二数据与第二特征向量对应。第二标签获得模块,用于将多个第二数据按照数据类型划分为多个分类标签,获得多个与第二特征向量对应的第二标签。可选地,在本申请实施例中,第二数据获得模块包括:信息记录获得模块,用于获得预设数量的信息记录,信息记录包括多个类型的信息数据。第二数据处理模块,用于将信息数据按照多个类型分别进行预设处理,获得多个第二数据。本申请实施例提供了一种敏感信息确定方法及装置,通过对文本信息进行编码、对齐和索引获得第一数据后,再通过预先训练的词嵌入模型提取第一数据的第一特征向量,然后通过预先训练的长短记忆网络模型识别该第一特征向量获得第一标签,最后通过判断第一标签是否为预设标签来确定文本信息是否为敏感信息。通过大量数据预先训练的词嵌入模型和长短记忆网络模型对文本信息进行处理和识别,从而有效地改善了从文本信息中识别敏感信息的正确率比较低的问题。以上,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本
技术领域
的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1