预训练语言模型的训练方法、应用方法、装置及设备与流程

文档序号：26007506发布日期：2021-07-23 21:26阅读：来源：国知局

技术特征：

1.一种预训练语言模型的训练方法，其特征在于，包括：

获取训练样本集，所述训练样本集包括安全信息文本；

在预设安全知识图谱中检索所述安全信息文本对应的安全扩展信息，将所述安全扩展信息添加到所述安全信息文本中；

根据结构化威胁信息表达式stix情报库，通过预训练语言模型对添加操作后的所述安全信息文本进行词嵌入训练，所述词嵌入包括实体类别和关系类别的嵌入。

2.根据权利要求1所述的方法，其特征在于，所述在预设安全知识图谱中检索所述安全信息文本对应的安全扩展信息，将所述安全扩展信息添加到所述安全信息文本中，包括：

对所述安全信息文本进行分词；

根据所述安全信息文本中包括的每个词，分别检索预设安全知识图谱中是否包括每个词对应的安全扩展信息；

若检索到所述安全信息文本中的词对应的安全扩展信息，则在所述安全信息文本中该词对应的预设相对位置处添加所述安全扩展信息。

3.根据权利要求1所述的方法，其特征在于，所述根据结构化威胁信息表达式stix情报库，通过预训练语言模型对添加操作后的所述安全信息文本进行词嵌入训练，包括：

通过预训练语言模型包括的标记嵌入层将添加操作后的所述安全信息文本中的每个词转换成词向量，并在句首和句尾分别嵌入预设句首标记和预设句尾标记，得到所述安全信息文本对应的词向量矩阵；

通过所述预训练语言模型包括的句子嵌入层将所述词向量矩阵中属于不同句子的词向量分别用不同的句子标记进行嵌入；

通过所述预训练语言模型包括的位置嵌入层在所述词向量矩阵中添加每个词向量的位置编码，属于所述安全扩展信息的词向量的位置编码与所述安全扩展信息对应的原始词的位置编码相同；

根据stix情报库，通过所述预训练语言模型包括的类别嵌入层在所述词向量矩阵中添加每个词向量对应的类别标记；

根据最终得到的所述词向量矩阵，通过所述预训练语言模型包括的注意力机制确定所述词向量矩阵对应的注意力权重矩阵。

4.根据权利要求3所述的方法，其特征在于，所述根据stix情报库，通过所述预训练语言模型包括的类别嵌入层在所述词向量矩阵中添加每个词向量对应的类别标记，包括：

根据添加操作后的所述安全信息文本中包括的每个词，分别检索stix情报库中是否包含每个词的同义词；

若检索到所述安全信息文本中的词对应的同义词，且确定所述同义词为实体类别，则在所述词向量矩阵中为所述词的词向量添加实体标记；

若检索到所述安全信息文本中的词对应的同义词，且确定所述同义词为关系类别，则在所述词向量矩阵中为所述词的词向量添加关系标记；

若未检索到所述安全信息文本中的词对应的同义词，则在所述词向量矩阵中为所述词的词向量添加预设标记。

5.一种预训练语言模型的应用方法，其特征在于，包括：

获取待分析的安全信息文本；

通过权利要求1-4任一项所述的训练方法训练的预训练语言模型对所述安全信息文本进行词嵌入，得到所述安全信息文本对应的词向量矩阵；

根据所述词向量矩阵，提取所述安全信息文本包括的实体-关系信息。

6.根据权利要求5所述的方法，其特征在于，所述根据所述词向量矩阵，提取所述安全信息文本包括的实体-关系信息，包括：

根据所述词向量矩阵及所述词向量矩阵对应的注意力权重矩阵，从所述安全信息文本中提取候选实体-关系序列，确定每个候选实体-关系序列对应的匹配度；

从所述每个候选实体-关系序列中选择匹配度最大的候选实体-关系序列作为所述安全信息文本包括的实体-关系信息。

7.根据权利要求6所述的方法，其特征在于，所述根据所述词向量矩阵及所述词向量矩阵对应的注意力权重矩阵，从所述安全信息文本中提取候选实体-关系序列，确定每个候选实体-关系序列对应的匹配度，包括：

根据所述词向量矩阵各个词向量对应的类别标记，提取出所述安全信息文本中的所有实体，并确定出排在首位的头实体和排在末尾的尾实体；

根据所述词向量矩阵对应的注意力权重矩阵，在所述安全信息文本中从所述头实体开始从前往后搜索与所述头实体之间的注意力权重最大的中间词；

从所述注意力权重最大的中间词开始从前往后搜索与所述中间词之间的注意力权重最大的中间词，再从该中间词开始往后搜索直至搜索到所述尾实体；

将所述头实体、所述尾实体和每个搜索步骤搜索到的所述中间词组成候选实体-关系序列；

将所述每个搜索步骤对应的最大的注意力权重之和确定为所述候选实体-关系序列对应的匹配度。

8.根据权利要求5-7任一项所述的方法，其特征在于，所述提取所述安全信息文本包括的实体-关系信息之后，还包括：

根据所述实体-关系信息中包括的每个词，分别检索预设规范化词典和stix情报库中是否包含所述每个词的同义词；

如果是，则将所述实体关系信息中包括的词替换为该词对应的所述同义词；

若替换操作后所述安全信息文本包括的多个实体-关系信息中存在重复的实体-关系信息，则对所述多个实体-关系信息进行去重处理；

对去重处理后的实体-关系信息进行实体类别和关系类别匹配。

9.一种预训练语言模型的训练装置，其特征在于，包括：

样本获取模块，用于获取训练样本集，所述训练样本集包括安全信息文本；

扩展模块，用于在预设安全知识图谱中检索所述安全信息文本对应的安全扩展信息，将所述安全扩展信息添加到所述安全信息文本中；

训练模块，用于根据结构化威胁信息表达式stix情报库，通过预训练语言模型对添加操作后的所述安全信息文本进行词嵌入训练，所述词嵌入包括实体类别和关系类别的嵌入。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序以实现如权利要求1-4或5-8中的任一项所述的方法。

技术总结
本申请提出一种预训练语言模型的训练方法、应用方法、装置及设备，该方法包括：获取包括安全信息文本的训练样本集；在预设安全知识图谱中检索安全信息文本对应的安全扩展信息，将安全扩展信息添加到安全信息文本中；根据STIX情报库，通过预训练语言模型对安全信息文本进行词嵌入训练，词嵌入包括实体类别和关系类别的嵌入。本申请基于预设安全知识图谱扩充安全信息文本。在预训练语言模型的结构中增加类别嵌入层，通过类别嵌入层标记安全信息文本中的实体类别和关系类别，过滤掉与安全信息不相关的信息，提高模型准确率。在位置编码时为安全扩展信息与其对应的原始词设置相同的位置标记，使模型能更好地对真实安全事件进行语义建模。

技术研发人员：康祎楠;董龙飞
受保护的技术使用者：北京智源人工智能研究院
技术研发日：2021.04.25
技术公布日：2021.07.23

完整全部详细技术资料下载

当前第2页1 2