一种双注意力训练序列生成方法、装置及可读存储介质与流程

文档序号：26589336发布日期：2021-09-10 20:22阅读：来源：国知局

技术特征：
1.一种双注意力训练序列生成方法，其特征在于，通过构建面向输入文本中字符的重要度和输入文本中字符对应槽值关联度的双注意力机制模型来生成对应输入文本的双注意力训练序列，所述双注意力训练序列用于供面向语言理解的深度学习模型进行训练学习；所述双注意力机制模型用于包括对输入文本的向量转换，对输入文本本向量的维度转换，对输入文本矩阵的关联转换和对输入文本中字符的重要度、输入文本中字符对应槽值关联度进行状态关联；所述双注意力机制模型包括字符
‑
隐状态路径、槽值
‑
query值路径和状态关联路径；通过字符
‑
隐状态路径得到输入文本的关联隐状态矩阵，所述关联隐状态矩阵用于衡量输入文本中各字符的重要度；通过槽值
‑
query值路径得到槽值序列的释义矩阵，释义矩阵用于衡量输入文本中字符对应槽值关联度；状态关联路径用于将释义矩阵和关联隐状态矩阵进行状态关联，并得到关联状态矩阵，所述关联状态矩阵用于生成双注意力训练序列。2.根据权利要求1所述的一种双注意力训练序列生成方法，其特征在于，所述双注意力机制模型包括输入文本层、embedding层、bi
‑
lstm层、query值释义层、bi
‑
attention层、dense层和softmax函数层；所述输入文本层包括文本
‑
向量转化层和文本
‑
槽值标注层；所述文本
‑
向量转化层通过字符
‑
索引字典将输入文本转化成以索引为元素的输入文本向量；所述文本
‑
槽值标注层用于对输入文本中各字符的槽值进行标注，并得到与输入文本所对应的槽值序列；所述embedding层用于对输入文本中的每个字符进行预处理，得到所述输入文本中的每个字符的字向量并组成向量矩阵，按维度需求将低纬度向量映射到高纬度向量并组成高纬度向量的映射矩阵；所述bi
‑
lstm层包括前向lstm和后向lstm；所述bilstm层将经embedding层转换的高纬向量矩阵输入到bilstm层中，将前向lstm输出的隐向量与后向lstm在各个位置的隐状态向量按位进行拼接，得到前后关联的隐状态向量；所述query值释义层用于对输入文本所对应的槽值序列进行槽值释义，释义内容保存至各槽值元素释义向量中；所述bi
‑
attention层用于分析输入文本中字符的重要度和输入文本中字符对应槽值关联度，并得到包含字符的重要度和槽值关联度双注意力的双注意力训练序列；所述dense层用于通过线性变换对输入向量进行维度变换，并将设定维度向量进行输出；所述softmax函数层通过归一化指数函数分别对输入向量中各元素的权值占比进行计算，并根据权值占比进行分类输出。3.根据权利要求2所述的一种双注意力训练序列生成方法，其特征在于，所述双注意力机制模型通过字符
‑
隐状态路径得到关联隐状态矩阵，所述字符
‑
隐状态路径步骤如下：通过所述输入文本层将输入文本转化为输入文本向量将输入文本向量输入到embedding层，并通过embedding层将输入文本向量转化成与槽值序列维度相同的输入文本矩阵；
将输入文本矩阵输入给bi
‑
lstm层；bi
‑
lstm层通过前向lstm和后向lstm得到输入文本矩阵的前向隐状态向量和后向隐状态向量；bi
‑
lstm层将前向隐状态向量和后向隐状态向量按照在元素对应位置进行拼接，得到前后关联的关联隐状态向量；通过bi
‑
lstm层得到输入文本矩阵中各输入文本向量的关联隐状态向量，并组成关联隐状态矩阵。4.根据权利要求1与权利要求2所述的一种双注意力训练序列生成方法，其特征在于，所述双注意力机制模型通过槽值
‑
query值路径得到释义矩阵，所述槽值
‑
query值路径步骤如下：通过对输入文本中各字符进行槽值标注，得到对应的槽值序列；通过query值释义层对槽值序列中各槽值元素进行释义，释义内容保存至各槽值元素释义向量中；通过槽值元素和对应的释义向量得到释义矩阵。5.根据权利要求4所述的一种双注意力训练序列生成方法，其特征在于，所述槽值标注通过人工和/或机器进行标注；所述释义向量中的释义内容包括槽值的同义替换词、槽值的文意释义、槽值的替换词关联度信息和与槽值对应的释义信息，所述释义向量的维度与释义内容量成正比。6.根据权利要求1与权利要求2所述的一种双注意力训练序列生成方法，其特征在于，所述双注意力机制模型通过状态关联路径得到关联状态矩阵，所述状态关联路径步骤如下：将关联隐状态矩阵与释义矩阵做矩阵乘法得到关联状态矩阵；对关联状态矩阵做重要状态向求和，得到字符重要状态向量；通过softmax函数层求出字符重要状态向量中各字符在输入文本中的重要度权重值；将各字符在输入文本中的重要度权重值作为向量元素，得到字符重要度向量；对关联状态矩阵做关联状态向求和，得到槽值关联状态向量；通过softmax函数层求出槽值关联状态向量中各槽值与对应字符的关联度权重值；将各槽值与对应字符的关联度权重值作为向量元素，得到槽值关联度向量；将字符重要度向量与槽值关联度向量在末项维度进行首尾拼接，得到双注意力向量。7.根据权利要求6所述的一种双注意力训练序列生成方法，其特征在于，所述重要状态向、和关联状态向通过如下步骤进行确定：将输入文本向量的向量元素设置为关联隐状态矩阵的行向元素，关联隐状态矩阵的列向通过embedding层进行扩充；将槽值元素设置为释义矩阵的行向元素，槽值元素对应释义向量的向量元素设置为释义矩阵的列向元素；关联状态矩阵的行向则为关联状态向；关联状态矩阵的列向则为重要状态向。8.根据权利要求6所述的一种双注意力训练序列生成方法，其特征在于，在将双注意力向量供以面向语言理解的深度学习模型进行训练学习前还需进行双序列标注，所述双序列标注包括如下步骤：将双注意力向量通过dense层降维还原为初始维度，初始维度与槽值序列相同；
将双注意力向量通过iob2法进行标注，并得到原始标注序列；将原始标注序列的标注前缀去除，并将去除前缀的原始标注序列分为起始标注序列和结束标注序列；起始标注序列用于对同一类型标注的起始标注进行记录，对于连续出现的多个同一类型标注只保留第一个出现的标注；结束标注序列用于对同一类型标注的结束标注进行记录，对于连续出现的多个同一类型标注只保留最后一个出现的标注。9.一种双注意力训练序列生成装置，其特征在于，所述电子设备包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8中任一所述的双注意力训练序列生成方法。10.一种双注意力训练序列生成计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一所述的双注意力训练序列生成方法。

技术总结
本发明提供的一种双注意力训练序列生成方法、装置及可读存储介质，涉及计算机深度学习领域。本发明通过构建面向输入文本中字符的重要度和输入文本中字符对应槽值关联度的双注意力机制模型来生成对应输入文本的双注意力训练序列，槽值关联度根据槽值的query释义矩阵作为先验知识进行衡量，能使训练序列同时具备重要度特征和关联度特征；本发明通过Bi

技术研发人员：胡光敏娄坤姜黎
受保护的技术使用者：杭州芯声智能科技有限公司
技术研发日：2021.06.10
技术公布日：2021/9/9

完整全部详细技术资料下载

当前第2页1 2