基于栅栏式长短时记忆神经网络的关键词抽取方法及系统与流程

文档序号:18740724发布日期:2019-09-21 01:44阅读:来源:国知局

技术特征:

1.一种基于栅栏式长短时记忆神经网络的关键词抽取方法,其特征在于,包括:

将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中,获得文本语义特征向量序列;

将所述文本语义特征向量序列输入至关键词识别模型中,获得关键词抽取结果;

其中,所述文本语义特征向量序列包含了所述待抽取关键词的法律文本语料中的字语义信息、词语义信息和上下文信息;

其中,所述文本编码模型和所述关键词识别模型是根据带有关键词标注的法律文本语料样本进行联合训练后获得的。

2.根据权利要求1所述的基于栅栏式长短时记忆神经网络的关键词抽取方法,其特征在于,所述将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中,获得文本语义特征向量序列的步骤,具体为:

将待抽取关键词的法律文本语料输入到所述文本编码模型的输入层进行预处理,获得所述法律文本语料对应的字向量序列和一系列词向量;

将所述法律文本语料对应的字向量序列和一系列词向量输入到所述文本编码模型的编码层进行联合编码,获得文本语义特征向量序列。

3.根据权利要求2所述的基于栅栏式长短时记忆神经网络的关键词抽取方法,其特征在于,所述文本编码模型的输入层包括用于提取字向量的BERT模型和用于提取词向量的word2vec模型,所述文本编码模型的编码层包括词编码单元和字编码单元,所述词编码单元和字编码单元均采用栅栏式长短时记忆神经网络结构。

4.根据权利要求3所述的基于栅栏式长短时记忆神经网络的关键词抽取方法,其特征在于,所述将所述法律文本语料对应的字向量序列和一系列词向量输入到所述文本编码模型的编码层进行联合编码,获得文本语义特征向量序列的步骤,具体为:

对于所述法律文本语料对应的一系列词向量中的任一词向量,将当前词向量、当前词向量的第一个字所对应的字编码单元输出结果和当前词向量的第一个字所对应的字编码循环神经元内部表示向量输入至所述词编码单元中,获取当前词向量对应的词编码循环神经元内部表示向量;

对于所述法律文本语料对应的字向量序列中的任一字向量,将当前字向量、当前字向量的前一个字向量所对应的字编码单元输出结果和以当前字向量所对应的字为结尾的词向量所对应的词编码循环神经元内部表示向量输入至所述字编码单元中,获取当前字向量对应的字编码信息和输出门信息;

计算以当前字向量所对应的字为结尾的词向量所占的权重和所述当前字向量对应的字编码信息所占的权重;

根据所述以当前字向量所对应的字为结尾的词向量所占的权重、以当前字向量所对应的字为结尾的词向量所对应的词编码循环神经元内部表示向量、所述当前字向量对应的字编码信息所占的权重以及当前字向量对应的字编码信息,计算获得当前字向量对应的字编码循环神经元内部表示向量;

根据所述当前字向量对应的字编码循环神经元内部表示向量和当前字向量对应的输出门信息计算获得当前字向量对应的字编码单元输出结果;

将所有字向量对应的字编码单元输出结果存入一个集合中,生成文本语义特征向量序列。

5.根据权利要求1所述的基于栅栏式长短时记忆神经网络的关键词抽取方法,其特征在于,所述将所述文本语义特征向量序列输入至关键词识别模型中,获得关键词抽取结果的步骤,具体为:

将所述文本语义特征向量序列输入至预先训练好的条件随机场模型中,利用维特比算法求解所述条件随机场模型的最优解,获得关键词抽取结果。

6.根据权利要求1所述的基于栅栏式长短时记忆神经网络的关键词抽取方法,其特征在于,在所述将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中的步骤之前,还包括:训练所述文本编码模型和关键词识别模型,其中,训练所述文本编码模型和关键词识别模型的步骤,具体为:

构建法律文本语料样本集,所述法律文本语料样本集由带有关键词标注的法律文本语料样本组成;

构建基于栅栏式长短时记忆神经网络的文本编码模型和基于条件随机场模型的关键词识别模型;

将所述法律文本语料样本输入至所述基于栅栏式长短时记忆神经网络的文本编码模型中,获得所述法律文本语料样本对应的文本语义特征向量序列;

将所述法律文本语料样本对应的文本语义特征向量序列输入至所述基于条件随机场模型的关键词识别模型中,获得关键词识别结果;

根据所述关键词识别结果和所述法律文本语料样本中标注的关键词计算损失,并通过反向传播所述损失更新所述文本编码模型的参数和关键词识别模型的参数;

判断是否达到训练结束条件,若是,则保存当前迭代所述文本编码模型的参数和关键词识别模型的参数,获得训练完成的文本编码模型和关键词识别模型,否则输入下一个法律文本语料样本进行训练。

7.一种基于栅栏式长短时记忆神经网络的关键词抽取系统,其特征在于,包括:

文本编码模块,用于将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中,获得文本语义特征向量序列;

关键词识别模块,用于将所述文本语义特征向量序列输入至关键词识别模型中,获得关键词抽取结果;

其中,所述文本语义特征向量序列包含了所述待抽取关键词的法律文本语料中的字语义信息、词语义信息和上下文信息;

其中,所述文本编码模型和所述关键词识别模型是根据带有关键词标注的法律文本语料样本进行联合训练后获得的。

8.根据权利要求7所述的基于栅栏式长短时记忆神经网络的关键词抽取系统,其特征在于,所述文本编码模块具体包括:

预处理子模块,用于将待抽取关键词的法律文本语料输入到所述文本编码模型的输入层进行预处理,获得所述法律文本语料对应的字向量序列和一系列词向量;

编码子模块,用于将所述法律文本语料对应的字向量序列和一系列词向量输入到所述文本编码模型的编码层进行联合编码,获得文本语义特征向量序列。

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于栅栏式长短时记忆神经网络的关键词抽取方法的步骤。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述基于栅栏式长短时记忆神经网络的关键词抽取方法的步骤。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1