基于LSTM网络的法条语义标注方法及装置与流程

文档序号:21639302发布日期:2020-07-29 02:50阅读:182来源:国知局
基于LSTM网络的法条语义标注方法及装置与流程

本发明属于自然语言处理技术领域,具体涉及一种基于lstm网络的法条语义标注方法及装置。



背景技术:

现有的浅层语义分析如语义角色标注的方法,大都需要结合一定程度的句法分析或人工提取的特征,在语义分析的过程中,这样的句法分析存在一定的错误率,导致之后的语义分析结果出现错误。自然语言处理中的语义角色标注任务一直存在着诸多技术难题。近年来随着深度学习技术的迅速发展,对英文、中文的语义角色标注效果有了较大的提升,在多个语言领域的数据集上取得了很好的效果。

但是随着司法领域,案件、法律数量不断增长,给从事法律相关工作的人员带来了较大的压力,即使专业的律师也很难做到熟悉所有的法律法条,而在从海量法律文本中获取案件相关内容的过程中需要耗费大量的时间精力且工作效率低。因此,通过人工智能辅助相关从业人员的工作成为了亟待解决的问题。



技术实现要素:

有鉴于此,本发明的目的在于克服现有技术的不足,提供一种基于lstm网络的法条语义标注方法及装置,以解决现有技术中从海量法律文本中获取案件相关内容需要耗费大量的时间精力以及工作效率低的问题。

为实现以上目的,本发明采用如下技术方案:一种基于lstm网络的法条语义标注方法,包括:

获取文本并对所述文本进行预处理以获取待分析文本;

对所述待分析文本进行分析处理,以获取待分析文本的所有单词和所述单词对应的词性标注,采用词向量模型将所有所述单词转化为d维词向量,将所有的所述d维词向量输入到全连接神经网络中获取所有所述单词的特征编码;

将所述待分析文本的词性标注与预设数据库中文本的词性标注进行对比获取所述预设数据库中的最匹配文本,将所述最匹配文本的语义角色标注和所述语义角色标注对应的位置信息向量化,得到特征向量;

将所述特征编码与所述特征向量进行复合,获取最终向量表示;

将所述最终向量表示输入全连接神经网络,输出所述待分析文本中每个单词的语义角色标注。

进一步的,所述获取文本并对所述文本进行预处理以获取待分析文本,包括:

对文本进行规范化处理,得到标准的数据输入形式的待分析文本;所述标准的数据输入形式的待分析文本为指定中心谓词的文本。

进一步的,所述中心谓词包括:

行政主体、行政相对人、时间、地点。

进一步的,所述对所述待分析文本进行分析处理,以获取待分析文本的所有单词和所述单词对应的词性标注,包括:

采用中文分词工具以及词性标注工具对所述待分析文本根据法律词典进行拆分;

获取所述分析文本的所有单词以及所述单词对应的词性标注。

进一步的,将所有的所述d维词向量输入到全连接神经网络中获取所有所述单词的特征编码,包括:

将所有的所述d维词向量依次输入到全连接神经网络中,所述全连接神经网络设有特征编码器,所述特征编码器包括4层堆叠的双向lstm,包括:第一层lstm,第二层lstm,第三层lstm,第四层lstm;

第一层lstm以所述d维词向量作为输入进行编码,之后每一层lstm的输入为上一层的输出,第四层lstm输出特征编码。

进一步的,所述将所述待分析文本的词性标注与预设数据库中文本的词性标注进行对比获取所述预设数据库中的最匹配文本,包括:

将待分析文本的词性标注与预设数据库中文本的词性标注以中心谓词为中心,向两侧匹配字符串;

根据字符串匹配长度计算匹配度,获取最匹配文本。

进一步的,所述将所述最匹配文本的语义角色标注和所述语义角色标注对应的位置信息向量化,得到特征向量,

将所述最匹配文本的语义角色标注向量化,得到第一向量表示;

将语义角色标注与中心谓词的距离向量化,得到第二向量表示;

所述第一向量表示、第二向量表示复合为特征向量。

进一步的,所述将所述最终向量表示输入全连接神经网络,输出所述待分析文本中每个单词的语义角色标注,包括:

将最终向量输入到全连接神经网络中,所述全连接神经网络中设有softmax层,所述softmax层采用softmax分类器对每个单词进行语义角色标注,softmax层输出语义角色标注。

进一步的,所述词向量模型包括:

word2vec语言模型、glove语言模型或者bert语言模型。

本申请实施例提供一种基于lstm网络的法条语义标注装置,包括:

预处理模块,用于获取文本并对所述文本进行预处理以获取待分析文本;

第一处理模块,用于对所述待分析文本进行分析处理,以获取待分析文本的所有单词和所述单词对应的词性标注,采用词向量模型将所有所述单词转化为d维词向量,将所有的所述d维词向量输入到全连接神经网络中获取所有所述单词的特征编码;

第二处理模块,用于将所述待分析文本的词性标注与预设数据库中文本的词性标注进行对比获取所述预设数据库中的最匹配文本,将所述最匹配文本的语义角色标注和所述语义角色标注对应的位置信息向量化,得到特征向量;

获取模块,用于将所述特征编码与所述特征向量进行复合,获取最终向量表示;

输出模块,用于将所述最终向量表示输入全连接神经网络,输出所述待分析文本中每个单词的语义角色标注。

本发明采用以上技术方案,能够达到的有益效果包括:

本申请首先对法条文本向量化并预测词性标注结果,其次基于词性标注结果在数据库中计算得到最相似法条,得到该法条语义角色标注的向量表示,最后将数据输入lstm网络得到每个单词的语义角色标注。本申请在向量化过程中运用深度学习的方法,具有一定的可扩展性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种基于lstm网络的法条语义标注方法的步骤示意图;

图2为本发明一种基于lstm网络的法条语义标注装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。

下面结合附图介绍本申请实施例中提供的一个具体的基于lstm网络的法条语义标注方法。

如图1所示,本申请实施例中提供的基于lstm网络的法条语义标注方法包括:

s101,获取文本并对文本进行预处理以获取待分析文本;

本申请主要应用于工作人员查阅法律法条,首先获取法条文本,对法条文本进行预处理,其中预处理就是将文本规范化处理,将文本处理得到标准的数据输入形式,也就是对每条输入文本指定文本中的中心谓词,具有指定中心谓词后的文本即是待分析文本。

s102,对待分析文本进行分析处理,以获取待分析文本的所有单词和单词对应的词性标注,采用词向量模型将所有单词转化为d维词向量,将所有的d维词向量输入到全连接神经网络中获取所有单词的特征编码;

将得到的待分析文本进行分词拆分,就是将文本拆分成多个单词的形式,同时形成每个单词对应的词性标注,采用词向量模型对每个单词进行向量化,将每个单词转化为d维词向量,将每个d维词向量输入到全连接神经网络中进行训练,获取每个单词的特征编码。d维词向量即是使用一个维度为d的向量表示一个中文单词。

其中,需要说明的是,本申请采用现有的词向量模型即可,无特殊要求,本申请可以对词向量模型的参数进行相应调整,以使得对单词识别的更加准确以及识别速度更快。

s103,将待分析文本的词性标注与预设数据库中文本的词性标注进行对比获取预设数据库中的最匹配文本,将最匹配文本的语义角色标注和语义角色标注对应的位置信息向量化,得到特征向量;

本申请中预设有数据库,数据库中设有法条文本,数据库中的法条上已进行词性标注,将给定的待分析文本中的词性标注与数据库中法条文本上的词性标注进行对比,找到其中匹配度最高的数据库中的法条文本作为最匹配文本,将最匹配文本中的语义角色标注和语义角色标注对应的位置信息向量化,得到特征向量。

s104,将特征编码与特征向量进行复合,获取最终向量表示;

将步骤s102得到的每个单词的特征编码和步骤s103得到的最匹配文本对应的单词的特征向量进行拼接复合得到最终向量表示。

s105,将最终向量表示输入全连接神经网络,输出待分析文本中每个单词的语义角色标注。

将最终向量标识输入到全连接神经网络中,通过全连接神经网络中的softmax分类器进行识别最后输出待分析文本中每个单词的语义角色标注。

基于lstm网络的法条语义标注方法的工作原理为:首先对法条文本向量化并预测词性标注结果,其次基于词性标注结果在数据库中计算得到最相似法条文本,得到该法条语义角色标注的向量表示,最后将数据输入lstm网络得到每个词的语义角色标注。本发明在向量化过程中运用深度学习的方法,具有一定的可扩展性。本发明可以自动分析法律法条中的施事者、受事者、时间、地点等要素,能够辅助相关人员理解法条语义,并为更高层的法律信息化应用提供支持,可以有效提高工作人员的工作效率。

一些实施例中,获取文本并对文本进行预处理以获取待分析文本,包括:

对文本进行规范化处理,得到标准的数据输入形式的待分析文本;标准的数据输入形式的待分析文本为指定中心谓词的文本。

优选的,中心谓词包括:

行政主体、行政相对人、时间、地点。

一些实施例中,对待分析文本进行分析处理,以获取待分析文本的所有单词和单词对应的词性标注,包括:

采用中文分词工具以及词性标注工具对待分析文本根据法律词典进行拆分;

获取分析文本的所有单词以及单词对应的词性标注。

具体的,采用中文分词工具对法条文本进行分词,获取文本中所有单词,采用词性标注工具对发条文本获取的所有单词分别进行词性标注,获取单词对应的词性标注。且,本申请对待分析文本根据法律词典进行拆分,得到法律词典中相关单词。例如:行政主体、行政相对人、时间、地点等语义角色。

需要说明的是,本申请中采用的中文分词工具和词性标注工具均为现有技术,本申请在此不再赘述。

一些实施例中,将所有的d维词向量输入到全连接神经网络中获取所有单词的特征编码,包括:

将所有的d维词向量依次输入到全连接神经网络中,全连接神经网络设有特征编码器,特征编码器包括4层堆叠的双向lstm,包括:第一层lstm,第二层lstm,第三层lstm,第四层lstm;

第一层lstm以d维词向量作为输入进行编码,之后每一层lstm的输入为上一层的输出,第四层lstm输出特征编码。

具体的,将所有的d维词向量依次输入到双向lstm结构构成的特征编码器中,特征编码器由4个堆叠的双向lstm构成,包括第一层lstm,第二层lstm,第三层lstm,第四层lstm;第一层lstm以d维向量作为输入进行编码,第二层lstm以第一层lstm的输出作为输入,之后每一层lstm的输入为上一层的输出,最后,第四层lstm输出特征编码wi。为了改善多层lstm结构出现的梯度消失现象,本申请中引入highwaylstm结构。

一些实施例中,将待分析文本的词性标注与预设数据库中文本的词性标注进行对比获取预设数据库中的最匹配文本,包括:

将待分析文本的词性标注与预设数据库中文本的词性标注以中心谓词为中心,向两侧匹配字符串;

根据字符串匹配长度计算匹配度,获取最匹配文本。

优选的,将最匹配文本的语义角色标注和语义角色标注对应的位置信息向量化,得到特征向量,

将最匹配文本的语义角色标注向量化,得到第一向量表示;

将语义角色标注与中心谓词的距离向量化,得到第二向量表示;

第一向量表示、第二向量表示复合为特征向量。

具体的,根据给定的法条文本的词性标注,在已标注的数据集中寻找和其词性标注最为相似的法条文本作为模板。计算待分析文本s和数据库d中的法条文本si的相似度;具体的,使用最长字符串匹配的方法,以中心谓词v为中心,向两侧匹配最长的字符串长度为li,则最匹配文本ssim。

ssim=argmax(li)

将最匹配文本ssim的语义角色标注结果向量化,得到最匹配文本的向量表示。具体的,对最匹配文本中语义角色标注结果进行向量化,得到dim1维向量表示rsim。同时对各个语义角色与中心谓词的相对距离进行编码,得到dim2维向量表示pesim。将向量rsim和pesim与得到的待分析文本的特征编码拼接得到最终向量表示。

一些实施例中,将最终向量表示输入全连接神经网络,输出待分析文本中每个单词的语义角色标注,包括:

将最终向量输入到全连接神经网络中,全连接神经网络中设有softmax层,softmax层采用softmax分类器对每个单词进行语义角色标注,softmax层输出语义角色标注。

具体的,取最后一层双向lstm的输出wi与步骤s103中得到的向量rsim和pesim进行拼接,得到最终向量表示[wi;rsim;pesim],将其输入到一个全连接神经网络后,经过softmax层得到多分类结果。softmax层的输出即为待分析文本中的每个单词相对于给定谓词的语义角色标注。

优选的,本申请中提供的词向量模型包括:

word2vec语言模型、glove语言模型或者bert语言模型。

如图2所示,本申请提供一种基于lstm网络的法条语义标注装置,包括:

预处理模块201,用于获取文本并对文本进行预处理以获取待分析文本;

第一处理模块202,用于对待分析文本进行分析处理,以获取待分析文本的所有单词和单词对应的词性标注,采用词向量模型将所有单词转化为d维词向量,将所有的d维词向量输入到全连接神经网络中获取所有单词的特征编码;

第二处理模块203,用于将待分析文本的词性标注与预设数据库中文本的词性标注进行对比获取预设数据库中的最匹配文本,将最匹配文本的语义角色标注和语义角色标注对应的位置信息向量化,得到特征向量;

获取模块204,用于将特征编码与特征向量进行复合,获取最终向量表示;

输出模块205,用于将最终向量表示输入全连接神经网络,输出待分析文本中每个单词的语义角色标注。

本申请提供的一种基于lstm网络的法条语义标注装置的工作原理是,预处理模块201获取文本并对文本进行预处理以获取待分析文本;第一处理模块202对待分析文本进行分析处理,以获取待分析文本的所有单词和单词对应的词性标注,采用词向量模型将所有单词转化为d维词向量,将所有的d维词向量输入到全连接神经网络中获取所有单词的特征编码;第二处理模块203将待分析文本的词性标注与预设数据库中文本的词性标注进行对比获取预设数据库中的最匹配文本,将最匹配文本的语义角色标注和语义角色标注对应的位置信息向量化,得到特征向量;获取模块204将特征编码与特征向量进行复合,获取最终向量表示;输出模块205将最终向量表示输入全连接神经网络,输出待分析文本中每个单词的语义角色标注。

综上,本发明提供一种基于lstm网络的法条语义标注方法及装置,包括获取文本并对文本进行预处理以获取待分析文本;对待分析文本进行分析处理,以获取待分析文本的所有单词和单词对应的词性标注,采用词向量模型将所有单词转化为d维词向量,将所有的d维词向量输入到全连接神经网络中获取所有单词的特征编码;将待分析文本的词性标注与预设数据库中文本的词性标注进行对比获取预设数据库中的最匹配文本,将最匹配文本的语义角色标注和语义角色标注对应的位置信息向量化,得到特征向量;将特征编码与特征向量进行复合,获取最终向量表示;将最终向量表示输入全连接神经网络,输出待分析文本中每个单词的语义角色标注。本申请可以自动分析法律法条中的施事者、受事者、时间、地点等要素,能够辅助相关人员理解法条语义,并为更高层的法律信息化应用提供支持,可以有效提高工作人员的工作效率。

可以理解的是,上述提供的装置实施例与上述的方法实施例对应,相应的具体内容可以相互参考,在此不再赘述。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1