本技术涉及自然语言处理,尤其涉及基于领域全标签体系的法律文书要素信息提取方法和装置。
背景技术:
1、提取法律文书的关键要素及其关系对分析法律案件和作出量刑决定具有重要意义。但法律文本和法律实践之间的差异给充分把握司法实践中的重要要素带来了重大困难,增加了要素提取的复杂性。因此需要有效的提取方法。
2、现有技术面临以下几个难点:
3、(1)法律标签体系不完备。现有的法律标签体系主要侧重于有限范围的案件标签,对中国司法关注的法律信息还远远不够。例如,中国刑事案件中的受害者数量是判断犯罪类型和量刑的一个重要因素,但目前没有任一研究将这一要素纳入标签系统。此外,现有系统主要关注量刑中的法律规定因素,忽略了法外因素。然而大量的实证研究表明,此类要素,会显著影响审判和量刑结果。
4、(2)法律领域标注专业性较低。标签设计者和标注者都缺乏对法律信息的特别关注。此外,不同的法庭参与者可能会对相同的法律要素提出不同的解释和观点,例如被告是否自愿自首、认罪或认罪,但现有方法并未给出专业的标注参考,现有通用领域的模型也难以针对法律场景实现准确的要素提取。对法律名词的区分混乱对提取的信息在下游任务的应用带来了困难。
5、(3)低频案件覆盖面不足。现有方法主要关注高频案件的要素提取,由于案例数量有限,在处理低频案件时往往表现不佳。此外,对具有类似描述的罪名,往往难以区分,特别是在数据有限的情况下。
6、(4)适用范围有限。现有方法忽略了法律要素之间的关系,无法真实还原案件信息。例如,在涉及多个被告的法律文书中,需要将不同被告人的个人信息、罪名信息等标签链接到对应的被告。但现有方法往往忽略了多被告人的案件,或并未区分不同被告的差异。
技术实现思路
1、本技术旨在至少在一定程度上解决相关技术中的技术问题之一。
2、为此,本技术的第一个目的在于提出一种基于领域全标签体系的法律文书要素信息提取方法,解决了现有方法法律标签体系不完备、法律领域标注专业性较低、低频案件覆盖面不足、适用范围有限的技术问题,实现了法律文书要素的准确提取。
3、本技术的第二个目的在于提出一种基于领域全标签体系的法律文书要素信息提取装置。
4、为达上述目的,本技术第一方面实施例提出了一种基于领域全标签体系的法律文书要素信息提取方法,包括:提取法律法规和关键法律文献中的要素信息,并基于提取出的要素信息构建标签体系;基于标签体系和要素信息建立要素之间的关系,并将要素之间的关系整合得到知识图谱;使用标注数据集训练事件抽取模型,并通过训练后的事件抽取模型提取法律文书的要素信息,其中,标注数据集是基于知识图谱、标注规则对已有公开法律文书数据集的文档进行标注后生成的。
5、本技术实施例的基于领域全标签体系的法律文书要素信息提取方法,通过构建的全面的法律标签体系,通过更规范的标注规则,通过构建知识图谱整合各种法律标签之间的重要关系,提高了各种下游应用的性能,应用范围更广泛。
6、可选地,在本技术的一个实施例中,要素信息为影响案件审理与判决的各类特征,标签体系中的标签用于对文档中的要素信息进行标记和分类,标签体系中的标签与要素信息一一对应,提取法律法规和关键法律文献中的要素信息,并基于提取出的要素信息构建标签体系,包括:
7、提取法律法规中的第一要素信息,并基于第一要素信息确定法条中规定的影响案件审理、判决的法律因素标签;
8、提取关键法律文献中的第二要素信息,并基于第二要素信息确定法条中未规定、且在实际中影响案件审理、判决的法外因素标签;
9、基于法律因素标签和法外因素标签构建标签体系。
10、可选地,在本技术的一个实施例中,标注规则包括对每个法律要素及其标注方法的说明,标注规则的生成过程包括:
11、设定规则筛选标注人员;
12、基于筛选后的标注人员对文档进行预标注的预标注结果生成标注规则。
13、可选地,在本技术的一个实施例中,标注数据集的生成过程包括:
14、提取已有公开法律文书数据集的文档中的要素信息,确定要素信息对应的标签及标签的值,并确定标签之间的关系;
15、将确定的标签的值以及标签之间的关系存入知识图谱中,得到更新后的知识图谱;
16、按照标注规则根据更新后的知识图谱对已有公开法律文书数据集中的文档进行标注,并对标注后的文档进行数据处理,得到标注数据集。
17、可选地,在本技术的一个实施例中,还包括:
18、使用标注数据集和扩展标注数据集训练事件抽取模型,并通过训练后的事件抽取模型提取法律文书的要素信息,其中,扩展标注数据集是基于知识图谱、标注规则对已有公开法律文书数据集中未进行标注的文档进行标注后生成的。
19、为达上述目的,本发明第二方面实施例提出了一种基于领域全标签体系的法律文书要素信息提取装置,包括标签构建模块、知识图谱生成模块、提取模块,其中,
20、标签构建模块,用于提取法律法规和关键法律文献中的要素信息,并基于提取出的要素信息构建标签体系;
21、知识图谱生成模块,用于基于标签体系和要素信息建立要素之间的关系,并将要素之间的关系整合得到知识图谱;
22、提取模块,用于使用标注数据集训练事件抽取模型,并通过训练后的事件抽取模型提取法律文书的要素信息,其中,标注数据集是基于知识图谱、标注规则对已有公开法律文书数据集的文档进行标注后生成的。
23、可选地,在本技术的一个实施例中,要素信息为影响案件审理与判决的各类特征,标签体系中的标签用于对文档中的要素信息进行标记和分类,标签体系中的标签与要素信息一一对应,提取法律法规和关键法律文献中的要素信息,并基于提取出的要素信息构建标签体系,包括:
24、提取法律法规中的第一要素信息,并基于第一要素信息确定法条中规定的影响案件审理、判决的法律因素标签;
25、提取关键法律文献中的第二要素信息,并基于第二要素信息确定法条中未规定、且在实际中影响案件审理、判决的法外因素标签;
26、基于法律因素标签和法外因素标签构建标签体系。
27、可选地,在本技术的一个实施例中,标注规则包括对每个法律要素及其标注方法的说明,标注规则的生成过程包括:
28、设定规则筛选标注人员;
29、基于筛选后的标注人员对文档进行预标注的预标注结果生成标注规则。
30、可选地,在本技术的一个实施例中,标注数据集的生成过程包括:
31、提取已有公开法律文书数据集的文档中的要素信息,确定要素信息对应的标签及标签的值,并确定标签之间的关系;
32、将确定的标签的值以及标签之间的关系存入知识图谱中,得到更新后的知识图谱;
33、按照标注规则根据更新后的知识图谱对已有公开法律文书数据集中的文档进行标注,并对标注后的文档进行进行数据处理,得到标注数据集。
34、可选地,在本技术的一个实施例中,提取模块,还用于:
35、使用标注数据集和扩展标注数据集训练事件抽取模型,并通过训练后的事件抽取模型提取法律文书的要素信息,其中,扩展标注数据集是基于知识图谱、标注规则对已有公开法律文书数据集中未进行标注的文档进行标注后生成的。
36、本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。