一种裁判文书结构化方法及装置与流程

文档序号:21037393发布日期:2020-06-09 20:29阅读:215来源:国知局
一种裁判文书结构化方法及装置与流程

本申请涉及文本处理技术领域,尤其涉及一种裁判文书结构化方法及装置。



背景技术:

通常,裁判文书等一类的法律文件的内容较为冗长,而且用词较为晦涩难懂,令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且,用户在浏览裁判文书的过程中,通常会需要浏览一些类案,即与当前裁判文书相类似的案件对应的裁判文书,以帮助理解和类比当前裁判文书。对于一些比较特殊的裁判文书,例如民事裁判文书,有一些隐含信息需要在浏览全部文本信息的基础上,有针对性地从文本信息的部分信息中提炼获得。针对此类裁判文书,用户浏览一篇裁判文书已经比较困难,要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难,不仅会浪费大量时间,而且也未必能够准确找到相似度最高的裁判文书。

具体地,例如用户需要从裁判文书中查找与争议焦点相关的内容,则需要从裁判文书的首个字符开始浏览,在了解裁判文书所阐述的各部分内容之后,判断争议焦点可能出现的部分内容,进一步提炼和分析该部分内容以获得争议焦点相关的内容。但是,这种通过人工分析裁判文书的结构,进而获取结果的方式不仅费时,而且会受到学识、思维等不定因素的影响,极易导致所获取的结果准确性较低,不具有参考价值。可见,现有浏览裁判文书的方式效率和质量较低。



技术实现要素:

本申请提供了一种裁判文书结构化方法及装置,以提高裁判文书的格式规范性,方便用户浏览。

第一方面,本申请提供了一种裁判文书结构化方法,所述方法包括:

利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;

利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子文本组成;

利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。

第二方面,本申请提供了一种裁判文书结构化装置,所述装置包括:

第一抽取单元,用于利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;

第二抽取单元,用于利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子文本组成;

更新单元,用于利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。

由以上技术可知,本申请提供了一种裁判文书结构化方法及装置,其中,首先利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本。然后,利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到子结构化文本。最后,利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。可见,本申请所提供的裁判文书结构化方法可以通过二次结构化的方式对隐含于待处理裁判文书中的信息进一步抽取,以使所得的第二结构化文本可以更完整地展示待处理裁判文书的内容。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种裁判文书结构化方法的流程图;

图2为本申请实施例提供的一种抽取模板的生成方法的流程图;

图3为本申请实施例提供的一种确定第一抽取模板的方法的流程图;

图4为本申请实施例提供的一种抽取第一结构化文本的方法的流程图;

图5为本申请实施例提供的一种生成字结构化文本的方法的流程图;

图6为本申请实施例提供的一种子结构化文本生成的方法的流程图;

图7为本申请实施例提供的一种替换文本内容的方法的流程图;

图8为本申请实施例提供的一种裁判文书结构化装置的实施例一的示意图;

图9为本申请实施例提供的一种裁判文书结构化装置的实施例二的示意图;

图10为本申请实施例提供的一种裁判文书结构化装置的实施例三的示意图;

图11为本申请实施例提供的一种裁判文书结构化装置的实施例四的示意图;

图12为本申请实施例提供的一种裁判文书结构化装置的实施例五的示意图;

图13为本申请实施例提供的一种裁判文书结构化装置的实施例六的示意图;

图14为本申请实施例提供的一种裁判文书结构化装置的实施例七的示意图;

图15为本申请实施例提供的一种裁判文书结构化装置的实施例八的示意图;

图16为本申请实施例提供的一种裁判文书结构化装置的实施例九的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

通常,裁判文书等一类的法律文件的内容较为冗长,而且用词较为晦涩难懂,令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且,用户在浏览裁判文书的过程中,通常会需要浏览一些类案,即与当前裁判文书相类似的案件对应的裁判文书,以帮助理解和类比当前裁判文书。对于一些比较特殊的裁判文书,例如民事裁判文书,有一些隐含信息需要在浏览全部文本信息的基础上,有针对性地从文本信息的部分信息中提炼获得。针对此类裁判文书,用户浏览一篇裁判文书已经比较困难,要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难,不仅会浪费大量时间,而且也未必能够准确找到相似度最高的裁判文书。

具体地,例如用户需要从裁判文书中查找与争议焦点相关的内容,则需要从裁判文书的首个字符开始浏览,在了解裁判文书所阐述的各部分内容之后,判断争议焦点可能出现的部分内容,进一步提炼和分析该部分内容以获得争议焦点相关的内容。但是,这种通过人工分析裁判文书的结构,进而获取结果的方式不仅费时,而且会受到学识、思维等不定因素的影响,极易导致所获取的结果准确性较低,不具有参考价值。可见,现有浏览裁判文书的方式效率和质量较低。

为了解决上述问题,本申请提供了一种裁判文书结构化方法及装置,以将裁判文本形成结构化文本,以使用户可以快速确定自己在裁判文书中所需的内容。

图1为本申请实施例提供的一种裁判文书结构化方法的流程图,如图1所示,所述方法包括:

s1、利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成。

将待处理裁判文书录入进裁判文书结构化装置中,其中,裁判文书结构化装置可以为服务器、pc(个人电脑)、平板电脑、手机等多种文本处理设备。其中,待处理裁判文书可以为民事案件中的各审判决书等。裁判文书结构化装置在接收到待处理裁判文书之后,需要对该待处理裁判文书进行预处理,确定需要进行结构化的文本,例如,录入至裁判文书结构化装置中的待处理裁判文书包括刑事一审判决书,刑事二审判决书和刑事终审判决书,但是,目前只需要对民事一审判决书进行结构化,此时就需要通过预处理将民事一审判决书的文本提取出来,通常可以通过匹配待处理裁判文书中的文件标题或者文档标题,确定需要结构化的待处理裁判文书。其中,块文本为待处理裁判文书中与第一抽取模板中各抽取节点相对应的文本内容。例如,待处理裁判文书的内容包括“当事人××…,经审理查明××…。”,第一抽取模板包括抽取节点“当事人信息、审理查明”,则“当事人××…”为与“当事人信息”相对应的块文本;“经审理查明××…”为与“审理查明”相对应的块文本。

其中,第一抽取模板可以为一个抽取模型,在结构化待处理裁判文书之前需要预先建立该抽取模型,具体地,如图2所示,为本申请实施例提供的一种抽取模板的生成方法的流程图,所述方法包括:

s001、获取裁判文书样本,所述裁判文书样本的所属类别相同;

s002、按照预设文本划分规则,将每一所述裁判文书样本划分为样本块文本;

s003、针对每一所述样本块文本设定一个节点标题;

s004、结合同一所述裁判文书样本的全部节点标题,生成对应的抽取模板样本;

s005、结合各所述抽取模板样本,生成抽取模板。

裁判文书是一种内容规范化的文本,也就是说,对于同类别的裁判文书,无论格式如何变化,其所涉及到的内容类型是大致相同的,例如,裁判文书基本都会涉及当事人信息、审理经过、诉讼方请求、被诉讼方辩解、审理查明、法院观点、判决结果等内容类型,因此,可以通过训练大量裁判文书样本的方式,生成抽取模板。

通常,不同类别的裁判文书所对应的抽取模板也是不同的,这里的类别是指裁判文书涉及到的案件领域、判决级别等,例如刑事一审判决书、刑事二审判决书和民事一审判决书分属三个类别。

在训练某一类别的裁判文书的抽取模板之前,需要首先获得大量的该类别的裁判文书样本,优选地,这些裁判文书样本为标题与具体文本内容相对应的格式,例如“当事人信息-当事人××…;审理查明-经审理查明…”,这样的裁判文书样本与最终所要生成的抽取模板的格式最为相近,可以有效提高训练的效率。

如果所选择的裁判文书样本不具有如上格式,可以首先按照预设文本划分规则将裁判文书样本划分为样本块文本,其中,样本块文本是指每一个所选择的裁判文书样本对应包含的块文本,例如,文本划分规则为按照段落划分、按照文本内子标题划分、按照指定的段落起始字符划分等。然后,对每一样本块文本设定一个节点标题,通常这个节点标题为可以概括该样本块文本语义的字符串,例如,样本块文本为“当事人××…”,则可以设定节点标题为“当事人信息”。进一步地,对于同一个裁判文书样本,如果所设定的节点标题之间出现语义重复的节点标题,可以将具有语义重复的节点标题所对应的样本块文本合并,并选择一个节点标题作为合并后样本块文本对应的节点标题。

在获得一个裁判文书样本的各个样本块文本对应的节点标题之后,可以将这些节点标题汇总生成对应于该裁判文书样本的抽取模板样本。通过训练大量如上所述的抽取模板样本,可以得到抽取模板。进一步地,通过不断充实裁判文书样本,可以不断优化所生成的抽取模板。

对于不同类别的裁判文书,均可以采用如上所述的方法生成对应的抽取模板。

由上述方法生成的各种抽取模板可以随时供裁判文书结构化装置使用,无需重新生成,因此,在裁判文书结构化装置使用抽取模板时需要从全部抽取模板中选择适用于待处理裁判文书的第一抽取模板。

具体地,如图3所示,为本申请实施例提供的一种确定第一抽取模板的方法的流程图,所述方法包括:

s011、从所述待处理裁判文书中提取与关键词库中的词语相匹配的目标关键词;

s012、计算各目标关键词与全部所述抽取模板中每一所述抽取模板的模板标题的语义相似度;

s013、结合各所述目标关键词对应的权重和语义相似度,计算所述待处理裁判文书与每一所述抽取模板的匹配度;

s014、确定第一抽取模板,所述第一抽取模板为匹配度最高的所述抽取模板。

通常待处理裁判文书的标题或者正文中必然会出现与该待处理裁判文书的所属类别相一致的词语,虽然,这些词语不同,但是会表示相同的含义,例如“一审、第一次审判”,此时,可以将待处理裁判文书中的分词与关键词库中的词语进行匹配,确定语义相似度高于阈值的目标关键词,用于代表该待处理裁判文书的所属类别。

通常抽取模板具有对应的模板标题,此时,可以通过待处理裁判文书对应的目标关键词与这些模板标题进行匹配,从而找到匹配度最高的模板标题,则该模板标题所对应的抽取模板即为适用于待处理裁判文书的第一抽取模板。

在确定目标抽取模板之后,需要利用该目标抽取模板从待处理裁判文书中确定节点字符,具体地,如图4所示,为本申请实施例提供的一种抽取第一结构化文本的方法的流程图,所述方法包括:

s101、按照第一抽取模板中每一抽取节点,确定待处理裁判文书中的节点字符,所述抽取节点为与所述待处理裁判文书中各部分内容具有对应关系的字符串,所述节点字符为所述待处理裁判文书中与所述抽取节点相对应的部分内容的起始字符;

s102、确定每一所述抽取节点对应的块文本,所述块文本由从所述抽取节点对应的节点字符起到下一节点字符之间的全部字符;

s103、将每一所述抽取节点与所述块文本相对应,生成第一结构化文本。

具体地,第一抽取模板由多个抽取节点组成,这些抽取节点代表需要进行抽取的文本,例如,第一抽取模板中的抽取节点为“头部、当事人信息、审理查明”,那么就可以根据这些抽取节点从待处理裁判文书中抽取对应的文本,例如,待处理裁判文书包括“××法院…,当事人××…,经审理查明××…,等”,此时,通过对应关系可知,抽取节点“头部”对应抽取的部分为“××法院…”,抽取节点“当事人信息”对应抽取的部分为“当事人××…”,抽取节点“审理查明”对应抽取的部分为“经审理查明××…”。

具体地,可以按照如下步骤确定节点字符。

s1011、获取每一所述抽取节点对应的抽取表达式;

s1012、依次利用每一所述抽取表达式与所述待处理裁判文书中的每一未匹配段落的首行字符进行匹配,得到相匹配段落,所述未匹配段落为没有相匹配的所述抽取表达式的段落;

s1013、利用所述抽取表达式对相应的所述相匹配段落的首行字符进行抽取,得到节点字符。

由撰写习惯决定,通常由位于同一段落中的字符表示的语义是完整语义的最小单元,因此,可以以段落为查找单元,从每一查找单元中查找节点字符。由于节点字符是用于划分待处理裁判文书的关键,因此,节点字符需要具有与抽取节点相对应的分词或者短语等,因此,可以通过对这些分词或者短语的识别,来确定节点字符,通常可以利用抽取表达式来进行识别和抽取。例如,抽取节点为“审理查明”,其对应的抽取表达式可以为@\n[`\n。]*?(经审理?查明丨经审理认定丨庭审查明以下事实丨经审查[,,])@或者@\n经?(本院)?审理查明:@或者@\n经(依法)?审理查明@等,通常一个抽取节点对应多个抽取表达式,以适应该抽取节点的多种表达方式。这样可以利用抽取表达式对每一个段落的首行字符进行匹配,从而找到相匹配的首行字符,并对其进行提取,得到节点字符。例如,待处理裁判文书的段落为“经审理查明,××与××存在债务关系…”,通过抽取表达式可以提取到节点字符“经审理查明”。

需要注意的是,在利用抽取表达式进行匹配的过程中,需要对段落逐个进行匹配,且进行匹配的段落为未匹配段落,这样不仅能够保证抽取的有序性,防止遗漏,同时可以防止对已经确定节点字符的段落再次抽取,以避免浪费时间和抽取错误的问题。

在确定了节点字符之后,可以根据节点字符确定对应的块文本,块文本可以通过节点字符进行划分,具体地,块文本为位于相邻两个节点字符之间,为以前一节点字符为开端,截止到后一节点字符前的文本内容。例如,待处理裁判文书的内容包括“当事人××…,经审理查明××…”,通过上述过程可以确定“当事人”和“经审理查明”为节点字符,且两个节点字符相邻,那么“当事人××…”为与抽取节点“当事人信息”对应的块文本。

在确定每一抽取节点的对应的块文本之后,可以以抽取节点的名称作为标题,建立每一标题与相应块文本之间的对应关系,从而可以将待处理裁判文书结构化为由多个“抽取节点-块文本”组成的第一结构化文本。例如,对于民事一审判决书,可以选择由“头部、当事人信息、审理经过、原告诉称、被告辩称、审理查明、法院观点、判决结果、尾部”这些抽取节点组成的第一抽取模板进行抽取,得到与这些抽取节点相对应的块文本,生成第一结构化文本。

s2、利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子文本组成。

s3、利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。

第一结构化文本中的部分块文本可能还会包含隐含信息,这些隐含信息通常指分散于块文本中、用户对其具有关注需求,但是需要通过进一步浏览和提取才能够获得的文本内容,在本实施例中将第一结构化文本中符合上述要求的块文本定义为指定块文本。例如,用户需要直接从结构化文本中获得待处理裁判文书中的证据目录,而组成证据目录的证据会分散在如原告诉称和被告辩称等对应的块文本中,那么这些块文本就是指定块文本,需要对这些块文本进一步结构化,以细化和完整第一结构化文本。

在一种实现方式中,如图5所示,为本申请实施例提供的一种生成字结构化文本的方法的流程图,所述方法包括:

s201、根据所述第二抽取模板中的各个抽取节点,确定对应的抽取公式;

s202、利用每一所述抽取公式从所述指定块文本中进行抽取,得到对应的目标字符串;

s203、确定子文本,所述子文本为由所述目标字符串起到预设终止符号之间的全部字符;

s204、将所述第二抽取模板中的每一抽取节点与所述子文本相对应,生成子结构化文本。

在本实现方式中,第二抽取模板中的各个抽取节点对应于需要从第一结构化文本的指定块文本中抽取的子文本,例如,第二抽取模板中的抽取节点包括证据目录、事由、原告态度、被告态度等,本实现方式以抽取节点证据目录为例进行阐述。对于这些抽取节点存在对应的抽取公式,例如证据目录对应的抽取公式可以为@\n[`\n。;]*争议的?焦点[为是]?:@或者@\n[`\n。;]*本案争议的焦点问题是@等。通常一个抽取节点可以对应多个抽取表达式,以适应该抽取节点的多种表达方式。利用抽取公式在指定块文本中进行匹配和抽取,其中,与抽取公式相匹配的目标字符串可以出现在块文本的任意位置。例如,指定块文本为“根据当事人的诉辩意见,征得原告的同意,确定本案的争议焦点是:1、…;2、…;3、…。围绕争议焦点,原告提供证据如下:…。”可见,通过与抽取公式匹配可以确定目标字符串“确定本案的争议焦点是”。此时,可以根据目标字符串和预设终止符号确定与抽取节点对应的子文本,其中,预设终止符号可以为指定的标点符号、指定的字、指定的分词、指定的短语、指定的句子、指定的文本格式等,通常,根据文本的撰写习惯,以句号将相同内容划分到一起的情况居多,因此,可以将句号设定为终止符号。那么,争议焦点内容对应的子文本即为“确定本案的争议焦点是:1、…;2、…;3、…。”。参照以上方法,可以抽取到与第二抽取模板中每一抽取节点对应的子文本,此时,可以将每一抽取节点与子文本之间建立对应关系,从而生成子结构化文本。

其中,关于第二抽取模板的建立和确定可以参考上文中对第一抽取模板的建立和确定的具体过程,此处将不再赘述。

在一种实现方式中,如图6所示,为本申请实施例提供的一种子结构化文本生成的方法的流程图,所述方法包括:

s211、根据所述第二抽取模板中的各个抽取节点,确定对应的抽取公式;

s212、利用每一所述抽取公式从所述指定块文本中进行抽取,得到对应的目标字符串;

s213、确定待处理内容,所述待处理内容为由所述目标字符串起到预设终止符号之间的全部字符;

s214、利用特征匹配模型从各所述待处理内容中确定子文本;

s215、将所述第二抽取模板中的每一抽取节点与同一所述待处理内容对应的全部所述子文本相对应,生成子结构化文本。

本实现方式中确定待处理内容的过程与上一实现方式中确定子文本的过程相同,此处不再赘述。与上一实现方式相比,本实现方式在确定待处理内容之后,会利用特征匹配模型从待处理内容中进一步匹配,确定子文本。相当于对待处理裁判文书进行了三次抽取,例如,以抽取节点证据目录为例,有特征匹配模型@[`\n。]*原告指正(认为丨如下)@等,通常利用这些特征匹配模型可以对待处理内容进行精确抽取,而通过这种方式获得的子文本通常为比较简短或者具有一定特征的子文本。

进一步地,通过上述步骤生成的子结构化文本中的子文本均是从指定块文本中抽取的文本,因此,这些子文本与指定块文本相重叠,为了避免结构化文本出现冗余的问题,可以参见图7,为本申请实施例提供的一种替换文本内容的方法的流程图,所述方法包括:

s205、确定前置抽取节点,所述前置抽取节点为所述子文本所在块文本对应的抽取节点;

s206、利用所述子结构化文本替换所述第一结构化文本中所述前置抽取节点及对应块文本,得到第二结构化文本。

接上例,子结构化文本为“争议焦点内容-确定本案的争议焦点是:1、…;2、…;3、…。”,其中子文本“确定本案的争议焦点是:1、…;2、…;3、…。”对应的指定块文本为“根据当事人的诉辩意见,征得原告的同意,确定本案的争议焦点是:1、…;2、…;3、…。围绕争议焦点,原告提供证据如下:…。”,该指定块文本对应的第一抽取模板中的抽取节点为被告辩称,因此,被告辩称即为前置抽取节点。为了解决结构化文本的冗余问题,需要用子结构化文本来替换第一结构化文本中被告辩称对应的部分,即将“被告辩称-根据当事人的诉辩意见,征得原告的同意,确定本案的争议焦点是:1、…;2、…;3、…。围绕争议焦点,原告提供证据如下:…。”替换为“争议焦点内容-确定本案的争议焦点是:1、…;2、…;3、…。”。

此时,用户可以通过浏览抽取节点,直接定位争议焦点内容。

需要注意的是,其中,由于替换的是被告辩称的全部内容,因此,会有部分信息一同被替换,为了避免信息的缺失,可以在其它抽取节点的抽取工作完成之后,再进行替换工作。

在一种实现方式中,如果所述子结构化文本中各抽取节点对应的子文本覆盖所述指定块文本中的部分文本,则利用所述子结构化文本替换所述第一结构化文本中所述指定块文本的所述部分文本,得到第二结构化文本。

对于部分第二抽取模板中的抽取节点所抽取的子文本可能为指定块文本中的部分文本,例如,第二抽取模板中的抽取节点为证据目录,其中组成证据目录的各条证据来自于不同指定块文本中的部分文本,为了保证这些块文本中其它文本的示意,则不能用子结构化文本直接替换这些指定块文本,而是去替换这些指定块文本中被子文本覆盖的部分文本。

本实现方式以抽取节点证据目录为例进行阐述,具体地,这类抽取节点也存在对应的抽取公式,例如证据目录对应的抽取公式可以为@\n[`\n。;]*原告质证(认为丨如下)@或者@\n[`\n。;]{0,10}原告[`\n,。;]{0,10}向(本院丨法院丨法庭)(提交丨提供丨出示)@或者@\n本院[`\n。;]{0,15}证据(认定丨认证)如下:@等。利用抽取公式在指定块文本中进行匹配和抽取,可以确定指定块文本中的各条证据文本,即子文本,例如指定块文本为“原告诉称:被告…。为了支持其诉讼请求,原告向法院提交了证据如下:…。”,针对第二抽取模板中的抽取节点证据目录所对应的抽取公式,可以确定子文本为“为了支持其诉讼请求,原告向法院提交了证据如下:…”。为了保证指定块文本的示意完整,从该指定块文本中删除被子文本覆盖的部分文本,再将子结构化文本添加至删除后的第一结构化文本中,完成替换。

接上例,该指定块文本对应的抽取节点为原告诉称,在第一结构化文本中对应“原告诉称-原告诉称:被告…。为了支持其诉讼请求,原告向法院提交了证据如下:…。”则删除被覆盖的文本“为了支持其诉讼请求,原告向法院提交了证据如下:…。”之后,添加子结构化文本“证据目录-为了支持其诉讼请求,原告向法院提交了证据如下:…。”得到第二结构化文本。

例如,原告诉称-原告诉称:被告…。

证据目录-为了支持其诉讼请求,原告向法院提交了证据如下:…。

此时,用户可以通过浏览抽取节点,直接定位证据目录对应的内容。

在一种实现方式中,如果所述子结构化文本中各抽取节点对应的子文本对应所述指定块文本中的部分内容,且所述子文本与所述指定块文本中除所述部分内容以外的内容之间存在引用关系,则将所述子结构化文本添加至所述第一结构化文本中,得到第二结构化文本。

在本实现方式中,子文本与指定块文本中的其余文本之间存在关联性,因此,不能直接用子结构化文本来替换整体指定块文本,也不能用子结构化文本来替换指定块文本中的重复部分,而是在完整示意该指定块文本的基础上,添加子结构化文本,以独立展示该子结构化文本。

本实现方式以抽取节点争议焦点内容为例进行阐述,具体地,指定块文本为“本院认为,…。本案争议焦点为:1、…;2、…;3、…。关于争议焦点1,…关于争议焦点2,…。”可以参见上文对于争议焦点内容的子文本的抽取方法,此处不再赘述。经过抽取得到争议焦点内容对应的子文本即为“本案争议焦点为:1、…;2、…;3、…。”。虽然,该子文本为指定块文本中的部分文本,但是该子文本与“关于争议焦点1,…关于争议焦点2,…。”相关联,如果从指定块文本中删除“本案争议焦点为:1、…;2、…;3、…。”,则会令“关于争议焦点1,…关于争议焦点2,…。”的阐释不完整,且缺乏阐述基础。为了避免这种情况,就需要对第一结构化文本的内容保留,且将子结构化文本添加在第一结构化文本中,得到第二结构化文本。

即,法院观点-本院认为,…。本案争议焦点为:1、…;2、…;3、…。关于争议焦点1,…关于争议焦点2,…。

争议焦点内容-本案争议焦点为:1、…;2、…;3、…。

此时,用户可以通过浏览抽取节点,直接定位争议焦点内容,且也不会影响对法院观点的浏览效果。

由以上技术可知,本申请提供了一种裁判文书结构化方法及装置,其中,首先利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本。然后,利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到子结构化文本。最后,利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。可见,本申请所提供的裁判文书结构化方法可以通过二次结构化的方式对隐含于待处理裁判文书中的信息进一步抽取,以使所得的第二结构化文本可以更完整地展示待处理裁判文书的内容。

图8为本申请实施例提供的一种裁判文书结构化装置的实施例一的示意图,所述装置包括:第一抽取单元1,用于利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;第二抽取单元2,用于利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子文本组成;更新单元3,用于利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。

图9为本申请实施例提供的一种裁判文书结构化装置的实施例二的示意图,所述装置还包括:样本获取单元01,用于获取裁判文书样本,所述裁判文书样本的所属类别相同;划分单元02,用于按照预设文本划分规则,将每一所述裁判文书样本划分为样本块文本;节点标题设定单元03,用于针对每一所述样本块文本设定一个节点标题;抽取模板样本生成单元04,用于结合同一所述裁判文书样本的全部节点标题,生成对应的抽取模板样本;抽取模板生成单元05,用于结合各所述抽取模板样本,生成抽取模板。

图10为本申请实施例提供的一种裁判文书结构化装置的实施例三的示意图,所述装置还包括:匹配单元06,用于从所述待处理裁判文书中提取与关键词库中的词语相匹配的目标关键词;相似度计算单元07,用于计算各目标关键词与全部所述抽取模板中每一所述抽取模板的模板标题的语义相似度;匹配度计算单元08,用于结合各所述目标关键词对应的权重和语义相似度,计算所述待处理裁判文书与每一所述抽取模板的匹配度;第一抽取模板确定单元09,用于确定第一抽取模板,所述第一抽取模板为匹配度最高的所述抽取模板。

图11为本申请实施例提供的一种裁判文书结构化装置的实施例四的示意图,所述第一抽取单元1包括:节点字符确定单元11,用于按照第一抽取模板中每一抽取节点,确定待处理裁判文书中的节点字符,所述抽取节点为与所述待处理裁判文书中各部分内容具有对应关系的字符串,所述节点字符为所述待处理裁判文书中与所述抽取节点相对应的部分内容的起始字符;块文本确定单元12,用于确定每一所述抽取节点对应的块文本,所述块文本由从所述抽取节点对应的节点字符起到下一节点字符之间的全部字符;第一结构化文本生成单元13,用于将每一所述抽取节点与所述块文本相对应,生成第一结构化文本。

图12为本申请实施例提供的一种裁判文书结构化装置的实施例五的示意图,所述第二抽取单元2包括:第一抽取公式确定单元21,用于根据所述第二抽取模板中的各个抽取节点,确定对应的抽取公式;第一目标字符串确定单元22,用于利用每一所述抽取公式从所述指定块文本中进行抽取,得到对应的目标字符串;第一子文本确定单元23,用于确定子文本,所述子文本为由所述目标字符串起到预设终止符号之间的全部字符;第一子结构化文本生成单元24,用于将所述第二抽取模板中的每一抽取节点与所述子文本相对应,生成子结构化文本。

图13为本申请实施例提供的一种裁判文书结构化装置的实施例六的示意图,所述第二抽取单元2包括:第二抽取公式确定单元25,用于根据所述第二抽取模板中的各个抽取节点,确定对应的抽取公式;第二目标字符串确定单元26,用于利用每一所述抽取公式从所述指定块文本中进行抽取,得到对应的目标字符串;待处理内容确定单元27,用于确定待处理内容,所述待处理内容为由所述目标字符串起到预设终止符号之间的全部字符;第二子文本确定单元28,用于利用特征匹配模型从各所述待处理内容中确定子文本;第二子结构化文本生成单元29,用于将所述第二抽取模板中的每一抽取节点与同一所述待处理内容对应的全部所述子文本相对应,生成子结构化文本。

图14为本申请实施例提供的一种裁判文书结构化装置的实施例七的示意图,所述更新单元3包括:前置抽取节点确定单元31,用于确定前置抽取节点,所述前置抽取节点为所述子文本所在块文本对应的抽取节点;第一替换单元32,用于利用所述子结构化文本替换所述第一结构化文本中所述前置抽取节点及对应块文本,得到第二结构化文本。

图15为本申请实施例提供的一种裁判文书结构化装置的实施例八的示意图,所述更新单元3包括:第二替换单元33,用于如果所述子结构化文本中各抽取节点对应的子文本覆盖所述指定块文本中的部分文本,则利用所述子结构化文本替换所述第一结构化文本中所述指定块文本的所述部分文本,得到第二结构化文本。

图16为本申请实施例提供的一种裁判文书结构化装置的实施例九的示意图,所述更新单元3包括:添加单元34,用于如果所述子结构化文本中各抽取节点对应的子文本对应所述指定块文本中的部分内容,且所述子文本与所述指定块文本中除所述部分内容以外的内容之间存在引用关系,则将所述子结构化文本添加至所述第一结构化文本中,得到第二结构化文本。

由以上技术可知,本申请提供了一种裁判文书结构化方法及装置,其中,首先利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本。然后,利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到子结构化文本。最后,利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。可见,本申请所提供的裁判文书结构化方法可以通过二次结构化的方式对隐含于待处理裁判文书中的信息进一步抽取,以使所得的第二结构化文本可以更完整地展示待处理裁判文书的内容。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1