一种对于法务领域文书量化评估的方法与流程

文档序号:16898249发布日期:2019-02-19 17:41阅读:330来源:国知局
一种对于法务领域文书量化评估的方法与流程

本发明属于法务领域的文书信息处理领域,进一步说,尤其涉及一种对于法务领域文书量化评估的方法。



背景技术:

法务工作涉及大量的文书内容,本发明所述的方法,针对具有法务特色的文字内容,在数字化的基础上,按照一系列映射步骤,转化成适合法务工作者迅速获得该文书内容所属的专业领域及对应的各项语义要素,构建出语义模型,作为进一步工作的参考与基础。

通常意义上,涉及到文字内容处理的应用,同本发明所述的场景相近,且广泛使用的场景主要有以下几类:

a)检索类应用:例如搜索引擎,以分词后的关键词及关键词的组合作为输入条件,将内容符合关键词查询条件的文本检索出来,表现形式通常为录入短句或词组,输出为正文的集合;

b)对话类:例如对话机器人,用户通过分段的输入,以单句问答的方式构造输入内容的上下文,并由服务端进行实时响应,表现形式输入输出都是语句;

c)正文理解类:应用自然语言处理的方法和理论,对作为输入的全文进行分析处理,理解原文的内容,以某种形式输出正文内容的归纳总结,例如翻译类应用。

上述应用场景,基于规则或基于统计方法在原理上均可行,对应的工程实践也普遍存在。本发明的创新之处在于,面向的不仅是文书的字面内容,而是对文书描述的人、事、物及互动关系建立时序模型,并基于上述模型提出可检验内容完备性、一致性的规则,只涉及字面上的客观事实描述进行还原及完备性的量化评估,而不涉及对背后价值涵义及法律解读这样真正意义上的理解,这在现阶段并无必要,这部分工作仍然由使用本发明作为工具的法务从业人员负责完成。这样就很好地界定了工具的范畴,实现了针对法务工作中文书信息组织与提取的特点,提出针对特定问题领域的一个解决办法与实践。

法务工作者存在这样的需求,在处理一件文书时,本质上基于内容信息依次进行的以下判定:

●这件法务文字涉及的法务内容涉及何种范畴(行业、法律法规、裁判案例);

●这件涉及法务内容的文字包含了某范畴的何种事实,并因此涵盖哪些主体;

●上述事实同该范畴的哪些法条有关,对应法条描述的何种结果;

●风险点相关条款;

●特权设置条款。

现有技术未见同本发明解决相同的问题或者类似的方案。

法务文书同传统意义上的自然语言处理对象存在的明显区别在于,法务文书具备较高程度的规范化,从段落结构、句型句式、到遣词用字,都遵循严格体例,内容准确精练,极少文学化的手段,并且其严谨、保守的专业倾向使得学术界与工程界通用的文字自动化处理方案的接受度和实效并不理想。

因此,在通常的法务实践中,主要采用的信息化手段目前仍属于检索类,对于特定的输入文件,经对文书的分析提取,采用其中的关键字组合使用已有的法规检索工具进行人工匹配,这种方式是一种通用化的手段、实践中各个环节是由人工介入进行贯穿的,并未经过对法务工作的工作流针对性的设计与工程化。

本发明基于上述工作流特点的分析与法务实践的经验,提供一种对于法务领域文书量化评估的方法,以实现工程化的解决办法。



技术实现要素:

本发明为解决上述技术问题而采用的技术方案是提供一种对于法务领域文书量化评估的方法,其中,具体技术方案为:

对法务领域文书上下文构筑的环节提出一种便于程序化和量化处理的方法,为文书中的事实描述的部分进行建模并直观呈现给用户;

本评估方法中,包含如下功能模块:

段落划分功能模块;

进行要素识别与建模的模块;

进行量化分析的模块;

进行内容呈现的模块。

上述的对于法务领域文书量化评估的方法,其中:

1)段落划分功能模块,是对正文章节与条款进行划分,并为文书中每一区域调用对应的处理模块;

进行要素识别与建模的模块包括以下功能模块:

2)文书类型;

3)涉及的当事人、法律主体;

4)涉及物、财、标的、归属关系;

5)事件与场景、发生地点;

6)涉及的事件间存在的因果关系;

7)涉及的时间段、时间点、先后顺序、跨度;

进行量化分析的模块包括以下功能模块:

8)量化分析;

9)一致性检测;

进行内容呈现的模块包括以下功能模块:

10)可视化呈现;

上述2)-7)每个模块主要的功能是根据预设的特征文字模式集合,对输入的文字段落内容进行模式匹配、模式识别,如果满足匹配条件,匹配出的关键内容信息属于文档建模的一部分,根据适当的规则同当前已构造的文档模型相结合,输入的文字段落处理完成后模块退出执行。

上述的对于法务领域文书量化评估的方法,其中:

系统的处理过程描述如下:

1)文书正文作为软件系统的输入信息,由文书管理模块完成加载及基本内容校验;

2)加载及校验通过的文书内容由段落划分模块进行处理,该模块以段落为单位,划分正文的标题区域,概述区域,条款区域,并对每个划分的段落,按照区域类型执行相应的句型模式匹配;

3)应用模块1)、2),对于文书开头部分的标题区域、概述区域,由文书类型模块及当事人模块进行处理,主要用于构建文书类型及当事人上下文,文书类型上下文主要决定了文书模型的主要约束,对于每个当事人称谓建立一条记录,容纳其全称、简称、代称等用于同后续的条款正文进行对应

4)对于条款部分的正文,需要由各个模块对各个段落进行多次迭代过程:

a)应用模块3)、4),将所有当事人涉及到有关联的实体、对象识别出来,并添加到文书模型的上下文中;包含物品数量、金额等信息的,作为实体、对象的特征信息进行记录,并在后续步骤中跟踪数量变化;

b)应用模块5),将所有文书中进行了描述的事件识别出来,添加到文书模型的上下文中,并根据事件涉及的所有当事人、实体、对象的关系,在文书模型中同该事件建立关联;

c)应用模块6),对于包含因果关系判定的语句进行识别,并将识别出的原因、结果对应的事件分别标记在文书模型的上下文中;

d)应用模块7),对于包含时间信息的语句进行识别,将此时间信息同对应的事件在文书模型上下文中进行关联;

5)完成上述步骤后,文书正文中可进行识别建模的元信息已经提取完成,并完成了文书模型上下文的创建,基本关系的建立;

6)应用模块8)、9),对于文书模型进行量化分析与一致性检查:

a)量化分析部分模块8):

i.整体时间跨度、中间节点的时间点;

ii.对于物,在时间轴上的数量的增、减情况及变化的;

iii.对于财,在时间轴上的金额增、减情况及流向;

iv.量化信息在文书模型上进行标记,同相关的主体、事件进行关联;

b)在量化分析基础上的一致性检查部分模块9):

v.时间轴上的事件节点发生顺序是否存在直接冲突;

vi.物的数量是否前后一致,去向清晰;

vii.金额是否前后一致,去向清晰;

viii.存在因果关系的事件,不构成循环、交叉等明显与逻辑相悖的情况;

ix.上述各要素,同该文书所属类型的基本约束有无冲突之处;

x.对于文书正文一致性检查出的问题,在文书模型上加以标记,并与相应的主体、事件进行关联;

7)应用模块10),对于构建完成的文书模型,以可视化的形式呈现给用户,即文书的审阅者,其中包括了完整的文书事实呈现,重要信息的标记与关联,及可能存在的问题。

本发明相对于现有技术具有如下有益效果:通过应用本发明,在处理包含事实描述的法务文书时,法务工作者可以通过本发明产品的输出直观地获知文书整体涉及的人、事、物、财、时之间存在的关系、可能的问题,也包括文书本身的遗漏或者错误,相比传统上由法务工作者完全人工从文字还原上述内容,本发明解决了文书分析工作中相当一部分人力密集型的工作,并且在表达上做到标准化,大大提升法务工作中这一部分工作的产出效率。

附图说明

图1为模块关系及输入输出示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

通常意义上的自然语言处理nlp,概括地说就是实现对文字内容的理解,而本发明则基于法务工作的实际需要及法务文书所具有的文本特点,针对性地解决事实还原这一狭义的理解功能,较好地平衡和统一了原理复杂度和结果可信度这两个维度,提供的功能着眼于完成解决相对基础和耗费精力的工作,以直观简洁的形式呈现给用户,从而使得用户很容易地在此基础上进行真正需要进行升华思考的工作。

而根本上看,完成各种类型关键信息获取的基本模式,本身是来自于行业规范、工作积累后整理精粹的产物,背后体现的仍然是专业人士的专业能力,通过本发明使其成为一种可以批量化、自动化的过程,并且模块本身所支持的模式可以通过人工或智能化的技术手段进行持续提升,而本发明采用的自动化迭代建模的工作流程、以及模型的结构和表达形式本身则是相对稳定,可以通用的。

一篇文书的内容,由字词、语句、段落、章节的形式逐级构建,随着文字内容的展开,描述的进行,上下文构筑成形的过程,也就是阅读者理解的过程,本发明旨在对其中上下文构筑的环节提出一种便于程序化和量化处理的方法,为文书中的事实描述的部分进行建模并直观呈现给用户,为用户提供分析阅读使用文书的协助与便利。

本发明采用的技术方案与软件实现,包含如下功能模块:

1.段落划分:对正文章节与条款进行划分,并为文书中每一区域调用对应的处理模块;

以下为进行要素识别与建模的模块:

2.文书类型;

3.涉及的当事人、法律主体;

4.涉及物、财、标的,归属关系;

5.事件与场景、发生地点;

6.涉及的事件间存在的因果关系;

7.涉及的时间段、时间点、先后顺序、跨度;

以下为进行量化分析的模块:

8.量化分析

9.一致性检测

以下为进行内容呈现的模块:

10.可视化呈现

上述2-7每个模块的功能是根据预设的特征文字模式集合,对输入的文字段落内容进行模式匹配、模式识别,如果满足匹配条件,匹配出的关键内容信息属于文档建模的一部分,根据适当的规则同当前已构造的文档模型相结合,输入的文字段落处理完成后模块退出执行,每种模块对应的特征文字模式集合,来自于发明人对法务文书的处理经验及分析整理,并可使用机器学习以及人工智能领域的算法作为维护更新的手段,这部分内容在另外的布局发明中进行体现。

系统的处理过程描述如下:

2.文书正文作为软件系统的输入信息,由文书管理模块完成加载及基本内容校验;

3.加载及校验通过的文书内容由段落划分模块进行处理,该模块以段落为单位,划分正文的标题区域,概述区域,条款区域,并对每个划分的段落,按照区域类型执行相应的句型模式匹配

4.应用模块1、2,对于文书开头部分的标题区域、概述区域,由文书类型模块及当事人模块进行处理,主要用于构建文书类型及当事人上下文。文书类型上下文主要决定了文书模型的主要约束,对于每个当事人称谓建立一条记录,容纳其全称、简称、代称等用于同后续的条款正文进行对应

5.对于条款部分的正文,需要由各个模块对各个段落进行多次迭代过程

a)应用模块3、4,将所有当事人涉及到有关联的实体、对象识别出来,并添加到文书模型的上下文中;包含物品数量、金额等信息的,作为实体、对象的特征信息进行记录,并在后续步骤中跟踪数量变化

b)应用模块5,将所有文书中进行了描述的事件识别出来,添加到文书模型的上下文中,并根据事件涉及的所有当事人、实体、对象的关系,在文书模型中同该事件建立关联

c)应用模块6,对于包含因果关系判定的语句进行识别,并将识别出的原因、结果对应的事件分别标记在文书模型的上下文中

d)应用模块7,对于包含时间信息的语句进行识别,将此时间信息同对应的事件在文书模型上下文中进行关联

6.完成上述步骤后,文书正文中可进行识别建模的元信息已经提取完成,并完成了文书模型上下文的创建,基本关系的建立

7.应用模块8、9,对于文书模型进行量化分析与一致性检查:

a)量化分析部分模块8:

i.整体时间跨度、中间节点的时间点。

ii.对于物,在时间轴上的数量的增、减情况及变化的。

iii.对于财,在时间轴上的金额增、减情况及流向。

iv.量化信息在文书模型上进行标记,同相关的主体、事件进行关联。

b)在量化分析基础上的一致性检查部分模块9:

i.时间轴上的事件节点发生顺序是否存在直接冲突。

ii.物的数量是否前后一致,去向清晰。

iii.金额是否前后一致,去向清晰。

iv.存在因果关系的事件,不构成循环、交叉等明显与逻辑相悖的情况。

v.上述各要素,同该文书所属类型的基本约束有无冲突之处,例如时间跨度、主体数量等等。

vi.对于文书正文一致性检查出的问题,在文书模型上加以标记,并与相应的主体、事件进行关联。

8.应用模块10,对于构建完成的文书模型,以可视化的形式呈现给用户,即文书的审阅者,其中包括了完整的文书事实呈现,重要信息的标记与关联,及可能存在的问题。

9.文书模型构建成型,这是下一步详尽法律分析的参考和起点,用户可在本发明提供的功能协助下,高效地完成工作。

虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1