一种面向裁判文书的文本标注方法与流程

文档序号:17001025发布日期:2019-03-02 01:48阅读:652来源:国知局
一种面向裁判文书的文本标注方法与流程

本发明涉及一种面向裁判文书的文书标注方法,属于大数据挖掘技术领域。



背景技术:

降低司法成本,提高司法效率一直是中国司法改革进程的主旋律。随着大数据时代的到来,如何利用大数据技术对司法审判中产生的海量数据进行采集、分析、整理、归类,充分利用好案件数据信息,挖掘数据价值,让信息技术为司法审判和经济社会发展服务成为一项值得研究的重要课题。

在司法审判中,裁判文书作为法律审判活动记录的载体,完整反映了当事人主张、举证的客观构成,并全面阐述了裁判文书结果形成的法律依据、事实证据和推理过程。截止2018年7月,已有超过4800万份裁判文书被收录并公布于中国裁判文书网。如今大数据战略已成为我国的重要发展战略,我国开始全面实施促进大数据发展行动。与此同时,人民法院也在大力推进智慧法院建设,以充分利用案件数据信息,让大数据为司法审判和经济社会发展服务。研究裁判文书中事实和法条的关系是法院人工智能领域大有可为的课题。一方面可以为法官推荐案件可能适用的法条,提高法官的工作效率。另一方面法条推荐可以帮助当事人了解同类案件的诉讼结果和相关法条,形成最佳的诉讼策略,节约法律咨询和诉讼的成本。而由于该研究领域的特殊性,在学术界并没有相关的公开数据集,需要准备大量的人工标注数据集。传统的文书标注方法存在难于管理和统计的问题,本发明就是为解决这一问题而产生的。本发明不仅为法条推荐等相关工作提供了研究数据集,而且还便于管理和统计数据集。

面向裁判文书的文书标注方法对于法条推荐等相关研究工作的价值体现在,一方面面向裁判文书的文书标注方法可以为法条推荐提供数据集,有利于法条推荐相关研究工作的展开。一方面与传统的文书标注相比,本文的面向裁判文书的文书标注方法可以更科学地统计和管理数据,节省了大量的时间和精力。



技术实现要素:

本发明是一种面向裁判文书的文本标注方法,提供一种裁判文书文本预处理的方法,包括对裁判文书文本中抽取与文本分割,待标注数据导入,待标注项目分配,用户登录与提交标注,导出标注后的数据。

该方法能为法条推荐等研究工作提供大量的文本标注数据集,并对得到数据集进行相关的统计和管理,节省大量时间和精力。

1.一种面向裁判文书的文本标注方法,其特征在于包含以下步骤:

步骤(1)从裁判文书文本中分段抽取与文本分割,形成excel格式的待标注数据文件;

步骤(2)登录与待标注数据导入;

步骤(3)创建普通用户;

步骤(4)创建待标注项目与为普通用户分配待标注数据;

步骤(5)登录与提交标注;

步骤(6)登录与标注后的数据导出;

2.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(1)中从裁判文书文本中分段抽取与文本分割,形成excel格式的待标注数据文件。具体子步骤包括:

步骤(1.1)文书结构化;

步骤(1.2)抽取文书的事实段与所引法条列表;

步骤(1.3)建立文书事实集;

步骤(1.4)建立引用法条正文集;

步骤(1.5)创建文书标注表格。

3.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(2)中登录与待标注数据导入。具体子步骤包括:

步骤(2.1)打开登录页面,使用管理员账号登录,进入文本标注系统;

步骤(2.2)进入导入excel页面;

步骤(2.3)选择本地保存的需要导入的excel格式的待标注数据文件,进行导入。

4.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(3)中创建普通用户。具体子步骤包括:

步骤(3.1)在管理员账号登录情况下,进入查看用户页面;

步骤(3.2)创建普通用户,设置该用户的用户名和密码。

5.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(4)中创建待标注项目与为普通用户分配待标注数据。具体子步骤包括:

步骤(4.1)在管理员账号登录情况下,进入查看项目页面;

步骤(4.2)创建新项目,设置项目名称;

步骤(43)进入该项目的任务分配界面;

步骤(4.4)选择要参与此次任务的用户,为这些用户分配待标注数据。

6.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(5)中登录与提交标注。具体子步骤包括:

步骤(5.1)打开登录页面,使用普通用户账号登录,进入文本标注系统;

步骤(5.2)根据分配的项目名称,进入该项目的文本列表页面;

步骤(5.3)根据文本名称,进入标注页面,选择每个事实与法条的是否相关,提交标注,进入下一篇文本的标注页面,重复之前操作,直到所有文本标注完毕。

7.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(6)中登录与标注后的数据导出。具体子步骤包括:

步骤(6.1)打开登录页面,使用管理员账号登录,进入文本标注系统;

步骤(6.2)根据项目名称,进入该项目判断结果页面,根据需要研究的法条,进入导出结果页面;

步骤(6.3)预览导出结果,将结果导出为excel格式文件并下载保存到本地。

本发明与传统人工标注excel技术相比,其显著优点是:使用excel导入技术,将数据保存到数据库中,提升了数据的安全性;采用管理员创建用户,登录后才可标注的设计,避免了将excel数据文件发给个人的情况,降低了裁判文书扩散的风险,同时加强了对项目参与人员的管理;采用输入序号分配文本的设计,提升了给用户分配需标注文本的效率;避免了传统方法需打开每个excel文件并填入0、1效率低下的情况,只需要点击鼠标即可完成标注,大大节省了传统人工标注方法需要耗费的时间;采用根据法条集合相关联事实的导出设计,方便了后续的研究。

附图说明

图1一种面向裁判文书的文本标注方法流程图

图2excel格式的标注表格例图

图3数据库中文书表等四个表字段信息图

图4数据库中用户表等四个表字段信息图

具体实施方式

为使本发明的目的、技术方案和优点更加清晰,下面将结合附图及具体实施例对本发明进行详细描述。

本发明的目的在于解决裁判文书的文本标注问题,提出一种面向裁判文书的文本标注方法。使用excel导入技术,将数据保存到数据库中,提升了数据的安全性;采用管理员创建用户,登录后才可标注的设计,避免了将excel数据文件发给个人的情况,降低了裁判文书扩散的风险,同时加强了对项目参与人员的管理;采用输入序号分配文本的设计,提升了给用户分配需标注文本的效率;避免了传统方法需打开每个excel文件并填入0、1效率低下的情况,只需要点击鼠标即可完成标注,大大节省了传统人工标注方法需要耗费的时间;采用根据法条集合相关联事实的导出设计,方便了后续的研究。本发明概括来说主要包括以下步骤:

步骤(1)从裁判文书文本中分段抽取与文本分割,形成excel格式的待标注数据文件;

步骤(2)登录与待标注数据导入;

步骤(3)创建普通用户;

步骤(4)创建待标注项目与为普通用户分配待标注数据;

步骤(5)登录与提交标注;

步骤(6)登录与标注后的数据导出;

上述一种面向裁判文书的文本标注方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。

1.首先从裁判文书中分段抽取与文本分割,形成excel格式的待标注数据文件。具体步骤是

步骤(1.1)文书结构化。原始的裁判文书文件大部分都是doc、docx、rtf等格式的纯文本文件,我们无法直接从中获取信息,因此我们根据裁判文书的书写规律,定义了一个模板,按照模板采用信息抽取从文书中抽取出对应文本填入模板中,最后使用xml来存放模板。按照案件性质、审判程序将裁判文书划分为民事一审、民事二审、刑事一审、刑事二审、行政一审、行政二审,并为每种类型制定了对应的xml格式模板,所有的xml格式模板都是将文书切分为“文首”、“当事人”、“诉讼记录”、“案件基本情况”、“裁判分析过程”、“判决结果”、“文尾”七个逻辑段,不同案件类型的xml模板的区别在于每个逻辑段落中的子段落不同、信息项不同。

步骤(1.2)抽取文书的事实段和所引法条列表。我们从xml格式的文书的“查明事实段”节点获取文书的事实文本,从“法律分组冗余”节点获取该文书引用法条名称列表。在实际文书书写时,法条名称可能存在各种书写错误,因此,我们还需对获取的法条名称进行标准化,获得标准法条列表。

步骤(13)建立文书事实集。从xml文书节点中获取的事实段往往包含一大段文本,因此,我们使用“;。”来切割事实文本,过滤掉空格和空文本。得到该文书对应的事实集。

步骤(1.4)建立引用法条正文集。我们根据标准法条列表中的法条名称去法条数据库中查询法条正文,建立引用法条正文集。

步骤(1.5)创建文书标注表格。获取文书事实集和引用法条正文集后,我们以事实为行,法条正文为列,创建excel格式的标注表格,具体形式如图2所示:

2.为了后续的标注,在步骤2中需要先将步骤1形成的excel格式的数据文件导入到数据库中。具体步骤是:

步骤(2.1)打开登录页面,在用户名文本框中输入管理员账号名称,密码文本框中输入密码,点击“登录”按钮,进入文本标注系统;

步骤(2.2)点击右上角“我的”,出现下拉框,点击“导入excel”,进入导入excel页面;

步骤(2.3)点击“选择文件”,打开windows文件选择窗口,选择本地保存excel格式的待标注数据文件,可以多选,点击确定,窗口关闭,返回页面,点击“开始导入”按钮,这些文件会被上传到服务器上,被逐个解析,提取单元格中的数据,并保存到服务器上的数据库中。这些数据会被保存到数据库中的四个表中,这些表包括:文书表、法条表、文书-法条表、事实表,具体的数据表中字段如图3所示。全部文件都导入结束后,服务器会返回提示信息到页面上,看到成功信息显示,则表明导入成功。

3.需要为每个参与标注项目的人员分配一个账号。具体步骤包括:

步骤(3.1)点击右上角“我的”,出现下拉框,点击“查看用户”,点击进入查看用户页面;

步骤(3.2)点击“创建新用户”按钮,会弹出窗口,在弹出窗口的用户名文本框中输入要创建用户的用户名,密码文本框中输出要创建用户的密码,点击“创建”按钮,则输入的数据会保存到数据库的用户表中,具体的数据表中字段如图4所示。成功后会自动返回查看用户页面,同时用户列表会刷新,显示已创建的用户。若某普通用户忘记密码,还可以修改该用户的密码,在该用户行右方文本输入框中输入要修改的密码,点击“修改密码”按钮,提示成功信息则表明修改成功。

4.考虑到后续研究可能由不同人开展或需要研究不同的重点,所以标注任务应根据项目划分,并为每个项目分配人员,为每个人员分配需标注的文书。具体步骤包括:

步骤(4.1)点击右上角“我的”,出现下拉框,点击“查看项目”,点击进入查看项目页面;

步骤(4.2)点击“创建新项目”按钮,会弹出窗口,在弹出窗口的项目名称文本框中输入要创建的项目名称,点击“创建”按钮,则输入的数据会保存到数据库的项目表中,具体的数据表中字段如图4所示;

步骤(4.3)返回查看项目页面,列表会刷新,显示已创建的项目,点击“进行任务分配”按钮,进入任务分配页面;

步骤(4.4)选择要参与此次任务的用户,勾选“是否参与项目”单选框,分配计划列中会出现两个文本输入框,在“begin”文本框中填入导入excel数据文件开始序号,在“end”文本框中填入导入excel数据文件结束序号,点击确认分配,则输入的数据会保存到数据库的任务表中,同时初始化判断表,将判断表中表示联系的字段值设为-1,表示还没开始判断,具体的数据表中字段如图4所示。分配完成后,会回到项目列表页面。如果分配完毕后,还需要追加人员,在项目列表页面,点击需要追加的项目右侧“修改任务分配”按钮,进入任务分配修改页面,同任务分配类似操作,在待分配人员列表中选择人员,输入文书开始与结束序号,点击确认分配即可。

5.管理员用户给普通用户分配完任务以后,普通用户即可开始进行标注。具体步骤包括:

步骤(5.1)打开登录页面,在用户名文本框中输入普通用户账号名称,密码文本框中输入密码,点击“登录”按钮,进入项目列表页面,该页面会显示已被分配的所有项目列表;

步骤(5.2)点击要标注的项目名称,进入文本列表页面,该页面会显示被分配的所有文本列表;

步骤(5.3)点击文本名称,进入标注页面,该页面以每个事实为主序,法条为次序来进行排列。每个表格顶部为每个事实的内容,表格内部的是引用法条的基本信息。是否相关列中默认为不相关。经过判断后,若认为该事实与该法条相关,则点击“相关”,所有事实判断结束后,点击最下方“提交”按钮,则会在数据库中判断表进行查询并更新表示联系的字段值,不相关设为0,相关设为1,并返回成功信息到弹出窗口中,点击“下一篇”按钮,会进入下一篇文本的标注页面,重复之前操作,直到所有文本标注完毕。

6.在普通用户都标注完毕后,管理员可将标注后的数据导出。具体步骤包括:

步骤(6.1)打开登录页面,在用户名文本框中输入管理员账号名称,密码文本框中输入密码,点击“登录”按钮,进入查看项目页面;

步骤(6.2)点击“查看任务分配”按钮,进入判断结果页面,可以看到参与此项目的普通用户列表,以及该用户是否判断结束的信息,若显示为“是”,点击“根据法条导出结果”按钮,进入导出结果页面;

步骤(63)导出结果页面中,主体部分会列出该项目中所有用户认为存在事实与其关联的法条,并且根据关联数的多少顺序排列。选择需要研究的法条,点击该条目后的“预览”按钮,可进入结果预览页面,该页面会显示所有与该法条相关联的事实列表,点击“导出excel”按钮,会弹出windows文件下载窗口,点击“下载”,可将事实列表形成的excel格式文件保存到本地。

上面已经参考附图对根据本发明实施的一种面向裁判文书的文本标注方法进行了详细描述。本发明具有如下优点:使用excel导入技术,将数据保存到数据库中,提升了数据的安全性;采用管理员创建用户,登录后才可标注的设计,避免了将excel数据文件发给个人的情况,降低了裁判文书扩散的风险,同时加强了对项目参与人员的管理;采用输入序号分配文本的设计,提升了给用户分配需标注文本的效率;避免了传统方法需打开每个excel文件并填入0、1效率低下的情况,只需要点击鼠标即可完成标注,大大节省了传统人工标注方法需要耗费的时间;采用根据法条集合相关联事实的导出设计,方便了后续的研究。

需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1