基于自动对比文章相似度辅助法律文书检错方法及系统与流程

文档序号:18257897发布日期:2019-07-24 10:25阅读:544来源:国知局
基于自动对比文章相似度辅助法律文书检错方法及系统与流程

本发明属于信息技术领域,涉及一种文书检错方法及系统,特别涉及一种基于自动对比文章相似度辅助法律文书检错方法及系统。



背景技术:

关键词提取技术就是从一段给定的文本中自动抽取若干有意义的词语或词组。目前,关键词提取方法是利用局部词汇之间的关系对后续关键词进行排序,直接从文本本身抽取。

文章相似度分析技术是在提取题目中的关键词、关键句后利用简单共有词算法、余弦相似度算法等对文章之间的相似度进行计算。

这些技术和过程在实际应用中产生了以下主要问题:

1.集中在一般的语法错误和错别字的检错和修改上;

2.针对专业性的词汇和语句结构适用性不足;

3.在法律领域运用过程中出现了错误评判。

目前,需要一种针对法律领域专业性更强、准确度更高的自动对比文章相似度辅助法律文书检错的方法。



技术实现要素:

为了解决上述技术问题,本发明提出了一种针对法律领域专业性更强、准确度更高的自动对比文章相似度辅助法律文书检错的方法。该方法能够准确识别并提取法律领域语料库资源,在法律文书编辑过程中能够识别用户的输入错误,并对法律文书全文做出整体对比检错,为后续法律文书进一步修改提供辅助手段。

本发明的方法所采用的技术方案是:一种基于自动对比文章相似度辅助法律文书检错方法,其特征在于,包括以步骤:

步骤1:构建法律语料库,包含规范词汇、规范语句结构、文书结构;

步骤2:输入过程中,提取用户输入文本中的关键词;

步骤3:将步骤2中提取的关键词与法律语料库中的规范词汇进行相似度对比,对相似度低于50%的词语提供替换备选;

步骤4:输入完成后,提取用户输入文本中的语句结构、文书结构,并与法律语料库的规范语句结构、文书结构进行相似度对比,对相似度低于50%的词语提供替换备选,对相似度低于30%的语句结构和文书结构提出增补、删减、修改建议。

所述系统采用的技术方案是:一种基于自动对比文章相似度辅助法律文书检错系统,其特征在于:包括以构建法律语料库模块、用户输入文本关键词提取模块、关键词相似度对比模块、语句结构及文书结构相似度对比模块、操作模块、数据库;

所述构建法律语料库模块,用于构建法律语料库,包含规范词汇、规范语句结构、规范文书结构;

所述用户输入文本关键词提取模块,用于输入过程中,提取用户输入文本中的关键词;

所述关键词相似度对比模块,用于将提取的关键词与法律语料库中的规范词汇进行相似度对比,对相似度低于50%的词语提供替换备选;

所述语句结构及文书结构相似度对比模块,用于输入完成后,提取用户输入文本中的语句结构、文书结构,并与法律语料库的规范文书模板进行相似度对比,对相似度低于50%的词语提供替换备选,对相似度低于30%的语句结构和文书结构提出增补、删减、修改建议;

所述操作模块,用于提供法律文书编辑界面,供用户登陆使用;

所述数据库,用于存储系统中产生的各种数据信息。

本发明相对于现有技术,先建立专业、完善的法律语言语料库作为对比、检错的依据素材,然后在法律文书编辑过程中实时检测用户的输入,通过对比用户的输入和语料库的相似度,对用户的输入进行评判和反馈,在全文输入完成后,通过对比用户输入的全文结构与语料库中的相似度,对全文进行评判和反馈。针对法律文书的输入和编辑,该方法能够实时地检测用户的输入错误和不规范用语,并能在整体上对用户输入的法律文书提供修改建议,有效地解决了上述技术问题。

附图说明

图1:为本发明实施例的方法流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。

请见图1,本发明提供的一种基于自动对比文章相似度辅助法律文书检错方法,包括以步骤:

步骤1:利用人民法院公开的裁判文书、人民检察院公开的检察文书等国家公开的法律文书,构建法律语料库;

具体实现包括以下子步骤:

步骤1.1:收集公开的法律文书;

本实施例中,抓取相关网页,收集人民法院公开的裁判文书、人民检察院公开的检察文书等国家公开的法律文书以及各大相关网站公开的法律文书;

步骤1.2:将收集的法律文书转换为可编辑文本;

步骤1.3:对步骤1.2中的文本按照词汇、语句、文书结构通过分词、分句、分段进行自动提取,并对带有强烈个人情感、表述模糊、意表猜测、口语化、方言化的词汇、语句结构和文书结构进行人工甄别处理,获得规范词汇、规范语句结构、规范文书结构;

步骤1.4:对步骤1.3中的规范词汇、规范语句结构、规范文书结构分类存储,组成法律语料库。

步骤2:输入过程中,提取用户输入文本中的关键词;

在用户的输入过程中,不断地获取、检测用户的实时输入内容,利用关键词提取方法对用户的输入内容进行实时的关键词提取。

本实施例中,步骤2的具体实现包括以下子步骤:

步骤2.1:把输入的原始文本T按照完整句子进行分割,即T=[S1,S2,…,Sn];

步骤2.2:对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,获得Si=[ti,1,ti,2,…,ti,n],其中ti,j是保留后的候选关键词;

步骤2.3:构建候选关键词图G=(V,E),其中V为节点集,由步骤2.2中生成的候选关键词组成;然后采用共现关系构造任两点之间的边E,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现;K表示窗口大小,即最多共现K个词语;

步骤2.4:根据TextRank算法,迭代传播各节点的权重,直至收敛;

步骤2.5:对节点权重进行倒序排序,从而得到最重要的N个词语,作为最终候选关键词;

步骤2.6:由步骤2.5得到最重要的N个词语,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。

步骤3:将步骤2中提取的关键词与法律语料库中的规范词汇进行相似度对比,对相似度低于50%的词语提供替换备选;

本实施例中,采用余弦相似度算法进行相似度计算,余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,其对应的n维向量计算式为:

其中,xi表示向量x的第i个分量,yi表示向量y的第i个分量,cosθ表示向量x和向量y之间的余弦距离;余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。

步骤4:输入完成后,提取用户输入文本中的语句结构、文书结构,并与法律语料库的规范语句结构、文书结构进行相似度对比,对相似度低于50%的词语提供替换备选,对相似度低于30%的语句结构和文书结构提出增补、删减、修改建议;

本实施例中,对用户输入的法律文书进行整体的关键词提取,比较提取的关键词组成的语句结构和文书结构与语料库中的规范模板进行相似度对比。

以下通过具体实施例对本发明的余弦相似度算法计算相似度的过程做进一步阐述:

(1)分词。

句子A:双方/在/婚后/因/性格/不和/,发生/矛盾/后/不能/互谅/互让,且/被告/有/吸毒/的/行为,影响/了/夫妻/感情。

句子B:王某/和/李某/婚后/性格/不和,频繁/发生/争吵/后/不能//互相/原谅/,且/王某/吸毒/屡教不改/,影响/了/夫妻/感情。

(2)列出所有的词。

双方,在,婚后,因,性格,不和,发生,矛盾,后,不能,互谅,互让,且,被告,有,吸毒,的,行为,影响,了,夫妻,感情,王某,和,李某,频繁,争吵,互相,原谅,屡教不改。

(3)计算词频。

句子A:双方1,在1,婚后1,因1,性格1,不和1,发生1,矛盾1,后1,不能1,互谅1,互让1,且1,被告1,有1,吸毒1,的1,行为1,影响1,了1,夫妻1,感情1,王某0,和0,李某0,频繁0,争吵0,互相0,原谅0,屡教不改0。

句子B:双方0,在0,婚后1,因0,性格1,不和1,发生1,矛盾0,后1,不能1,互谅0,互让0,且1,被告0,有0,吸毒1,的0,行为0,影响1,了1,夫妻1,感情1,王某1,和1,李某1,频繁1,争吵1,互相1,原谅1,屡教不改1。

(4)写出词频向量。

句子A:(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0)

句子B:(0,0,1,0,1,1,1,0,1,1,0,0,1,0,0,1,0,0,1,1,1,1,0,0,1,1,1,1,1,1)

到这里,问题就变成了如何计算这两个向量的相似程度。本实施例把它们想象成空间中的两条线段,都是从原点([0,0,...])出发,指向不同的方向。两条线段之间形成一个夹角,如果夹角为0度,意味着方向相同、线段重合,这是表示两个向量代表的文本完全相等;如果夹角为90度,意味着形成直角,方向完全不相似;如果夹角为180度,意味着方向正好相反。因此,本实施例通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。

本发明还提供了一种基于自动对比文章相似度辅助法律文书检错系统,包括以构建法律语料库模块、用户输入文本关键词提取模块、关键词相似度对比模块、语句结构及文书结构相似度对比模块、操作模块、数据库;

构建法律语料库模块,用于构建法律语料库,包含规范词汇、规范语句结构、规范文书结构;

用户输入文本关键词提取模块,用于输入过程中,提取用户输入文本中的关键词;

关键词相似度对比模块,用于将提取的关键词与法律语料库中的规范词汇进行相似度对比,对相似度低于50%的词语提供替换备选;

语句结构及文书结构相似度对比模块,用于输入完成后,提取用户输入文本中的语句结构、文书结构,并与法律语料库的规范文书模板进行相似度对比,对相似度低于50%的词语提供替换备选,对相似度低于30%的语句结构和文书结构提出增补、删减、修改建议;

操作模块,用于提供法律文书编辑界面,供用户登陆使用;

数据库管理模块,用于存储系统中产生的各种数据信息。

应当理解的是,本说明书未详细阐述的部分均属于现有技术。

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1