基于领域专家知识体系的信息抽取系统及信息抽取方法与流程

文档序号:15931888发布日期:2018-11-14 01:46阅读:394来源:国知局

本发明涉及信息抽取领域,具体来说是一种基于领域专家知识体系的信息抽取系统及其信息抽取方法。

背景技术

判决书,法律术语,是指法院根据判决写成的文书。是法律界常用的一种应用写作文体,包括民事判决书、刑事判决书、行政判决书和刑事附带民事判决书。

最高人民法院发布新规:法院生效的判决书从2014年1月1日起在互联网全面公布,除涉及国家机密、个人隐私、未成年犯罪以及不宜"晒"的4类判决书外,公众均可随时查阅。

目前,现有的文书抽取技术主要以规则技术为基础,存在抽取的信息点零散以及不成体系的缺陷,因此无法满足抽取任务多变的需求,另外,现有的文本抽取技术维护成本极高,不适宜与广泛推广使用。



技术实现要素:

本发明所要解决的技术问题是为了克服现有技术不具有普适性以及维护门槛高的缺陷,而提供一种基于领域专家知识体系的信息抽取系统及其信息抽取方法。

本发明解决上述技术问题提供的技术方案是:本发明公开了一种基于领域专家知识体系的信息抽取系统,包括:资源管理模块、预处理模块、核心处理模块、输出模块,所述的资源管理模块用于管理领域知识库和信息抽取规则库,所述的预处理模块用于对判决文书内容进行规整和分段,所述的核心处理模块用于根据领域知识库和人工编写的规则资源,利用信息抽取算法抽取信息点,所述的输出模块用于将抽取结果进行输出。

作为优选,所述的资源管理模块包括专家知识库单元和规则库单元,所述的专家知识库单元用于专家梳理司法领域的知识以构建领域知识库,且由司法领域的专家梳理出知识点并对其定义,所述的规则库单元用于根据信息抽取的需要由维护人员编写抽取规则形成信息抽取规则库。

作为优选,本发明还公开了一种上述基于领域专家知识体系的信息抽取系统的信息抽取方法,具体步骤如下:

(1)、司法领域的专家通过专家知识库单元梳理出司法领域的知识以构建领域知识库,司法领域的专家还通过资源管理模块梳理出知识点并对其定义;

(2)、维护人员通过规则库单元根据信息抽取的需要编写抽取规则以形成信息抽取规则库;

(3)、采用预处理模块对判决文书内容进行规整和分段;

(4)、采用核心处理模块根据领域知识库和人工编写的信息抽取规则库,利用信息抽取算法抽取信息点;

(5)、通过输出模块将抽取结果进行输出。

作为优选,所述的步骤(3)中,具体方法如下:确定各个段落载明的内容,然后采用朴树贝叶斯分类法或规则分类法进行分类,再进行排序,即实现了智能分段,最后输出分类结果。

作为优选,所述的规则分类法是根据维护人员编写的规则进行分类。

作为优选,所述的排序算法为fscore=w1*fbayesian+w2*frule

其中fscore为该段落为标签a的总得分,fbayesian为该段落为标签a的贝叶斯分类得分,frule为该段落为标签a的规则匹配得分,w1与w2为权重系数,是通过训练得到。

作为优选,所述的步骤(4)是根据步骤(3)中的智能分段结果,在各个段落中抽取不同的信息点,由于判决文书中信息点数量多,类型多特点,针对不同的类型需要使用不同的方法去识别。

与现有技术相比,本发明具有以下有益优点:

本发明的重点是以梳理的领域业务知识体系为基础,通过采用预处理模块和核心处理模块的架构设计,先采用预处理模块对判决文书内容进行规整和分段,虽然判决文书有编写的规范,但规范中只说明了判决文书应包含哪些信息和大致的分块,因此各个法官在编写的时候,存在一定的自由度,分段的目的是确定各个段落载明的内容,对各个段落打标签,是后续抽取信息点的前提,然后再采用核心处理模块根据领域知识库和人工编写的信息抽取规则库,利用信息抽取算法抽取信息点,因此大幅提高了抽取系统的普适性和维护门槛,以应对多变的信息抽取需求。

附图说明

图1为本发明一种基于领域专家知识体系的信息抽取系统的系统框图;

图2为本发明的实施例1的示意图;

图3为本发明一种基于领域专家知识体系的信息抽取系统的步骤(3)的结构示意图。

具体实施方式

参照图1-3所示,本发明公开了一种基于领域专家知识体系的信息抽取系统,包括:资源管理模块1、预处理模块2、核心处理模块3、输出模块4,所述的资源管理模块1用于管理领域知识库和信息抽取规则库,所述的预处理模块2用于对判决文书内容进行规整和分段,所述的核心处理模块3用于根据领域知识库和人工编写的规则资源,利用信息抽取算法抽取信息点,所述的输出模块4用于将抽取结果进行输出。

作为优选,所述的资源管理模块1包括专家知识库单元11和规则库单元12,所述的专家知识库单元11用于专家梳理司法领域的知识以构建领域知识库,且由司法领域的专家梳理出知识点并对其定义,所述的规则库单元12用于根据信息抽取的需要由维护人员编写抽取规则形成信息抽取规则库。

作为优选,本发明还公开了一种上述基于领域专家知识体系的信息抽取系统的信息抽取方法,具体步骤如下:

(1)、司法领域的专家通过专家知识库单元11梳理出司法领域的知识以构建领域知识库,司法领域的专家还通过资源管理模块梳理出知识点并对其定义;

(2)、维护人员通过规则库单元12根据信息抽取的需要编写抽取规则以形成信息抽取规则库;

(3)、采用预处理模块2对判决文书内容进行规整和分段;

(4)、采用核心处理模块3根据领域知识库和人工编写的信息抽取规则库,利用信息抽取算法抽取信息点;

(5)、通过输出模块4将抽取结果进行输出。

作为优选,所述的步骤(3)中,具体方法如下:确定各个段落载明的内容,然后采用朴树贝叶斯分类法或规则分类法进行分类,再进行排序,即实现了智能分段,最后输出分类结果。

作为优选,所述的规则分类法是根据维护人员编写的规则进行分类。

作为优选,所述的排序算法为fscore=w1*fbayesian+w2*frule

其中fscore为该段落为标签a的总得分,fbayesian为该段落为标签a的贝叶斯分类得分,frule为该段落为标签a的规则匹配得分,w1与w2为权重系数,是通过训练得到。

作为优选,所述的步骤(4)是根据步骤(3)中的智能分段结果,在各个段落中抽取不同的信息点,由于判决文书中信息点数量多,类型多特点,针对不同的类型需要使用不同的方法去识别。

实施例1

一种上述基于领域专家知识体系的信息抽取系统的信息抽取方法,具体步骤如下:

(1)、司法领域的专家通过专家知识库单元11梳理出司法领域的知识以构建领域知识库,司法领域的专家还通过资源管理模块梳理出知识点并对其定义;

(2)、维护人员通过规则库单元12根据信息抽取的需要编写抽取规则以形成信息抽取规则库;

(3)、采用预处理模块2对判决文书内容进行规整和分段,具体步骤为确定各个段落载明的内容,然后采用朴树贝叶斯分类法进行分类,再进行排序,即实现了智能分段,最后输出分类结果,所述的排序算法为fscore=w1*fbayesian+w2*frule

其中fscore为该段落为标签a的总得分,fbayesian为该段落为标签a的贝叶斯分类得分,frule为该段落为标签a的规则匹配得分,w1与w2为权重系数,是通过训练得到;

(4)、采用核心处理模块3根据领域知识库和人工编写的信息抽取规则库,利用信息抽取算法抽取信息点,该过程根据根据步骤(3)中的智能分段结果,在各个段落中抽取不同的信息点,由于判决文书中信息点数量多,类型多特点,针对不同的类型需要使用不同的方法去识别,以人名、地名、时间、组织结构名为例,这类类型识别在自然语言理解领域被称为命名实体识别(namedentitiesrecognition,ner),本系统使用统计和规则相结合的方法,并辅以词性综合判断,判决文书中存在各种复杂的关系描述,本系统主要使用规则的方式,定义了多种关系的抽取模板,再辅以简单的推理判断;

(5)、通过输出模块4将抽取结果进行输出。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1