一种专业文书阅读的智能辅助方法、系统及存储介质

文档序号:26406750发布日期:2021-08-24 16:21阅读:137来源:国知局
一种专业文书阅读的智能辅助方法、系统及存储介质

本发明属于人工智能技术领域,更具体地,涉及一种专业文书阅读的智能辅助方法、系统及存储介质。



背景技术:

随着信息化和大数据时代的到来,各行各业的技术资料、文献等专业电子文书数据快速增长,其中涉及到大量新概念、术语、实体,对于非专业人士或初级用户难于理解,或者对专业人士也很难深刻记忆大量的知识资料,这就使得人们在阅读专业文书时,需要耗费大量时间查找资料、文献或者咨询相关人员。

在深度学习出现之后,机器阅读理解技术发展迅速,利用自然语言处理技术辅助文书阅读的系统大量出现在司法文书阅读领域。例如一种现有技术中,利用bert技术对文书进行语义建模,以辅助法律工作人员更迅速地回答在文书中给出的问题。另一种现有技术中,利用es数据库的覆盖全文的字段检索功能,提高了文书检索效率。但是,这些系统没有将自然语言处理技术中的语义特征和检索系统统一,也仅限于司法文书领域,没有泛化到所有领域文本中。



技术实现要素:

针对现有技术的至少一个缺陷或改进需求,本发明提供了一种专业文书阅读的智能辅助方法、系统及存储介质,可以借助于专家知识和领域文档,形成一个机器理解的领域知识库,在用户阅读时自动从领域知识库中获取辅助阅读内容,帮助用户快速、高效地阅读专业文书。

为实现上述目的,按照本发明的第一方面,提供了一种专业文书阅读的智能辅助方法,包括步骤:

s1,获取专家知识和领域文档,构建领域知识库,该领域知识库中包括文档、术语、命名实体以及关系四类要素;

s2,基于领域知识库从待阅读专业文书中提取术语、命名实体和关系,根据提取的内容从领域知识库中获取辅助阅读内容,辅助阅读内容包括该待阅读专业文书中提取的术语、命名实体的知识以及待阅读专业文书中的术语、命名实体的关联知识。

优选的,所述s1包括子步骤:

s101,获取专家知识和领域文档,构建术语词典、命名实体词典、关系词典和文档库;

s102,分别将术语词典、命名实体词典、关系词典和文档库中数据通过关系一一对应,建立领域知识库。

优选的,所述s2包括子步骤:

s201,对待阅读专业文书进行预处理,预处理包括分词处理、词性标注处理和干扰词处理,获得分词列表;

s202,从分词列表中提取术语、命名实体和关系;

s203,根据提取的内容从领域知识库中获取辅助阅读内容,辅助阅读内容包括该待阅读专业文书中提取的术语、命名实体的知识以及与待阅读专业文书中的术语、命名实体的关联的知识。

优选的,从分词列表中提取术语包括步骤:

从领域知识库提取领域术语集;

将包含相同前缀的术语作为一个术语集合,在每个术语集合中,按照术语词长由长到短排序,并利用术语集合的前缀进行索引;

将分词列表中待识别的词作为关键词,来索引以该关键词为前缀的术语集合;

若匹配到以该关键词为前缀的术语集合,则对出现在该术语集合中的每一个术语,按照术语长度由长到短与该关键词进行比对,若匹配成功,则将该匹配成功的术语作为提取的术语。

优选的,所述s203包括步骤:

对步骤202提取到的术语或命名实体,在领域实体库中进行匹配,返回匹配到的术语或命名实体以及术语或命名实体的属性内容;

对步骤202中提取到的术语或命名实体,通过领域知识库中的关系集合中的所有关系进行关联查询,查询出与步骤202中提取到的术语或命名实体关联的其它术语或命名实体,记为节点集a,返回节点集a中所有节点的属性;

在上述步骤中,获得的节点集a,重复进行关联查询步骤,继续查询节点集a与存在关系的其它节点集,记为节点集b,返回节点集b的属性。

优选的,智能辅助方法还包括步骤:利用从待阅读专业文书中提取的术语、命名实体和关系,对领域知识库进行更新。

按照本发明的第二方面,提供了一种专业文书阅读的智能辅助系统,包括:

知识库构建模块,用于获取专家知识和领域文档,构建领域知识库,该领域知识库中包括文档、术语、命名实体以及关系四类要素;

辅助阅读模块,用于基于领域知识库从待阅读专业文书中提取术语、命名实体和关系,根据提取的内容从领域知识库中获取辅助阅读内容,辅助阅读内容包括该待阅读专业文书中提取的术语、命名实体的知识以及与待阅读专业文书中的术语、命名实体的关联的知识。

优选的,所述知识库构建模块包括:

要素确定模块,用于获取专家知识和领域文档,构建术语词典、命名实体词典、关系词典和文档库;

存储模块,用于分别将术语词典、命名实体词典、关系词典和文档库中数据通过关系一一对应,建立领域知识库。

优选的,所述辅助阅读模块包括:

预处理模块,用于对待阅读专业文书进行预处理,预处理包括分词处理、词性标注处理和干扰词处理,获得分词列表;

提取模块,用于从分词列表中提取术语、命名实体和关系;

匹配模块,用于根据提取的内容从领域知识库中获取辅助阅读内容,辅助阅读内容包括该待阅读专业文书中提取的术语、命名实体的知识以及与待阅读专业文书中的术语、命名实体的关联的知识。

按照本发明的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项方法。

总体而言,本发明与现有技术相比,具有有益效果:

(1)将专家知识和领域文档转换为机器理解的语义知识库,帮助用户建立外脑,快速理解专业文书中的术语、命名实体和关系。将术语、命名实体和关系的抽取结果结合文档与其实体的关系,组成知识库,得到了基于命名实体的新的索引,加快了检索效率的同时,还提供了文档间语义关联的入口。

(2)对专业文书的理解不仅限于对专业文书本身所涉及的领域知识进行解释和理解,还包括对文书本身的表达意图进行理解,同时对于部分术语、实体可进行关联理解,在术语、实体本身的基础上挖掘术语、实体等的文本上下文、领域术语体系上下级的相关术语、实体,来辅助对术语、实体的理解。

附图说明

图1是本发明实施例的专业文书阅读的智能辅助方法的原理示意图;

图2是本发明实施例的专业文书阅读的智能辅助方法的流程图;

图3是本发明实施例的领域知识库的示意图;

图4是本发明实施例的节点集a的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示,本发明实施例的一种专业文书阅读的智能辅助方法的实现原理为:将专家知识和领域文档转换为机器理解的领域知识库;对待阅读专业文书进行预处理,在预处理的基础上,利用领域知识库实现对待阅读专业文书中术语、命名实体和关系的提取,然后利用提取的内容检索领域知识图谱,获取上述文书自身的知识和关联知识,从而在文本阅读时进行智能辅助阅读。

如图2所示,本发明实施例的一种专业文书阅读的智能辅助方法,包括步骤:

s1,获取专家知识和领域文档,构建领域知识库,该领域知识库中包括文档、术语、命名实体以及关系四类要素。

通过步骤s1,将专家知识和领域文档转换为机器理解的领域知识库。领域知识库在步骤s2的作用包括:远程监督提取领域关系、以及获取关联的辅助阅读内容,在后文具体说明。

术语是指在特定领域中约定俗成,或者经过规定,被广泛使用来描述该领域中某个概念的词。术语可以是词,也可以是词组,用来正确标记生产技术、科学、艺术、社会生活等各个专业领域中的事物、现象、特征、关系和过程。

命名实体是指文本中具有特别意义或者指代性非常强的实体,通常包括人名、地名、机构名、时间、专有名词等。

关系包括两大类:一类用于描述领域知识库中所有领域文档中存在的不同术语之间、不同命名实体之间、术语与命名实体之间的关系;另一类用于描述领域知识库中领域文档与实体间、领域文档与术语间的关系。

在一个实施例中,不同术语之间、不同命名实体之间、术语与命名实体之间的关系分为三种:同义关系、上下位关系和整体部分关系。同义关系是指在某个特定领域内,用来表述同一概念的不同术语之间或不同命名实体间所具有的关系。若两个术语具有严格相同的内涵和外延,那么称这两个词语具有同义关系。上下位表示特定领域中术语所表示概念间的包含关系,可将术语分为上位词和下位词。上位词表示的是一个外延广阔的大概念,下位词表示的是一个内涵丰富的小概念。整体部分关系指术语表示的概念和它的组成部分之间的关系,整体部分关系并不是把术语表示的概念划分为某个类,而是表示了该概念的组成部分。

在一个实施例中,领域文档与实体间、领域文档与术语间的关系包括:关系名称是“使用、提及”。例如,若某一领域文档中使用了或提及了某一术语,则该领域文档与术语存在“使用、提及”关系,否则,两者领域文档与术语间不存在关系。

如图3所示,假设有n份领域文档,对每份领域文档执行相同操作,获取每份领域文档中的术语、命名实体以及关系。对于第i份领域文档,提取该文档中命名实体、术语,以及不同术语之间、不同命名实体之间、术语与命名实体之间的关系,分别记为命名实体结合i、术语集合i、三类关系集合i(同义关系、上下位关系和整体部分关系);另外还需要以及领域文档i与实体间、领域文档与术语间的关系,记为“使用、以及”关系集合i。循环n次,根据从n份领域文档替所有的所有集合,构建知识库。命名实体结合i、术语集合i、以及领域文档i作为知识库中图谱的节点,三类关系集合i、“使用、以及”关系集合i作为图谱的边。

进一步地,还可以利用步骤s2提取的内容对领域知识库进行更新,完善领域知识库的建设。例如,利用步骤s2提取的命名实体和术语对知识库中的命名实体集合、术语集合进行更新,利用步骤s2提取的关系对知识库中的关系集合进行补充。

进一步地,s1包括子步骤:

s101,获取专家知识和领域文档,构建术语词典、命名实体词典、关系词典和文档库。

具体地,首先利用专家知识定义专业领域本体。

本体建立方法:

1)确定本体的领域和范围。即本体在解决什么问题。本例本体的主要领域为某一学科领域。

2)考虑重用现有的本体。在已有的本体基础上复用。

3)列举本体的重要术语。本实施例所涉及的本体包括文档、术语、其它领域专有本体等。

4)定义类及其层次结构。本例涉及的类包括:文档类、术语类、命名实体类以及关系类。

5)定义类的属性。在一个实施例中,文档类、术语类、命名实体类以及关系类如下。

a)术语类的属性包括:

i.术语名

ii.术语所属

iii.术语创建时间

b)命名实体类的属性包括:

i.命名实体名称

ii.命名实体所述的命名实体名称

c)文档类的属性包括:

i.文档名称

ii.文档创建时间

6)定义属性的限制

a)术语类的属性限制

i.术语名:string

ii.术语所属:string

iii.术语创建时间:date

b)命名实体类的属性包括:

i.实体名称:string

ii.实体所述的命名实体名称:string

c)包含类的属性包括:

i.名称:string

7)定义关系的限制

然后构建术语词典、命名实体词典和关系词典,即根据专家知识构建一个术语倒排索引词典库、实体倒排索引词典库和关系倒排索引词典库。

领域文本主要涉及对领域文本利用已有的术语词典、命名实体关系词典进行匹配,得到的上述相关的文档与术语、文档与实体对形成一个文档库。例如,术语词典有术语1,术语2,术语3……术语1000,获取的n份领域文档中每份文档都能在专家知识指导下抽取出若干术语,第i份文档的若干术语形成编号为i的术语集合i。每份文档均形成对应的术语集合,这些集合可能相交可能相离,所有文档对应集合的并集形成术语词典集合全集。文档i形成术语集合的同时,将该集合中每个术语作为一个实体节点存储进图数据库,并且每个节点都与文档i的实体节点形成边,该边命名为“使用、提及”。同理,将领域文档抽取命名实体,形成命名实体词典库,能够获得n个带有文档编号的命名实体集合,并且集合内命名实体储存进图数据库时与对应的文档节点形成边。以上实体和边形成了文档库。最后,利用远程监督关系抽取技术,在所有文档的术语与命名实体之间抽取关系(包括同义、上下位、整体部分三种),形成关系词典库。经过上述步骤s101,分别建立了术语词典、实体词典、关系词典和文档库。

s102,分别将术语词典、命名实体词典、关系词典和文档库中数据通过关系一一对应,建立领域知识库。即由文字层面的三种“同义关系、上下位关系和整体部分关系”以及文档层面的一种“使用、提及”一共四种关系,和实体同时存储在同一个数据库中,即成为知识库。s2,基于领域知识库从待阅读专业文书中提取术语、命名实体和关系,根据提取的内容从领域知识库中获取辅助阅读内容,辅助阅读内容包括该待阅读专业文书中提取的术语、命名实体的知识以及与待阅读专业文书中的术语、命名实体的关联知识。

进一步地,s2包括子步骤:

s201,对待阅读专业文书进行预处理,预处理包括分词处理、词性标注处理和干扰词处理,获得分词列表。

(a)对原始文本进行中文分词和词性标注。通过中文分词算法crf对待处理的文本进行分词处理,crf(条件随机场)是一种给定输入随机变量x,求解条件概率p(y|x)的概率无向图模型。线性链条件随机场的定义如下:

其中,p(y|x)为线性链条件随机场,在标注问题中,x表示观测序列,y表示对应的标注序列或状态序列。xt表示观测序列,yt表示对应的标注序列或状态序列,yt-1表示上一个特征对应的标注序列或状态序列。ωt是对应的权重,fk是特征函数,t、t、k、k是转移特征。其中,z(x)为归一化函数,exp是指以自然常数e为底的指数函数,在数学定义上等同于exp(x)=ex定义如下:

其中,y表示对应的标注序列或状态序列。xt表示观测序列,yt表示对应的标注序列或状态序列,yt-1表示上一个特征对应的标注序列或状态序列。ωt是对应的权重,fk是特征函数,t、t、k、k是转移特征,exp是指以自然常数e为底的指数函数,在数学定义上等同于exp(x)=ex

(b)对于中文分词后得到的词,保留其中的“名词”、“副词”、“形容词”、“量词”,并去除其中的停用词(如常用的“的”、“在”、“是”、“从”、“当”等)。

停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为stopwords(停用词)。

(c)去除干扰词,即去除词长大于8的词(干扰词主要是那些经常出现,但是对于检索没有多少帮助的词汇)。

在本步骤201中,本申请基于设计需要,定义所要获取的命名实体的类型,然后为每种类型的命名实体分配一个条件随机场crf解码单元,对于n种实体,所有的条件随机场crf解码单元构成了集合{crf1,crf2,…,crfn}。为了尽可能利用不同实体类型之间的共性知识来提升单个任务的效果,这些条件随机场crf解码单元将接收共同的输入(上下文信息敏感的字符级表达信息)。

上下文信息敏感的字符级表达信息在本步骤进行并行的解码运算。每一个条件随机场crf解码单元都会为文本输出一条解码后的标签序列si={s1,s2,…,s|m|},s1即表示第一个标签、s2表示第二个标签,以此类推s|m|即表示取第|m|位标签的绝对值。

本步骤支持的领域文档格式包括pdf、word、txt等文档格式。

s202,从关键词列表中提取术语、命名实体和关系。

在本步骤中,根据201步骤中获取的分词和实体信息,再分别通过不同的算法获取其中术语、命名实体和关系。

术语抽取主要术语词典构建和术语匹配两部分,包括以下步骤:

将现有领域知识库中的领域术语集提取出来;

将包含相同前缀的术语作为一个术语集合,在每个术语集合中,按照术语词长由长到短排序,并利用术语集合的前缀进行索引。在命名实体识别的结果中,一个实体往往由一个或以上单词组成,该实体的第一个单词,也就是命名实体识别结果中,被标记为b的单词,即为该实体的前缀。这种方式的优点是以一种低成本的方法为术语集合做了分类,是后续索引功能的前提。

将分词列表中将待识别的词作为关键词,来索引以该关键词为前缀的术语集合;

若匹配到以该关键词为前缀的术语集合,则对出现在该术语集合中的每一个术语,按照术语长度由长到短与该关键词进行比对,若匹配成功,则将该匹配成功的术语作为提取的术语。

关系抽取采用远程监督的方法。远程监督方法前提假设是:两个实体如果在领域知识库中存在某个关系,则包含该两个实体的非结构化句子均能表示出这种关系。具体步骤如下:

通过远程监督将知识库中的实体对齐到领域文本,构建实体对句子集合;

基于词级别注意力机制的lstm模型将所述句子的语义特征进行编码去噪,得到所述句子的语义特征向量编码;

基于句子级别注意力机制的lstm模型将所述句子的语义特征进行编码与去噪,得到句子集特征编码向量;

将所述句子集特征编码向量与实体对向量进行打包,对得到的包进行实体对的关系提取。

s203,根据提取的内容从领域知识库中获取辅助阅读内容,辅助阅读内容包括该待阅读专业文书中提取的术语、命名实体的知识以及与待阅读专业文书中的术语、命名实体的关联知识。

换而言之,辅助阅读内容集即包括对文书的理解,又包括对文书的关联。文书的理解是指基于现有文书的术语、术语关系、命名实体和命名实体关系的基础上,对领域文书所涉及的术语、命名实体进行解释。同时在步骤202中提取的关系的基础上,借助于上述术语、实体和关系,对阅读文书未提及的术语、实体进行关联,提高文书的可阅读性。

进一步地,s203包括步骤:

(1)根据步骤202提取到的术语或实体,在领域实体库中进行比对,返回该术语或命名实体,同时返回该术语或命名实体的属性内容,即术语或命名实体的定义、解释等;

(2)根据步骤202中提取到的术语或命名实体,对于用户需要了解的任意一个术语或命名实体,可通过上述关系集中的所有关系进行关联查询,查询出与上述术语或命名实体关联的其它术语或命名实体(记为节点集a),返回节点集a中所有节点的属性。

(3)在上述步骤中,获得的节点集a,可重复上述关联查询步骤,继续查询节点集a与所有关系匹配的其它节点集(记为节点集b),返回节点集b的属性。

本发明实施例的一种专业文书阅读的智能辅助系统,包括:

知识库构建模块,用于获取专家知识和领域文档,构建领域知识库,该领域知识库中包括文档、术语、命名实体以及关系四类要素;

辅助阅读模块,用于基于领域知识库从待阅读专业文书中提取术语、命名实体和关系,根据提取的内容从领域知识库中获取辅助阅读内容,辅助阅读内容包括该待阅读专业文书中提取的术语、命名实体的知识以及与待阅读专业文书中的术语、命名实体的关联的知识。

进一步地,知识库构建模块包括:

要素确定模块,用于获取专家知识和领域文档,构建术语词典、命名实体词典、关系词典和文档库;

存储模块,用于分别将术语词典、命名实体词典、关系词典和文档库中数据通过关系一一对应,建立领域知识库。

进一步地,辅助阅读模块包括:

预处理模块,用于对待阅读专业文书进行预处理,预处理包括分词处理、词性标注处理和干扰词处理,获得分词列表;

提取模块,用于从分词列表中提取术语、命名实体和关系;

匹配模块,用于根据提取的内容从领域知识库中获取辅助阅读内容,辅助阅读内容包括该待阅读专业文书中提取的术语、命名实体的知识以及与待阅读专业文书中的术语、命名实体的关联的知识。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述专业文书阅读的智能辅助方法实施例的技术方案。其实现原理、技术效果与上述方法类似,此处不再赘述。

必须说明的是,上述任一实施例中,方法并不必然按照序号顺序依次执行,只要从执行逻辑中不能推定必然按某一顺序执行,则意味着可以以其他任何可能的顺序执行。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1