文书归属领域的确定方法和装置与流程

文档序号:13886851阅读:167来源:国知局

本发明涉及信息处理领域,具体而言,涉及一种文书归属领域的确定方法和装置。



背景技术:

通常将记录行政司法案件的文件记作行政司法文书,行政司法案件涉及的行业、领域非常广泛,现有技术中,可以通过对行政司法文书中特征信息的提取划分行政司法文书的领域。在现有的行政司法文书特征信息提取过程中,需要根据其文书描述,人为的该行政司法文书所涉及的国家行政机构以及具体的行政案由,然后根据这两个纬度信息,简单判断该行政司法文书归属的领域。具体地,可以按照人力穷举的特定关键词库,从司法文书的描述信息中提取特定关键词,并基于提取出的特定关键词简单判断该文书的归属领域信息。

在现有方案中,由于特定关键词库对文书中的词语进行匹配,若文书中出现词a,但是关键词库中没有a,只有a的近似词句,则该词a无法匹配到,例如,文书中出现“知产”,但是关键词库中只有“知识产权”,则无法从关键词库中匹配到“知产”这个词。由于无法提取完全的关键词,会导致判断归属领域的准确度较低,而若存在大量近似词句,则会造成关键词库无限膨胀,降低信息提取效率;另外,由于上述操作都是人工执行,执行速度慢,并且浪费了大量的人力资源。

针对现有技术中基于提取出的文书关键词做简单对比,导致确定文书归属领域的准确率低的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供了一种文书归属领域的确定方法和装置,以至少解决现有技术中基于提取出的文书关键词做简单对比,导致确定文书归属领域的准确率低的技术问题。

根据本发明实施例的一个方面,提供了一种文书归属领域的确定方法,包括:从目标文书中提取文书关键词集合,其中,文书关键词集合中包括具有领域特征的多个文书关键词,领域特征为预先设置的用于表示领域的特征;获取多个文书关键词在每个候选领域中的出现概率;根据出现概率,从多个候选领域中确定出目标文书所属的目标领域。

进一步地,根据出现概率,从多个候选领域中确定出目标文书所属的目标领域包括:利用出现概率,确定目标文书对应于各个候选领域的概率值;根据多个概率值,从多个候选领域中选取目标领域。

进一步地,根据多个概率值,从多个候选领域中选取目标领域包括:从多个概率值中获取最大的概率值;将最大的概率值对应的候选领域,作为目标领域。

进一步地,利用出现概率,确定目标文书对应于各个候选领域的概率值包括:利用如下公式计算目标文书对应于候选领域的概率值,其中,公式为:pi=pi1*pi2*…*pij,其中,pi表示目标文书对应于候选领域i的概率值,pi1表示文书关键词1在候选领域i中的出现概率,pi2表示文书关键词2在候选领域i中的出现概率,pij表示文书关词j在候选领域i中的出现概率,i和j为自然数。

进一步地,获取多个文书关键词在每个候选领域中的出现概率包括:在文书关键词存在于预先获取的模型中的情况下,从模型中读取多个文书关键词在每个候选领域中的出现概率;在文书关键词不存在于预先获取的模型中的情况下,计算文书关键词在每个候选领域中的出现概率。

进一步地,在从预先获取的模型中,读取多个关键词在每个候选领域中的出现概率之前,方法还包括:获取属于多个候选领域的多个训练样本;从多个训练样本中提取样本关键词;统计各个样本关键词出现在每个候选领域中的出现概率;将各个样本关键词出现在每个候选领域中的出现概率,保存入模型。

进一步地,计算文书关键词在每个候选领域中的出现概率包括:统计文书关键词在目标文书中出现的次数;以出现的次数作为分子量,将分子量与预先设置的分母量作比,得到文书关键词在每个候选领域中的出现概率。

根据本发明实施例的另一方面,还提供了一种文书归属领域的确定装置,包括:第一提取单元,用于从目标文书中提取文书关键词集合,其中,文书关键词集合中包括具有领域特征的多个文书关键词,领域特征为预先设置的用于表示领域的特征;第一获取单元,用于获取多个文书关键词在每个候选领域中的出现概率;确定单元,用于根据出现概率,从多个候选领域中确定出目标文书所属的目标领域。

进一步地,确定单元包括:确定模块,用于利用出现概率,确定目标文书对应于各个候选领域的概率值;选取模块,用于根据多个概率值,从多个候选领域中选取目标领域。

进一步地,选取模块包括:获取子模块,用于从多个概率值中获取最大的概率值;确定子模块,用于将最大的概率值对应的候选领域,作为目标领域。

在本发明实施例中,可以利用关键词属于不同候选领域的概率,确定目标文书所属的目标领域,这样即便是未提取出全部的文书关键词,可以基于已经提取出来的文书关键词属于不同领域的概率,定量确定文书所属的领域,解决了现有技术中基于提取出的文书关键词做简单对比,导致确定文书归属领域的准确率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的文书归属领域的确定方法的流程图;

图2是根据本发明实施例的一种可选的训练模型建立的流程图;

图3是根据本发明实施例的文书归属领域的确定装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例,提供了一种文书归属领域的确定方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的文书归属领域的确定方法的流程图,如图1所示,该方法包括如下步骤:

步骤s102,从目标文书中提取文书关键词集合,其中,文书关键词集合中包括具有领域特征的多个文书关键词,领域特征为预先设置的用于表示领域的特征;

步骤s104,获取多个文书关键词在每个候选领域中的出现概率;

步骤s106,根据出现概率,从多个候选领域中确定出目标文书所属的目标领域。

通过本发明上述实施例,在从目标文书中提取到多个文书关键词之后,基于多个文书关键词在每个候选领域中出现的概率,确定该目标文书所属的目标领域。在上述实施例中,可以利用关键词属于不同候选领域的概率,确定目标文书所属的目标领域,这样即便是未提取出全部的文书关键词,可以基于已经提取出来的文书关键词属于不同领域的概率,定量确定文书所属的领域,解决了现有技术中基于提取出的文书做简单对比,导致确定文书归属领域的准确率低的问题。

上述从目标文书中提取文书关键词集合具体可以通过如下方案实现:

在一个可选的实施例中,可以利用分词器,对目标文书进行分词,得到多个词语,从分词得到的多个词语中提取具有领域特征的文书关键词,得到文书关键词集合。其中,该分词器使用司法专业词库对目标文书进行分词,该司法专业词库可以为预先设置好的词库。

在另一个可选的实施例中,利用分词器直接从目标文书中提取具有领域特征的多个文书关键词,得到文书关键词集合。在该实施例中,分词器利用预先设置好的领域特征,从该目标文书中直接提取文书关键词。

上述实施例中的领域特征可以为预先设置好的用来表示领域的特征,例如,目标文书为法律文书,在确定该目标文书所属的领域时,领域特征可以包括法律特征和行政机构特征,例如,各级公安局、派出所、文化局、以及各级政府等属于具有行政机构特征的词语,合同、劳动赔偿以及婚姻登记等属于具有法律特征的词语。

又如,目标文书为科技文书,在确定该目标文书所属的领域时,领域特征可以包括产品特征,例如,机器人、无人机、以及虚拟现实游戏等属于具有产品特征的词语。

具体地,可以将不同的领域范围预先划分为多个候选领域,如,可以将行政司法领域范围预先划分为专利、商标、外汇、工商以及财政等多个候选领域。又如,可以预先将会计领域范围预先划分为会计凭证、会计账簿和财务报告等多个候选领域。

其中,若目标文书是会计文书,则上述实施例中的候选领域为会计领域范围中的候选领域;若目标文书是行政司法文书,则上述实施例中的候选领域为行政司法领域范围中的候选领域。

可以分别获取每个文书关键词在每个候选领域中出现的概率(即上述的出现概率),得到多个文书关键词在每个候选领域中的出现概率。例如,目标文书中提取的文书关键词集合里有m个文书关键词,分别为m1、m2、m3、…、mj,j=m;候选领域为n个,分别为n1、n2、n3、…、ni,i=n;,其中,i和j为自然数。p(mj|ni)表示为关键词mj在候选领域ni中的出现概率,获取多个文书关键词在每个候选领域中的出现概率可以得到m*n个出现概率,具体地,获取多个文书关键词在每个候选领域中的出现概率,也即获取这m个文书关键词m1、m2、m3关mj,分别在n个候选领域n1、n2、n3领ni出现的概率:

p(m1|n1)、p(m1|n2)、p(m1|n3)、p(m1|n4)、…、p(m1|ni);

p(m2|n1)、p(m2|n2)、p(m2|n3)、p(m2|n4)……(m2|ni);

……

p(mj|n1)、p(mj|n2)、p(mj|n3)、p(mj|n4)……(mj|ni)。

下面以目标文书为行政司法文书为例,详述本发明实施例:

利用分词器从行政司法文书中,提取具有领域特征的多个文书关键词,分别获取每个文书关键词出现在行政司法领域范围中的每个候选领域中的出现概率,根据该出现概率,从多个候选领域中确定出该行政司法文书所属的目标领域。

通过上述实施例,基于目标文书中具有领域特征文书关键词属于不同候选领域的概率,定量确定目标文书所属的领域,可以提升行政司法文书归属领域信息的提取精度。

根据本发明的上述实施例,根据出现概率,从多个候选领域中确定出目标文书所属的目标领域可以包括:利用多个文书关键词在每个候选领域中的出现概率,确定目标文书对应于各个候选领域的概率值;根据目标文书对应于各个候选领域的概率值,从多个候选领域中选取目标文书所属的目标领域。

具体地,可以基于每个文书关键词在每个候选领域中的出现概率,计算该目标文书属于每个候选领域的概率(即上述的目标文书对应于各个候选领域的概率值),例如,候选领域为3个,从该目标文书中提取到10个文书关键词,确定每个文书关键词出现在每个候选领域的概率,可以得到10*3=30个出现概率,然后基于对应于每个领域的10个出现概率进行计算,得到目标文书属于该领域的概率,其中的计算可以为累加计算或者加权计算。

在计算得到目标文书属于每个候选领域的概率之后,可以比较目标文书属于各个候选领域的概率值,基于比较结果,最终确定目标文书所属的目标领域。在上述的示例中,可以得到目标文书属于3个候选领域的概率,比较该3个概率,最终确定一个目标领域。

具体地,根据多个目标文书对应各候选领域的概率值,从多个候选领域中选取目标领域包括:从多个概率值中获取最大的概率值;将最大的概率值对应的候选领域,作为目标领域。

在该实现方式中,可以将最大的概率值对应的候选领域,确定为目标文书所属的目标领域。

在一个可选的实现方式中,计算目标文书属于每个候选领域的概率值,还可以采用累乘的计算方式实现,具体地,利用如下公式计算目标文书对应于候选领域的概率值:pi=pi1*pi2*…*pij,其中,pi表示目标文书对应于候选领域i的概率值,pi1表示文书关键词1在候选领域i中的出现概率,pi2表示文书关键词2在候选领域i中的出现概率,pij表示文书关键词j在候选领域i中的出现概率,i和j为自然数。

具体地,可以在一个预先建立的模型中记录文书关键词j在候选领域i的出现概率pij,该模型中记载的各个文书关键词在各个候选领域中的出现概率是根据历史数据或者样本数据的统计得到的先验概率。

可选地,获取多个文书关键词在每个候选领域中出现的概率,从该预先建立的模型中,读取各个文书关键词在每个候选领域中的出现概率的值,将目标文书关键词集合中的各个文书关键词在每个候选领域的先验概率进行累乘,获得目标文书属于每个候选领域i的概率pi(后验概率)。

朴素贝叶斯算法(naivebayesianmodel)是一种应用最为广泛的分类算法,其基础思想是对于给出的待分类项,求解在此项出现的各个条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。朴素贝叶斯公式可以表达为:p(y|x)=p(x|y)p(y)/p(x),其中,p(y|x)是事件x发生后事件y发生的条件概率,即事件x发生后事件y发生的后验概率;p(x|y)是事件y发生后事件x发生的条件概率,即事件y发生后事件x发生的后验概率;p(y)是事件y发生的概率,即事件y的先验概率;p(x)是x事件发生的概率,也即事件x的先验概率。本申请利用演化的对朴素贝叶斯公式确定目标文书的归属领域。该演化的朴素贝叶斯公式为:pi=pi1*pi2*…*pij,其中,pi为后验概率,pij为先验概率。

在该方案中,通过先验概率pij累乘来推算后验概率pi,进而确定目标文书的归属领域。具体地,通过将朴素贝叶斯算法引入目标文书归属领域处理过程,把推算目标文书归属领域的问题,转换为根据已获取的文书关键词求取目标文书归属各个候选领域的概率,从而提升了行政司法文书归属领域信息的提取效率和准确率。

在该方案中,获取多个文书关键词在每个候选领域中的出现概率pij包括:检测预先获取的模型中是否存在文书关键词,其中,在文书关键词存在于预先获取的模型中的情况下,从该模型中读取多个文书关键词在每个候选领域中的出现概率;在文书关键词不存在于预先获取的模型中的情况下,计算文书关键词在每个候选领域中的出现概率。

在本申请采用的朴素贝叶斯算法确定目标文书所属的领域,可以通过先验概率来推算后验概率。在从预先获取的模型中,读取多个文书关键词在每个候选领域中的出现概率之前,建立一个训练模型(即上述的预先获取的模型)。具体地,获取属于多个候选领域的多个训练样本;从多个训练样本中提取样本关键词;统计各个样本关键词出现在每个候选领域中的出现概率;将各个样本关键词出现在每个候选领域中的出现概率,保存入模型。

上述实施例中的建立方式可以通过图2所示的步骤实现,如图2所示:

步骤s201:获取已划分好归属领域的训练样本。

其中,该训练样本可以为行政司法文书。

步骤s202:将属于同一归属领域的训练样本归档至一个样本文档。

通过上述实施例,在将属于同一归属领域的训练样本归档至一个样本文档之后,可以得到一个或多个样本文档,将各个样本文档按照预设格式命名。可选的,每个文档按照领域类别代码和领域类别id命名。

例如,样本文书为行政司法文书,已划分好的归属领域包括知识产权、房屋拆迁、工商管理以及土地征收等领域,将样本文书归档至与上述领域对应的文档中,如,知识产权领域文档汇总了5个训练样本,房屋拆迁领域文档汇总了18个训练样本,工商管理领域文档汇总了1个训练样本,土地征收领域文档汇总了2个训练样本。在一个可选的实施例中,可以将该文档所属的领域类别代码和领域类别id写在该文档的起始位置。

例如:知识产权领域文档:“知识产权321xxxxxxxxxx”,其中的知识产权表示该文档所述的领域类别代码,321表示该领域类别id,xxxxxxxxxx为该文档中汇总训练样本的具体内容。

步骤s203:提取各个文档中的所有样本的关键词。

使用分词器(如,gridsum分词器),对各领域文档中的样本内容进行分词,在分词得到多个关键词之后,并通过聚合操作去掉重复的关键词,得到样本文档中的关键词(即文档关键词)。

例如,目标文书为司法文书,利用分词器,使用司法专业词库,对各领域样本文档进行分词,然后通过聚合操作获取各个领域文档的关键词,该关键词具有其所属领域的领域特征,如各级公安局、派出所、文化局、各级政府等行政机构特征的关键词,以及拆迁、治安管理处罚、婚姻登记等行政法律特征的关键词。

步骤s204:统计同一领域文档中所有文档关键词出现的次数。

可选地,对提取到的关键词按次数进行线性统计,得到各个文档关键词在每个领域中出现的次数、以及在整个训练样本中出现的次数。

步骤s205:计算每个文档关键词在每个领域中的出现概率,并将每个文档关键词在每个领域中的出现概率存入训练模型。

在一个可选的实施例中,以各文档关键词在每个领域中出现的次数作为分子量,将该分子量与预先设置的分母量作比,这个分母量可以是各文档关键词在所有的领域文档中出现的次数,将作比得到的比值作为每个文书关键词中在每个领域中的出现概率,并将该出现概率存入训练模型。

在另一个可选的实施例中,将各文档关键词在每个领域中出现的次数与各文档关键词在全体训练样本文档中出现的次数相比,并对某些特定的文档关键词(如指定的文档关键词)进行加权,得到每个文档关键词在每个领域中的出现概率,并将该出现概率存入训练模型。

在该方案中,由于朴素贝叶斯公式计算最终概率是用各个关键词概率做累乘得到,如果训练样本不够多、或在某些特殊情况下,某个文书关键词在训练模型中不存在,则会出现乘积为0导致最终概率失真,为了提高上述确定方法的处理效率,获取多个文书关键词在每个候选领域中的出现概率pij可以:在文书关键词不存在于预先获取的模型中的情况下,确定文书关键词在每个候选领域中的出现概率。

可选地,计算文书关键词在每个候选领域中的出现概率包括:统计文书关键词在目标文书中出现的次数;以出现的次数作为分子量,将分子量与预先设置的分母量作比,得到文书关键词在每个候选领域中的出现概率。

其中,上述实施例中的预先设置的分母量可以为一个极大值,如,从该目标文本中提取出的关键词的计数总值。

可选地,若文书关键词不存在于训练模型,在计算该文书关键词在每个领域中出现的概率时,将该(关键词在目标文书中出现的次数+1)作为分子量,将当前计算概率值的领域文档中关键词的计数总值与关键词词表总数的和作为分母量,采用这种方式计算出该文书关键词在每个领域的出现概率。

可选地,也可以将不存在于训练模型的文书关键词剔除。

在上述实施例中,采用平滑算法来避免目标文书属于该领域的概率值为0的情况。

通过本发明上述实施例,不是采用基于先验概率模型匹配目标文书归属领域的方法,而是利用朴素贝叶斯算法,通过目标文书中具有候选特征的文书关键词获取目标文书所属行政领域,基于大量的经验数据模型来获取目标文书归属领域的概率分布,提升目标文书归属领域的处理精度和速度。具体地,可以对需要判断归属领域的目标文书进行如下处理:首先,从目标文书中提取文书关键词集合;其次,获取该文书关键词经过前期大量经验数据得到的属于每个行政领域的概率;然后,根据该概率,来求取目标文书属于各领域的概率;最后,根据求取出来的目标文书属于各领域的概率值,将概率最大值所对应的领域确定为目标文书归属的目标领域。通过上述实施例,达到了对目标文书归属领域类型的确定,较好的解决了现有技术中确定行政司法文书的领域的效率低的问题,提升了确定行政司法文书所属行政领域的速度和准确度,也大大节约了人力资源。

根据本发明的上述实施例,本申请还提供了一种文书归属领域的确定装置,如图3所示,该装置可以包括:第一提取单元31、第一获取单元33和确定单元35。

第一提取单元,用于从目标文书中提取文书关键词集合,其中,文书关键词集合中包括具有领域特征的多个文书关键词,领域特征为预先设置的用于表示领域的特征;

第一获取单元,用于获取多个文书关键词在每个候选领域中的出现概率;

确定单元,用于根据出现概率,从多个候选领域中确定出目标文书所属的目标领域。

通过本发明上述实施例,在从目标文书中提取到多个文书关键词之后,基于多个文书关键词在每个候选领域中出现的概率,确定该目标文书所属的目标领域。在上述实施例中,可以利用关键词属于不同候选领域的概率,确定目标文书所属的目标领域,这样即便是未提取出全部的文书关键词,可以基于已经提取出来的文书关键词属于不同领域的概率,定量确定文书所属的领域,解决了现有技术中基于提取出的文书做简单对比,导致确定文书归属领域的准确率低的问题。

上述从目标文书中提取文书关键词集合具体可以通过如下方案实现:

在一个可选的实施例中,可以利用分词器,对目标文书进行分词,得到多个词语,从分词得到的多个词语中提取具有领域特征的文书关键词,得到文书关键词集合。其中,该分词器使用司法专业词库对目标文书进行分词,该司法专业词库可以为预先设置好的词库。

在另一个可选的实施例中,利用分词器直接从目标文书中提取具有领域特征的多个文书关键词,得到文书关键词集合。在该实施例中,分词器利用预先设置好的领域特征,从该目标文书中直接提取文书关键词。

上述实施例中的领域特征可以为预先设置好的用来表示领域的特征,例如,目标文书为法律文书,在确定该目标文书所属的领域时,领域特征可以包括法律特征和行政机构特征,例如,各级公安局、派出所、文化局、以及各级政府等属于具有行政机构特征的词语,合同、劳动赔偿以及婚姻登记等属于具有法律特征的词语。

具体地,可以将不同的领域范围预先划分为多个候选领域,如,可以将行政司法领域范围预先划分为专利、商标、外汇、工商以及财政等多个候选领域。又如,可以预先将会计领域范围预先划分为会计凭证、会计账簿和财务报告等多个候选领域。

可以分别获取每个文书关键词在每个候选领域中出现的概率(即上述的出现概率),得到多个文书关键词在每个候选领域中的出现概率。例如,目标文书中提取的文书关键词集合里有m个文书关键词,分别为m1、m2、m3、…、mj,j=m;候选领域为n个,分别为n1、n2、n3、…、ni,i=n;,其中,i和j为自然数。p(mj|ni)表示为关键词mj在候选领域ni中的出现概率,获取多个文书关键词在每个候选领域中的出现概率可以得到m*n个出现概率,具体地,获取多个文书关键词在每个候选领域中的出现概率,也即获取这m个文书关键词m1、m2、m3关mj,分别在n个候选领域n1、n2、n3领ni出现的概率:

p(m1|n1)、p(m1|n2)、p(m1|n3)、p(m1|n4)、…、p(m1|ni);

p(m2|n1)、p(m2|n2)、p(m2|n3)、p(m2|n4)……(m2|ni);

……

p(mj|n1)、p(mj|n2)、p(mj|n3)、p(mj|n4)……(mj|ni)。

通过上述实施例,基于目标文书中具有领域特征文书关键词属于不同候选领域的概率,定量确定目标文书所属的领域,可以提升行政司法文书归属领域信息的提取精度。

根据本发明的上述实施例,确定单元可以包括:确定模块,用于利用出现概率,确定目标文书对应于各个候选领域的概率值;选取模块,用于根据多个概率值,从多个候选领域中选取目标领域。

具体地,选取模块可以包括:获取子模块,用于从多个概率值中获取最大的概率值;确定子模块,用于将最大的概率值对应的候选领域,作为目标领域。

在一个可选的实施例中,确定模块具体用于:利用如下公式计算目标文书对应于候选领域的概率值,其中,公式为:pi=pi1*pi2*…*pij,其中,pi表示目标文书对应于候选领域i的概率值,pi1表示文书关键词1在候选领域i中的出现概率,pi2表示文书关键词2在候选领域i中的出现概率,pij表示文书关词j在候选领域i中的出现概率,i和j为自然数。

在上述实施例中,从该预先建立的模型中,读取各个文书关键词在每个候选领域中的出现概率的值,将目标文书关键词集合中的各个文书关键词在每个候选领域的先验概率进行累乘,获得目标文书属于每个候选领域i的概率pi(后验概率),通过先验概率确定后验概率,可以更加准确地确定目标文书出现在各个领域中的概率值。

在本发明的上述实施例中,第一获取单元可以包括:读取模块,用于在文书关键词存在于预先获取的模型中的情况下,从模型中读取多个文书关键词在每个候选领域中的出现概率;计算模块,用于在文书关键词不存在于预先获取的模型中的情况下,计算文书关键词在每个候选领域中的出现概率。

进一步地,装置还可以包括:第二获取单元,用于在从预先获取的模型中,读取多个关键词在每个候选领域中的出现概率之前,获取属于多个候选领域的多个训练样本;提取单元,用于从多个训练样本中提取样本关键词;统计单元,用于统计各个样本关键词出现在每个候选领域中的出现概率;保存单元,用于将各个样本关键词出现在每个候选领域中的出现概率,保存入模型。

在一个可选的实施例中,计算模块可以包括:统计子模块,用于统计文书关键词在目标文书中出现的次数;计算子模块,用于以出现的次数作为分子量,将分子量与预先设置的分母量作比,得到文书关键词在每个候选领域中的出现概率。

通过本发明上述实施例,不是采用基于先验概率模型匹配目标文书归属领域的方法,而是利用朴素贝叶斯算法,通过目标文书中具有候选特征的文书关键词获取目标文书所属行政领域,基于大量的经验数据模型来获取目标文书归属领域的概率分布,提升目标文书归属领域的处理精度和速度。具体地,可以对需要判断归属领域的目标文书进行如下处理:首先,从目标文书中提取文书关键词集合;其次,获取该文书关键词经过前期大量经验数据得到的属于每个行政领域的概率;然后,根据该概率,来求取目标文书属于各领域的概率;最后,根据求取出来的目标文书属于各领域的概率值,将概率最大值所对应的领域确定为目标文书归属的目标领域。。通过上述实施例,达到了对目标文书归属领域类型的确定,较好的解决了现有技术中确定行政司法文书的领域的效率低的问题,提升了确定行政司法文书所属行政领域的速度和准确度,也大大节约了人力资源。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1