词条分类方法及审计信息抽取方法与流程

文档序号:17442907发布日期:2019-04-17 05:02阅读:371来源:国知局
词条分类方法及审计信息抽取方法与流程

本发明涉及自然语言处理技术领域,尤其涉及一种词条分类方法及审计信息抽取方法。



背景技术:

在信息抽取和审计审核领域,需要抽取文档中的特定词条,例如在合同中抽取特定的条款信息。

但是,现有识别技术只能识别句子中的实体,无法实现对用户自定义词条的识别和抽取。



技术实现要素:

本发明解决的技术问题是如何实现对文档中各种词条的分类及抽取,同时保证分类和抽取的准确性。

为解决上述技术问题,本发明实施例提供一种词条分类方法,词条分类方法包括:确定离线训练完成的至少两个分类模型;获取待分类文档;分别利用所述至少两个分类模型对所述待分类文档中的各个词条进行分类,每个分类模型得到相应的分类结果,所述分类结果包括多个预设类别以及每个预设类别下的词条;根据所述至少两个分类模型各自的准确率对全部分类结果进行融合,得到针对所述待分类文档中各个词条的最终分类结果。

可选的,所述词条分类方法还包括:在所述待分类文档中,将已分类词条与未分类词条区别显示,其中,所述已分类词条为各个预设类别下的词条,所述未分类词条为所述已分类词条以外的其他词条;或者,抽取所述待分类文档中的已分类词条,并按照预设格式进行输出。

可选的,采用以下方式离线训练所述至少两个分类模型:获取训练文档;选取所述训练文档中的至少一部分词条及其标注,词条的标注是指所述词条所属的所述预设分类;至少将所述至少一部分词条及其标注作为训练集;使用所述训练集分别对所述至少两个分类模型进行训练。

可选的,所述选取所述训练文档中的至少一部分词条及其标注包括:选取所述训练文档中的部分词条及其标注,每一预设分类下的词条的数量小于100。

可选的,所述获取训练文档之后还包括:将具备不同格式的训练文档转换形成具备统一格式的训练文档。

可选的,所述选取所述训练文档中至少一部分词条及其标注之后还包括:对具备标注的词条进行分词以及清洗,以删除停用词和预设词。

可选的,所述至少将所述至少一部分词条及其标注作为训练集包括:利用同义词林对所述部分词条进行语义扩展,以得到所述至少一部分词条的扩展词;将所述部分词条及其扩展词、标注作为所述训练集。

可选的,所述根据所述至少两个分类模型的准确率对所述至少两个结果进行融合包括:根据离线训练时各个分类模型对应的分类结果计算各个分类模型的准确率,并根据所述准确率计算各个分类模型的准确率权重;将各个分类模型对应的分类结果与所述准确率权重进行加权以确定所述最终分类结果。

可选的,所述根据离线训练时各个分类模型对应的分类结果计算各个分类模型的准确率包括:根据各个分类模型对应的分类结果计算各个分类模型的f1分数,所述f1分数作为准确率。

可选的,所述分类模型为三个,其分别选自crf模型、seq2seq模型和boost模型。

可选的,所述分别利用所述至少两个分类模型对所述待分类文档中的各个词条进行分类包括:在所述至少两个分类模型中确定待更新模型;利用所述至少两个分类模型中除所述待更新模型之外的分类模型继续对待分类文档中的词条进行分类,并利用分类完成的各个词条及其最终分类结果对所述待更新模型进行训练。

可选的,所述分别利用所述至少两个分类模型对所述待分类文档中的各个词条进行分类包括:利用训练完成的待更新模型与所述至少两个分类模型中除所述待更新模型之外的分类模型继续对待分类文档中的词条进行分类。

为解决上述技术问题,本发明实施例还公开了一种审计信息抽取方法,审计信息抽取方法包括:获取待抽取审计文件以及待抽取类别,利用所述的词条分类方法对所述待抽取审计文件中的各个词条进行分类;确定最终分类结果为所述待抽取类别的词条,以作为最终抽取信息。

可选的,所述审计信息抽取方法还包括:在所述待抽取审计文件中,将所述最终抽取信息与未分类词条区别显示,其中,所述未分类词条为所述最终抽取信息以外的其他词条;或者,抽取所述最终抽取信息,并按照预设格式进行输出。

本发明实施例还公开了一种词条分类装置,包括:分类模型确定模块,适于确定离线训练完成的至少两个分类模型;待分类文档获取模块,适于获取待分类文档;分类模块,适于分别利用所述至少两个分类模型对所述待分类文档中的各个词条进行分类,每个分类模型得到相应的分类结果,所述分类结果包括多个预设类别以及每个预设类别下的词条;融合模块,适于根据所述至少两个分类模型各自的准确率对全部分类结果进行融合,得到针对所述待分类文档中各个词条的最终分类结果。

本发明实施例还公开了一种审计信息抽取装置,审计信息抽取装置包括:获取模块,适于获取待抽取审计文件以及待抽取类别,利用所述的词条分类方法对所述待抽取审计文件中的各个词条进行分类;抽取信息确定模块,适于确定最终分类结果为所述待抽取类别的词条,以作为最终抽取信息。

本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述词条分类方法的步骤,或者执行所述审计信息抽取方法的步骤。

本发明实施例还公开了一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行权所述词条分类方法的步骤,或者执行所述审计信息抽取方法的步骤。

与现有技术相比,本发明实施例的技术方案具有以下有益效果:

本发明技术方案通过利用至少两个分类模型对所述待分类文档中的各个词条进行分类,能够获得包括多个预设类别下的词条的分类结果,从而实现对各种词条的抽取;通过利用模型的准确率对全部分类结果进行加权融合,可以保证词条分类的准确性。

进一步地,在确定模型的训练集时,利用同义词林对所述部分词条进行语义扩展,以得到所述至少一部分词条的扩展词;将所述部分词条及其扩展词、标注作为所述训练集。本发明技术方案通过结合深度学习和同义词林进行模型的训练以及在线的词条分类,可以在实现词条分类的基础上,减少需要标注的词条的数量,提高模型的训练效率以及在线分类效率。

附图说明

图1是本发明实施例一种词条分类方法的流程图;

图2是图1所示步骤s104的具体实施方式的流程图;

图3是本发明实施例一种审计信息抽取方法的流程图;

图4是本发明实施例一种词条分类装置的结构示意图;

图5是本发明实施例一种审计信息抽取装置的结构示意图。

具体实施方式

如背景技术中所述,现有识别技术只能识别句子中的实体,无法实现对用户自定义词条的识别和抽取。

本发明技术方案通过利用至少两个分类模型对所述待分类文档中的各个词条进行分类,能够获得包括多个预设类别下的词条的分类结果,从而实现对各种词条的抽取;通过利用模型的准确率对全部分类结果进行加权融合,可以保证词条分类的准确性。

为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种词条分类方法的流程图。

所述词条分类方法可以包括以下步骤:

步骤s101:确定离线训练完成的至少两个分类模型;

步骤s102:获取待分类文档;

步骤s103:分别利用所述至少两个分类模型对所述待分类文档中的各个词条进行分类,每个分类模型得到相应的分类结果,所述分类结果包括多个预设类别以及每个预设类别下的词条;

步骤s104:根据所述至少两个分类模型各自的准确率对全部分类结果进行融合,得到针对所述待分类文档中各个词条的最终分类结果。

具体实施中,至少两个分类模型是预先离线训练完成的。至少两个分类模型可以用于对文档中的词条进行分类。

具体地,分类模型可以使用分类算法进行构建,例如adaboost算法、条件随机场(conditionalrandomfield,crf)算法等。本领域技术人员可以理解的是,也可以使用其他任意可实施的分类算法构建分类模型,本发明实施例对此不做限制。

在步骤s102的具体实施中,待分类文档可以是用户上传的数据,也可以是从预设数据库中获取的数据,所述预设数据库中预先存储有待分类文档;或者可以是通过爬虫方式爬取的相关数据。

具体实施中,所述待分类文档可以是合同、法律法规等。具体地,所述待分类文档可以是文本文档,例如,具体格式可以是txt、doc、docx、xls、pdf等。文本文档可以是利用文字识别(opticalcharacterrecognition,ocr)技术获取的,也可以通过扫描转文字方式获取。

在步骤s103的具体实施中,分别利用分类模型对所述待分类文档中的各个词条进行分类。对于待分类文档,每个分类模型可以得到对应的分类结果。其中,分类结果中的预设类别可以是在训练所述分类模型时设置的。进一步地,预设类别可以根据待分类文档所处领域的不同而不同。例如,对于贷款合同,预设类别可以包括贷款人、借款人、担保人、贷款金额、贷款用途、贷款利率、贷款期限等。

具体地,待分类文档中的词条可以是字、词,也可以由字、词等组成的短语或句子。多个预设类别是指相互独立的多个类别,多个预设类别不存在层次关系或包含关系。

更具体地,分类结果可以包括每个词条属于各个预设类别的分数。属于预设类别的分数越高表示词条属于该预设类别的概率越大。

需要说明的是,预设类别可以根据实际的应用场景进行适应性地设置,本发明实施例对此不做限制。

本发明一个优选实施例中,所述分类模型为三个,其分别选自crf模型、seq2seq模型和boost模型。

其中,crf模型是基于统计学的模型。crf模型采用隐含变量的马尔科夫链与可观测状态到隐含变量的条件概率来构建,能够用于基于词或字标注的主题提取。

seq2seq模型使用深度神经网络,或者递归神经网络(recurrentneuralnetwork,rnn)来构建,其输入序列和输出序列可以不等长。

boost模型可以利用boosting算法来构建,具体可以是极端梯度提升(extremegradientboosting)、梯度提升树(gradientboostingdecisontree,gbdt)算法、adaboost算法等。

由于每个分类模型均能够得到待分类文档相应的分类结果,因此为了确定最终的分类结果,可以对全部分类结果进行融合。在融合分类结果时,可以结合分类模型的准确率。也就是说,可以根据至少两个分类模型各自的准确率确定分类模型各自的权重,准确率越高,权重值越大。

本发明一个非限制性的实施例中,步骤s104可以包括以下步骤:根据离线训练时各个分类模型对应的分类结果计算各个分类模型的准确率,并根据所述准确率计算各个分类模型的准确率权重;将各个分类模型对应的分类结果与所述准确率权重进行加权以确定所述最终分类结果。

具体地,在将各个分类模型对应的分类结果与所述准确率权重进行加权时,可以是计算各个分类结果中同一词条属于每个预设类别的分数与准确率权重的加权之和,确定加权之和的最大值对应的预设类别,并将该类别作为所述词条所属的最终预设类别。可以理解的是,也可以计算所述加权之和与各个分类结果中同一词条属于每个预设类别的分数之和的比值,并根据该比值确定最终预设类别。

例如,对于词条1,分类模型1计算其属于预设类别1的分数为85,属于预设类别2的分数为70,分类模型1的准确率权重为0.8;分类模型2计算其属于预设类别1的分数为80,属于预设类别2的分数为60,分类模型1的准确率权重为0.9;分类模型3计算其属于预设类别1的分数为90,属于预设类别2的分数为70,分类模型1的准确率权重为0.95。计算词条1属于预设类别1的加权之和85×0.8+80×0.9+90×0.95=225.5,计算词条1属于预设类别1的加权之和70×0.8+60×0.9+70×0.95=176.5,因此词条1的分类结果为词条1属于预设类别1。或者计算比值(85×0.8+80×0.9+90×0.95)/(85+80+90)=0.884;以及比值(70×0.8+60×0.9+70×0.95)/(70+60+70)=0.882,并确定词条1的分类结果为词条1属于预设类别1。

本实施例中,分类模型的准确率是指分类模型的分类准确率。在计算分类模型的准确率时,可以根据离线训练时各个分类模型对应的分类结果来计算。具体地,训练分类模型的训练集包括词条及其预设类别;可以通过比较分类模型的分类结果中词条的预设类别与训练集中对应词条的预设类别,来计算分类模型的准确率。

进一步地,可以根据各个分类模型对应的分类结果计算各个分类模型的f1分数,所述f1分数作为准确率。

具体地,f1分数(f1score)可以用来衡量分类模型的精确度,f1分数同时兼顾了分类模型的准确率和召回率。f1分数可以看作是模型准确率和召回率的加权平均,其最大值是1,最小值是0。

本领域技术人员应当理解的是,关于计算f1分数的具体公式可以参照现有技术,此处不再赘述。

将各个分类模型对应的分类结果与所述准确率权重进行加权可以是指根据准确率权重对各个分类模型对应的分类结果进行加权投票,以得到最终分类结果。换言之,

具体地,最终分类结果可以包括多个预设类别以及各个预设类别下的词条。

本发明实施例通过利用至少两个分类模型对所述待分类文档中的各个词条进行分类,能够获得包括多个预设类别下的词条的分类结果,从而实现对各种词条的抽取;通过利用模型的准确率对全部分类结果进行加权融合,可以保证词条分类的准确性。

本发明一个非限制性的实施例中,图1所示词条分类方法可以包括以下步骤:在所述待分类文档中,将已分类词条与未分类词条区别显示,其中,所述已分类词条为各个预设类别下的词条,所述未分类词条为所述已分类词条以外的其他词条。

本实施例中,为了便于用户查看最终分类结果中的词条,可以将已分类词条与未分类词条区别显示。具体地,可以是将已分类词条高亮显示,也可以是将已分类词条以与未分类词条不同的颜色进行显示,还可以在已分类词条下增加下划线等任意可实施的方式。

或者,图1所示词条分类方法可以包括以下步骤:抽取所述待分类文档中的已分类词条,并按照预设格式进行输出。

本实施例中,为了便于用户查看最终分类结果中的词条,可以将已分类词条抽取出来,并进行输出。输出已分类词条采用的预设格式可以是表格,表格中包括预设类别以及预设类别下的各个词条。所述预设格式也可以是其他任意可实施的文本格式,本发明实施例对此不做限制。

本发明一个非限制性的实施例中,可以采用以下方式离线训练所述至少两个分类模型:获取训练文档;选取所述训练文档中的至少一部分词条及其标注,词条的标注是指所述词条所属的所述预设分类;至少将所述至少一部分词条及其标注作为训练集;使用所述训练集分别对所述至少两个分类模型进行训练。

本实施例中,训练文档中的至少一部分词条的标注(tag)可以预先设置。具体可以采用人工标注的方式确定词条的标注,以保证训练集中词条所属的预设分类的准确性。或者可以采用自动标注并由人工确认的方式,也即利用相关模型对各个词条标注好之后,人工根据标注的置信度进行确认。

具体地,训练文档可以是用户上传的合同、爬虫爬取的合同、法律法规等。

在具体的应用场景中,训练文档为贷款合同,选取贷款合同中的至少一部分词条及其标注加入训练集。例如,选取词条“个人消费性贷款:供借款人作为代偿信用卡之用,借款人承诺贷款将用于约定用途”,对于上述词条,设置其标注为预设分类“贷款用途”。此外,如果已有预设分类不存在“贷款用途”,则可以新增预设分类“贷款用途”。

进一步地,选取所述训练文档中的部分词条及其标注,每一预设分类下的词条的数量小于100。

本实施例中,可以利用训练集以及训练文档中未具备标注的词条,采用半监督方式对所述至少两个分类模型进行训练。由此,只需对训练文档中的词条进行少量的标注,也即每一预设分类下的词条的数量小于100,就能保证分类模型达到优异的训练效果,同时还能够弥补仅采用具备训练集训练时样本的不足,进一步提升分类模型的性能。

本发明一个具体的实施例中,获取训练文档之后还包括:将具备不同格式的训练文档转换形成具备统一格式的训练文档。

由于训练文档的来源不同,因此训练文档的格式可能不同,需要对不同格式的训练文档进行格式转换。例如将具备不同格式的训练文档均转换为word文档。

将具备统一格式的训练文档用于分类模型的训练有利于提升分类模型训练的效率。

本发明另一个具体的实施例中,选取所述训练文档中至少一部分词条及其标注之后还包括:对具备标注的词条进行分词以及清洗,以删除停用词和预设词。

本实施例中,在对分类模型进行训练之前,需要对训练集中的词条进行一系列的操作,具体包括分词操作和清洗操作,清洗操作能够删除训练集中的停用词和预设词,提高训练集的质量。

进一步地,由于分类模型中仅能计算数字,因此还可以将训练集中的数据进行词向量(wordembedding)化操作,以将训练集中的词条及其标注转换为词向量。

本发明又一个具体的实施例中,利用同义词林对所述部分词条进行语义扩展,以得到所述至少一部分词条的扩展词;将所述部分词条及其扩展词、标注作为所述训练集。

本实施例中,可以利用同义词林对训练集中的词条进行扩展。例如,对于词条“代偿信用卡”,可以扩展为“偿还信用卡”、“偿还贷款”、“赔偿”、“还款”等。词条的扩展词与该词条具备相同的标注。

通过将词条的扩展词也加入所述训练集,以使得扩展词能够参与分类模型的训练过程,进一步保证分类模型的训练效果,从而提升在线分类的准确性。

本发明实施例通过结合深度学习和同义词林进行模型的训练以及在线的词条分类,可以在实现词条分类的基础上,减少需要标注的词条的数量,提高模型的训练效率以及在线分类效率。

本发明另一个优选实施例中,请参照图2,图1所示步骤s104可以包括以下步骤:

步骤s201:在所述至少两个分类模型中确定待更新模型;

步骤s202:利用所述至少两个分类模型中除所述待更新模型之外的分类模型继续对待分类文档中的词条进行分类,并利用分类完成的各个词条及其最终分类结果对所述待更新模型进行训练。

本实施例中,分类模型可以在不影响在线业务的情况下进行模型的更新。

具体地,采用分流的方式对各个分类模型进行更新,也就是说,在对待更新模型进行训练时,可以利用待更新模型之外的分类模型继续对待分类文档中的词条进行分类。待更新模型的更新训练过程可以是离线进行的。

进一步地,待更新模型训练完成后,可以利用训练完成的待更新模型与所述至少两个分类模型中除所述待更新模型之外的分类模型继续对待分类文档中的词条进行分类。

例如,对于三个分类模型:分类模型1、分类模型2和分类模型3。需要对分类模型1进行训练时,分类模型2和分类模型3将继续对待分类文档进行词条分类,分类模型1将利用已有的分类结果进行离线训练。分类模型1更新完成后,分类模型1、分类模型2和分类模型3共同对待分类文档进行词条分类。对分类模型2和分类模型3进行更新的过程以此类推。

请参照图3,本发明实施例还公开了一种审计信息抽取方法,审计信息抽取方法可以包括以下步骤:

步骤s301:获取待抽取审计文件以及待抽取类别,利用图1所述的词条分类方法对所述待抽取审计文件中的各个词条进行分类;

步骤s302:确定最终分类结果为所述待抽取类别的词条,以作为最终抽取信息。

本发明实施例的审计信息抽取方法可以用于审计审核业务领域。

本实施例中,待抽取审计文件可以是财政、财务收支、经营管理活动及其相关数据。待抽取类别可以是预先设置的。

进一步地,审计信息抽取方法还可以包括以下步骤:在所述待抽取审计文件中,将所述最终抽取信息与未分类词条区别显示,其中,所述未分类词条为所述最终抽取信息以外的其他词条;

或者,抽取所述最终抽取信息,并按照预设格式进行输出。

本实施例中,为了便于用户查看最终分类结果中最终抽取信息,可以将最终抽取信息与未分类词条区别显示。具体地,可以是将最终抽取信息高亮显示,也可以是将最终抽取信息以与未分类词条不同的颜色进行显示,还可以在最终抽取信息下增加下划线等任意可实施的方式。

或者,可以将最终抽取信息抽取出来,并进行输出。输出最终抽取信息采用的预设格式可以是表格,表格中包括预设类别以及预设类别下的各个词条。所述预设格式也可以是其他任意可实施的文本格式,本发明实施例对此不做限制。

请参照图4,本发明实施例还公开了一种词条分类装置40。词条分类装置40可以包括:分类模型确定模块401、待分类文档获取模块402、分类模块403和融合模块404。

其中,分类模型确定模块401适于确定离线训练完成的至少两个分类模型;待分类文档获取模块402适于获取待分类文档;分类模块403适于分别利用所述至少两个分类模型对所述待分类文档中的各个词条进行分类,每个分类模型得到相应的分类结果,所述分类结果包括多个预设类别以及每个预设类别下的词条;融合模块404适于根据所述至少两个分类模型各自的准确率对全部分类结果进行融合,得到针对所述待分类文档中各个词条的最终分类结果。

本发明实施例通过利用至少两个分类模型对所述待分类文档中的各个词条进行分类,能够获得包括多个预设类别下的词条的分类结果,从而实现对各种词条的抽取;通过利用模型的准确率对全部分类结果进行加权融合,可以保证词条分类的准确性。

关于所述词条分类装置40的工作原理、工作方式的更多内容,可以参照图1至图3中的相关描述,这里不再赘述。

请参照图5,本发明实施例还公开了一种审计信息抽取装置50。审计信息抽取装置50可以包括获取模块501和抽取信息确定模块502。

其中,获取模块501适于获取待抽取审计文件以及待抽取类别,利用所述词条分类方法对所述待抽取审计文件中的各个词条进行分类;抽取信息确定模块502适于确定最终分类结果为所述待抽取类别的词条,以作为最终抽取信息。

关于所述审计信息抽取装置50的工作原理、工作方式的更多内容,可以参照图1至图3中的相关描述,这里不再赘述。

本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时可以执行图1、图2或图3中所示方法的步骤。所述存储介质可以包括rom、ram、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还公开了一种终端,所述终端可以包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1、图2或图3中所示方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1