条款的格式化处理方法和处理装置与流程

文档序号:17477920发布日期:2019-04-20 06:14阅读:325来源:国知局
条款的格式化处理方法和处理装置与流程

本申请涉及数据处理技术领域,具体而言,涉及一种条款的格式化处理方法和处理装置。



背景技术:

对于一个保险服务平台而言,如何在后台储存并管理十多万款在售的保险条款使得其易于在前端向用户展示是一个极大的难题。目前主要采取提取属性字段的方法来处理这个问题。如图1所示,一份条款的保险责任(比如意外身故/残疾、意外医疗等等)和生效时间等等属性字段和对应的字段值被提炼出来记录在数据库中,需要的时候再调用,在界面上向用户展示。

理论上,只要能够提取足够多的属性字段,一份条款的主要信息是可以被完整地提炼出来的。

目前,大多数的条款格式化处理方案为人工阅读条款然后手动提取属性字段的方法,来对条款进行格式化的管理和储存。这样做有如下几个缺点:

(1)人工提取的效率太低;

(2)不易于后期的维护及扩展,例如如果我们想添加一个新的属性字段,则之前已经录入库中的所有产品都必须人工复核一遍;

(3)基于以上两点原因,大部分公司无法用数量足够的属性字段来向用户展示产品的完整信息。



技术实现要素:

本申请的主要目的在于提供一种条款的格式化处理方法和处理装置,通过自然语言处理中的文本挖掘技术,快速而准确地将条款中的所有属性字段提取并存储下来,解决了条款作为一种非结构化的数据,格式化效率低的问题。

为了实现上述目的,根据本申请的一个方面,提供了一种条款的格式化处理方法。所述条款的格式化处理方法包括如下步骤:

获取可编辑格式的条款并进行分词;

对所述条款进行分类;

将分类和分词后的所述条款中各个句子和各个词转换成向量,输入对应类别的语言模型,得到所述条款不同属性字段分别对应的字段值。

进一步地,所述获取可编辑格式的条款包括:判断所述条款是否为可编辑格式,如果不是可编辑格式则转换为可编辑格式。

进一步地,所述语言模型是通过如下步骤生成:

对所述条款进行分类,对于分类后的各个类别,获取第一预定数量的可编辑格式的条款;

对各个所述条款进行分词,并将属于同一类别的各个条款中的句子和词转换成向量;

确定要从不同类别的条款中提取的属性字段,对所述第一预定数量的条款分别标注出不同属性字段对应的字段值;

利用属于同一类别的各个所述条款的各个句子和各个词转换成的所述向量训练相应类别的语言模型,获得训练后的各个类别的所述语言模型。

进一步地,在指定类别的条款需要增加属性字段的情况下,所述语言模型的生成方法还包括:

获取指定类别的第二预定数量的可编辑格式的条款;

根据要从所述指定类别的条款中提取的原属性字段和增加的属性字段,对所述第二预定数量的条款分别标注出不同属性字段对应的字段值;

对所述各个条款进行分词,并将所述指定类别的各个条款中的各个句子和各个词转换成向量;

利用所述各个条款中的各个句子和各个词转换成的所述向量训练相应类别的语言模型,获得训练后的指定类别的所述语言模型。

进一步地,所述对条款进行分词包括:

利用参照词典和停用词表对所述可编辑格式的条款进行分词,并去除属于所述停用词表中的词,将条款中余下的词保存到数据库中。

进一步地,所述语言模型为长短期记忆网络lstm模型。

为了实现上述目的,根据本申请的另一方面,提供了一种条款的格式化处理装置。所述条款的格式化处理装置包括:

条款获取单元,用于获取可编辑格式的条款;

分词单元,用于对所述可编辑格式的条款进行分词;

分类单元,用于对条款进行分类;

向量转换单元,用于将分类和分词后的所述条款中各个句子和各个词转换成向量;

字段提取单元,用于将所述条款的各个句子和各个词转换成的向量输入对应类别的语言模型,得到条款不同属性字段分别对应的字段值。

进一步地,所述条款的格式化处理装置还包括:语言模型训练单元,用于利用属于同一类别的预定数量的条款来训练对应类别的语言模型。

进一步地,所述分词单元进一步用于利用参照词典和停用词表对所述可编辑格式的条款进行分词,并将分词结果保存为分词表。

进一步地,条款获取单元包括格式转换模块,用于将不可编辑格式的条款转换为可编辑格式的条款。

本申请提供的条款格式化处理方法和装置的数据处理速度快、产量高,能够批量处理条款,快速实现条款的格式化,后期易于维护数据和扩展属性字段以及进行功能扩展。

本申请针对不同的险种类别,设计了不同的格式化的数据存储结构,再通过自然语言处理中的文本挖掘技术,快速而准确地将条款中的所有属性字段提取并存储下来。一举解决了条款作为一种非结构化的数据,格式化效率低的问题。在后期的扩展应用中,也只需要人工进行少量标注,再重新训练即可得到新字段的特征,使得后期的维护变得十分的方便快捷。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为一个示例提供的从条款提取的属性字段和对应的字段值;

图2为本申请一个实施例提供的条款的格式化处理方法的流程图;

图3为一个示例提供的图2所示的条款的格式化处理方法中语言模型的生成方法的流程图;

图4为一个示例提供的图3所示的语言模型的生成方法在指定类别的条款需要增加属性字段的情况下的流程图;

图5为本申请一个实施例提供的条款的格式化处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。

并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。

此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图2为本申请一个实施例提供的条款的格式化处理方法的流程图。如图2所示,该实施例提供的条款的格式化处理方法包括如下步骤:

步骤s1,获取可编辑格式的条款并进行分词。

步骤s1具体过程可以包括:判断条款是否为可编辑格式,如果不是可编辑格式则转换为可编辑格式。为了进行后续处理,先将条款转换为可编辑格式,比如可以利用python语言中的pdfminer库将pdf格式的条款转换为txt格式。而后,对可编辑格式的条款进行分词,比如可以利用参照词典和停用词表进行分词。在此,以保险条款为例,参照词典的建立可以基于python语言的nlpir和jieba库自带默认的词典,再根据保险行业的特殊性质和专业性质,将保险行业数据结构中的所有专业词汇也导入词典。另外,停用词表包括所有的标点符号、和对语义分析无作用的介词、助词和语气词等等,以提高机器学习的准确性。使用参照词典和停用词表将所有的条款都分割成单词,每份条款生成一个分词表。使用停用词表,将分词表中的停用词全部去除。

步骤s2,对条款进行分类。

在此,仍以保险条款为例对步骤s2进行说明。需要在步骤s2之前分析现有的保险条款分成哪些类别,可以按照保险种类分类比如重疾、医疗、意外、以及人寿,也可以按照不同的保险公司分类,或者两种分类方式均包括。根据事先分好的条款类别,确定当前获取的条款属于其中的哪一类别。

步骤s3,将分类和分词后的条款中各个句子和各个词转换成向量,输入对应类别的语言模型,得到条款不同属性字段分别对应的字段值。

步骤s3的具体过程可以包括:利用gensim库中的doc2vec技术,将所有条款中的句子以及分词表中的字词转化为预定维数的数字向量,比如128维的向量。将得到的条款不同属性字段分别对应的字段值保存到数据库中,从而形成了保险条款格式化数据存储结构。

上述各个步骤的顺序只是一个例子,不起到限定上述各个步骤的执行顺序的作用,本申请的条款格式化处理方法中各个步骤之间的顺序可以交换。例如,步骤s1和步骤s2的顺序可以交换,可以先对条款进行分类,再确定分类后的条款是否为可编辑格式,如果为可编辑格式则进行分词,如果为不可编辑格式则将条款转化为可编辑格式。

将当前能够获取到的所有条款分别输入到对应类别的语言模型中,输出的结果储存到该行业条款的数据结构中。

如图3所示,作为一种可选的实施方式,上述步骤s3中的语言模型的生成方法可以包括如下步骤:

步骤s31,对条款进行分类,对于分类后的各个类别,获取预定数量的可编辑格式的条款。

这里,对条款进行分类,然后每一类别获取第一预定数量的条款来训练相应类别的语言模型。分类的方式与上述步骤s2中的分类方式相同。第一预定数量的条款可以为500份条款,当然也可以是其他数量的条款,根据语言模型训练取得的结果是否符合要求比如模型输出的结果的精确率不低于95%来选择训练语言模型的条款的数量。用来训练语言模型的语料可以从相关的网站上获取。然后,判断条款是否为可编辑格式,如果不是可编辑格式则转换为可编辑格式。为了进行后续处理,先将条款转换为可编辑格式,比如可以利用python语言中的pdfminer库将pdf格式的条款转换为txt格式。

步骤s32,对各个条款进行分词,并将属于同一类别的各个条款中的句子和词转换成向量。

在步骤s32中,对条款进行分词的方式与上述步骤s1中分词的方式相同。

步骤s33,确定要从不同类别的条款中提取的属性字段,对第一预定数量的条款分别标注出不同属性字段对应的字段值。

对于步骤s33,以保险条款为例,可以由业务专家根据从业经验,给出每一类保险(比如重疾、医疗等保险)条款中对于用户有用的信息,将全部可能有用的信息作为数据结构的属性字段汇总成表格存进数据库中。例如,重疾保险这一类别的保险可以提取属性字段“保障的疾病类别”、“生效时间”、“保额”、以及“支付时间”等等。对条款进行标注可以采用人工标注,例如由保险行业专家对预定数量的保险条款进行人工标注,即将条款中属性字段所对应的字段值及其位置标注下来,为后期的机器学习做好准备。

步骤s34,利用属于同一类别的各个条款的各个句子和各个词转换成的向量训练相应类别的语言模型,获得训练后的各个类别的语言模型。

上述各个步骤的顺序只是一个例子,不起到限定上述各个步骤的执行顺序的作用,生成语言模型的方法的各个步骤之间的顺序可以交换。例如,步骤s32和步骤s33的顺序可以交换,可以先确定要从不同类别的条款中提取的属性字段,对第一预定数量的条款分别标注出不同属性字段对应的字段值,然后对各个条款进行分词,并将属于同一类别的各个条款中的句子和词转换成向量。

图4为一个示例提供的图3所示的语言模型的生成方法在指定类别的条款需要增加属性字段的情况下的流程图。在指定类别的条款需要增加属性字段的情况下,语言模型的生成方法还可以包括如下步骤:

步骤s41,获取指定类别的第二预定数量的可编辑格式的条款;

步骤s42,根据要从指定类别的条款中提取的原属性字段和增加的属性字段,对第二预定数量的条款分别标注出不同属性字段对应的字段值;

步骤s43,对各个条款进行分词,并将指定类别的各个条款中的各个句子和各个词转换成向量;

步骤s44,利用各个条款中的各个句子和各个词转换成的向量训练相应类别的语言模型,获得训练后的指定类别的语言模型。

通过上述步骤可见,如果需要新增属性字段,则选取第二预定数量的保险条款重新进行标注,重新进行特征工程和模型训练即可。这里,第二预定数量可以与第一预定数量相同。

上述各个步骤的顺序只是一个例子,不起到限定上述各个步骤的执行顺序的作用,生成语言模型的方法的各个步骤之间的顺序可以交换。例如,步骤s42和步骤s43的顺序可以交换,可以先对各个条款进行分词,并将指定类别的各个条款中的各个句子和各个词转换成向量,然后根据要从指定类别的条款中提取的原属性字段和增加的属性字段,对第二预定数量的条款分别标注出不同属性字段对应的字段值。

其中,语言模型可以为长短期记忆网络(lstm,longshort-termmemory)模型。

该实施例还提供一种条款的格式化处理装置。如图5所示,该实施例提供的条款的格式化处理装置包括条款获取单元51、分词单元52、分类单元53、向量转换单元54、以及字段提取单元55。

其中,条款获取单元51用于获取可编辑格式的条款。

分词单元52用于对可编辑格式的条款进行分词。例如,分词单元52可以利用参照词典和停用词表对可编辑格式的条款进行分词,并将分词结果保存为分词表。在此,以保险条款为例,参照词典的建立可以基于python语言的nlpir和jieba库自带默认的词典,再根据保险行业的特殊性质和专业性质,将保险行业数据结构中的所有专业词汇也导入词典。另外,停用词表包括所有的标点符号、和对语义分析无作用的介词、助词和语气词等等,以提高机器学习的准确性。使用参照词典和停用词表将所有的条款都分割成单词,每份条款生成一个分词表。使用停用词表,将分词表中的停用词全部去除。

分类单元53用于对条款进行分类。以保险条款为例,保险条款可以按照保险种类分类比如重疾、医疗、意外、以及人寿,也可以按照不同的保险公司分类,或者两种分类方式均包括。

向量转换54用于将分类和分词后的条款中各个句子和各个词转换成向量。可以利用gensim库中的doc2vec技术,将所有条款中的句子以及分词表中的字词转化为预定维数的数字向量,比如128维的向量。

字段提取单元55用于将条款的各个句子和各个词转换成的向量输入对应类别的语言模型,得到条款不同属性字段分别对应的字段值。

该实施例提供的条款的格式化处理装置还包括语言模型训练单元56,用于利用属于同一类别的预定数量的条款来训练对应类别的语言模型。用来训练语言模型的语料可以从相关的网站上获取。然后,判断条款是否为可编辑格式,如果不是可编辑格式则转换为可编辑格式。为了进行后续处理,先将条款转换为可编辑格式,比如可以利用python语言中的pdfminer库将pdf格式的条款转换为txt格式。对各个条款进行分词,并将属于同一类别的各个条款中的句子和词转换成向量。确定要从不同类别的条款中提取的属性字段,对第一预定数量的条款分别标注出不同属性字段对应的字段值。以保险条款为例,可以由业务专家根据从业经验,给出每一类保险(比如重疾、医疗等保险)条款中对于用户有用的信息,将全部可能有用的信息作为数据结构的属性字段汇总成表格存进数据库中。例如,重疾保险这一类别的保险可以提取属性字段“保障的疾病类别”、“生效时间”、“保额”、以及“支付时间”等等。对条款进行标注可以采用人工标注,例如由保险行业专家对预定数量的保险条款进行人工标注,即将条款中属性字段所对应的字段值及其位置标注下来,为后期的机器学习做好准备。利用属于同一类别的各个条款的各个句子和各个词转换成的向量训练相应类别的语言模型,获得训练后的各个类别的语言模型。

其中,条款获取单元51包括格式转换模块511,用于将不可编辑格式的条款转换为可编辑格式的条款。将条款转换为可编辑格式,比如可以利用python语言中的pdfminer库将pdf格式的条款转换为txt格式。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1