一种中文分词方法及系统与流程

文档序号:17740986发布日期:2019-05-24 20:05阅读:142来源:国知局
一种中文分词方法及系统与流程

本发明涉及中文信息处理技术,特别涉及一种中文分词方法及系统。



背景技术:

在基于中文的自然语言处理过程中,由于与英文中词与词之间有固定的自然分界符的不同,对中文进行分词通常是处理中文信息任务的基础;同时由于中文自身的复杂性,中文分词也一直是处理中文信息任务的难题。因此,中文分词是进行词性标注、命名实体识别、关键词提取等后续自然语言处理任务的基础。

在进行中文分词时引入了神经网络,神经网络采用基于长短期记忆条件随机场算法(bilstm+crf)模型对训练集语料库中的语料进行分词处理,将分词视为字级别的序列标注问题,将分词过程转换为每个字在文本序列中标注的过程,采用四词位的标注集(b,m,e,s)来标注语料,以确定中文分词结果,其中b表示开始,m表示中间,e表示结尾,s表示单字。采用bilstm+crf模型的神经网络,在进行中文分词处理时,无需人为地提取语料中蕴含的特征,并能够取得较好的中文分词结果。

尽管采用bilstm+crf模型的神经网络的引入使得中文分词的准确率进一步提升,但对于稀有词的标注准确率却依然不高,特别是对一些具有歧义的词语,如字符串“硕士研究生产”则不能取得很好的中文分词结果。



技术实现要素:

有鉴于此,本发明实施例提供一种中文分词方法,该方法能够提高训练集语料库中的稀有词语料的标注准确率。

本发明实施例还提供一种中文分词系统,该系统能够提高训练语料库中的稀有词语语料的标注准确率。

根据上述目的,本发明是这样实现的:

一种中文分词方法,包括:

a、基于词频统计方式对训练集语料库中的语料进行区分,区分得到正常词和稀有词;

b、采用基于长短期记忆条件随机场算法bilstm+crf模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注;

c、根据得到的语料标注集进行损失函数的计算,所述损失函数包括所述语料的词频损失函数;

d、根据得到的损失函数对所述bilstm+crf模型中的bilstm进行更新后,按照所述步骤b~c的过程继续执行,直到得到的中文分词结果满足设定的预期值。

步骤a所述基于词频统计方式对训练集语料库中的语料进行区分为:

设置词频阈值,当设定语料大于等于所设置的词频阈值时,则将设定语料标注为正常值,给予设置标签0;当设定语料小于所设置的词频阈值时,则将设定语料标注为稀有词,给予设置标签1。

所述采用bilstm+crf模型对训练集语料库中的语料训练还包括:

设置注意力机制,在采用bilstm+crf模型对训练集语料库中的语料训练的同时,采用注意力机制进行处理。

所述采用注意力机制进行处理在bilstm和crf之间进行,

或者在bilstm中的前向lstm计算或/和后向lstm计算中进行。

所述损失函数采用以下公式计算:

其中,w1为正常值的权值,l正为正常词的损失函数,l稀为稀有词的损失函数,λ是正则项系数。

一种中文分词系统,包括:统计词频模块、改进模型模块及损失函数计算模块,其中,

统计词频模块,用于词频统计区分训练集语料库中的正常词和稀有词;

改进模型模块,用于采用bilstm+crf模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注,其中,所述bilstm模型根据计算得到的损失函数进行更新;

损失函数计算模块,用于根据改进模型模块得到的标注集计算损失函数,提供给改进模型模块,所述损失计算函数包括所述语料的词频损失函数。

所述改进模型模块,还用于在采用bilstm+crf模型对训练集语料库中的语料训练,设置了注意力机制。

所述损失函数计算模块,还用于根据改进模型模块得到的标注集计算损失函数为:

其中,w1为权值,l正为正常词的损失函数,l稀为稀有词的损失函数,λ是正则项系数。

由上述方案可以看出,本发明实施例对训练集语料库中的语料区分正常词和稀有词,采用bilstm+crf模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注,所述bilstm模型实时根据计算的损失函数进行更新,所述损失函数在计算时引入所述语料的词频损失函数。由于本发明实施例在调整bilstm+crf模型时充分考虑了所述语料的词频,并在训练得到的标注集中将正常词和稀有词进行区分,所以提高了稀有词语料的标注准确率,从而提高了中文分词的效果。

附图说明

图1为本发明实施例提供的中文分词方法流程图;

图2为本发明实施例提供的采用bilstm+crf模型对训练集语料库中的语料训练的过程示意图;

图3为本发明实施例提供的中文分词系统结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明作进一步详细说明。

在背景技术采用bilstm+crf模型对训练集语料库中的语料进行中文分词标注时,由于正常词语占据语料库中的绝大部分,分词模型学习的都是正常词语料的特征,因此采用bilstm+crf模型对训练集语料库中的稀有词语料的分词效果并不好。

本发明实施例充分考虑了训练集语料库中的稀有词语料,基于词频统计区分训练集语料库中的正常词和稀有词后,采用bilstm+crf模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注。其中,所述bilstm模型能够根据后续计算的损失函数进行更新,所述损失函数在计算时引入所述语料的词频损失函数。

这样,由于本发明实施例在调整bilstm+crf模型时充分考虑了所述语料的词频,并在训练得到的标注集中将正常词和稀有词进行区分,所以提高了稀有词语料的标注准确率,从而提高了中文分词的效果。

进一步地,在采用bilstm+crf模型对训练集语料库中的语料进行训练时,还可以加入注意力(attention-based)机制,更进一步提高中文分词效果。

神经网络中的注意力机制是基于人类视觉中发现的注意机制,最终应用在图像领域。其基本思想是:人们在进行观察图像的时候,其实并不是一次将整幅图像的每个位置像素都看过,大多是根据需求将注意力集中到图像的特定部分,而且人类会人家之前观察的图像学习到未来要观察图像注意力应该集中的位置,在自然语言处理(nlp)过程中音容注意力机制,加强语料前后的关联程度,可以提升词语切分的准确率。

图1为本发明实施例提供的中文分词方法流程图,其具体步骤为:

步骤101、基于词频统计方式对训练集语料库中的语料进行区分,区分得到正常词和稀有词;

步骤102、采用bilstm+crf模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注;

步骤103、根据得到的语料标注集进行损失函数的计算,所述损失函数包括所述语料的词频损失函数;

步骤104,根据得到的损失函数对所述bilstm+crf模型中的bilstm进行更新后,按照所述步骤102~步骤103的过程执行,直到得到的中文分词结果满足设定的预期值。

在该步骤中,所设定的预期值与真实中文分词结果相关,是预先设定好的。

在该方法中,所述步骤102采用bilstm+crf模型对训练集语料库中的语料训练还包括:

设置注意力机制,在采用bilstm+crf模型对训练集语料库中的语料训练之后,采用注意力机制对训练后的所述语料进行处理。

在该方法中,步骤101中的所述词频统计方式中的词频指的是某一设定的语料在训练集语料库中出现的次数,比如设置词频阈值,当设定语料大于等于所设置的词频阈值时,则将设定语料标注为正常值,给予设置标签0;当设定语料小于所设置的词频阈值时,则将设定语料标注为稀有词,给予设置标签1。

上述采用公式表示为:设f(c)表示语料c在训练集语料库中总共出现的次数。设置某一阈值mc,若f(c)≥mc则记为语料c正常词,给予标签0,若f(c)<mc则记为语料c稀有词,给予标签1。

在该方法中,所述采用bilstm+crf模型对训练集语料库中的语料训练的过程如图2所示,图2为本发明实施例提供的采用bilstm+crf模型对训练集语料库中的语料训练的过程示意图。如图所示,该模型结构分为三层,包括:

字向量层:字向量表示是将字嵌入到特定维数的矢量空间中,用以将训练集语料库中的语料转换为计算机可以处理的数字符号,本发明实施例可以采用谷歌公司开发的word2vec工具将预处理的训练集语料库中的所有语料转换为字向量(c1、c2、c3)(c4、c5、c6)…,所述训练集语料库为可以为设定的任何语料集,比如采用《人民日报》语料集等,在所述训练集语料库中包括了经过词频统计后的正常词和稀有词;

lstm层中包括前向lstm和反向lstm,其中,

前向lstm,样本按照字向量正向顺序,即按照(c1、c2、c3)(c4、c5、c6)…的顺序输入lstm模型中,得到一组状态输出

反向lstm,将本按照字向量反向顺序,即按照(c6、c5、c4)(c3、c2、c1)…的顺序输入lstm模型中,得到一组状态输出

得到两组状态输出,将反向lstm的状态输出进行反转,并将两组状态变量拼接起来

crf层,将输出的拼接起来的两组状态进行crf处理,得到所述训练集语料库中的语料标注集合,输出b、m、e、s、0和1这六个标签,其中b表示一个词语的开始的一个字符,m表示词语中间的一个字符,e表示词语最后一个字符,s表示某个字符为单独一个词语,0表示正常值,1表示稀有词。

在步骤102中,也就是在lstm层和crf层之间,还设置了注意力机制,对得到的字变量进行诸如卷积等处理,从而提高得到的字变量之间的关联性。当然,也可以在前向lstm或/和后向lstm过程中,设置注意力机制。

在该方法中,在步骤103中,损失函数是用来评价采用bilstm+crf模型训练后得到的中文分词结果与真实的中文分词结果的不一致程度,计算得到的损失函数值越小,所述bilstm+crf模型的性能越好。本发明实施例对已有的损失函数进行了改进,在损失函数上包括所述语料的词频损失函数,以期望bilstm+crf模型能够学习较多稀有词的特征,提高稀有词的分词准确率。同时为了提高bilstm+crf模型的泛化能力,防止bilstm+crf模型过拟合,在损失函数中还包括正则项。

具体地,所述损失函数为:

ltotal=w1l正+l稀+l2(1-1)

其中ltotal为所述损失函数,w1为正常词的权值,l正为正常词的损失函数,l稀为稀有词的损失函数,l2为正则项。

其中

λ是正则项系数,为权衡正则项l2与wl正+l稀项的比重。w为损失函数中所有的权值,也就是w1的集合值,i=0~n。min表示最小值。

较佳地,所述损失函数表示为:

其中的min的含义为最小值。

图3为本发明实施例提供的中文分词系统结构示意图,包括:统计词频模块、改进模型模块及损失函数计算模块,其中,

统计词频模块,用于词频统计区分训练集语料库中的正常词和稀有词;

改进模型模块,用于采用bilstm+crf模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注,其中,所述bilstm模型根据计算得到的损失函数进行更新;

损失函数计算模块,用于根据改进模型模块得到的标注集计算损失函数,提供给改进模型模块,所述损失计算函数包括所述语料的词频损失函数。

在该结构中,所述改进模型模块,还用于在采用bilstm+crf模型对训练集语料库中的语料训练,设置了注意力机制。

在该结构中,所述损失函数计算模块,还用于根据改进模型模块得到的标注集计算损失函数为:

其中,w1为正常词的权值,l正为正常词的损失函数,l稀为稀有词的损失函数,λ是正则项系数,权衡正则项l2与wl正+l稀项的比重。w为损失函数中所有正常词的权值,也就是w1的集合值,i=0~n。min表示最小值。

以上举较佳实施例,对本发明的目的、技术方案和优点进行了进一步详细说明,所应理解的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1