一种增强的词性标注方法与流程

文档序号:14011454阅读:1545来源:国知局

本发明涉及文本信息处理领域,尤其涉及一种增强的词性标注方法。



背景技术:

目前,词性标注是自然语言处理中的基础性环节,词性标注的好坏直接影响着基于标注进行的深层次研究的效果,诸如句法分析、信息检索、机器翻译等;因此,对词性标注的研究显得尤为重要。同一个词,在不同的领域应用中,可能会有不同的词性标注。例如“播放/v做/v宫保鸡丁/ndish的/ude视频/n”和“播放/v陶喆/nr的/ude宫保鸡丁/nsong”,这两个短句同时含有“播放”、“宫保鸡丁”两个词,然而,我们的领域应用希望能区分开,“宫保鸡丁”这个词在第一句中是菜名(ndish),而在第二句中是歌名(nsong)。用传统的词性标注方法解决以上问题,会由于训练语料的数量差异引起标注偏置问题,即对在多个领域中都会出现的词,会有较大概率全标注为出现次数最多的那个领域的标签。



技术实现要素:

为解决现有技术的不足,本发明提供一种增强的词性标注方法,本发明的技术方案如下:

一种增强的词性标注方法,包括领域分类步骤,所述领域分类步骤用于进行语句的领域分类,还包括如下步骤:

词性标注步骤:根据领域分类步骤的结果,通过调用相应领域的词性标注模型对语句中的词进行标注。

进一步地,在领域分类步骤前还包括如下步骤:

输入步骤:输入进行词性标注的语句;

分词步骤:对输入的语句进行分词;

词向量表示步骤:获得进行语句分类的特征向量。

进一步地,领域分类步骤采用卷积神经网络实现。

一种增强的词性标注系统,包括领域分类模块,所述领域分类模块用于进行语句的领域分类,还包括如下模块:

词性标注模块,根据领域分类模块的结果,所述词性标注模块通过调用相应领域的词性标注模型对该语句中的词进行标注。

进一步地,在领域分类模块前还包括如下模块:

输入模块,所述输入模块用于输入进行词性标注的语句;

分词模块,所述分词模块用于对输入的语句进行分词;

词向量表示模块,所述词向量表示模块用于获得进行语句分类的特征向量。

进一步地,所述领域分类模块的实现方法为卷积神经网络。

进一步地,所述词向量表示模块包括预先收集的语料,通过word2vec处理获得词向量的查找表,分词模块中得到的词汇通过查表的方式获得其词向量表示;对于不存在于查找表中的词汇,该词汇替换为“unk”,所述“unk”的词向量随机生成一个向量,该词汇通过日志进行记录,作为后续扩充训练语料的指导。

进一步地,所述词性标注模块的规范依据是北京大学的《现代汉语文本切分与词性标注规范》。

相比于现有技术,本发明的有益效果是:本发明将文本分类引入词性标注模块,根据文本分类结果调用相应的词性标注模型,解决了同一个词在不同领域中被误标的问题,大大提高了标注的整体准确度。

附图说明

图1为本发明的领域词性标注流程图;

具体实施方式

下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

如图1所示,一种增强的词性标注方法,包括如下步骤:

输入步骤:输入需要进行词性标注的语句;

分词步骤:对输入步骤输入的语句进行分词;

词向量表示步骤:获得进行语句分类的特征向量;

领域分类步骤:进行语句的领域分类;

词性标注步骤:根据领域分类步骤的分类结果,调用相应领域的词性标注模型对该语句中的词进行标注。

其中,在分词步骤的训练语料中加入了领域性的词汇,保证了菜名、歌名等词不会被拆成若干分离的词语。

在词向量表示步骤中,本方案使用的是预先训练好的词向量,通过搜集大量的通用以及产品应用相关领域的词汇,通过word2vec方法可以获得词向量的查找表。分词模块得到的词汇,可以通过查表的方式获得其词向量表示。对于不在词向量表中的词汇,该词会被替换为“unk”(未知的),“unk”的词向量为一个随机生成的向量。同时,该词会被以日志的方式记录下来,用以指导后续训练语料的扩充。

其中,word2vec是google提出的一种获得词向量的模型,训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。训练得到的模型即是一个表,表的每一行为“词对应向量”格式,以词(一般会转为散列值)为表的索引,通过此可以查到其对应的词向量。预先训练好的词向量指使用预先收集的大量语料,如几十甚至几百billion级别的信息数据来训练word2vec模型,用以获得词向量。一般来讲,大量训练语料获得的词向量更能清晰表示词与词之间的关系。

上述建立了词性与词性的特征向量之间的关系,为卷积神经网络进行领域分类建立基础。

进一步而言,领域分类步骤使用卷积神经网络实现。对于分词步骤和词向量表示步骤所得到的词向量,将词向量作为卷积神经网络输入,首先通过卷积层对采样的特征向量作卷积处理,然后将卷积层采集的向量输入输入池化层进行降维处理,通过池化层后每个句子或与语篇会得到一个向量,在池化层的基础上,该向量输入到softmax层,用softmax层进行实体关系的分类,得到分类结果。

具体而言,首先,进行分类的语句会被设定为统一长度,根据对产品中query语句的统计,以及参考人类问句习惯的统计数据,我们设定了语句的长度为9,即不足9个词得语句会被用特殊符号,如“##”,补足为9个词,而超过9个词的句子会被截断为9个词,根据统计结果显示,该产品的应用中未发现超过9个词的句子。用于补充句子的特殊符号也会有一个随机生成的词向量表示。根据产品的应用,领域分类的类别为“cooking”、“music”、“video”和“others”。进一步而言,我们根据需要可将词语长度设为预设的长度。

利用搜集的各领域数据预先训练好了该领域的词性标注模型,词性标注步骤的规范依据北京大学的《现代汉语文本切分与词性标注规范》,并根据产品的应用增加了诸如表示菜系的“ncuisine”(亦简写为“nc”)、表示歌手的“nsinger”(亦简写为“nrs”)等标记。在词性标注步骤中,会根据卷积神经网络分类结果,调用相应领域的词性标注模型对该语句中的词进行标注。需要说明的是,“others”类采用的是通用语料训练的词性标注模型。

相应的,本实施例还提出了一种增强的词性标注系统,其包括以下模块:

输入模块:用于输入需要进行词性标注的语句;

分词模块:对输入步骤输入的语句进行分词;

词向量表示模块:获得进行语句分类的特征向量;

领域分类模块:进行语句的领域分类;

词性标注模块:根据领域分类步骤的分类结果,调用相应领域的词性标注模型对该语句中的词进行标注。

其中,在分词模块的训练语料中加入了领域性的词汇,保证了菜名、歌名等词不会被拆成若干分离的词语;

进一步而言,领域分类模块使用卷积神经网络实现;领域分类的类别为“cooking”、“music”、“video”和“others”。

词性标注模块的规范依据是北京大学的《现代汉语文本切分与词性标注规范》。

本实施例以“播放做宫保鸡丁的视频”为例,来说明实现词性标注的过程。输入“播放做宫保鸡丁的视频”,通过分词模块,将其分词为“播放做宫保鸡丁的视频”,通过word2vec处理,获得每个词的词向量,将词向量输入卷积神经网络,由卷积神经网络进行处理,在正式分类之前,需要对卷积神经网络的卷积层、池化层和softmax层进行训练,训练的过程类似于识别过程,经过识别过程,输出“播放做宫保鸡丁的视频”的各个词的领域分类结果,比如宫保鸡丁的领域分类为“cooking”,然后根据卷积神经网络的领域分类结果,调用相应领域的词性标注模型该语句中的每个词进行标注,得到“播放/v做/v宫保鸡丁/ndish的/ude视频/n”;而对于“播放陶喆的宫保鸡丁”,在分词模块处理后,通过word2vec处理,经过卷积神经网络的领域分类,将宫保鸡丁分类为领域“music”,然后调用相应领域的词性标注模型对其进行标注得到“播放/v陶喆/nr的/ude宫保鸡丁/nsong”,从而对不同领域的“宫保鸡丁”作了准确的词性标注。

上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1