一种基于领域适应性的网络文本的分词方法与流程

文档序号：12034726阅读：162来源：国知局

本发明属于自然语言处理领域，涉及社交网络文本分词，尤其涉及一种基于领域适应性的社交网络文本的分词方法。

背景技术：

对于传统的新闻领域上的分词任务，基于统计的方法最开始取得不错的效果，主要包括条件随机场和感知器模型。然而，这些模型需要抽取大量的特征，所以泛化能力受到了限制。

近年来，越来越多地采用基于神经网络的方法进行自动化抽取特征的工作，其中出现了比较多的分词模型，主要包括卷积神经网络(convolutionalneuralnetwork,cnn)、长短时记忆神经网络(longshorttermmemorynetwork,lstm)等。虽然这些基于神经网络的方法非常有效，但是，训练这些模型并且得到一个比较好的效果需要大量的标注数据。而由于社交网络中的标注数据很有限，使得采用基于神经网络的方法进行分词无法取得较好的效果。

技术实现要素：

为了克服上述现有技术的不足，本发明提供一种基于领域适应性的社交网络文本的分词方法，通过建立集成式神经网络和采用自训练的学习方法，利用新闻领域语料，社交网络中少量的标注数据和大量的无标注数据进行集成式神经网络模型的训练，由此提升社交网络分词的效果，用于解决社交网络中因为数据过少导致的效果差的问题。

本发明的原理是：为了弥补社交网络分词的数据不足的问题，本发明利用了跨领域的标注数据和大量的无标注数据来提升社交网络分词的效果。本发明包括建立集成式神经网络和自训练学习过程。首先，为了利用跨领域的标注数据，我们提出了集成式神经网络。其次为了适应社交网络灵活的分词特点，我们提出了一种自训练的学习方法。这种方法利用了社交网络中大量的无标注数据。在使用跨领域的数据中，数据偏移是影响跨领域学习的主要障碍。首先，当源语料和目标语料数据分布不一致时，直接使用源语料训练得到的分类器反而会导致效果的进一步下降。其次，源语料和目标语料的标注标准存在部分差异，直接使用源语料会导致分类器对目标语料的标注标准适应性较差。最后，因为有很多源语料，如何有效地结合在不同源语料上学习得到的分类器也是一个比较大的问题。为了解决数据偏移的问题。我们首先在不同的源语料上预训练了不同的源分类器，其次，采用新的集成式神经网络，通过对分类器赋予权重的方式进行源分类器的集成和选择。在使用目标语料的训练过程中，可使用层次式(layer-wise)的训练方式：先训练源分类器，再训练集成式神经网络。

因为社交网络的语言用法灵活并且源语料又主要是新闻数据，用法比较规范，使得跨领域的学习不能很好地使用比如新词语的情况。而社交网络中有大量的无标注信息，这些无标注数据和目标语料标注数据有着相似的数据分布，并且可以用来进行新词语的挖掘。因此，本发明提出了自训练的方式，利用无标注的数据解决此问题。首先，利用集成式神经网络对未标注的数据赋予了一个预测标签，并提出了置信度函数对预测标签进行置信度的评测。最后，将未标注的数据，预测标签以及置信度一起加入到训练过程中。

本发明提供的技术方案是：

一种基于领域适应性的社交网络文本的分词方法，通过建立集成式神经网络和采用自训练的学习方法，利用新闻领域语料，社交网络中少量的标注数据和大量的无标注数据进行集成式神经网络模型的训练，由此提升社交网络分词的效果；包括模型训练和模型预测两个部分；其中模型的训练过程包括如下步骤：

11)将社交网络文本分为标注数据集合tl和未标注数据集合tu，作为输入；从输入集合中选择某个样例x＝x1x2,…,xi,…,xn；其中，xi为社交网络文本样例x中的一个字；

以句子“他所在的跳伞队解散无奈告别飞行”为例，模型的输入样例为“x1＝他,x2＝所,x3＝在,…,xn＝行”。

12)在不同的新闻源语料上预训练不同的源分类器；

除了社交网络文本语料之外，还有大量的新闻领域语料。我们将这些资源丰富的新闻领域语料作为源语料来帮助社交网络文本语料的训练。我们在不同的新闻源语料上预训练不同的源分类器，来解决跨领域学习中数据偏移的问题；本发明中，源分类器可采用cnn、lstm等；

13)通过对源分类器赋予权重的方式进行源分类器的集成和选择，建立集成式神经网络；

建立集成式神经网络包括如下过程：

131)首先通过式1计算得到权重：

ei,j＝f(w1[w2*hi,hi,j])(式1)

对样例x中的第i个字xi来说，源分类器的输出结果(m个源分类器的隐层输出结果)hi为hi,1,…,hi,2,…,hi.m，即hi＝{hi,1,…,hi,j,…,hi.m}；w1,w2为参数矩阵(权重矩阵)；ei,j是第i个字、第j个源分类器隐层输出结果的权重。

将m个源分类器的隐层输出结果hi,1,…,hi,j,…,hi.m作为集成式神经网络的输入，集成式神经网络的输出为预测标签yi；

132)对m个源分类器计算权重，并对权重进行归一化操作，得到归一化权重αi,j：

其中，αi,j为式2的结果输出，也就是第i个字、第j个源分类器隐层输出结果的权重。ei,j为式1的输出结果，分母为m个所有的源分类器ei,p的权重的相加。

133)根据源分类器的输出和权重计算结果，得到加权之后的输出权重si：

其中，αi,j为式2的结果输出，也就是第i个字、第j个源分类器隐层输出结果的权重。hi,j为第i个字、第j个源分类器隐层输出结果。此公式含义为对所有隐层的输出结果加权累加。

其中，si为第i个字的隐层输出；

134)算法的预测结果为y1,y2,…,yi,…,yn。如果采用0/1分布标签，其中1代表切分句子，0代表不切分句子的话，模型的输出样例表示为：y1＝1,y2＝0,…,yn＝1。

通过式4计算得到预测结果：

yi＝softmax(g(si))(式4)

si为式3的输出，g为激活函数(可采用sigmoid或者tanh作为激活函数)，softmax为归一化函数，以上步骤叙述了如何搭建集成式神经网络，接下来说明如何使用社交网络语料进行训练。

14)使用社交网络语料进行训练：

社交网络语料是分词好的社交网络文本和未分词的社交网络文本，包括标注数据和无标注的数据；

对于标注样例x，对于第i个字xi，直接使用人为标注的分词结果(标注数据)yi求交叉熵损失函数l(θ)，如式5：

其中yi为xi的人工标注标签，p为给定xi和θ标注标签yi的概率。m为样例x包括的字个数，θ为所有的模型参数。

对于无标注的数据，通过自训练的方式进行训练，自训练包括如下步骤：

141)首先利用集成式神经网络对未标注的数据赋予了一个预测标签；

集成式神经网络的输入是m个源分类器的隐层输出结果hi,1,…,hi,j,…,hi.m，集成式神经网络的输出为预测结果yi；

142)对预测标签进行置信度的评测；

主要思想为对每个样例赋予不同置信度。我们采用得分最高的两个标签ymax(xi,j),y2nd(xi,j)作为计算的输入，通过式6计算得到样例置信度：

其中wi为样例x的权重，zt为正则化项，对于字xi,j来说，ymax(xi,j)是预测概率最大的标签,y2nd(xi,j)为预测概率次大的标签，m为样例x包括的字的个数；。

143)将未标注的数据、预测标签以及置信度一起加入到训练过程中。

本发明具体实施中，采用了层次式(layer-wise)的训练方式：在社交网络文本数据上，先训练分类器，再训练集成式神经网络。

经过上述模型具体搭建和训练，获得训练好之后的模型。利用训练好的模型对新的社交网络文本进行分词，模型的分词过程包括如下步骤：

21)输入待分词的社交文本。同样以句子“他所在的跳伞队解散无奈告别飞行”为例，模型的输入样例为“x1＝他,x2＝所,x3＝在,…,xn＝行”。

22)计算式1～3，得到模型的隐层输出s，将s输入公式4得到最终的预测结果y＝{“y1＝1,y2＝0,y3＝0,…,yn＝1”}。以二分类举例，1代表分词，0代表代表不分词。

与现有技术相比，本发明的有益效果是：

本发明提供一种跨领域的社交网络文本分词方法，通过建立集成式神经网络和采用自训练的学习方法，利用跨领域的新闻语料，社交网络中少量的标注数据和大量的无标注数据进行集成式神经网络模型的训练，用于解决社交网络中因为数据过少导致的效果差的问题。本发明有效地提升了社交网络文本分词的效果。

附图说明

图1是本发明提供的社交网络文本分词方法的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种跨领域的社交网络文本分词方法，通过建立集成式神经网络和采用自训练的学习方法，利用跨领域的标注数据和社交网络中大量的无标注数据进行集成式神经网络模型的训练，由此提升社交网络分词的效果；图1是本发明提供的社交网络文本分词方法的流程框图。具体过程如下：

1)算法的输入t＝{tl,tu}包括两部分，其中tl为标注数据集合，(比如标注样例：他/所在的/跳伞队/解散/无奈/告别/飞行，/为人工标注的词语分隔符)，tu为未标注数据集合(比如样例：推荐服用黑糖姜茶，此为未进行人工标注的训练样例)。首先从输入中选择某个样例x＝x1x2,…,xn。以句子“他所在的跳伞队解散无奈告别飞行”为例，模型的输入样例为“x1＝他,x2＝所,x3＝在,…,xn＝行”。

2)在不同的源语料s1,s2,…,sm上预训练了不同的源分类器，为了增加模型的泛化能力，我们并未限定使用具体某一种分类器，比如cnn，lstm。预训练的作用是为了防止在跨领域的过程中出现的数据偏移现象。

3)对样例x中的xi来说，源分类器的输出结果为hi,1,…,hi,2,…,hi.m。通过对源分类器赋予权重的方式进行源分类器的集成和选择，建立集成式神经网络。集成式神经网络的输入为m个源分类器的隐层输出结果hi,1,…,hi,j,…,hi.m，输出为预测标签yi′。具体计算过程为：

31)首先通过式1计算得到权重：

ei,j＝f(w1[w2*hi,hi,j])(式1)

其中，hi＝{hi,1,…,hi,j,…,hi.m}；w1,w2为模型参数矩阵；ei,j是第i个字、第j个源分类器隐层输出结果的权重。

32)对权重进行归一化操作，得到归一化权重αi,j：

33)根据源分类器的输出和权重计算结果，得到加权之后的输出权重si：

其中，si为第i个字的隐层输出；αi,j为式2的结果输出也就是第i个字，第j个源分类器隐层输出结果的权重。hi,j为第i个字，第j个源分类器隐层输出结果。m为源分类器的个数。si是不同源分类器的累积和。

34)集成式神经网络输出的预测标签结果为y1,y2,…,yi,…,yn。如果采用0/1分布标签，其中1代表切分句子，0代表不切分句子的话，模型的输出样例表示为：y1＝1,y2＝0,…,yn＝1。

计算方式是：

yi′＝softmax(g(si))(式4)

4)对于标注数据，直接使用算法的预测结果和标注结果做交叉熵即可，对于未标注数据来说，因为没有标注数据，所以在此通过自训练的方式进行训练，具体包括如下步骤：

41)首先利用集成式神经网络对未标注的数据赋予了一个预测标签。具体过程见步骤1)～3)。

42)对预测标签进行置信度的评测。预测结果采用得分最高的两个标签ymax(xi,j),y2nd(xi,j)作为函数的输入，通过式6～式7计算得到置信度：

其中，wi为第i个样本的置信度，m为第i个样例的长度，n为总的样例个数。zt是第t轮训练的正则化项，等于所有样例置信度的相加之和。

43)最后，将未标注的数据、预测标签以及置信度一起加入到目标函数中进行训练。目标函数表示为式8：

其中，n为mini-batch的大小，为第t轮训练的公式5中的wi，m为样例xi的长度，xi,j第i个样例第j个字，yi,j为第i个句子第j个字的标注标签，θ为模型参数。

本发明具体实施中采用了层次式的训练方式：先在社交网络文本数据上训练源分类器，再训练集成式神经网络。

经过上述模型搭建和模型训练，获得训练好之后的模型。利用训练好的模型对新的社交网络文本进行分词，模型的分词过程包括如下步骤：

21)输入待分词的社交文本。同样以句子“他所在的跳伞队解散无奈告别飞行”为例，模型的输入样例为“x1＝他,x2＝所,x3＝在,…,xn＝行”。

22)计算式1～3，得到模型的隐层输出s，将s输入公式4得到最终的预测结果y＝{“y1＝1,y2＝0,y3＝0,…,yn＝1”}。以二分类举例，1代表分词，0代表代表不分词。也就是说，最终的分词的预测结果示例为“他/所在的/跳伞队/解散/无奈/告别/飞行”，其中“/”表示分词标记。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙栩;许晶晶;马树铭
技术所有人：北京大学
我是此专利的发明人

上一篇：有效筛分资源的爬虫系统的制作方法与工艺
上一篇：一种基于语义相关度模型的中文文本摘要获取方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。