一种自然语言文本关键词关联网络构建方法

文档序号：6636873阅读：211来源：国知局

一种自然语言文本关键词关联网络构建方法
【专利摘要】本发明提供一种自然语言文本关键词关联网络构建方法，包括步骤：构建关键词的词典，根据所述词典对目标语料库进行分词操作，得到多个词；对得到的多个词基于N元统计语言模型统计前后词关联出现的频度；以统计出的频度为训练条件，采用神经网络训练语言模型，并获得词向量；计算两个词的词向量的相似度，作为两个词语义相关性的度量，生成两个词之间语义关联度；根据所述语义关联度，按照两个词之间的所述语义关联度的高低，生成文本关键词关联网络。该方法，能够有效地提高有关项目中文本关联网络的精确度。
【专利说明】一种自然语言文本关键词关联网络构建方法

【技术领域】
[0001] 本发明属于自然语言处理【技术领域】，更具体地说，特别涉及一种自然语言文本关键词关联网络构建方法。

【背景技术】
[0002] -般情况下，对海量科技项目数据处理或者专家信息数据总结评价，借助计算机处理显得尤为必要，在自然语言处理技术中，由于中文自身的语言特点，中文处理比以拉丁语系为主的西文处理要复杂得多。而使得计算机能够处理自然语言的一个前提是文本量化。文本量化的一个处理手段是提取文本内容中的特征词，即从各类科技文献、科技项目立项和评审等文本材料中抽取出行业或领域关键词，再通过关键词匹配等构建文本之间的关联网络。
[0003] 对于中文处理来说，关键词提取的一个前提是对文本进行分词，在进行分词操作得到词表后，当前最常用的词表示方法是把每个词表示为一个很长的向量，向量的维度是词表大小，其中绝大多数元素为0,只有一个维度的值为1，这个维度就代表了当前的词，即对文本中的每个词赋予了一个数字编码。该方法为稀疏方式存储，非常简洁实用。但是，任意两个词之间都是孤立的，向量无法表示词之间的关系。因此，不同字组成的同义词，例如 "话筒"和"麦克风"，通过这种表示方法无法体现其相同的意义。这就导致了有时关联度很 1?的关键词不会被识别，使得构建的关联网络精度不1?。

【发明内容】

[0004] 本发明要解决的技术问题是提供一种自然语言文本关键词关联网络构建方法，用以解决上述技术问题。
[0005] 为此，本发明提供了一种自然语言文本关键词关联网络构建方法，包括步骤：
[0006] 步骤A，构建关键词的词典，根据所述词典对目标语料库进行分词操作，得到多个词；
[0007] 步骤B，对得到的多个词基于N元统计语言模型统计前后词关联出现的频度；
[0008] 步骤C，以统计出的频度为训练条件，采用神经网络训练语言模型，并获得词向量；
[0009] 步骤D，计算两个词的词向量的相似度，作为两个词语义相关性的度量，生成两个词之间语义关联度；
[0010] 步骤E，根据所述语义关联度，按照两个词之间的所述语义关联度的高低，生成文本关键词关联网络。
[0011] 其中，所述步骤A中构建关键词的词典包括步骤：
[0012] 通过爬虫技术爬取目标语料库中的关键词信息，将得到的多个关键词汇总为词典。
[0013] 其中，所述步骤A中根据所述词典对目标语料库进行分词操作包括：
[0014] 基于字符串匹配进行分词，以及基于语义理解进行分词和/或基于字相邻共现频度统计进行分词。
[0015] 其中，所述步骤C中获得词向量包括获得维度小于等于100的低维实数向量。
[0016] 其中，所述步骤B中对得到的多个词基于N元统计语言模型统计前后词关联出现的频度包括步骤：
[0017] 对切分后的多个词，按照相邻出现的1、2 --? N个词为一个元组，进行元组划分，统计每个词在前N-I个词出现的条件下出现的概率。
[0018] 其中，所述步骤C中采用神经网络训练语言模型包括：
[0019] 采用三层的神经网络训练语言模型，将前N-I个向量首尾相接拼起来，形成一个 (N-l)m维的向量，作为所述神经网络的第一层，m为所述词向量的维度；
[0020] 使用d+Hx计算得到第二层,并使用tanh作为激活函数，d是一个偏置项；
[0021] 第三层输出V个节点yi，后使用SOftmax激活函数将输出值y归一化成概率，yi 表示下一个词为i的未归一化log概率，y的计算公式为：
[0022] y = b+ffx+Utanh (d+Hx)
[0023] 其中U是第二层到第三层的参数，b也为一个偏置项；
[0024] 用随机梯度下降法把所述语言模型优化出来。
[0025] 其中，所述步骤D中计算两个词的词向量的相似度包括计算两个词的词向量的余弦距离。
[0026] 本发明提供了一种自然语言文本关键词关联网络构建方法，对中文自然语言文本进行分词后，基于N元统计语言模型统计前后词关联出现的频度，以统计出的频度为训练条件，采用神经网络训练语言模型，并获得词向量，以两个词向量的相似度，度量两个词之间语义关联度，进而构建关联网络，即将中文的语义信息通过概率统计的方式，结合神经网络进行语言模型的训练，量化为词向量信息，这样构建的关联网络，结合了语义信息，相比单纯的对不同字词进行编码不考虑语义的关联方式，显然本发明提供的关联网络的精度更商。

【专利附图】

【附图说明】
[0027] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0028] 图1为本发明实施例提供的一种自然语言文本关键词关联网络构建方法流程图。

【具体实施方式】
[0029] 为了使本【技术领域】的人员更好地理解本发明，下面结合附图和【具体实施方式】对本发明作进一步的详细说明。
[0030] 本发明实施例提供了一种自然语言文本关键词关联网络构建方法。
[0031] 参见图1所示,该方法包括步骤：
[0032] 步骤S110,构建关键词的词典，根据所述词典对目标语料库进行分词操作，得到多个词。
[0033] 通过爬虫技术爬取目标语料库中的关键词信息，将得到的多个关键词汇总为词典，并依据词典对语料库进行分词操作。
[0034] 分词操作包括基于字符串匹配进行分词，优选地，还应结合基于语义理解进行分词方法和/或基于字相邻共现频度统计进行分词方法，综合进行分词，得到词表。采用单一的分词方式，可能准确度不高，因此，将基于字符串匹配和基于理解以及基于统计这三种方式进行合理搭配和结合运用，可提高分词的准确度。
[0035] 优选地，可利用n阶马尔科夫模型n-gram模型，将待分词文本进行分词，得到第一文本，n-gram模型用于消除分词歧义，第一文本包括以空格为间隔的词串；当第一文本中包括目标词串时，将目标词串添加至词典，得到更新后的词典，目标词串为未存储在所述词典中的词串。根据所述更新后的词典，利用前向最大匹配分词方法以及后向最大匹配分词方法对所述第一文本进行分词，分别得到第二文本和第三文本。从第二本文以及第三文本中选取词长期望和词长方差符合要求的文本作为分词结果。
[0036] 更优地，对已分词的语料进行训练得到CRF模型；采用所述CRF模型对未分词的语料进行分词；判断分词成功的语料是否满足设置的条件，如果是，则加入到所述已分词的语料中；循环执行上述步骤，直至所述已分词的语料的规模不再扩大，得到最终的CRF模型。
[0037] 步骤S111，对得到的多个词基于N元统计语言模型统计前后词关联出现的频度。
[0038] 统计需要对切分后的词串进行元组划分，统计每个词在前N-I个词出现的条件下出现的概率。对切分后的多个词，按照相邻出现的1、2* ? *N个词为一元组，进行元组划分，统计每个词在前N-I个词出现的条件下出现的概率。
[0039] 其中N为自然数，即不为0的实数整数。
[0040] N元统计语言模型的形式化描述：给定一个词串，其为自然语言的概率 P(wl，w2, "^wt)，wl到wt依次表示文本中的各个词，贝U有如下推论：
[0041] P (wl，w2,…，wt) = P (wl) X P (w2 I wl) X P (w3 I wl，w2) X …X P (wt I wl，w2,... ,wt-1)
[0042] 其中P(wl)表示第一个词wl出现的概率，P(w2|wl)是在已知第一个词的前提下，第二个词出现的概率，以次类推。可以看出，词w的出现概率取决于它前面所有词，因常用的自然语言中的词语量都非常大，导致计算P (Wl，《2,…，wt)非常复杂，因此当前的自然语言处理领域都考虑使用N元语言模型，N元模型假定每个词出现的概率只与前面出现的N-I 个词有关系，因此用P(wt|wt-n+l,…，wt-1)近似求解P(wt|wl, w2,…，wt-1)。
[0043] 例如，以3元语言模型为例，假定整个语料库已经被切分成词串wl，w2,…，wn，则可以得到所有连续的1元组（〈wl>, <w2>, <w3>,…，<wn>)、2元组（〈wl, w2>, <w2, w3>,… ，〈wn_l, wn>)和 3 元组（〈wl, w2, w3>, <w2, w3, w4>,…，〈wn_2, wn_l, wn>),进而统计出每个词 wt在前2个词wt-1, wt-2出现的条件下出现的概率。
[0044] 步骤Sl 12,以统计出的频度为训练条件，采用神经网络训练语言模型，并获得词向量。
[0045] 本发明实施例中所使用的词向量是一种形如[0? 792, -0? 177, -0? 107, 0? 109, -0? 5 42,...]的低维实数向量，维度一般不超过100,可以为50或者100这样的整数。这种词向量可通过衡量彼此之间的距离得到语义相似度，同时高维词表的表示复杂度极大的降低。
[0046] 本发明中的词向量通过利用前馈或递归神经网络训练语言模型得到，以C(W)表示词w所对应的词向量，神经网络的输入是前N-I个词wt-n+1,…，wt-1个词对应的词向量，输出是一个向量，向量中的第i个元素表示下一个词是wi的概率，进而利用语料库获得的N元组计算出的统计概率作为训练条件，进而不断调整神经网络各层权重，优化结束后获得了语言模型和词向量。
[0047] 作为一种可实施方式，本发明实施例使用一个三层的神经网络来构建语言模型。
[0048] wt-n+1,…，wt-1是前N-I个词，需要根据这已知的N-I个词预测下一个词wt。 C(W)表示词w所对应的词向量，整个模型中使用的是一套唯一的词向量，存在矩阵C (一个 V| Xm的矩阵）中。其中I V|表示词表的大小（语料中的总词数），m表示词向量的维度。 C到C(W)的转化就是从矩阵中取出一行。
[0049] 网络的第一层（输入层）是将C(wt_n+1)，…，C(wt-2)，C(wt_l)这N-I个向量首尾相接拼起来，形成一个（N-l)m维的向量。
[0050] 网络的第二层（隐藏层）如同普通的神经网络，直接使用d+Hx计算得到。d是一个偏置项。在此之后，使用tanh作为激活函数。
[0051] 网络的第三层（输出层）一共有|V|个节点，每个节点yi表示下一个词为i的未归一化log概率。最后使用SOftmax激活函数将输出值y归一化成概率。最终，y的计算公式为：
[0052] y = b+ffx+Utanh (d+Hx)
[0053] 式子中的U(-个|V| Xh的矩阵）是隐藏层到输出层的参数，整个模型的多数计算集中在U和隐藏层的矩阵乘法中。最后用随机梯度下降法把这个模型优化出来。一般神经网络的输入层只是一个输入值，而本模型的输入层也是参数（存在C中），也需要优化的。优化结束后同时产生了词向量和语言模型。
[0054] 更优地，采用如下神经网络算法表示语言模型：

【权利要求】
1. 一种自然语言文本关键词关联网络构建方法，其特征在于，包括步骤：步骤A，构建关键词的词典，根据所述词典对目标语料库进行分词操作，得到多个词；步骤B，对得到的多个词基于N元统计语言模型统计前后词关联出现的频度；步骤C，以统计出的频度为训练条件，采用神经网络训练语言模型，并获得词向量；步骤D，计算两个词的词向量的相似度，作为两个词语义相关性的度量，生成两个词之间语义关联度；步骤E，根据所述语义关联度，按照两个词之间的所述语义关联度的高低，生成文本关键词关联网络。
2. 根据权利要求1所述的自然语言文本关键词关联网络构建方法，其特征在于，所述步骤A中构建关键词的词典包括步骤：通过爬虫技术爬取目标语料库中的关键词信息，将得到的多个关键词汇总为词典。
3. 根据权利要求2所述的自然语言文本关键词关联网络构建方法，其特征在于，所述步骤A中根据所述词典对目标语料库进行分词操作包括：基于字符串匹配进行分词，以及基于语义理解进行分词和/或基于字相邻共现频度统计进行分词。
4. 根据权利要求1所述的自然语言文本关键词关联网络构建方法，其特征在于，所述步骤C中获得词向量包括获得维度小于等于100的低维实数向量。
5. 根据权利要求1所述的自然语言文本关键词关联网络构建方法，其特征在于，所述步骤B中对得到的多个词基于N元统计语言模型统计前后词关联出现的频度包括步骤：对切分后的多个词，按照相邻出现的1、2* ? *N个词为一个元组，进行元组划分，统计每个词在前N-1个词出现的条件下出现的概率。
6. 根据权利要求1所述的自然语言文本关键词关联网络构建方法，其特征在于，所述步骤C中采用神经网络训练语言模型包括：采用三层的神经网络训练语言模型，将前N-1个向量首尾相接拼起来，形成一个（N-1) m维的向量，作为所述神经网络的第一层，m为所述词向量的维度；使用d+Hx计算得到第二层，并使用tanh作为激活函数，d是一个偏置项；第三层输出V个节点后使用softmax激活函数将输出值y归一化成概率，yi表示下一个词为i的未归一化log概率，y的计算公式为： y = b+ffx+Utanh (d+Hx) 其中U是第二层到第三层的参数，b也为一个偏置项；用随机梯度下降法把所述语言模型优化出来。
7. 根据权利要求1所述的自然语言文本关键词关联网络构建方法，其特征在于，所述步骤D中计算两个词的词向量的相似度包括计算两个词的词向量的余弦距离。
【文档编号】G06F17/30GK104391963SQ201410719639
【公开日】2015年3月4日申请日期:2014年12月1日优先权日:2014年12月1日
【发明者】郭光
申请人:北京中科创益科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭光;
技术所有人：北京中科创益科技有限公司;
我是此专利的发明人

上一篇：自然语言文本关键词关联网络构建系统的制作方法
上一篇：浏览器功能的实现方法和装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。