一种基于异构数据库的耦合词性标注方法_2

文档序号：9249220阅读：来源：国知局

参照。在训练实例中可W有多个不同规范的词性。在此基础上，我们为CTB和PD所有数据建立了禪合词性，实现禪合转化之后，该两词性集处在同一词性标记空间中。
[003引 103;利用所述禪合词性标注集对训练数据进行标注。
[0039]
[0041] 该里只给出了 "发展"多个禪合词性标记，其他词只是列举一个禪合标记
[0042] 104 ;根据已标的所述训练数据对预设的CRF词性标注模型进行训练。
[0043] 不同于传统模型的，我们的禪合的CRF词性标注模型的目标函数表示为：
[0046] 其中，第一项扩展的特征向量为联合特征，第二和第=项为独立特征，基于单个词性集。X表示训练数据中的词语，i表示焦点词的位置，t表示词语词性，a和b表示异构标注数据库，f表示特征向量，0表示特征权重向量。
[0047] 需要说明的是，在转换训练数据时，由于一个词语有多个词性，因而会组成一个禪合标注序列。
[0048] 将禪合标记序列记为V(例如，"发展"的禪合标记序列V为{[NN，V] [NN，Ng] [NN，vn]})。V的概率是在V中所有词性标记序列的概率之和，即
[0049] 假设训练数据D= {(Xi，Vi)}%i，则似然函数为
[0化日]经求导，该似然函数的梯度为：
[0051] 其中，f(X。t)是将Xi标记为t的联合特征向量；[ 1是模型在受限空间 Vi上的特征期望；Et[]是在非受限空间上的模型期望。
[0化2] 根据上述公式可计算出CRF词性标注模型中权利向量0，即完成对CRF词性标注模型的训练。
[0化3] 可选的，为了保证词性标注的准确性，本发明的其他实施例中，在上述得到权重向量0后还需要对该权重向量进行优化处理。如可采用随机梯度下降算法，对所述权重向量进行优化处理。
[0化4] 105 ;采用训练后的CRF词性标注模型对样本数据进行词性标注。
[0化5] 本发明公开了一种基于异构数据库的禪合词性标注方法。该方法根据预设映射规则对异构数据库的词性标注集进行映射处理，建立禪合词性标注集。进而，利用该禪合词性标注集对训练数据进行转换，并采用禪合词性标注集标注的训练数据对CRF词性标注模型进行训练，W使训练后的CRF词性标注模型能够自动挖掘识别异构数据中不同的词性标记间的映射关系。与现有技术相比，本发明通过一次建模过程即可完成异构数据库之间词性标注的识别和转换过程，提高了词性标注的鲁椿性和准确率。
[0化6] 最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示该些实体或操作之间存在任何该种实际的关系或者顺序。而且，术语"包括"、"包含"或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为该种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句"包括一个……"限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0057] 本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。
[005引对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对该些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可W在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的该些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【主权项】
1. 一种基于异构数据库的耦合词性标注方法，其特征在于，包括：获取两种异构标注数据库各自的词性标记集；根据预设映射规则，建立两个词性标记集之间的耦合词性标注集；利用所述耦合词性标注集对训练数据进行转换；根据已转换的所述训练数据对预设的CRF词性标注模型进行训练；采用训练后的CRF词性标注模型对样本数据进行词性标注。2. 根据权利要求1所述的方法，其特征在于，所述根据已转换的所述训练数据对预设的CRF词性标注模型进行训练，包括：获取所述训练数据的特征向量，所述特征向量包括联合特征向量和独立特征向量；根据所述训练数据的特征向量，确定预设的所述CRF词性标注模型的目标函数；其中所述目标函数为：X表示训练数据中的词语，i表示焦点词的位置，t表示词语词性，a和b表示异构标注数据库，f表示特征向量，0表示特征权重向量；按照预设算法对所述目标函数进行处理，计算所述特征向量对应的权重向量，以实现对所述CRF词性标注模型的训练。3. 根据权利要求2所述的方法，其特征在于，所述按照预设算法对所述目标函数进行处理，计算所述特征向量对应的权重向量，包括：f(Xi，t)是将Xi标记为t的联合特征向量；□是模型在受限空间Vi上的特征期望；Et □是在非受限空间上的模型期望。4. 根据权利要求3所述的方法，其特征在于，对已转换的训练数据的似然函数进行求导计算，得到所述特征向量对应的权重向量，之后还包括：利用随机梯度下降算法，对所述权重向量进行优化处理。
【专利摘要】本发明公开了一种基于异构数据库的耦合词性标注方法。该方法根据预设映射规则对异构数据库的词性标注集进行映射处理，建立耦合词性标注集。进而，利用该耦合词性标注集对训练数据进行转换，并采用耦合词性标注集标注的训练数据对CRF词性标注模型进行训练，以使训练后的CRF词性标注模型能够自动挖掘识别异构数据中不同的词性标记间的映射关系。与现有技术相比，本发明通过一次建模过程即可完成异构数据库之间词性标注的识别和转换过程，提高了词性标注的鲁棒性和准确率。
【IPC分类】G06F17/30, G06F17/27
【公开号】CN104965820
【申请号】CN201510422718
【发明人】李正华, 张民, 陈文亮, 巢佳媛
【申请人】苏州大学张家港工业技术研究院
【公开日】2015年10月7日
【申请日】2015年7月17日

完整全部详细技术资料下载

当前第2页1 2