一种基于异构数据库的耦合词性标注方法

文档序号：9249220阅读：605来源：国知局

一种基于异构数据库的耦合词性标注方法
【技术领域】
[0001] 本发明设及语料标注领域，更具体的说是设及一种基于异构数据库的禪合词性标注方法。
【背景技术】
[0002] 异构数据库的存在对缓解数据稀疏提供了新的契机。例如；宾州中文树库（CTB) 包含了 2万个标注句子，包含词边界、词性和句法结构，被广泛用于中文分词和词性标注研究。人民日报语料（PD)是一个大规模标注了分词和词性的语料。两数据资源构建目的不同，CTB是为句法分析而设计，PD则是用于支持信息提取系统。如何利用该两个资源进行研究，其主要挑战是两数据词性标注集不同，且相互之间不能用启发式规则实现转化。
[0003] 当前，主要基于指导特征的方法实现不同标注数据之间的转化，其基本思想是从一个数据上获取指导特征用于另一个数据。具体为：将第一数据作为源端数据训练一个源端词性标注模型，基于该源端词性标注模型对第二数据的词性进行标注，作为第二数据的指导特征。基于该指导特征，将第二数据作为目标端数据训练一个目标端词性标注模型。在实际应用中，该方法需要两次建立词性标注模型，词性标注的工作效率低。

【发明内容】

[0004] 有鉴于此，本发明提供一种基于异构数据库的禪合词性标注方法，W提高词性标注的工作效率。
[0005] 为实现上述目的，本发明提供如下技术方案：
[0006] 一种基于异构数据库的禪合词性标注方法，包括：
[0007] 获取两种异构标注数据库各自的词性标记集；
[000引根据预设映射规则，建立两个词性标记集之间的禪合词性标注集；
[0009] 利用所述禪合词性标注集对训练数据进行转换；
[0010] 根据已转换的所述训练数据对预设的CRF词性标注模型进行训练；
[0011] 采用训练后的CRF词性标注模型对样本数据进行词性标注。
[0012] 优选的，所述根据已转换的所述训练数据对预设的CRF词性标注模型进行训练，包括：
[0013] 获取所述训练数据的特征向量，所述特征向量包括联合特征向量和独立特征向量；
[0014] 根据所述训练数据的特征向量，确定预设的所述CRF词性标注模型的目标函数；
[0015] 其中所述目标函数为：
[0016]
[0017]
[0018] X表示训练数据中的词语，i表示焦点词的位置，t表示词语词性，a和b表示异构标注数据库，f表示特征向量，0表示特征权重向量；
[0019] 按照预设算法对所述目标函数进行处理，计算所述特征向量对应的权重向量，W 实现对所述CRF词性标注模型的训练。
[0020] 优选的，所述按照预设算法对所述目标函数进行处理，计算所述特征向量对应的权重向量，包括：
[0021] 获取已转换的训练数据的似然函蠻
，其中
，V表示词语X的禪合词性标注集；
[0022] 其中求导方程为：
[002引f(X。t)是将Xi标记为t的联合特征向量；巧巧[1是模型在受限空间Vi上的特征期望；Et[]是在非受限空间上的模型期望。
[0024] 优选的，对转换注的训练数据的似然函数进行求导计算，得到所述特征向量对应的权重向量，之后还包括：
[0025] 利用随机梯度下降算法，对所述权重向量进行优化处理。
[0026] 经由上述的技术方案可知，本发明公开了一种基于异构数据库的禪合词性标注方法。该方法根据预设映射规则对异构数据库的词性标注集进行映射处理，建立禪合词性标注集。进而，利用该禪合词性标注集对训练数据进行转换，并采用禪合词性标注集标注的训练数据对CRF词性标注模型进行训练，W使训练后的CRF词性标注模型能够自动挖掘识别异构数据中不同的词性标记间的映射关系。与现有技术相比，本发明通过一次建模过程即可完成异构数据库之间词性标注的识别和转换过程，提高了词性标注的鲁椿性和准确率。
【附图说明】
[0027] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可W根据提供的附图获得其他的附图。
[002引图1示出了本发明一个实施例公开的一种基于异构数据库的禪合词性标注方法的流程示意图；
[0029] 图2示出了本发明一个实施例公开的禪合词性标注集建立示意图。
【具体实施方式】
[0030] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0031] 参见图1示出了本发明一个实施例公开的一种基于异构数据库的禪合词性标注方法。
[0032] 由图1可知，该方法包括；
[0033] 101;获取两种异构标注数据库各自的词性标记集。
[0034] 102 ;根据预设映射规则，建立两个词性标记集之间的禪合词性标注集。
[0035] 下面W CTB和PD两种异构数据库为列，介绍如何建立禪合词性标注集。
[0036] 我们定义CTB词性集为T。，PD词性集为护，禪合词性集为r"b。完整的笛卡尔积 TaXTb会形成一个大规模的禪合词性集，导致模型变慢。鉴于此问题，我们基于两数据集的标记规范的语言信息构建了一个规模小一点的禪合词性集Ta&b^TaxTb。
[0037] 为了得到合适的Ta&b，我们引入了两词性集之间的映射函数m，一个映射函数m对应一个Ta&b。映射函数越宽松，|Ta&b|的标记集合则越大。W图2中的句子举例。单词"发展 4"在CTB词性集里标注为"順"，假设映射函数m:"順"可W和PD词性集中的S个标记映射，例如，"n"、"Ng"、"vn"。因此，W该词构建禪合词性集可W得到；"[NN，n] "、" [NN，Ng]"、 "[NN，vn]"，用于训练阶段

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李正华;张民;陈文亮;巢佳媛;
技术所有人：苏州大学张家港工业技术研究院;
我是此专利的发明人

上一篇：一种数据标注方法及装置的制造方法
上一篇：一种基于句法词向量的生物医学事件触发词识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。