一种中文分词增量学习方法_2

文档序号:9349930阅读:来源:国知局
[0047] 步骤3. 3 :对语句xj^有的可能出现的切分方式进行切分,并计算相应的score, 选取score最大的切分方式,将对应的标记结果记为标记结果z ;
[0048] 步骤3. 4 :将标记结果z与该语句Xn的人工标注标记结果y n进行对比;
[0049]若不相同,令权重向量Wn+1= Wn+? (xn,yn)_? (xn,z);若相同,Wn+1= Wn;其中, ①(xn, yn)表示语句xn出现标记结果y "对应的特征抽取函数,(x n, z)表示语句xn出现标 记结果z对应的特征抽取函数;
[0050] 步骤3. 5 :针对下一个语句xn+1,重复步骤3. 1-步骤3. 4 ;
[0051] 针对中文语句集合中的N个语句,重复N次步骤3. 1-步骤3. 4的操作;记录每个 语句权重向量Wn,n= (1,2,…,N)。
[0052] 其他步骤和参数与【具体实施方式】一相同。
[0053] 实施例
[0054] 在CTB5. 0和诛仙网络小说数据上进行实验。源领域选取CTB5. 0数据,CTB5. 0数 据划分参照《Enhancing Chinese Word Segmentation Using Unlabeled Data》中的划分 方法,划分为CTB5. 0训练集和CTB5. 0测试集。增量数据选取诛仙小说,记为ZX ;诛仙小 说数据划分参照〈〈Type-supervised domain adaptation for joint segmentation and pos-tagging》划分方法,划分为ZX训练集和ZX测试集。在ZX训练集中随机选取500句 ZX训练数据作为小规模训练集,在ZX训练集中随机选取2400句ZX训练数据作为大规模训 练集。
[0055] 将CTB5. 0训练集中的训练数据进行训练,然后分别用CTB5. 0测试集和ZX测试集 进行测试,测试结果如表1所示,实验结果为F值。其中F值的定义为:
[0056] F 值=2*Precision*Recall/(Precision+Recall)
[0057] Precision =正确分词数目/系统给出的词数目
[0058] Recall =正确分词数目/标准答案中的词数目
[0059] 表1分词模型实验结果
[0060]
[0061] 将CTB5. 0训练集中的训练数据进行训练,在CTB5. 0测试集进行测试,F值为 96. 65%;而在ZX测试集进行测试时,F值降到86. 55%。这说明单独由CTB5. 0数据训练的 模型在诛仙数据集上存在领域适应问题。
[0062] 在CTB5. 0训练集上分别加上500句ZX训练数据(小规模训练集)和2400句ZX 训练数据(大规模训练集)。然后分别进行实验:
[0063] 实验1 :将500句ZX训练数据进行训练;将2400句ZX训练数据进行训练。
[0064] 实验2 :将500句ZX训练数据结合本发明进行训练;将2400句ZX训练数据结合 本发明进行训练。即:用CTB5. 0训练集训练第一阶段模型,分别用小、大规模诛仙训练集训 练第二阶段(本发明的过程),然后得到总的训练模型。
[0065] 实验3 :将500句ZX训练数据融合在CTB5. 0训练集上进行整体训练;将2400句 ZX训练数据融合在CTB5. 0训练集上进行整体训练。
[0066] 训练结果如表2所示,
[0067] 表2训练结果
[0068]
[0069] 从实验1中看出,在单独使用小规模数据的情况下,并不能获得性能令人满意的 模型。
[0070] 通过对实验2和比实验1 (单独用诛仙语料训练)的结果,实验2的增量训练结果 分别提升了 10. 56 %、0. 63 %,提升效果在小规模数据集上更为明显。
[0071] 同时,实验也将增量训练(实验2)与传统混合训练方式(实验3)进行了对比。实 验2的增量训练相对于传统混合训练,在小规模训练集上F值下降0. 39%,在大规模数据集 上提升了 0. 24%,结果表明二者性能相近。
[0072] 增量训练(实验2)与传统混合训练(实验3)的模型大小如表3所示,模型大小 就是最终训练获得的模型所占空间。
[0073] 表3模型大小
[0074]
[0075] 从表3可以看出,实验2的增量训练提出的优化实现方法可以显著减少模型大小。
【主权项】
1. 一种中文分词增量学习方法,其特征在于它包括下述步骤: 步骤1 ;设中文语句集合中有N个语句;对中文语句集合中的语句\进行人工标注标 记,语句Xn人工标注标记结果为yn;将已进行人工标记的语句(xn,y n)记为训练集,η为语 句的序号,η = (1,2, "·,Ν); 步骤2 :对中文语句集合中特征的权重向量W进行初始化,将初始化的权重向量标记为 W1= (WyW2,…,wM);其中W1, W2,…,Wm分别为中文语句集合中各个特征对应的权重;M表示 中文语句集合中所有特征的个数; 步骤3 :针对中文语句集合中的N个语句,计算每个语句权重向量Wn; 步骤4 :重复步骤3,进行T次迭代操作,然后计算权重向量平均值其中,Wmt表示第t次迭代操作中第η个的语句对应的权重向量; 步骤5 :当中文语句集合中引入增量中文语句集合时,单独提取出增量中文语句集合, 按照步骤1至步骤4的操作,求出增量中文语句集合的权重向量平均值%?/?;:其中,带有角标add的参数均表示增量中文语句集合中语句的相应参数; 步骤6 :根据步骤4和步骤5,按照如下公式求得中文分词增量权重参数1得到中文分词增量权重参数職:即完成了中文分词增量的学习。2. 根据权利要求1所述的一种中文分词增量学习方法,其特征在于步骤3所述的针对 中文语句集合中的N个语句计算每个语句权重向量W n的具体步骤如下: 步骤3. 1 :按照中文分词的方式对语句\进行切分,切分过程有多种切分方式,每种切 分方式记作一种标记结果y' η; 针对标记结果^ η,根据特征抽取函数?(xn,y' η),抽取特征向量(fi,f2,…,fM); 朱3S 2,相据加下公式.i+宣语句X被切分为feHP,结里W 时的分数score ;步骤3. 3 :对语句xn所有的切分方式进行切分,并计算相应的score,选取score最大 的切分方式,将对应的标记结果记为标记结果z ; 步骤3. 4 :将标记结果z与该语句Xn的人工标注标记结果y n进行对比; 若不相同,令权重向量Wn+1 = Wn+C> (xn, yJ-Φ (xn, z);若相同,wn+1 = Wn;其中,φ (X n, yn) 表示语句xn出现标记结果y "对应的特征抽取函数,Φ (x n, z)表示语句xn出现标记结果z 对应的特征抽取函数; 步骤3. 5 :针对下一个语句xn+1,重复步骤3. 1-步骤3. 4 ; 针对中文语句集合中的N个语句,重复N次步骤3. 1-步骤3. 4的操作;记录每个语句 权重向量wn,η = (1,2,…,N)。
【专利摘要】一种中文分词增量学习方法,涉及中文分词领域。本发明为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算时间长、对硬件要求高的问题。本发明首先对中文语句集合中的语句xn进行人工标注标记,将已进行人工标记的语句(xn,yn)记为训练集;对中文语句集合中特征的权重向量W进行初始化,针对中文语句集合中的N个语句,计算每个语句权重向量Wn;然后进行T次迭代操作,然后计算权重向量平均值当中文语句集合中引入增量中文语句集合时,计算出增量中文语句集合的权重向量平均值求得中文分词增量权重参数<maths num="0001"></maths>完成中文分词增量的学习。本发明适用中文分词领域。
【IPC分类】G06F17/27
【公开号】CN105068996
【申请号】CN201510604035
【发明人】车万翔, 刘一佳, 刘挺, 赵妍妍
【申请人】哈尔滨工业大学
【公开日】2015年11月18日
【申请日】2015年9月21日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1