一种中文分词增量学习方法

文档序号：9349930阅读：398来源：国知局

一种中文分词增量学习方法
【技术领域】
[0001] 本发明涉及中文分词领域。
【背景技术】
[0002] 词是最小的具有独立意义的语言成分，汉语是以字为基本的书写单位，词与词之间没有明显的区分标记。因此，中文分词是中文信息处理的基础与关键，信息检索、文本挖掘等任务中广泛使用。
[0003] 近年来，基于统计的中文分词方法在新闻领域已经取得了很好的性能。但随着互联网、社交媒体与移动平台的迅猛发展，当前中文分词模型处理的数据不单局限于新闻领域，越来越多的开放领域数据的加入，对中文分词模型提出了新的要求。现有的研究表明在新闻领域训练的中文分词模型切换到诸如论坛、微博、小说等领域时，性能往往严重下降。
[0004] 这种训练与测试领域不一致致使模型性能下降的问题可归纳为领域适应问题。在使用新闻领域训练的分词模型处理开放领域时，新闻领域为源领域，开放领域为目标领域。出现这种问题主要有两点原因，一是不同领域数据文体不一致，例如小说与新闻；二是不同领域间领域词典不一致，如金融领域与新闻领域。《Unsupervised Domain Adaptation for Joint Segmentation and POS-Tagging》在分词词性标注联合模型上通过聚类的方式捕捉原始领域与目标领域的相似性，得以解决文体差异过大问题。《Type-supervised domain adaptation for joint segmentation and pos-tagging》将目标领域词典融入模型，避免了源领域与目标领域词典差异过大。《Domain Adaptation for CRF-based Chinese Word Segmentation using Free Annotations》提出了一种利用自然存在分词边界的网络文本方法，在基于CRF模型的分词系统上提高了领域适应性。
[0005] 上述研究表明，使用目标领域切分数据处理领域适应问题是一种高精度的方法。同时，在源领域切分数据的基础上加入目标领域数据这类混合训练数据的方法可以进一步提高切分中文分词准确率。然而，多方面因素限制了这一类方法的适用性。其一，大规模切分数据往往很难公开共享，使得混合训练数据的方法难以应用于实际场景；其二，为了从混合的数据中学习模型，每次数据混合需要重新训练模型，使得这种方法很难快速获得模型并部署。

【发明内容】

[0006] 本发明为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算时间长、对硬件要求高的问题。进而提出了一种中文分词增量学习方法。
[0007] -种中文分词增量学习方法，包括下述步骤：
[0008] 步骤1 ;设中文语句集合中有N个语句；对中文语句集合中的语句Xn进行人工标注标记，语句Xn人工标注标记结果为y n;将已进行人工标记的语句（xn，yn)记为训练集，n为语句的序号，n= (1,2,…，吣；
[0009] 步骤2 :对中文语句集合中特征的权重向量W进行初始化，将初始化的权重向量标记为W1= (WuWd-^Wm);其中WpW2,…，w M分别为中文语句集合中各个特征对应的权重；M 表示中文语句集合中所有特征的个数；
[0010] 步骤3 :针对中文语句集合中的N个语句，计算每个语句权重向量Wn;
[0011] 步骤4 :重复步骤3,进行T次迭代操作，然后计算权重向量平均值按权重向量 W中元素求平均），
[0013] 其中，Wn't表示第t次迭代操作中第n个的语句对应的权重向量；
[0014] 步骤5:当原来的中文语句集合中引入增量中文语句集合时，单独提取出增量中文语句集合，按照步骤1至步骤4的操作，求出增量中文语句集合的权重向量平均值:
[0016] 其中，带有角标add的参数均表示增量中文语句集合中语句的相应参数；
[0017] 步骤6 :根据步骤4和步骤5,按照如下公式求得中文分词增量权重参数
[0019] 得到中文分词增量权重参数#a即完成了中文分词增量的学习。
[0020] 本发明具有以下有益效果：
[0021] 本发明针通过在已有模型的基础上继续训练，可以在不需要源领域切分数据的情况下，利用少量目标领域标注数据获得与混合模型相近的性能，不用每次都对混合数据模型重新训练，在保证性能的基础上大大节省了运算处理数据的总量，减轻了对内存和处理器等硬件的压力，所以本发明对内存和处理器等硬件的要求不高，而且也大幅度缩短运算处理数据的时间，相比每次数据混合都需要重新训练模型的方法，本发明可以节约50%以上的处理时间，而且新增的目标领域标注数据越大效果越明显。
[0022] 同时本发明针对增量训练提出了一种优化的实现方法，使得训练代价显著降低。并且本发明的分词器能够在https ://xxx开源。
【附图说明】
[0023] 图1为本发明的流程图。
【具体实施方式】
【具体实施方式】 [0024] 一：结合图1说明本实施方式，
[0025] 一种中文分词增量学习方法，包括下述步骤：
[0026] 步骤1 ;设中文语句集合中有N个语句；对中文语句集合中的语句Xn进行人工标注标记，语句Xn人工标注标记结果为y n;将已进行人工标记的语句（xn，yn)记为训练集，n为语句的序号，n= (1,2,*"，N);
[0027] 步骤2 :对中文语句集合中特征的权重向量W进行初始化，将初始化的权重向量标记为W1= (WuWd-^Wm);其中WpW2,…，w M分别为中文语句集合中各个特征对应的权重；M 表示中文语句集合中所有特征的个数；
[0028] 步骤3 :针对中文语句集合中的N个语句，计算每个语句权重向量Wn;
[0029] 步骤4 :重复步骤3,进行T次迭代操作，然后计算权重向量平均值P (按权重向量 W中元素求平均），
[0031] 其中，Wn't表示第t次迭代操作中第n个的语句对应的权重向量；
[0032] 步骤5:当原来的中文语句集合中引入增量中文语句集合时，单独提取出增量中文语句集合，按照步骤1至步骤4的操作，求出增量中文语句集合的权重向量平均值;
[0034] 其中，带有角标add的参数均表示增量中文语句集合中语句的相应参数；
[0035] 步骤6 :根据步骤4和步骤5,按照如下公式求得中文分词增量权重参数A、；
[0037] 得到中文分词增量权重参数:?即完成了中文分词增量的学习。
[0038] 将此学习结果应用于开放的领域数据的分词过程，取得了良好的性能。
[0039] 本发明针通过在已有模型的基础上继续训练，可以在不需要源领域切分数据的情况下，利用少量目标领域标注数据获得与混合模型相近的性能，不用每次都对混合数据模型重新训练，在保证性能的基础上大大节省了运算处理数据的总量，减轻了对内存和处理器等硬件的压力，所以本发明对内存和处理器等硬件的要求不高，而且也大幅度缩短运算处理数据的时间，相比每次数据混合都需要重新训练模型的方法，本发明可以节约50%以上的处理时间，而且新增的目标领域标注数据越大效果越明显。
[0040] 同时本发明针对增量训练提出了一种优化的实现方法，使得训练代价显著降低。并且本发明的分词器能够在https ://xxx开源。
【具体实施方式】 [0041] 二：
[0042] 本实施方式步骤3所述的针对中文语句集合中的N个语句计算每个语句权重向量 Wn的具体步骤如下：
[0043] 步骤3. 1 :按照中文分词的方式对语句\进行切分，切分过程有多种切分方式，每种切分方式记作一种可能出现的标记结果y' n;
[0044] 针对标记结果yn，根据特征抽取函数? (xn, y ' n)，抽取特征向量（A, f2，… ,fM)；
[0045] 步骤3. 2 :根据如下公式，计算语句xn被切分为标记结果y' "时的分数score ;
[0046] score =W1 ? !^+W2 ? f2+."+wM? fM=Wn?C> (xn，y ' n)

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：车万翔;刘一佳;刘挺;赵妍妍;
技术所有人：哈尔滨工业大学;
我是此专利的发明人

上一篇：平行语料的构建方法及装置的制造方法
上一篇：一种基于疑问语义的自然语言语义计算的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。