一种快速序列标注方法

文档序号:6381646阅读:1319来源:国知局
专利名称:一种快速序列标注方法
技术领域
本发明提供一种序列标注方法,属于语言信息处理领域。本方法可以用于语言信息处理的不同层次,包括汉语分词、词性标注和命名实体识别等。
背景技术
序列标注模型广泛应用于信息检索和自然语言处理的各个方面。在中文信息处理领域,分词是语言信息处理的基础。中文的字符之间没有分隔符隔开,而字并不总能表达基本意义,只有切分出词才能确定最基本的意义单位。很多中文搜索引擎的基础模块之一就是分词模块。随着网络文本数量的急剧增加,速度快、效果好的分词模块对中文搜索引擎性能有着十分重要的影响。此外,标注词序列中每个词的词性,识别文本中的命名实体(即,专有名词),也是文本信息处理的重要任务。无论是汉语分词,词性标注,还是命名实体识别,序列标注模型都大有用武之地。在

图1中,每个词都已经切分开来,也标上了词性(见参考文献[I])。此外,也标识了命名实体(如,“中共中央”、“兰红光”)。常用的序列标注模型如隐马尔可夫模型(HMM),最大熵模型(MEMM),条件随机场模型(CRFs),马尔可夫随机场(MRF)等。为了构建模型,需要通过训练来估计模型的参数。训练过程是利用已带有标记信息的训练数据(如图1中所示的数据),通过优化目标函数,获得模型参数的过程。目前,使用最为广泛的模型是CRFs模型,其优点是序列标注的准确度高,但缺点也十分明显训练CRFs模型所花的时间代价非常高,尤其是类似于词性标注的大标记数据在实际应用中几乎不可接受。

发明内容
本发明的目的是提供一种新的方法,能够适应大规模训练数据情况下训练序列标注模型。其特点是训练速度快,适合大规模语料和大的标记集合。本发明的原理如下基于随机梯度下降(SGD)在线学习算法,在训练过程中,针对特征频率,对二阶海森矩阵采用对角化近似,即利用特征频率高低对对角元素赋予不同权重,与已有的二阶海森矩阵近似算法比较,具有计算代价小的特点;在原有SGD算法的基础上,显著提高了训练速度,且效果好。所述方法包括如下步骤首先,从带有标记信息的训练数据中统计特征的频率;然后,对不同频率的特征对应的不同维度的参数给出不同的二阶海森矩阵(Hessian)的对角线近似;最后,利用随机梯度下降算法,按新的实例确定梯度,更新参数。需要指出,本方法适合于大规模训练数据,对近似对角海森矩阵的近似轻量有效,且在不影响训练效果的条件下显著加快训练速度。本发明提供的技术方案如下一种快速序列标注方法,包括如下步骤a)初始化模型参数(向量
b)统计每个特征对所有位置的相对频率# Φ (X,y) /#token,特征的取值是O或1,即特征函数是特征到O、I的映射Φ (X,y) — {O, 1},按公式2初始化矩阵B,其中i对应该维度特征的参数;c)取一个训练实例,计算梯度,梯度的计算方法是对CRFs的损失函数求导数,即 = (x, y)是特征函数在当前参数下的期望;d)按照公式I更新参数Θ ;e)检查收敛性,如果未达到精度要求,则重复步骤c)_d),直至达到精度要求;
权利要求
1.一种快速序列标注方法,包括如下步骤 a)初始化模型参数θ=0; b)统计每个特征对所有位置的相对频率#Φ(X,y)/#token,特征的取值是O或I,即特征函数是特征到O、I的映射Φ (X,y) — {O, 1},按公式2初始化矩阵B,其中i对应该维度特征的参数; c)取一个训练实例,计算梯度,梯度的计算方法是对CRFs的损失函数求导数,即νΚΘ) = Εφ(χ,γ)-φ(χ,ν),其中ΕΦ (X,y)是特征函数在当前参数下的期望; d)按照公式I更新参数Θ; e)检查收敛性,如果未达到精度要求,则重复步骤c)_d),直至达到精度要求;
2.如权利要求1所述的快速序列标注方法,其特征是,所述a设置为O.001,b设置为Io
3.如权利要求1所述的快速序列标注方法,其特征是,步骤e中,当满足下列条件之一时,检查收敛性 O留存数据集合错误率经过迭代变化小于指定阈值; 2)目标函数的值不再下降; 3)参数的模在两轮迭代之间相对变化率小于指定阈值; 4)达到预先指定的迭代次数。
全文摘要
本发明提供一种快速序列标注方法,属于语言信息处理领域。所述方法基于随机梯度下降(SGD)在线学习算法,适合大规模语料训练;在训练过程中,针对特征频率,对二阶海森矩阵采用对角化近似,即利用特征频率高低对对角元素赋予不同权重,与已有的二阶海森矩阵近似算法比较,具有计算代价小的特点;在原有SGD算法的基础上,显著提高了训练速度,且效果好。本方法可以用于语言信息处理的不同层次,包括汉语分词、词性标注和命名实体识别等。
文档编号G06F17/20GK103064878SQ201210468749
公开日2013年4月24日 申请日期2012年11月19日 优先权日2012年11月19日
发明者王厚峰, 何正焱 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1