一种基于N-gram增量主题模型的语义挖掘方法

文档序号:6560479阅读:295来源:国知局
专利名称:一种基于N-gram增量主题模型的语义挖掘方法
技术领域
本发明涉及科技文本数据主题挖掘的范畴下,增量地对文本输入流创建基于 N-gram的主题模型的方法。
背景技术
自动分析以及抽取科技文献资源的语义信息是一个被学者们广泛研究的问题。为此人们研制了文本挖掘方法来帮助提高分析文本的语义。主题模型作为挖掘文本内在主题信息的有力工具,也常常被应用到文本挖掘领域。但到目前为止,没有一种主题模型可以较好的适用于科技文献类型的数据,而且主题模型的训练时间较长,不适合像信息检索这一类对实时性要求较高的任务中。基于N-gram增量主题模型的语义挖掘方法的提出就是为了解决这一问题。通过扩展现有的主题模型,在模型的单词空间中引入N-gram(N元语法元素)以提高模型的预测能力以及语义表达能力;同时采用增量学习的思想,采用非对称先验概率保存历史的主题分布信息,从而使模型的训练算法可以适用于动态增长的文本数据量,进而冲破了现有主题模型仅适合于静态文本数据集这一限制,提高了模型训练的效率。本发明提出一个基于N-gram增量主题模型的语义挖掘方法,对于提高科技文献语义挖掘的效果具有重要的意义。

发明内容
本发明要解决的技术问题填补了现有技术的空白,提供一种在科技文本数据主题挖掘领域,增量地对文本输入流创建基于N-gram (N元语法元素)的增量主题模型的语义挖掘的方法。本发明采用的技术方案一种基于N-gram增量主题模型的语义挖掘方法,其特征在于步骤如下(1)将 Author-Conference 主题模型(Author-Conference-^Topic Model,ACT)进行扩展扩展单词空间,从Unigram ( —元语法元素)到N-gram (N元语法元素);(2)对于当前输入数据,若为第一个输入数据流,则根据给定的常数值初始化当前模型的先验概率参数。否则,根据之前训练模型中后验概率的线性加权计算当前模型中先验概率的参数;(3)采用吉布斯采样方法计算模型对当前数据的后验概率值;(4)对于新的输入数据流,重复步骤( 、(3)增量训练模型。2、根据本发明的另一方面,所述的步骤(1)进一步包括(Ia)遍历输入文本集合,抽取其中的bigrams(二元语法元素)并计算每一个 bigram出现的频率;(Ib)对于每一个bigram (二元语法元素)w,计算其chi-square (卡方检验)测试评分&Ww,如果^ 2 w大于给定的阈值T,即^ 2 W > T,则选择W为候选N-gram ;
(Ic)过滤掉不合适的候选N_gram(N元语法元素)如果候选N_gram(N元语法元素)包含数字、标点符号或者停顿词,则将其从候选集合中去除;(Id)将过滤后的N-gram集合加入到模型的单词空间。3、根据本发明的另一方面,所述的步骤( 进一步包括(2a)对于初次建立的N-gram Author-Conference主题模型,将其随机变量Φ、 Θ、Ψ对应的先验概率参数α °、β °、Y °初始化为常数,即a0 = a, = b, Y0 = r ;(2b)对于已训练模型,当有第t个输入数据流St需要增量训练的时候,第t个模
型对应的先验概率参数Yt的计算方法如下公式 t-1 t-1 t-权利要求
1.一种基于N-gram增量主题模型的语义挖掘方法,其特征在于步骤如下(1)将Author-Conference 主题模型(Author-Conference-jTopic Model,ACT)进行扩展扩展单词空间,从一元语法元素Unigram到N元语法元素N-gram ;(2)对于当前输入数据,若为第一个输入数据流,则根据给定的常数值初始化当前模型的先验概率参数,否则,根据之前训练模型中后验概率的线性加权计算当前模型中先验概率的参数;(3)采用吉布斯采样方法计算模型对当前数据的后验概率值;(4)对于新的输入数据流,重复步骤(2)到(3)。
2.根据权利要求1所述的基于N-gram增量主题模型的语义挖掘方法,其特征在于所述的步骤(1)进一步包括(Ia)遍历输入文本集合,抽取其中的二元语法元素bigrams并计算每一个bigram出现的频率;(Ib)对于每一个二元语法元素bigram w,计算其卡方检验chi-square测试评分 Sch^,如果&一 W大于给定的阈值τ,即^ 2 W > T,则选择W为候选N-gram ;(Ic)过滤掉不合适的候选N-gram 如果候选N-gram包含数字、标点符号或者停顿词, 则将该候选N-gram从候选集合中去除;(Id)将过滤后的N-gram集合加入到模型的单词空间。
3.根据权利要求1所述的基于N-gram增量主题模型的语义挖掘方法,其特征在于所述的步骤( 进一步包括(2a)对于初次建立的N-gram Author-Conference主题模型,将其随机变量Φ、θ、Ψ 对应的先验概率参数α°、β°、Y °初始化为常数,即 a0 = a, = b, Y0 = r ;(2b)对于已训练模型,当有第t个输入数据流St需要增量训练的时候,第t个模型对应的先验概率参数α\ β\ Y t的计算方法如下公式 t-1 t-1 t-1Σ r1 Σ C1 Σ Gra! =MzK_ Rt =I^K_ γ1 = MzK_HHH其中,Ε、B、G是长度为H的向量,分别用来记录模型的历史后验概率的值。
4.根据权利要求1所述的基于N-gram增量主题模型的语义挖掘方法,其特征在于所述的步骤C3)进一步包括(3a)初始化后验概率CDt = O、 t = O、Wt = O ;(3b)随机初始化单词变量在主题变量上的分布Zt;(3c)随机初始化单词变量在作者变量上的分布Xt;(3d)采用Markov链估计概率P (Azt I St, β % Yt)的值,计算公式如下ptA =、心=^ I < = ^A =C, ,df)沃Cta ,.+a'Cwt + PtCct, + /zx—αιζχχwz,—α ’ wz乂cz—a ‘ czΣζ'67+ αζ'χ)(Cw'z-di + βWζ )^c'z-d + c'z )其中,T表示主题集合,W表示Ngram的集合,C表示会议变量的集合;Cta是主题-作者共现矩阵,&表示赋给二元组〈作者X,主题z>的N-gram的数目减去N-gram wdi出现的次数,c^Id表示赋给二元组<N-gram w,主题z>的N-gram的数目减去N-gram wdi出现的次数,匸一表示赋给二元组〈会议c,主题z>的N-gram的数目减去文档d中出现的N-gram ; C^x表示先验概率α t在主题为ζ且作者为Χ时的取值;表示先验概率β t在主题为ζ且单词为w时的取值;;^表示先验概率Y 1在主题为ζ且作者为χ时的取值,St表示第t个输入数据流;ζ' >w'、c'表示求和公式Σ的循环变量;(3e)根据分布变量Zt和Xt,计算后验概率Ψ 的值,计算公式如下Cwt + RtΕ{ΦΙΑζ\Χ\Pt) = ^f-Jf1-2-tw'eW ^ + PWζ),rTA + a1= v H、2^tz'eT ^ z'x + az'x),Ε{Ψ:ζ\ζ\χ/)= H、.,其中,^z表示后验概率Ot在二元组〈N-gram w,主题z>处得取值;《x表示后验概率 Θ1在二元组 < 作者X,主题z>处得取值;表示后验概率Wt在二元组〈会议c,主题z> 处得取值;公式中其他各个元素的含义与(3d)中相同。
全文摘要
一种基于N-gram增量主题模型的语义挖掘方法(1)将Author-Conference主题模型进行扩展扩展单词空间,从Unigram到N-gram;(2)对于当前输入数据,根据之前训练模型中后验概率的线性加权计算当前模型中先验概率的参数;(3)采用吉布斯采样方法计算模型对当前数据的后验概率值;(4)对于新的输入数据流,重复步骤(2)、(3)增量训练模型。本发明将N-gram引入到主题模型中,根据N-gram包含的语义特性,提高了主题模型对科技文献建模的性能;采用非对称先验概率记录历史数据的主题分布,从而增量式地训练模型,提高了方法的效率。
文档编号G06F17/27GK102243625SQ20111020196
公开日2011年11月16日 申请日期2011年7月19日 优先权日2011年7月19日
发明者徐毅, 李未, 王晗, 郎波 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1