一种基于最大熵话题模型的在线文档分类方法及装置制造方法

文档序号:6634238阅读:146来源:国知局
一种基于最大熵话题模型的在线文档分类方法及装置制造方法
【专利摘要】本发明具体涉及一种基于最大熵话题模型的在线文档分类方法及装置。本发明提供的一种基于最大熵话题模型的在线文档分类方法及装置,通过提取训练文档集中每个文档的每个单词对应的隐式话题特征,得到特征向量,更新最大熵话题模型的词典和分类器权值,完成对最大熵话题模型的在线学习;然后计算待识别文档的特征向量与分类器权值的点积,得到点积最大值所对应的类别即为待识别文档的类别。有效提高了话题模型对大规模文档数据集进行分类处理的速度并能够实现对流输入文档的处理,同时能够有监督地训练话题模型,提高话题模型训练的准确率。
【专利说明】一种基于最大熵话题模型的在线文档分类方法及装置

【技术领域】
[0001] 本发明涉及机器学习【技术领域】,具体涉及一种基于最大熵话题模型(Maximum Entropy Discrimination Latent Dirichlet Allocation, MedLDA)的在线文档分类方法 及装置。

【背景技术】
[0002] 在大数据时代,大规模数据处理已经成为家常便饭。然而,在很多应用中,如大规 模文本分类,现有的线下学习算法往往不能满足需求。话题模型在挖掘文档语义信息和处 理复杂的文档结构方面都体现出了明显的优势,近年来利用隐式话题模型高效地挖掘大规 模文档和流输入文档中的结构成为该领域的一个研究热点。
[0003] 目前已有的采用隐式话题模型挖掘文档语义结构的方法以概率模型为主。在诸多 模型中,具有代表性的有隐式语义分析模型(Latent Semantic Analysis,LSA)、概率隐式 语义索引模型(Probabilistic Latent Semantic Indexing,PLSI)和隐式狄利克雷模型 (Latent Dirichlet Allocation,LDA)。特别是在 LDA 话题模型方面,2010 年 M. Hoffman 提 出了 LDA话题模型的在线学习方法,能够非监督地处理大规模文档;2012年D. Mimno通过 吉布斯采样与在线变分推断的结合来训练在线LDA话题模型,进一步提升了聚类效果。
[0004] 然而,现有的LDA话题模型对大规模数据进行分类处理耗时比较长、准确率低,并 且无法处理流输入文档。


【发明内容】

[0005] 针对现有LDA话题模型,为了提高话题模型对大规模文档数据集进行分类处理的 速度并实现处理流输入文档,同时能够有监督地训练话题模型,提高准确率,本发明提供了 一种基于最大熵话题模型的在线文档分类方法及装置。
[0006] -方面,本发明提供的一种基于最大熵话题模型的在线文档分类方法,包括:
[0007] S1,获取训练文档集,提取所述训练文档集中每个文档的每个单词对应的第一隐 式话题特征,并根据所有所述第一隐式话题特征在最大熵话题模型词典上的分布得到第一 特征向量;
[0008] S2,根据所述第一特征向量更新最大熵话题模型的词典;根据所述第一特征向量 以及最大熵话题模型的分类损失函数更新最大熵话题模型的分类器权值;
[0009] S3,针对待识别文档,提取所述待识别文档中每个单词对应的第二隐式话题特征, 并根据所有所述第二隐式话题特征在最大熵话题模型词典上的分布得到第二特征向量;
[0010] S4,将所述第二特征向量与S2中的分类器权值进行点积;
[0011] S5,选取点积值最大的分类器权值所对应的类别作为所述待识别文档的类别。
[0012] 进一步地,所述最大熵话题模型采用以下公式表示:
[0013] IiiinqKL [q (w, O, zd) | | qt (w, O) p0 (zd) p (xd | O, zd) ] +2c ? I G (q (w, zd) ;xd, yd)
[0014] 其中,KL为分布之间的相对熵,w为分类器权值,O为词典,xd表示文档,z d表示 文档Xd中每个单词对应的隐式话题特征,yd表示文档xd的类别,c为控制损失函数的常数 参量,;L e (q(w, zd) ;xd, yd)为分类损失函数。
[0015] 进一步地,当所述分类损失函数为

【权利要求】
1. 一种基于最大熵话题模型的在线文档分类方法,其特征在于,所述方法包括: S1,获取训练文档集,提取所述训练文档集中每个文档的每个单词对应的第一隐式话 题特征,并根据所有所述第一隐式话题特征在最大熵话题模型词典上的分布得到第一特征 向量; 52, 根据所述第一特征向量更新最大熵话题模型的词典;根据所述第一特征向量以及 最大熵话题模型的分类损失函数更新最大熵话题模型的分类器权值; 53, 针对待识别文档,提取所述待识别文档中每个单词对应的第二隐式话题特征,并根 据所有所述第二隐式话题特征在最大熵话题模型词典上的分布得到第二特征向量; 54, 将所述第二特征向量与S2中的分类器权值进行点积; 55, 选取点积值最大的分类器权值所对应的类别作为所述待识别文档的类别。
2. 根据权利要求1所述的方法,其特征在于,所述最大熵话题模型采用以下公式表示: HiinqKL [q (w, Φ, zd) | | qt (w, Φ) ρ〇 (zd) ρ (xd | Φ, zd) ] +2c · I e (q (w, zd) ;xd, yd) 其中,KL为分布之间的相对熵,w为分类器权值,Φ为词典,xd表示文档,zd表示文档 Xd中每个单词对应的隐式话题特征,yd表示文档Xd的类别,c为控制损失函数的常数参量, 1 ε (q(w,zd) ;xd,yd)为分类损失函数。
3. 根据权利要求2所述的方法,其特征在于,当所述分类损失函数为 ^ Z时,所述Sl中第一隐式话题特征在
最大熵话题模型词典上的分布采用以下公式表示:
其中,τ d为拉格朗日乘子,3Β[·]为期望算子,Fii为第一隐式话题特征; 所述S2中采用以下公式更新最大熵话题模型的词典:
其中q(〇k)为词典第k行的分布,= 狄利克雷分布更新公式
所述S2中采用以下公式更新分类器权值: 其中,Z为归一化常数,
4. 根据权利要求2所述的方法,其特征在于,当所述分类损失函数为
吋,所述Sl中第一隐式话题特征在 最大熵话题模型词典上的分布采用以下公式表示:
其中
Ψ为双伽马函数,ζ d =e -ydf(w,zd),λ d 为辅助变量; 所述S2中采用以下公式更新最大熵话题模型的词典:
其中Q(Ok)为词典第k行的分布,
所述S2中采用以下公式更新分类器权值:
其中:
,Irf为第一隐式话题特征,
5. 根据权利要求1至4任一项所述的方法,其特征在于,所述S2之后还包括: S2a,判断所述分类器权值更新次数是否达到预设次数,若是,则执行S3,否则返回执行 Sl0
6. -种基于最大熵话题模型的在线文档分类装置,其特征在于,所述装置包括: 第一提取模块,用于获取训练文档集,提取所述训练文档集中每个文档的每个单词对 应的第一隐式话题特征,并根据所有所述第一隐式话题特征在最大熵话题模型词典上的分 布得到第一特征向量; 更新模块,用于根据所述第一特征向量更新最大熵话题模型的词典;根据所述第一特 征向量以及最大熵话题模型的分类损失函数更新最大熵话题模型的分类器权值; 第二提取模块,用于针对待识别文档,提取所述待识别文档中每个单词对应的第二隐 式话题特征,并根据所有所述第二隐式话题特征在最大熵话题模型词典上的分布得到第二 特征向量; 计算模块,用于将所述第二特征向量与更新模块中得到的分类器权值进行点积; 选取模块,用于选取点积值最大的分类器权值所对应的类别作为所述待识别文档的类 别。
7. 根据权利要求6所述的装置,其特征在于,所述最大熵话题模型采用以下公式表示: HiinqKL [q (w, Φ, zd) | | qt (w, Φ) ρ〇 (zd) ρ (xd | Φ, zd) ] +2c · I e (q (w, zd) ;xd, yd) 其中,KL为分布之间的相对熵,w为分类器权值,Φ为词典,xd表示文档,zd表示文档 Xd中每个单词对应的隐式话题特征,yd表示文档Xd的类别,c为控制损失函数的常数参量, 1ε (q(w,zd) ;xd,yd)为分类损失函数。
8. 根据权利要求7所述的装置,其特征在于,当所述分类损失函数为
时,所述第一提取模块具体用于 采用以下公式表示第一隐式话题特征在最大熵话题模型词典上的分布:
其中,τ d为拉格朗日乘子,EH为期望算子,1为第一隐式话题特征; 所述更新模块具体用于采用以下公式更新最大熵话题模型的词典:
其中q(〇k)为词典第k行的分布
,狄利克雷分布更新公式 为
所述更新模块具体用于采用以下公式更新分类器权值: 其中,Z为归一化常数,
9. 根据权利要求7所述的装置,其特征在于,当所述分类损失函数为
时,所述第一提取模块具体用于采用 以下公式表示第一隐式话题特征在最大熵话题模型词典上的分布:
其中
,ψ为双伽马函数,ζ<1 =e -ydf(w,zd),λ d 为辅助变量; 所述更新模块具体用于采用以下公式更新最大熵话题模型的词典:
其中Q(Ok)为词典第k行的分布,
所述更新模块具体用于采用以下公式更新分类器权值:
其中:
,Srf为第一隐式话题特征,
【文档编号】G06F17/30GK104391902SQ201410645904
【公开日】2015年3月4日 申请日期:2014年11月12日 优先权日:2014年11月12日
【发明者】施天麟, 朱军 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1