一种基于最大熵话题模型的在线文档分类方法及装置制造方法

文档序号：6634238阅读：146来源：国知局

一种基于最大熵话题模型的在线文档分类方法及装置制造方法
【专利摘要】本发明具体涉及一种基于最大熵话题模型的在线文档分类方法及装置。本发明提供的一种基于最大熵话题模型的在线文档分类方法及装置，通过提取训练文档集中每个文档的每个单词对应的隐式话题特征，得到特征向量，更新最大熵话题模型的词典和分类器权值，完成对最大熵话题模型的在线学习；然后计算待识别文档的特征向量与分类器权值的点积，得到点积最大值所对应的类别即为待识别文档的类别。有效提高了话题模型对大规模文档数据集进行分类处理的速度并能够实现对流输入文档的处理，同时能够有监督地训练话题模型，提高话题模型训练的准确率。
【专利说明】一种基于最大熵话题模型的在线文档分类方法及装置

【技术领域】
[0001] 本发明涉及机器学习【技术领域】，具体涉及一种基于最大熵话题模型（Maximum Entropy Discrimination Latent Dirichlet Allocation, MedLDA)的在线文档分类方法及装置。

【背景技术】
[0002] 在大数据时代，大规模数据处理已经成为家常便饭。然而，在很多应用中，如大规模文本分类，现有的线下学习算法往往不能满足需求。话题模型在挖掘文档语义信息和处理复杂的文档结构方面都体现出了明显的优势，近年来利用隐式话题模型高效地挖掘大规模文档和流输入文档中的结构成为该领域的一个研究热点。
[0003] 目前已有的采用隐式话题模型挖掘文档语义结构的方法以概率模型为主。在诸多模型中，具有代表性的有隐式语义分析模型（Latent Semantic Analysis，LSA)、概率隐式语义索引模型（Probabilistic Latent Semantic Indexing，PLSI)和隐式狄利克雷模型 (Latent Dirichlet Allocation，LDA)。特别是在 LDA 话题模型方面，2010 年 M. Hoffman 提出了 LDA话题模型的在线学习方法，能够非监督地处理大规模文档；2012年D. Mimno通过吉布斯采样与在线变分推断的结合来训练在线LDA话题模型，进一步提升了聚类效果。
[0004] 然而，现有的LDA话题模型对大规模数据进行分类处理耗时比较长、准确率低，并且无法处理流输入文档。

【发明内容】

[0005] 针对现有LDA话题模型，为了提高话题模型对大规模文档数据集进行分类处理的速度并实现处理流输入文档，同时能够有监督地训练话题模型，提高准确率，本发明提供了一种基于最大熵话题模型的在线文档分类方法及装置。
[0006] -方面，本发明提供的一种基于最大熵话题模型的在线文档分类方法，包括：
[0007] S1，获取训练文档集，提取所述训练文档集中每个文档的每个单词对应的第一隐式话题特征，并根据所有所述第一隐式话题特征在最大熵话题模型词典上的分布得到第一特征向量；
[0008] S2,根据所述第一特征向量更新最大熵话题模型的词典；根据所述第一特征向量以及最大熵话题模型的分类损失函数更新最大熵话题模型的分类器权值；
[0009] S3,针对待识别文档，提取所述待识别文档中每个单词对应的第二隐式话题特征，并根据所有所述第二隐式话题特征在最大熵话题模型词典上的分布得到第二特征向量；
[0010] S4,将所述第二特征向量与S2中的分类器权值进行点积；
[0011] S5,选取点积值最大的分类器权值所对应的类别作为所述待识别文档的类别。
[0012] 进一步地，所述最大熵话题模型采用以下公式表示：
[0013] IiiinqKL [q (w, O, zd) | | qt (w, O) p0 (zd) p (xd | O, zd) ] +2c ? I G (q (w, zd) ；xd, yd)
[0014] 其中，KL为分布之间的相对熵，w为分类器权值，O为词典，xd表示文档，z d表示文档Xd中每个单词对应的隐式话题特征，yd表示文档xd的类别，c为控制损失函数的常数参量，;L e (q(w, zd) ;xd, yd)为分类损失函数。
[0015] 进一步地，当所述分类损失函数为

【权利要求】
1. 一种基于最大熵话题模型的在线文档分类方法，其特征在于，所述方法包括： S1，获取训练文档集，提取所述训练文档集中每个文档的每个单词对应的第一隐式话题特征，并根据所有所述第一隐式话题特征在最大熵话题模型词典上的分布得到第一特征向量； 52, 根据所述第一特征向量更新最大熵话题模型的词典；根据所述第一特征向量以及最大熵话题模型的分类损失函数更新最大熵话题模型的分类器权值； 53, 针对待识别文档，提取所述待识别文档中每个单词对应的第二隐式话题特征，并根据所有所述第二隐式话题特征在最大熵话题模型词典上的分布得到第二特征向量； 54, 将所述第二特征向量与S2中的分类器权值进行点积； 55, 选取点积值最大的分类器权值所对应的类别作为所述待识别文档的类别。
2. 根据权利要求1所述的方法，其特征在于，所述最大熵话题模型采用以下公式表示： HiinqKL [q (w, Φ, zd) | | qt (w, Φ) ρ〇 (zd) ρ (xd | Φ, zd) ] +2c · I e (q (w, zd) ；xd, yd) 其中，KL为分布之间的相对熵，w为分类器权值，Φ为词典，xd表示文档，zd表示文档 Xd中每个单词对应的隐式话题特征，yd表示文档Xd的类别，c为控制损失函数的常数参量， 1 ε (q(w，zd) ;xd，yd)为分类损失函数。
3. 根据权利要求2所述的方法，其特征在于，当所述分类损失函数为 ^ Z时，所述Sl中第一隐式话题特征在
最大熵话题模型词典上的分布采用以下公式表示：
其中，τ d为拉格朗日乘子，3Β[·]为期望算子，Fii为第一隐式话题特征；所述S2中采用以下公式更新最大熵话题模型的词典：
其中q(〇k)为词典第k行的分布，= 狄利克雷分布更新公式
所述S2中采用以下公式更新分类器权值：其中，Z为归一化常数，
4. 根据权利要求2所述的方法，其特征在于，当所述分类损失函数为
吋，所述Sl中第一隐式话题特征在最大熵话题模型词典上的分布采用以下公式表示：
其中
Ψ为双伽马函数，ζ d =e -ydf(w，zd)，λ d 为辅助变量；所述S2中采用以下公式更新最大熵话题模型的词典：
其中Q(Ok)为词典第k行的分布，
所述S2中采用以下公式更新分类器权值：
其中：
，Irf为第一隐式话题特征，
5. 根据权利要求1至4任一项所述的方法，其特征在于，所述S2之后还包括： S2a，判断所述分类器权值更新次数是否达到预设次数，若是，则执行S3,否则返回执行 Sl0
6. -种基于最大熵话题模型的在线文档分类装置，其特征在于，所述装置包括：第一提取模块，用于获取训练文档集，提取所述训练文档集中每个文档的每个单词对应的第一隐式话题特征，并根据所有所述第一隐式话题特征在最大熵话题模型词典上的分布得到第一特征向量；更新模块，用于根据所述第一特征向量更新最大熵话题模型的词典；根据所述第一特征向量以及最大熵话题模型的分类损失函数更新最大熵话题模型的分类器权值；第二提取模块，用于针对待识别文档，提取所述待识别文档中每个单词对应的第二隐式话题特征，并根据所有所述第二隐式话题特征在最大熵话题模型词典上的分布得到第二特征向量；计算模块，用于将所述第二特征向量与更新模块中得到的分类器权值进行点积；选取模块，用于选取点积值最大的分类器权值所对应的类别作为所述待识别文档的类别。
7. 根据权利要求6所述的装置，其特征在于，所述最大熵话题模型采用以下公式表示： HiinqKL [q (w, Φ, zd) | | qt (w, Φ) ρ〇 (zd) ρ (xd | Φ, zd) ] +2c · I e (q (w, zd) ；xd, yd) 其中，KL为分布之间的相对熵，w为分类器权值，Φ为词典，xd表示文档，zd表示文档 Xd中每个单词对应的隐式话题特征，yd表示文档Xd的类别，c为控制损失函数的常数参量， 1ε (q(w，zd) ;xd，yd)为分类损失函数。
8. 根据权利要求7所述的装置，其特征在于，当所述分类损失函数为
时，所述第一提取模块具体用于采用以下公式表示第一隐式话题特征在最大熵话题模型词典上的分布：
其中，τ d为拉格朗日乘子，EH为期望算子，1为第一隐式话题特征；所述更新模块具体用于采用以下公式更新最大熵话题模型的词典：
其中q(〇k)为词典第k行的分布
，狄利克雷分布更新公式为
所述更新模块具体用于采用以下公式更新分类器权值：其中，Z为归一化常数，
9. 根据权利要求7所述的装置，其特征在于，当所述分类损失函数为
时，所述第一提取模块具体用于采用以下公式表示第一隐式话题特征在最大熵话题模型词典上的分布：
其中
，ψ为双伽马函数，ζ<1 =e -ydf(w，zd)，λ d 为辅助变量；所述更新模块具体用于采用以下公式更新最大熵话题模型的词典：
其中Q(Ok)为词典第k行的分布，
所述更新模块具体用于采用以下公式更新分类器权值：
其中：
，Srf为第一隐式话题特征，
【文档编号】G06F17/30GK104391902SQ201410645904
【公开日】2015年3月4日申请日期:2014年11月12日优先权日:2014年11月12日
【发明者】施天麟, 朱军申请人:清华大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：施天麟;朱军;
技术所有人：清华大学;
我是此专利的发明人

上一篇：一种新闻事件要素抽取方法与装置制造方法
上一篇：面向多核多处理器平台的Cache一致性协议的设计方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。