一种文本在线聚类可视化方法

文档序号:6562696阅读:2087来源:国知局
专利名称:一种文本在线聚类可视化方法
一种文本在线聚类可视化方法技术领域
本发明属于计算机学科下的文本智能信息处理技术,具体涉及一种在线式的文本聚类可视化方法。
背景技术
文本数据是最为重要的信息载体之一,对文本信息的浏览和处理时常见的工作场景。随着信息量的激增,用户迫切需要一种新的计算机技术,能够对源源不断到来的数据进行自动分类和管理,以方便用户按照类别浏览和查询。如果数据量进一步增大,传统文本队列就不再完全胜任对文本信息的显示要求,此时需要以二维或者三维可视图的方式,对聚类的结果进行直观显示,以方便用户更便捷的了解信息分布态势,实现对信息的准确获取。
在文本聚类算法中,DavidM. Blei 提出的 Latent Dirichlet Allocation(简称 LDA)模型是一种获得广泛应用的生成模型,通过从文本的特征分析入手,探索不同数据间在特征分布上具有的共性分布,再利用贝叶斯分析技术计算这些共性分布符合的分布参数,从而实现对文本建模并依据模型参数实现对文本的聚类划分。中国专利CN101968798. A公开了一种对LDA模型进行在线算法,并用于社区推荐的方法。该方法对于新数据的处理方式是一种文本分类与在线更新的方法,即通过初始数据聚类获得模型,然后固定模型用于对新数据进行分类,再利用新数据对模型进行更新训练,因此不是一种在线聚类算法;其次,该方法没有引入用户的先验信息,所获得的聚类结构往往不符合用户对于类别的先验需求。
在文本可视化方面,Laurensvan der Maaten 和 Geoffrey Hinton 提出了 t_SNE 算法,算法假定高维文本特征向量空间符合Gaussian分布,降维后低维欧氏空间中对应的坐标点符合t-分布,算法采用KL散度函数来评估高维数据和低维数据间分布的差异性,并且通过最小化KL散度函数,来探索低维欧氏空间的一组坐标点,使得这组坐标点能够尽量保持与高维数据同样的分布结构。L和G等人所提出的t-SNE算法只能对批量式数据进行处理,算法对数据的容量较为有限,不能支持对文本数据流进行在线式处理。发明内容
本发明的主要目的在于改进LDA模型,使之能够接受用户以词汇标注方式提供的先验信息,从而提高聚类结构对于用户的实用性;同时提出一种在线聚类方法,能够完成对文本数据流在线式聚类并自动更新模型;另一方面,还提出一种文本在线可视化方法,能够对聚类结构进行增量降维布局显示。
本发明的目的是通过如下技术方案实现的
—种文本在线聚类可视化方法,包括基于词汇标注的文本在线聚类、在线式高维数据降维可视化。
所述的基于词汇标注的文本在线聚类步骤为
步骤a,聚类任务设置,用户根据任务需要设置聚类的数目K,如果用户有明确定义的类别,允许用户提供少量特征词汇(通常是5 20个词汇)以标示类别;
步骤b,文本预处理,对于集合D中的文本,统计文本中的词汇出现频次(如果是中文数据,则需要先进行中文分词处理),以Cli表示集合中的第i个文本,以表示集合中所有词汇形成的词汇表W中的第j个词,以η(φ,Wj)表示第j个词Wi在第i个文本Cli中出现的频次,以N表示集合中文本总数,以M表示集合词汇表词汇总数,以Z表示类别;
步骤C,采用LDA模型对集合中文本进行建模,并利用类别特征词汇对模型进行约束和优化,再利用Gibbs Sampling进行模型求解运算,实现文本聚类,具体过程如下
步骤Cl,随机初始化,为D中每一份文本d的每一个词汇w (w e W),随机标注一个类别z(z e Z);然后统计:η(φ,zk),表示文本屯中标注为第k个类别的词频总数;η(φ), 文本Cli词汇总数(计重复);n (Wj, zk),表示词汇Wi在所有文本中被标注为第k个类别的总频数;n (Zk),所有词汇被标注为第k个类别的总频数;
步骤c2,标注信息约束初始化,利用标注词汇对于初始化模型参数进行修正,计算公式为
权利要求
1.一种文本在线聚类可视化方法,其特征在于,包括基于词汇标注的文本在线聚类、在线式高维数据降维可视化两大步骤 所述的基于词汇标注的文本在线聚类步骤为 步骤a,用户设置聚类数目,并对其中部分或者全部类别提供若干特征词汇; 步骤b,统计初始文本集合中的单词词频信息,采用LDA模型对数据进行建模,并利用标注的类别特征词汇对LDA模型进行约束,采用Gibbs Sampling技术求解模型参数; 步骤c,模型参数中的文档类别分布Θ用于文本类别的预测,模型参数中的词汇-类别分布频次n (w,ζ)将作为约束参数,用于增量聚类过程; 步骤d,在线聚类时,新文本数据在已有模型参数n (w,ζ)基础上进行初始化,然后按照步骤b和步骤c进行建模运算,计算完成后,新文本实现增量聚类,模型参数实现自动更新; 所述在线式高维数据降维可视化步骤为 步骤e,对文本聚类得到的高维类别分布向量,计算任意两向量间的相似性,同时随机产生对应低维向量初始值,计算任意两低维向量间的相似性; 步骤f,利用KL距离(Kullback-Leibler Divergence)度量高维向量相似性集合与低维向量相似性集合间的差异; 步骤g,通过最优化方法迭代搜索步骤f中相似性集合间差异的最小值,同时不断更新低维向量,达到设定误差范围时停止迭代,利用可视化工具对低维向量可视化; 步骤h,在线式处理时,对新到来的高维向量降维利用了已产生的低维向量信息,在迭代搜索时已产生的低维向量不再更新,只对新到来的高维向量按照步骤e、步骤f和步骤g作增量式处理;
2.根据权利要求I所述的基于词汇标注的文本在线聚类,其特征在于,所述的步骤a中,对于用户设置的类别数目K,用户可以选择从中任意标注若干个类别;对于所选的类另O,用户只需提供少量特征词汇,也可以提供标注文本。
3.根据权利要求I所述的基于词汇标注的文本在线聚类,其特征在于,所述的步骤b中,单词Wj在文本(Ii出现的频次为n ((IijWj),单词Wj对于类别Zk的采样总频次为n (wJ7 zk),文本Cli中所有单词对于类别Zk的采样总频次为η (屯,zk)。
4.根据权利要求I所述的基于词汇标注的文本在线聚类,其特征在于,所述的步骤b中,利用标注词汇对于初始化模型进行修正,计算公式为
5.根据权利要求I所述的基于词汇标注的文本在线聚类,其特征在于,所述的步骤b中,Gibbs Sampling计算公式如下
6.根据权利要求I所述的基于词汇标注的文本在线聚类,其特征在于,所述的步骤c中,文档Cli对于不同类别的概率分布Θ,其计算公式如下
7.根据权利要求I所述的基于词汇标注的文本在线聚类,其特征在于,所述的步骤d中,新数据在原有模型参数基础上初始化,其实现方式为首先对新数据中的词汇随机标记类别,然后统计新数据的词汇标记频次nOv zk)和η(φ,zk),标记完成后,利用原模型中词汇类别分布频次,对新数据的词汇分布进行修正,修改公式如下
8.根据权利要求I所述的基于词汇标注的文本在线聚类,其特征在于,所述的步骤d中,对于新文本的增量聚类可按照标准LDA模型求解的方法,无需固定原有模型参数,当GibbsSampling达到停止条件后,通过计算Θ实现对新文本的类别判断,同时模型参数n (Wj, zk)也已自动进行了修正。
9.根据权利要求I所述的在线式高维数据降维可视化,其特征在于,在所述步骤e中,对文本聚类得到的高维类别分布向量X1X2... Xn, Xi> Xj间的相似性Pu定义为
10.根据权利要求I所述的在线式高维数据降维可视化,其特征在于,在所述步骤f中,高维数据相似性集合{pu}与低维数据相似性集合{%}间的KL距离Dia定义为
11.根据权利要求I所述的在线式高维数据降维可视化,其特征在于,在所述步骤h中,记β m是已经产生的低维向量,对应的高维向量为Ct1Ct2... a m,假设X1X2. . . 乂11是需要在线式处理的高维向量,对应的低维向量为Y1Y2. · · yn,对于任意XiQ = 1,2.. .η),其与a j (j = 1,2. . . m)的相似性Pjli定义为
全文摘要
一种文本在线聚类可视化方法,属于属于计算机学科下的智能信息处理领域。本发明的目的在于,通过引入用户对类别特征词汇标注信息,实现对聚类过程的约束和优化,提升文本聚类结构的清晰度和可理解性;并且设计了文本在线式聚类技术,实现对文本数据流的增量聚类,保持聚类结构的总体稳定,并自适应更新模型。本发明设计了一种在线式高维数据降维布局方法,能够适应大规模数据或数据流环境;通过对聚类后的文本类别分布向量进行降维布局,实现对文本数据的增量式可视化,在二维或三维欧氏空间中实现对文本数据及其类别结构的可视化展示。
文档编号G06F17/30GK102929894SQ201110230978
公开日2013年2月13日 申请日期2011年8月12日 优先权日2011年8月12日
发明者金烨, 徐诗恒 申请人:中国人民解放军总参谋部第五十七研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1