一种基于低秩分解的精细主题挖掘方法

文档序号:6640199阅读:354来源:国知局
一种基于低秩分解的精细主题挖掘方法
【专利摘要】本发明公开了一种基于低秩分解的精细主题挖掘方法,对原始语料文本进行分词及去停词处理,对预处理得到的词频矩阵生成主题矩阵,主题矩阵,将原始语料文本分解为主题背景及关键词;本发明提出了一个不引入新隐含变量的精细表示文本内容的模型,该模型以LDA模型作为基础提取文本集的主题分布,并结合文本主题由不同方面组成的特点,引入主成分分析的改进方法,即鲁棒性主成分分析方法,将每个主题分解为低秩部分和稀疏部分,低秩部分代表了该主题下的常用词,稀疏部分则是对该主题下不同角度的精细刻画,从而达到精细表示文本的目的,有效地解决了传统主题模型只能挖掘文本的主题背景,无法对文本的侧重点进行精细描述的问题。
【专利说明】-种基于低秩分解的精细主题挖掘方法

【技术领域】
[0001] 本发明属于文本处理与挖掘【技术领域】,尤其设及一种基于低秩分解的精细主题挖 掘方法。

【背景技术】
[0002] 挖掘文本集中的隐含主题是文本挖掘领域的重要研究内容之一。近年来W隐含狄 利克雷分配(LDA)为代表的主题模型得到了广泛应用。该些模型将高维稀疏的词频矩阵表 示转化为低维的语义空间表示,即主题空间表示,从而起到降维的作用。该在文本建模,文 本分类和信息提取等应用中有着广泛的应用。
[0003] 现实语料库根据内容可划分为经济、政治、娱乐、健康等主题。然而,在实际 应用中,需要对每个主题根据不同的角度,如立场、情感、视角、具体事件等进一步划分 为更精细的子主题。针对该些因素进行改进的模型包括层级主题模型(hierarchical topic model)、SWB 模型(special word background model)、主题情感混合模型(topic sentiment mix1:ure model)等。层级主题模型引入嵌套中国餐馆过程(nested Qiinese restaurant process)来学习主题间的层级关系,从而对主题进行细分。SWB模型分S个途 径产生文档中的词;一是标准的LDA模型,二是针对于该文本集的背景词分布,S是针对于 该特定文档的特殊词分布。SWB模型中的关键词(特殊词途径)的划分需要一定的先验知 识来决定关键词和低秩词的比例,在先验知识较少的情况下效果不好。主题情感混合模型 对文档主题和情感趋向混合建模。该模型存在的问题是它假设所有文档的主题分布是相同 的。
[0004] 该些改进模型只能对主题的一个特定角度进行刻画,例如只考虑情感因素,或者 只考虑立场,而没有一个通用的模型来对不同的角度统一进行刻画。此外,上述模型都存在 维度巧咒的问题。互联网上文本集的大小通常都在千万级甚至亿级,模型复杂度的一个微 小的提升都会被放大,造成海量文本应用时庞大的时间消耗。上述模型为了更精细地刻画 除了主题之外的其他维度,在模型里引入了新的隐含变量,该不可避免地增加了模型计算 的复杂度,所需时间也因此增加。因此,已有的模型工具无法解决通用性和实时性的问题。


【发明内容】

[0005] 本发明提供了一种基于低秩分解的精细主题挖掘方法,旨在解决传统主题模型只 能挖掘文本的主题背景,无法对文本的侧重点进行精细描述的问题。
[0006] 本发明的目的在于提供一种基于低秩分解的精细主题挖掘方法,该基于低秩分解 的精细主题挖掘方法包括:
[0007] 步骤一,对原始语料文本进行分词及去停词处理;
[000引步骤二,对预处理得到的词频矩阵生成主题矩阵;
[0009] 步骤=,分解主题矩阵,将原始语料文本分解为主题背景及关键词。
[0010] 进一步,在步骤一中,对于中文语料,采用由吕震宇开发的中科院计算所分词系统 的c#版对原始语料进行分词处理;
[0011] 在步骤一中,采用停用词表法滤除文档中的无意义词。
[0012] 进一步,在步骤二中,对预处理得到的词频矩阵生成主题矩阵时,首先对预处理得 到的词频矩阵采用LDA模型训练,采用吉布斯采样法(Gibbs Sampling)推导模型的隐含变 量,利用得到的数据,生成可分解为低秩矩阵和稀疏矩阵特性的主题矩阵。
[0013] 进一步,主题矩阵的具体产生步骤如下:
[0014] 应用LDA模型对文本集进行训练得到文本集的主题分布0和主题的单词分布 0 ;
[0015] 统计文档中单词被分配给每个主题的次数,与主题阔值T(0)进行比较,将大于 阔值的主题标签分配给每个文档,一个文档可W有多个主题标签;
[0016]

【权利要求】
1. 一种基于低秩分解的精细主题挖掘方法,其特征在于,该基于低秩分解的精细主题 挖掘方法包括: 步骤一,对原始语料文本进行分词及去停词处理; 步骤二,对预处理得到的词频矩阵生成主题矩阵; 步骤三,分解主题矩阵,将原始语料文本分解为主题背景及关键词。
2. 如权利要求1所述的基于低秩分解的精细主题挖掘方法,其特征在于,在步骤一中, 对于中文语料,采用计算所分词系统的C#版对原始语料进行分词处理; 在步骤一中,采用停用词表法滤除文档中的无意义词。
3. 如权利要求1所述的基于低秩分解的精细主题挖掘方法,其特征在于,在步骤二中, 对预处理得到的词频矩阵生成主题矩阵时,首先对预处理得到的词频矩阵采用LDA模型训 练,采用吉布斯采样法推导模型的隐含变量,利用得到的数据,生成分解为低秩矩阵和稀疏 矩阵特性的主题矩阵。
4. 如权利要求2所述的基于低秩分解的精细主题挖掘方法,其特征在于,主题矩阵的 具体产生步骤如下: 应用LDA模型对文本集进行训练得到文本集的主题分布0和主题的单词分布0 ; 统计文档中单词被分配给每个主题的次数,与主题阈值T(0)进行比较,将大于阈值 的主题标签分配给每个文档,一个文档有多个主题标签;
其中,T( 0J表示第i个主题的主题阈值,Ndi表示第d个文档中属于第i个主题的单 词数,D表示文档数; 根据主题的单词分布0,在文本集词典中选取大于词典阈值T(f3)的单词子集作为主 题词典;
T(^i)表示第i个主题的词典阈值,Nvi表示第V个单词属于第i个主题的次数,V表 示单词总数,A取5,且保证T( 0J不小于2 ; 根据主题标签和主题词典,对每一个主题生成该主题的主题矩阵,根据语料库的大小 调节主题阈值T(0)和词典阈值T(f3)的值,使产生的主题矩阵符合低秩部分与稀疏部分 的和的特性。
5. 如权利要求1所述的基于低秩分解的精细主题挖掘方法,其特征在于,在步骤三中, 分解主题矩阵,将原始语料文本分解为主题背景及关键词时,首先,RPCA算法的增量拉格朗 日乘子实现,定义两个变量St (X)和Dt (X)如下: ST(X)= sgn(X)max (IXI- T,〇) (3) DT (x) = US T (2) V*, X = U 2 V* 其中ST (x)是对一个数x的定义,若x换成矩阵,则表示对于一个矩阵中的每个元素做 上述操作; 然后,对于每个主题对应的主题矩阵,应用RPCA算法进行矩阵分解,得到每个主题的 低秩矩阵和稀疏矩阵。
6. 如权利要求5所述的基于低秩分解的精细主题挖掘方法,其特征在于,RPCA算法的 增量拉格朗日乘子实现流程如下: 初始化:SQ=Y。= 0,y>0 ; 循环,直至收敛: [a'i=D_Sk +/d'Y丨J Sk+1 =SxuAM-Lk^1+^Yk) Yk+1=Yk+y(M-Lk+1-Sk+1); 循环结束,输出L,S。
7. 如权利要求4所述的基于低秩分解的精细主题挖掘方法,其特征在于,X设置如 下:
其中m,n分别表示矩阵的行数和列数,在低秩矩阵中的单词代表该主题的背景词,作 为该主题的内容概要,稀疏矩阵中的单词则代表了该主题下每个文档的侧重点。
【文档编号】G06F17/30GK104504087SQ201410827865
【公开日】2015年4月8日 申请日期:2014年12月25日 优先权日:2014年12月25日
【发明者】孙显, 许光銮, 付琨, 胡岩峰, 郑歆慰, 田璟, 刁文辉 申请人:中国科学院电子学研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1