一种基于低秩分解的精细主题挖掘方法

文档序号：6640199阅读：354来源：国知局

一种基于低秩分解的精细主题挖掘方法
【专利摘要】本发明公开了一种基于低秩分解的精细主题挖掘方法，对原始语料文本进行分词及去停词处理，对预处理得到的词频矩阵生成主题矩阵，主题矩阵，将原始语料文本分解为主题背景及关键词；本发明提出了一个不引入新隐含变量的精细表示文本内容的模型，该模型以LDA模型作为基础提取文本集的主题分布，并结合文本主题由不同方面组成的特点，引入主成分分析的改进方法，即鲁棒性主成分分析方法，将每个主题分解为低秩部分和稀疏部分，低秩部分代表了该主题下的常用词，稀疏部分则是对该主题下不同角度的精细刻画，从而达到精细表示文本的目的，有效地解决了传统主题模型只能挖掘文本的主题背景，无法对文本的侧重点进行精细描述的问题。
【专利说明】-种基于低秩分解的精细主题挖掘方法

【技术领域】
[0001] 本发明属于文本处理与挖掘【技术领域】，尤其设及一种基于低秩分解的精细主题挖掘方法。

【背景技术】
[0002] 挖掘文本集中的隐含主题是文本挖掘领域的重要研究内容之一。近年来W隐含狄利克雷分配（LDA)为代表的主题模型得到了广泛应用。该些模型将高维稀疏的词频矩阵表示转化为低维的语义空间表示，即主题空间表示，从而起到降维的作用。该在文本建模，文本分类和信息提取等应用中有着广泛的应用。
[0003] 现实语料库根据内容可划分为经济、政治、娱乐、健康等主题。然而，在实际应用中，需要对每个主题根据不同的角度，如立场、情感、视角、具体事件等进一步划分为更精细的子主题。针对该些因素进行改进的模型包括层级主题模型（hierarchical topic model)、SWB 模型（special word background model)、主题情感混合模型（topic sentiment mix1:ure model)等。层级主题模型引入嵌套中国餐馆过程（nested Qiinese restaurant process)来学习主题间的层级关系，从而对主题进行细分。SWB模型分S个途径产生文档中的词；一是标准的LDA模型，二是针对于该文本集的背景词分布，S是针对于该特定文档的特殊词分布。SWB模型中的关键词（特殊词途径）的划分需要一定的先验知识来决定关键词和低秩词的比例，在先验知识较少的情况下效果不好。主题情感混合模型对文档主题和情感趋向混合建模。该模型存在的问题是它假设所有文档的主题分布是相同的。
[0004] 该些改进模型只能对主题的一个特定角度进行刻画，例如只考虑情感因素，或者只考虑立场，而没有一个通用的模型来对不同的角度统一进行刻画。此外，上述模型都存在维度巧咒的问题。互联网上文本集的大小通常都在千万级甚至亿级，模型复杂度的一个微小的提升都会被放大，造成海量文本应用时庞大的时间消耗。上述模型为了更精细地刻画除了主题之外的其他维度，在模型里引入了新的隐含变量，该不可避免地增加了模型计算的复杂度，所需时间也因此增加。因此，已有的模型工具无法解决通用性和实时性的问题。

【发明内容】

[0005] 本发明提供了一种基于低秩分解的精细主题挖掘方法，旨在解决传统主题模型只能挖掘文本的主题背景，无法对文本的侧重点进行精细描述的问题。
[0006] 本发明的目的在于提供一种基于低秩分解的精细主题挖掘方法，该基于低秩分解的精细主题挖掘方法包括：
[0007] 步骤一，对原始语料文本进行分词及去停词处理；
[000引步骤二，对预处理得到的词频矩阵生成主题矩阵；
[0009] 步骤=，分解主题矩阵，将原始语料文本分解为主题背景及关键词。
[0010] 进一步，在步骤一中，对于中文语料，采用由吕震宇开发的中科院计算所分词系统的c#版对原始语料进行分词处理；
[0011] 在步骤一中，采用停用词表法滤除文档中的无意义词。
[0012] 进一步，在步骤二中，对预处理得到的词频矩阵生成主题矩阵时，首先对预处理得到的词频矩阵采用LDA模型训练，采用吉布斯采样法（Gibbs Sampling)推导模型的隐含变量，利用得到的数据，生成可分解为低秩矩阵和稀疏矩阵特性的主题矩阵。
[0013] 进一步，主题矩阵的具体产生步骤如下：
[0014] 应用LDA模型对文本集进行训练得到文本集的主题分布0和主题的单词分布 0 ;
[0015] 统计文档中单词被分配给每个主题的次数，与主题阔值T(0)进行比较，将大于阔值的主题标签分配给每个文档，一个文档可W有多个主题标签；
[0016]

【权利要求】
1. 一种基于低秩分解的精细主题挖掘方法，其特征在于，该基于低秩分解的精细主题挖掘方法包括：步骤一，对原始语料文本进行分词及去停词处理；步骤二，对预处理得到的词频矩阵生成主题矩阵；步骤三，分解主题矩阵，将原始语料文本分解为主题背景及关键词。
2. 如权利要求1所述的基于低秩分解的精细主题挖掘方法，其特征在于，在步骤一中，对于中文语料，采用计算所分词系统的C#版对原始语料进行分词处理；在步骤一中，采用停用词表法滤除文档中的无意义词。
3. 如权利要求1所述的基于低秩分解的精细主题挖掘方法，其特征在于，在步骤二中，对预处理得到的词频矩阵生成主题矩阵时，首先对预处理得到的词频矩阵采用LDA模型训练，采用吉布斯采样法推导模型的隐含变量，利用得到的数据，生成分解为低秩矩阵和稀疏矩阵特性的主题矩阵。
4. 如权利要求2所述的基于低秩分解的精细主题挖掘方法，其特征在于，主题矩阵的具体产生步骤如下：应用LDA模型对文本集进行训练得到文本集的主题分布0和主题的单词分布0 ; 统计文档中单词被分配给每个主题的次数，与主题阈值T(0)进行比较，将大于阈值的主题标签分配给每个文档，一个文档有多个主题标签；
其中，T( 0J表示第i个主题的主题阈值，Ndi表示第d个文档中属于第i个主题的单词数，D表示文档数；根据主题的单词分布0，在文本集词典中选取大于词典阈值T(f3)的单词子集作为主题词典；
T(^i)表示第i个主题的词典阈值，Nvi表示第V个单词属于第i个主题的次数，V表示单词总数，A取5,且保证T( 0J不小于2 ; 根据主题标签和主题词典，对每一个主题生成该主题的主题矩阵，根据语料库的大小调节主题阈值T(0)和词典阈值T(f3)的值，使产生的主题矩阵符合低秩部分与稀疏部分的和的特性。
5. 如权利要求1所述的基于低秩分解的精细主题挖掘方法，其特征在于，在步骤三中，分解主题矩阵，将原始语料文本分解为主题背景及关键词时，首先，RPCA算法的增量拉格朗日乘子实现，定义两个变量St (X)和Dt (X)如下： ST(X)= sgn(X)max (IXI- T，〇) (3) DT (x) = US T (2) V*, X = U 2 V* 其中ST (x)是对一个数x的定义，若x换成矩阵，则表示对于一个矩阵中的每个元素做上述操作；然后，对于每个主题对应的主题矩阵，应用RPCA算法进行矩阵分解，得到每个主题的低秩矩阵和稀疏矩阵。
6. 如权利要求5所述的基于低秩分解的精细主题挖掘方法，其特征在于，RPCA算法的增量拉格朗日乘子实现流程如下：初始化：SQ=Y。= 0，y>0 ; 循环，直至收敛： [a'i=D_Sk +/d'Y丨J Sk+1 =SxuAM-Lk^1+^Yk) Yk+1=Yk+y(M-Lk+1-Sk+1); 循环结束，输出L,S。
7. 如权利要求4所述的基于低秩分解的精细主题挖掘方法，其特征在于，X设置如下：
其中m，n分别表示矩阵的行数和列数，在低秩矩阵中的单词代表该主题的背景词，作为该主题的内容概要，稀疏矩阵中的单词则代表了该主题下每个文档的侧重点。
【文档编号】G06F17/30GK104504087SQ201410827865
【公开日】2015年4月8日申请日期:2014年12月25日优先权日:2014年12月25日
【发明者】孙显, 许光銮, 付琨, 胡岩峰, 郑歆慰, 田璟, 刁文辉申请人:中国科学院电子学研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙显;许光銮;付琨;胡岩峰;郑歆慰;田璟;刁文辉;
技术所有人：中国科学院电子学研究所;
我是此专利的发明人

上一篇：基于理想重构滤波器冲激响应拟合的数字积分器实现方法
上一篇：网页页面的聚类方法和装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。