一种基于主题模型的文本关键词提取方法

文档序号:6534723阅读:2033来源:国知局
一种基于主题模型的文本关键词提取方法
【专利摘要】本发明公开了一种基于主题模型的文本关键词提取方法,该方法首先利用主题模型的方法从大量文本训练集中由主题模型训练得到的词项与主题之间的训练文本集的词项与主题的概率矩阵WT,进而得到候选关键词集合A中词项与主题的概率向量的集合所组成的候选的关键词的词项与主题的概率矩阵B、候选关键词集合对应的候选关键词词频权重向量D,通过候选关键词词项的权重向量和文本的主题向量,利用候选关键词语主题的概率矩阵B进行循环计算操作,得到最终修正后的文本主题向量和词项权重比例向量,进而提取出文本的关键词。该方法降低文本由于不同长度所提取关键词的误差,提取更能适合表达文本内容的关键词。
【专利说明】一种基于主题模型的文本关键词提取方法
【技术领域】
[0001]本发明涉及一种从文本中提取关键词的方法,更具体地说,涉及一种基于从主题模型中得到词项与主题之间的概率矩阵,然后利用该矩阵从文本中提取更能表达文本主题内容关键词的方法。
【背景技术】
[0002]利用计算机在对文本处理之前,需要对文本进行形式化表示。在传统的方法中,通常是从文本中提取的关键词来表不文本的内容。从文本中提取关键词,其中关键词的词频是作为一个非常重要的依据。但是,由于不同类型的文本的长度是不同,关键词的词频将会出现较大的误差。特别是对短文本,短文本中的很多词项仅仅只是出现一次。在上述情况下,若将词项的词频作为从文本中提取关键词的依据,势必难以获得较好的效果。而且传统的文本关键词提取方法并没有根据应用对所提取的方法进行偏向性地处理,使得传统提取文本关键词的泛型方法在特定的应用背景下,效果将进一步下降。2003年Be1.在Journalof Machine Learning Research 发表的一篇名为 “Latent Dirichlet Allocation,,的论文,旨在构建一个更为完全概率生成模型的主题模型方法,使得不同长度的文本可以以相同的维度向量表示。而本发明正 是基于Ble1.的这篇论文所提出的主题模型,进而进行提取文本的关键词。

【发明内容】

[0003]本发明主要针对传统文本关键词提取技术的不足,提出一种基于主题模型的文本关键词提取方法,该方法降低不同类型文本由于不同长度所提取关键词的误差,得到更能表达文本内容的关键词。
[0004]为达到上述目的,本发明采用下述技术方案:
一种基于主题模型的文本关键词提取方法,其具体步骤如下:
⑴、利用主题模型的方法,从大量文本训练集中获取词项与主题之间的概率矩阵,该矩阵记为训练文本集的词项与主题的概率矩阵WT ;
(2)、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合^中的关键词,取出上述训练文本集的词项与主题的概率矩阵WT中候选关键词对应的一行,生成候选关键词集合对应的词项与主题之间的关系的词项与主题的概率矩阵5;
(3)、对候选关键词集合A中的元素按照词项与主题的概率矩阵#中行的元素顺序,设置一个与候选关键词集合A中的兀素对应的候选关键词向I C
(4)、按照步骤(3)所述的候选关键词向量C中候选关键词顺序,统计候选关键词在文本中的词频,得到的词频再经下列式(a)计算,得到与候选关键词向量C对应的词频权重向量JJ,其表达式为:
【权利要求】
1.一种基于主题模型的文本关键词提取方法,其特征在于,具体步骤如下: ⑴、利用主题模型的方法,从大量文本训练集中获取词项与主题之间的概率矩阵,该矩阵记为训练文本集的词项与主题的概率矩阵IfT ; (2)、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合中的关键词,取出上述训练文本集的词项与主题的概率矩阵WT中候选关键词对应的一行,生成候选关键词集合2对应的词项与主题之间的关系的词项与主题的概率矩阵; (3)、对候选关键词集合A中的元素按照词项与主题的概率矩阵中行的元素顺序,设置一个与候选关键词集合A中的元素对应的候选关键词向量C ; (4)、按照步骤(3)所述的候选关键词向量C中候选关键词顺序,统计候选关键词在文本中的词频,得到的词频再经下列式(a)计算,得到与候选关键词向』丨C吋应的候选关键词词频权重向量U,其表达式为:

2.根据权利要求1所述的一种基于主题模型的文本关键词提取方法,其特征在于,上述步骤(6)所述的利用词项与主题的概率矩阵候选关键词向量C和文本的主题向量进行循环计算,得到候选关键词对应的主题权重向量I/,其具体步骤如下: (6-1)、文本的主题向量F进行归一化计算,得到归一化后的主题向量F ; (6-2)、将词项与主题的概率矩阵#和归一化后的主题向量,相乘,其相乘之积的值赋给候选关键词的暂存向I 其计算公式如下:
Cr = BmF' (6-3)、对候选关键词的暂存向量CT进行归一化计算,得到归一化后的候选关键词向曰-JTt里G ; (6-4)、将词项与主题的概率矩阵Ji转置之后,再与候选关键词向量C相乘,其相乘之积的值赋给的文本的主题权重向量,其计算公式如下:
F = Bt * C , (6-5)、设置循环阈值(比如千分之一),重复步骤(6-1)到步骤(6-4),一直到前后两次循环之间向量C的每个元素对应的差值均小于设定的循环阈值,即停止,得到候选关键词对应的主题权重向量?,-
【文档编号】G06F17/27GK103744835SQ201410000751
【公开日】2014年4月23日 申请日期:2014年1月2日 优先权日:2014年1月2日
【发明者】陈雪, 汤文清 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1