基于tf-idf特征的短文本聚类以及热点主题提取方法

文档序号:6622351阅读:3999来源:国知局
基于tf-idf特征的短文本聚类以及热点主题提取方法
【专利摘要】本发明公开了一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,该方法包括以下步骤:首先,对短文本样本进行中文分词,并筛选出高频词汇;接着,基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成,建立整个样本特征向量空间模型;然后,运用SVD奇异值分解进行样本空间维度的约减;最后,结合余弦定理和k-means方法对短文本样本进行聚类,并通过可视化的分析手段找出每一个类簇中潜在的热点主题。本发明能够很好的处理短文本的特征选择问题、样本控件维度约减问题以及聚类问题,与此同时本方法还借助可视化技术来对聚类结果进行可视化分析,最后进行热点主题的提取和分析。
【专利说明】基于TF-IDF特征的短文本聚类以及热点主题提取方法

【技术领域】
[0001] 本发明涉及数字文本挖掘技术,特别是涉及文本的聚类以及相应的热点主题提取 的方法。

【背景技术】
[0002] 文本聚类多年来一直是研究学者致力于研究、探索和解决的热点问题之一,时至 今日,仍有诸多难题亟需解决,例如在进行聚类时,样本不均衡,样本特征维度过高,聚类算 法复杂度太大等都带来了极大的挑战。与此同时,伴随着计算机的快速发展,每天都有海量 的文本数据生成,随着数据的激增我们进入了大数据的时代,伴随而来的是更多更复杂,更 难解决的问题。


【发明内容】

[0003] 为了克服上述现有技术存在的问题,本发明提出一种基于TF-IDF特征的短文本 聚类以及热点主题提取方法,针对短文本样本,通过提取TF-IDF特征能够有效的进行短文 本样本聚类以及相关热点主题的提取,结合并使用了 TF-IDF特征、SVD奇异值分解、余弦定 理、k-means聚类等技术,能够有效地进行短文本聚类、热点主题提取和数据挖掘与分析。
[0004] 本发明提出了一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,该方 法包括以下步骤:
[0005] 首先,对短文本样本进行中文分词,并筛选出高频词汇;接着,基于筛选出的高 频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成,建立整个样本特征向量 空间模型;然后,运用SVD奇异值分解进行样本空间维度的约减;最后,结合余弦定理和 k-means方法对短文本样本进行聚类,并通过可视化的分析手段找出每一个类簇中潜在的 热点主题。
[0006] 所述对短文本样本进行中文分词,并筛选出高频词汇的步骤,具体包括以下操 作:
[0007] 对所有样本进行中文分词,依照其出现的频率从大到小排列,然后从大到小逐个 选择高频词汇,,直到已经选择词的词频和与总词频的比例达到9比10。
[0008] 所述对每一个短文本样本进行TF-IDF特征提取和生成的步骤,具体包括以下操 作:
[0009] TF代表这一个词在一个样本中出现的次数,IDF代表这一个词在所有样本中出现 的次数,由TF和IDF两部分相乘,得到一个具体的词对于一个样本的重要程度;对每一个样 本的所有维度进行该样本的重要程度的计算,生成每一个样本的TF-IDF特征向量,
[0010] FeatureVector = {f^ f2, f3, ···, fj ; (1)
[0011] 公式1中,样本的TF-IDF特征计算公式为:
[0012] fn = tf-idf (tn, d, D) = tf (tn, d) *idf (tn, D) ; (2)
[0013] 公式2中,tf值计算公式为:
[0014] tf (tn, d = NumberofTimes (tn), (3)
[0015] 公式3中,idf值计算公式为:
[0016]

【权利要求】
1. 一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征在于,该方法包 括以下步骤: 首先,对短文本样本进行中文分词,并筛选出高频词汇;接着,基于筛选出的高频词汇 自动地对每一个短文本样本进行TF-IDF特征提取和生成,建立整个样本特征向量空间模 型;然后,运用SVD奇异值分解进行样本空间维度的约减;最后,结合余弦定理和k-means 方法对短文本样本进行聚类,并通过可视化的分析手段找出每一个类簇中潜在的热点主 题。
2. 如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征 在于,所述对短文本样本进行中文分词,并筛选出高频词汇的步骤,具体包括以下操作: 对所有样本进行中文分词,依照其出现的频率从大到小排列,然后从大到小逐个选择 高频词汇,,直到已经选择词的词频和与总词频的比例达到9比10。
3. 如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征 在于,所述对每一个短文本样本进行TF-IDF特征提取和生成的步骤,具体包括以下操作: TF代表这一个词在一个样本中出现的次数,IDF代表这一个词在所有样本中出现的次 数,由TF和IDF两部分相乘,得到一个具体的词对于一个样本的重要程度;对每一个样本的 所有维度进行该样本的重要程度的计算,生成每一个样本的TF-IDF特征向量: FeatureVector = {f1; f2, f3, ···, fn} ; (1) 公式(1)中,样本的TF-IDF特征计算公式为: fn = tf-idf (tn, d, D) = tf (tn, d) *idf (tn, D) ; (2) 公式(2)中,tf值计算公式为: tf (tn, d = NumberofTimes (tn), (3) 公式(2)中,idf值计算公式为:
(4) 其中,公式(2)、(3)、(4)中,D为所有文本样本集合,d为具体的某一个样本,tn为第η 个高频词汇,即一个特征; 上述所有样本的TF-IDF特征向量组成矩阵,该矩阵即为样本特征向量空间模型。
4. 如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征 在于,所述运用SVD奇异值分解进行样本空间维度的约减的步骤,具体包括以下操作: 通过计算样本空间矩阵的奇异值并按大小从大到小排列,取前r个奇异值使得r个奇 异值的奇异值之和占总奇异值之和的90%,将特征向量样本空间的高维度约减到r维:
5. 如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征 在于,结合余弦定理对短文本样本进行聚类的步骤,具体包括以下操作: 计算两个样本的特征向量之间的余弦值,如果两个向量之间的余弦值越接近1说明两 个样本越相似,应该被分为一类,如果余弦值越接近〇说明两个样本越无关。
6. 如权利要求5所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征 在于,在结合余弦定理对短文本样本进行聚类的步骤的聚类结果上,采用k-means方法对 短文本样本进行聚类,具体包括以下步骤: 首先用户输入一个阈值,即类簇内所有样本间距离的平均值;采用k-means方法先对 样本空间进行粗粒的聚类,紧接着对每一个类簇进行判断,判断类簇内的样本间相互的平 均余弦距离是否大于阈值,如果大于则会进一步进行分割聚类,反之对于这个类的进一步 分割则会停止;得到了所有样本的一个分类结果。
7.如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特 征在于,所述通过可视化的分析手段找出每一个类簇中潜在的热点主题,具体包括以下操 作: 采用d3. js可视分析技术,对每一个类簇间的特征之间的关系进行可视化显示与分 析,以此对每一类簇内的热点主题进行提取。
【文档编号】G06F17/27GK104142918SQ201410378785
【公开日】2014年11月12日 申请日期:2014年7月31日 优先权日:2014年7月31日
【发明者】郑岩, 孟昭鹏, 徐超, 张亚男 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1