基于tf-idf特征的短文本聚类以及热点主题提取方法

文档序号：6622351阅读：3999来源：国知局

基于tf-idf特征的短文本聚类以及热点主题提取方法
【专利摘要】本发明公开了一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,该方法包括以下步骤：首先，对短文本样本进行中文分词，并筛选出高频词汇；接着，基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成，建立整个样本特征向量空间模型；然后，运用SVD奇异值分解进行样本空间维度的约减；最后，结合余弦定理和k-means方法对短文本样本进行聚类，并通过可视化的分析手段找出每一个类簇中潜在的热点主题。本发明能够很好的处理短文本的特征选择问题、样本控件维度约减问题以及聚类问题，与此同时本方法还借助可视化技术来对聚类结果进行可视化分析，最后进行热点主题的提取和分析。
【专利说明】基于TF-IDF特征的短文本聚类以及热点主题提取方法

【技术领域】
[0001] 本发明涉及数字文本挖掘技术，特别是涉及文本的聚类以及相应的热点主题提取的方法。

【背景技术】
[0002] 文本聚类多年来一直是研究学者致力于研究、探索和解决的热点问题之一，时至今日，仍有诸多难题亟需解决，例如在进行聚类时，样本不均衡，样本特征维度过高，聚类算法复杂度太大等都带来了极大的挑战。与此同时，伴随着计算机的快速发展，每天都有海量的文本数据生成，随着数据的激增我们进入了大数据的时代，伴随而来的是更多更复杂，更难解决的问题。

【发明内容】

[0003] 为了克服上述现有技术存在的问题，本发明提出一种基于TF-IDF特征的短文本聚类以及热点主题提取方法，针对短文本样本，通过提取TF-IDF特征能够有效的进行短文本样本聚类以及相关热点主题的提取，结合并使用了 TF-IDF特征、SVD奇异值分解、余弦定理、k-means聚类等技术，能够有效地进行短文本聚类、热点主题提取和数据挖掘与分析。
[0004] 本发明提出了一种基于TF-IDF特征的短文本聚类以及热点主题提取方法，该方法包括以下步骤：
[0005] 首先，对短文本样本进行中文分词，并筛选出高频词汇；接着，基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成，建立整个样本特征向量空间模型；然后，运用SVD奇异值分解进行样本空间维度的约减；最后，结合余弦定理和 k-means方法对短文本样本进行聚类，并通过可视化的分析手段找出每一个类簇中潜在的热点主题。
[0006] 所述对短文本样本进行中文分词，并筛选出高频词汇的步骤，具体包括以下操作：
[0007] 对所有样本进行中文分词，依照其出现的频率从大到小排列，然后从大到小逐个选择高频词汇，，直到已经选择词的词频和与总词频的比例达到9比10。
[0008] 所述对每一个短文本样本进行TF-IDF特征提取和生成的步骤，具体包括以下操作：
[0009] TF代表这一个词在一个样本中出现的次数，IDF代表这一个词在所有样本中出现的次数，由TF和IDF两部分相乘，得到一个具体的词对于一个样本的重要程度；对每一个样本的所有维度进行该样本的重要程度的计算，生成每一个样本的TF-IDF特征向量，
[0010] FeatureVector = {f^ f2, f3, ···, fj ； (1)
[0011] 公式1中，样本的TF-IDF特征计算公式为：
[0012] fn = tf-idf (tn, d, D) = tf (tn, d) *idf (tn, D) ； (2)
[0013] 公式2中，tf值计算公式为：
[0014] tf (tn, d = NumberofTimes (tn), (3)
[0015] 公式3中，idf值计算公式为：
[0016]

【权利要求】
1. 一种基于TF-IDF特征的短文本聚类以及热点主题提取方法，其特征在于，该方法包括以下步骤：首先，对短文本样本进行中文分词，并筛选出高频词汇；接着，基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成，建立整个样本特征向量空间模型；然后，运用SVD奇异值分解进行样本空间维度的约减；最后，结合余弦定理和k-means 方法对短文本样本进行聚类，并通过可视化的分析手段找出每一个类簇中潜在的热点主题。
2. 如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法，其特征在于，所述对短文本样本进行中文分词，并筛选出高频词汇的步骤，具体包括以下操作：对所有样本进行中文分词，依照其出现的频率从大到小排列，然后从大到小逐个选择高频词汇，，直到已经选择词的词频和与总词频的比例达到9比10。
3. 如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法，其特征在于，所述对每一个短文本样本进行TF-IDF特征提取和生成的步骤，具体包括以下操作： TF代表这一个词在一个样本中出现的次数，IDF代表这一个词在所有样本中出现的次数，由TF和IDF两部分相乘，得到一个具体的词对于一个样本的重要程度；对每一个样本的所有维度进行该样本的重要程度的计算，生成每一个样本的TF-IDF特征向量： FeatureVector = {f1; f2, f3, ···, fn} ; (1) 公式（1)中，样本的TF-IDF特征计算公式为： fn = tf-idf (tn, d, D) = tf (tn, d) *idf (tn, D) ； (2) 公式（2)中，tf值计算公式为： tf (tn, d = NumberofTimes (tn), (3) 公式（2)中，idf值计算公式为：
(4) 其中，公式（2)、（3)、（4)中，D为所有文本样本集合，d为具体的某一个样本，tn为第η 个高频词汇，即一个特征；上述所有样本的TF-IDF特征向量组成矩阵，该矩阵即为样本特征向量空间模型。
4. 如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法，其特征在于，所述运用SVD奇异值分解进行样本空间维度的约减的步骤，具体包括以下操作：通过计算样本空间矩阵的奇异值并按大小从大到小排列，取前r个奇异值使得r个奇异值的奇异值之和占总奇异值之和的90%，将特征向量样本空间的高维度约减到r维：
5. 如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法，其特征在于，结合余弦定理对短文本样本进行聚类的步骤，具体包括以下操作：计算两个样本的特征向量之间的余弦值，如果两个向量之间的余弦值越接近1说明两个样本越相似，应该被分为一类，如果余弦值越接近〇说明两个样本越无关。
6. 如权利要求5所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法，其特征在于，在结合余弦定理对短文本样本进行聚类的步骤的聚类结果上，采用k-means方法对短文本样本进行聚类，具体包括以下步骤：首先用户输入一个阈值，即类簇内所有样本间距离的平均值；采用k-means方法先对样本空间进行粗粒的聚类，紧接着对每一个类簇进行判断，判断类簇内的样本间相互的平均余弦距离是否大于阈值，如果大于则会进一步进行分割聚类，反之对于这个类的进一步分割则会停止；得到了所有样本的一个分类结果。
7.如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法，其特征在于，所述通过可视化的分析手段找出每一个类簇中潜在的热点主题，具体包括以下操作：采用d3. js可视分析技术，对每一个类簇间的特征之间的关系进行可视化显示与分析，以此对每一类簇内的热点主题进行提取。
【文档编号】G06F17/27GK104142918SQ201410378785
【公开日】2014年11月12日申请日期:2014年7月31日优先权日:2014年7月31日
【发明者】郑岩, 孟昭鹏, 徐超, 张亚男申请人:天津大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑岩;孟昭鹏;徐超;张亚男
技术所有人：天津大学
我是此专利的发明人

上一篇：一种笔记本电脑散热系统的制作方法
上一篇：一种电脑机箱通风散热结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。