一种针对混合长度文本集的文本聚类方法

文档序号:8258941阅读:979来源:国知局
一种针对混合长度文本集的文本聚类方法
【技术领域】
[0001] 本发明涉及信息技术领域,具体说涉及一种针对混合长度文本集的文本聚类方 法。
【背景技术】
[0002] 随着互联网的发展,网上的文本越来越多,在这些巨量的文本中进行知识发现变 得越来越困难。
[0003] 为了便于在大量的文本中查询检索用户所需的的内容,通常对文本集中的文本进 行聚类操作。聚类是一个把数据对象集划分为多个组或簇的过程,使得组内的对象具有很 高的相似性,但与其他组中的对象很不相似,相异性和相似性根据描述对象的属性值进行 评估。聚类一直以来作为知识发现和数据挖掘的强有力工具已经植根于许多应用领域,如 生物学、安全、商务智能和Web搜索。文本聚类更是近年来的一个研宄热点,例如,由于Web 页面的数目巨大,关键词搜索常常会返回大量命中的网页,可以用文本聚类将搜索结果分 组,以简明、容易访问的方式提交这些结果。
[0004] 近年来,人们已经提出了很多优秀的文本聚类算法,但它们大多数是为新闻、博客 之类的传统长文本而设计的。长文本通常包含多个主题并且具有高维度的特征表示,一般 的文档相似性测量无法考虑这种情况。最近,随着社交网络(如新浪微博)的广泛出现,短 文本扮演了非常重要的角色。短文本包含很少的词汇,特征表示的时候是非常稀疏的。有 人直接对短文本运用长文本的聚类方法,聚类的效果非常差。因此,很多研宄就提出了针对 短文本的文本聚类算法,实现了很好的聚类效果。
[0005] 然而,很多实际的数据集不仅包含长文本,也包含很多短文本,即混合长度的文本 集。由于短文本的存在,直接对混合长度文本集用基于词袋的聚类方法,也很难达到理想的 聚类效果。另一方面,如果直接对混合长度文本集用近来提出的短文本聚类算法,很多长文 本由于降维操作会有信息损失,也达不到好的聚类效果。
[0006] 因此,针对同时包含长文本以及短文本的混合长度文本集,需要一种新的文本聚 类方法以获取更为理想的聚类结果。

【发明内容】

[0007] 针对同时包含长文本以及短文本的混合长度文本集,本发明提供了一种针对混合 长度文本集的文本聚类方法,所述方法包括以下步骤:
[0008] 划分长短文本步骤,将待聚类文本集划分为长文本集和短文本集;
[0009] 建模步骤,按照特定的规则分别针对所述长文本集和所述短文本集中的文本进行 建模从而获取所述文本对应的文本模型;
[0010] 生成特征向量步骤,基于所述文本模型生成主题参数从而基于所述主题参数获取 相应文本的特征向量;
[0011] 文本聚类步骤,基于所述特征向量进行所述文本的聚类。
[0012] 在一实施例中,在所述划分长短文步骤中,基于所述文本中字符个数将所述文本 划分到所述长文本集或所述短文本集。
[0013] 在一实施例中,将所述字符个数多于140个字符的文本划分到所述长文本集,将 所述字符个数少于或等于140个字符的文本划分到所述短文本集。
[0014] 在一实施例中,在所述划分长短文步骤中,基于所述文本对应的文档主题生成模 型中特定隐藏主题的个数将所述文本划分到所述长文本集或所述短文本集。
[0015] 在一实施例中,将所述文本对应的文档主题生成模型中概率大于特定阈值的隐藏 主题定义为所述特定隐藏主题。
[0016] 在一实施例中,在所述建模步骤中,基于双主题文档主题生成模型对所述文本进 行建模。
[0017] 在一实施例中,在所述建模步骤中:
[0018] 在针对所述短文本集中的文本进行建模时利用所述长文本集中的文本进行辅助 建模,从而减缓所述文本模型的稀疏程度;
[0019] 在针对所述长文本集中的文本进行建模时利用所述短文本集中的文本进行辅助 建模,从而降低所述文本模型的特征维度。
[0020] 在一实施例中,在所述建模步骤中,在利用所述长/短文本集中的文本进行辅助 建模时,基于所述长文本集的文本个数与所述短文本集的文本个数之间的比例关系调整所 述长/短文本集中的文本的辅助程度。
[0021 ] 在一实施例中,在所述建模步骤中,在利用所述长/短文本集中的文本进行辅助 建模时,基于所述长文本集中文本个数与所述短文本集中文本个数的比值采用相应比例的 所述长/短文本集中的文本信息。
[0022] 在一实施例中,在所述生成特征向量步骤中,首先通过对所述待聚类文本集的训 练,估算出所述文本模型的参数;然后对所述参数中关于文本主题的参数进行归一化,从而 得到以主题数为维度的所述特征向量。
[0023] 与现有技术相比,本发明具有如下优点:
[0024] 本发明的聚类方法充分考虑了同时包含长文本以及短文本的混合长度文本集的 特点,在平衡混合长度文本集稀疏性以及维度的前提下进行文本聚类,相较于现有技术,获 得的聚类结果更加理想。
[0025] 本发明的其它特征或优点将在随后的说明书中阐述。并且,本发明的部分特征或 优点将通过说明书而变得显而易见,或者通过实施本发明而被了解。本发明的目的和部分 优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。
【附图说明】
[0026] 附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实 施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
[0027] 图1是根据本发明一实施例执行流程图。
【具体实施方式】
[0028] 以下将结合附图及实施例来详细说明本发明的实施方式,借此本发明的实施人员 可以充分理解本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程并依 据上述实现过程具体实施本发明。需要说明的是,只要不构成冲突,本发明中的各个实施 例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之 内。
[0029] 文本依据其长度大小可以分为短文本以及长文本两类。短文本在聚类的过程中具 有高度稀疏的特性,长文本在聚类过程中具有维度特别高的特性。现有的文本聚类方法通 常是单独针对长/短文本的高稀疏或高维度来进行文本聚类。由于混合长度文本集同时包 含较多的长文本以及短文本,其同时具有高稀疏以及高维度的特点。因此利用现有的文本 聚类方法对混合长度文本集进行聚类往往无法获得理想的聚类结果。
[0030] 本发明针对同时包含长文本以及短文本的混合长度文本集提供了 一种新的文本 聚类方法。接下来基于流程图详细描述本发明的方法的实施过程,附图的流程图中示出的 步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了 各步骤的逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步 骤。
[0031] 执行本发明的方法,首先执行步骤S100,获取待聚
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1