基于dmr的混合长度文本集的文本聚类方法

文档序号：10725136阅读：414来源：国知局

基于dmr的混合长度文本集的文本聚类方法
【专利摘要】本发明公开了一种基于DMR的混合长度文本集的文本聚类方法。本发明是混合长度文本集，与传统的长文本集相比，具有普适性；并且采用了DMR方法确定模型的先验参数，改进了传统聚类使用人为设定先验值得方法；较传统混合文本集而言，长短文本集共享相同的主题。本发明简单易行，使用效果好。
【专利说明】
基于DMR的混合长度文本集的文本聚类方法
技术领域
[0001] 本发明涉及计算机技术领域，尤其是一种基于DMR的混合长度文本集的文本聚类方法。
【背景技术】
[0002] 随着大数据时代的到来，从海量文本数据中挖掘潜在的主题信息变得越来越重要。
[0003] 为了在海量的数据中找到满足用户需求且有价值的内容，在文本挖掘领域，通常采用的是文本聚类方法。文本聚类是指将一个给定的文本数据集分成多个数据类，每个类内的文本语义高度相似，而类间语义相似度极低。目前，文本聚类方法广泛地被用于文本挖掘领域，尤其是在信息检索、智能搜索引擎等领域。
[0004] 文本根据长度的不同分为长文本和短文本两类。现有的技术对单独的长文本聚类已经做得相当成熟，在对单独的短文本聚类方面也取得了一些成绩，但由于短文本自身的两大特点:特征高度稀疏和上下文依赖性强。针对短文本的聚类方法依然需要探索和改进。同样针对混合长度文本集的聚类依然由于短文本的特征问题无法获得理想的聚类效果。
[0005] 目前，基于概率主题模型的文本聚类算法层出不群，它们针对长文本(新闻、博客以及邮件等)往往有很好的聚类效果。但是随着微博等社交形式爆发式的发展，挖掘潜藏在这类短文本中的语义是非常必要的，然而由于短文本的关键特征非常稀疏且上下文依赖性强，直接应用长文本的聚类方法，产生的聚类效果不如人意。当然，我们知道，实际生活中的文本集包括长文本集和短文本集两种，目前为止，针对混合长度文本集的聚类方法还处于不成熟阶段，仍有许多改进之处。

【发明内容】

[0006] 本发明所要解决的技术问题是：提供一种基于DMR的混合长度文本集的文本聚类方法，它能实现优于现有技术的聚类效果。
[0007] 本发明是这样实现的：基于DMR的混合长度文本集的文本聚类方法，包括如下步骤： 1) 将原始的混合长度文本集进行文本预处理； 2) 将预处理好的文本集分为长文本集和短文本集； 3) 运用DMR方法对文本集进行建模； 4) 根据模型，获得整个语料库的主题-词分布以及长短文本各自的文档-主题分布； 5) 根据所述分布实现相应的混合长度文本聚类。
[0008] 在步骤1)中所述的进行文本预处理，文本集采用与数据库、图形图像或计算机网络相关的论文集，预处理包括分词及去停用词过程。
[0009] 步骤2)中将预处理好的文本集分为长文本集和短文本集，内容小于140个字符的文本集术语短文本集，否则则为长文本集;将文本集的每篇论文的Abstractb部分划分到长文本集，将文本集中每篇论文的标题划分到短文本集中。
[0010] 步骤3)中所述的建模是利用长文本集辅助短文本集建模，两者具有相同的词-主题分布。
[0011] 建模过程中，采用了狄利克雷多项式回归的方法即DMR方法作为文档-主题的对数线性先验。由于长短文本集各自的先验信息不同，故长短文本会产生不同的先验参数，本模型采用的先验信息为当前文档是长文本还是短文本，若为长文本则标记为1，若为短文本标记为0。
[0012] 由于短文本具有特征稀疏性和上下文依赖性强的缺点，因此在对混合长度文本集的建模过程中，借助长文本信息辅助短文本有助于产生相对较好的效果。在所述的建模过程中，长短文本集具有相同的主题-词分布，因此能够达到长文本信息辅助短文本的目标。
[0013] 与现有技术相比，本发明是混合长度文本集，与传统的长文本集相比，具有普适性;并且采用了 DMR方法确定模型的先验参数，改进了传统聚类使用人为设定先验值得方法;较传统混合文本集而言，长短文本集共享相同的主题。本发明简单易行，使用效果好。
【附图说明】
[0014] 图1是本发明的实施例的执行流程图；图2是本发明的实施例的模型。
【具体实施方式】
[0015] 本发明的实施例1:基于DMR的混合长度文本集的文本聚类方法，本实施例的流程如图所示：首先执行si步骤，获取待聚类的混合文本集，本实施例采用的是源自Twitter的数据集；其次执行s2,对混合长度文本集进行文本预处理工作；对英文文本来说，需要进行分词、去除停用词、词根还原等工作;经过预处理步骤之后，去除文本中冗余的信息，使得文本集变得简洁工整非常节省资源且便于计算；为了实现长文本更好的辅助短文本，执行s3步骤，提取论文集中每篇论文中的 Abstract部分，将其纳入到长文本集中，形成辅助文本集，否则提取每篇论文的标题，纳入到短文本集中，形成待辅助文本集；长短文本被划分完毕以后，执行s4步骤建立模型;在该模型中，长短文本集共同使用了一个主题-词分布矩阵，是使用长文本辅助短文本的精髓所在;但另一方面因为要通过狄利克雷多项式回归方法确定各自不同的先验参数，所以各自的主题分布也是不相同的。如图2 所示。
[0016] 首先解释模型中的符号。本实例中主要的符号标量如表1所示。
[0017] 表1
下面说明本实例模型的生成过程：
建立模型之后，执行本发明的s5步骤，在该步骤中，给每篇文档中的每个词赋予一个随机的主题，作为马氏链的初始状态。
[0018] 由于本实施例使用的是混合长度文本集，所以在更新文本主题时，若为长文本，则执行s6步骤，若为短文本，则执行s7步骤。在这两个步骤中，均使用吉布斯(Gibbs)采样进行主题更新，其更新规则如下：
当吉布斯取样器达到收敛状态时就可以得到采样结果并通过统计得到参数估计。
[0019] 执行s8步骤获得短文本的文档-主题分布，执行s9获取整个语料库的主题-词分布，执行slO步骤，获得长文本的文档-主题分布。
[0020] 执行本发明的sll步骤，实现文本的聚类。
[0021] 以上是本发明的实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的情况下，可以做出若干改进，而这些改进也视为本发明的保护范围。
【主权项】
1. 一种基于DMR的混合长度文本集的文本聚类方法，其特征在于:包括如下步骤： 1) 将原始的混合长度文本集进行文本预处理； 2) 将预处理好的文本集分为长文本集和短文本集； 3) 运用DMR方法对文本集进行建模； 4) 根据模型，获得整个语料库的主题-词分布以及长短文本各自的文档-主题分布； 5) 根据所述分布实现相应的混合长度文本聚类。2. 根据权利要求1所述的基于DMR的混合长度文本集的文本聚类方法，其特征在于:在步骤1)中所述的进行文本预处理，文本集采用与数据库、图形图像或计算机网络相关的论文集，预处理包括分词及去停用词过程。3. 根据权利要求1所述的基于DMR的混合长度文本集的文本聚类方法，其特征在于：步骤2)中将预处理好的文本集分为长文本集和短文本集，内容小于140个字符的文本集术语短文本集，否则则为长文本集;将文本集的每篇论文的Abstractb部分划分到长文本集，将文本集中每篇论文的标题划分到短文本集中。4. 根据权利要求3所述的基于DMR的混合长度文本集的文本聚类方法，其特征在于：步骤3)中所述的建模是利用长文本集辅助短文本集建模，两者具有相同的词-主题分布。
【文档编号】G06F17/27GK106096014SQ201610469360
【公开日】2016年11月9日
【申请日】2016年6月25日
【发明人】黄瑞章, 闫盈盈, 王瑞, 钟文良, 黄庭, 李晶, 陈功, 刘博伟, 朱坤, 王振军
【申请人】贵州大学, 贵州耕云科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄瑞章;闫盈盈;王瑞;钟文良;黄庭;李晶;陈功;刘博伟;朱坤;王振军;
技术所有人：贵州大学;贵州耕云科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。