基于转发关系的微博聚类方法

文档序号:8943063阅读:1056来源:国知局
基于转发关系的微博聚类方法
【技术领域】
[0001] 本发明涉及微博文本聚类的技术领域,特别涉及一种基于微博转发关系的微博聚 类方法。
【背景技术】
[0002] 文本聚类(Text clustering)就是将相似度大的文档归类到一个类(即:聚类), 不同类之间的文档相似度小。在给定的聚类规则和算法体系下,根据文档的内容进行归类, 使其最终结果符合聚类结果要求的过程。
[0003] 微博文本和其他文本存在着很多不同,第一,微博文本限制在140字符之内,每个 人发表的文本长短不一,很多时候只是一个句子甚至是一个短语;第二,微博文本的语法存 在着非正式性,常常带有一些口语,并且,在这些句子中通常会存在拼写错误、网络语言和 一些表情符号和缩略语;第三,微博文本带有一些其他文本所没有的一些元素,比如说是作 者、发布时间、评论数量、转发数量、赞数等;第四,微博文本与微博文本之间存在转发与被 转发的关系;第五,这些文本带有着内容带有着比其他文本更加突出的主观性。
[0004] 微博中含有着大量的隐藏信息,从大量的微博文本中提取出有效有用的信息是微 博研究的重点,例如事件监测,话题跟踪,提取摘要等,而微博文本的聚类则是微博文本挖 掘的一个重要的方法。
[0005] 由于微博文本所具有的这些特征,传统的文本处理方式不适用于该类变异短文本 的处理。在现有的微博文本聚类研究中,提高聚类效果的方法大概的有两种,一个是通过文 本特征扩展的方式来扩充特征空间,对拓展的特征集进行特征选择,最后建立学习模型;另 一种是考虑微博的数据的特征来对学习模型进行优化,进而提高微博聚类的效果。这些方 法大多是考虑微博文本本身的特征,而未能考虑微博文本与微博文本之间的关系。而本发 明能够较好地解决上面的问题。

【发明内容】

[0006] 本发明目的在于提供一种基于转发关系的微博聚类方法,该方法解决了微博文本 特征稀疏造成的聚类效果不佳的问题。该方法根据微博文本间的转发关系以及转发文本之 间的主题相似性,构建了微博转发关系有向图,将转发关系作为单向边,使用微博作为节点 构成图,将相互连通的部分视作一个小簇,本发明称之为转发关系簇。在这个小簇中所有微 博有同一个最初的转发源,本发明认为它们之间互相具有转发关系,将转发关系簇作为聚 类的初始对象,进行文本聚类。
[0007] 方法流程:
[0008] 步骤1 :提取微博文本中的hashtag信息;
[0009] 步骤2 :使用ICTCLAS分词系统对微博文本和标签进行分词,并去除非实词和停用 词;
[0010] 步骤3 :基于本文的特征权重的计算方法,计算词项的权重;
[0011] 步骤4 :基于微博的转发关系,构造转发关系矩阵;
[0012] 步骤5 :基于转发关系构造聚类的初始簇;
[0013] 步骤6 :基于初始簇,使用基于最大最小距离和SSE的自适应聚类算法,并使用余 弦距离度量文本间的相似度,进行聚类;
[0014] 步骤7:输出聚类的结果。
[0015] 本发明上述步骤3中是特征权重的计算方法是根据公式hi^weighu X Wu计算得到 的,其中的常量λ是在大量的实验后根据经验的到的。
[0016] 本发明上述步骤4中构造转发关系矩阵,是基于每个转发关系生成一个转发关系 邻接矩阵。
[0017] 本发明上述步骤5中构造聚类初始簇,是基于图的广度优先遍历,将同一转发链 中的微博放入转发簇中。
[0018] 本发明上述步骤6中的基于最大最小距离和SSE的自适应聚类算法的初始点是基 于每个初始簇的中心,计算出它们的最大最小距离得到的。
[0019] 有益效果:
[0020] 本发明基于转发关系构造聚类的初始簇,以转发关系簇为基本单位进行聚类,采 用基于最大最小距离和SSE的自适应聚类算法中的方法计算得到初始中心,改善了在多主 题多类别下,微博文本特征稀疏造成的聚类效果不佳的问题,提高了文本特征稀疏的微博 文本的聚类准确率。
【附图说明】
[0021] 图1为本发明的方法流程图。
[0022] 图2为本发明实施例中的实验微博数据示意图。
【具体实施方式】
[0023] 下面结合说明书附图对本发明作进一步的详细说明。
[0024] 如图1所示,本发明提出一种基于转发关系的微博聚类方法。其包括如下步骤
[0025] 1、微博文本预处理
[0026] 对于已有的微博文本,本发明使用分词软件NLPIR2015来进行分词预处理操作, 具体的步骤如下所示:
[0027] 步骤1 :通过调用NLPIR2015中提供的新词发现功能,以微博数据中每5000条微 博为一组作为输入文本找出新词,并存入新词词典文件中。
[0028] 步骤2 :对于每条微博用正则表达式提取出hashtag
[0029] 步骤3 :对每一条微博,调用NLPIR2015进行分词
[0030] 2、计算文本特征词的特征权重
[0031] 对此本发明计算每条微博中的所有特征词的词频为
其中tf^表示的 是词在微博dj内的相对词频,f (Wi)表示的是词Wi在微博d 内出现的次数,n (d J表示的 是微博士保留的特征词的个数。 CN 105159905 A VL 贝
[0032] 对于每个词,计算它的逆文档频率
、其中ni为包含词^的文档数 量,N为文档的总数量,为了消除由文本长短不同造成的权重的差异,本发明队权重进行标 准化。则,该词汇在微博d,中基于词频-反文档频率的权重公式如下面的公式所示:
[0033]
[0034] 对于微博中的话题信息,本发明在之前的分词工作中已经提取出话题,并对其进 行分词,根据分词后的信息,本发明基于TF-IDF为特征词定义权重,如下面公式所示:
[0036] Iii^weighu表示的一个词的词标签权重,第一个式子表示词w ;在微博hashtag中 时,词的标签权重,第二个表示标签中不存在该词时的标签权重。其中Mflj表示的是在标 签中的相对词频,hN表示的是包含标签的微博个数,!^表示的是hashtag中包含词wi的 微博个数,λ为一个常数。
[0037] 本发明可以得到最后的特征权重公式
[0038] Weighij= ht_weigh uXwij (3)
[0039] 该方法在考虑了微博中的hashtag的信息的基础上,对含有hashtag信息的特征 词项进行加权,在一定程度上提高了聚类的效果。经多次实验,选择λ的值为1.5。由于 hashtag只占有25 %左右,故对于微博的文本聚类而言,hashtag对聚类的结果影响不大。
[0040] 3、构造转发关系矩阵
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1