基于转发关系的微博聚类方法

文档序号：8943063阅读：1056来源：国知局

基于转发关系的微博聚类方法
【技术领域】
[0001] 本发明涉及微博文本聚类的技术领域，特别涉及一种基于微博转发关系的微博聚类方法。
【背景技术】
[0002] 文本聚类（Text clustering)就是将相似度大的文档归类到一个类（即：聚类），不同类之间的文档相似度小。在给定的聚类规则和算法体系下，根据文档的内容进行归类，使其最终结果符合聚类结果要求的过程。
[0003] 微博文本和其他文本存在着很多不同，第一，微博文本限制在140字符之内，每个人发表的文本长短不一，很多时候只是一个句子甚至是一个短语；第二，微博文本的语法存在着非正式性，常常带有一些口语，并且，在这些句子中通常会存在拼写错误、网络语言和一些表情符号和缩略语；第三，微博文本带有一些其他文本所没有的一些元素，比如说是作者、发布时间、评论数量、转发数量、赞数等；第四，微博文本与微博文本之间存在转发与被转发的关系；第五，这些文本带有着内容带有着比其他文本更加突出的主观性。
[0004] 微博中含有着大量的隐藏信息，从大量的微博文本中提取出有效有用的信息是微博研究的重点，例如事件监测，话题跟踪，提取摘要等，而微博文本的聚类则是微博文本挖掘的一个重要的方法。
[0005] 由于微博文本所具有的这些特征，传统的文本处理方式不适用于该类变异短文本的处理。在现有的微博文本聚类研究中，提高聚类效果的方法大概的有两种，一个是通过文本特征扩展的方式来扩充特征空间，对拓展的特征集进行特征选择，最后建立学习模型；另一种是考虑微博的数据的特征来对学习模型进行优化，进而提高微博聚类的效果。这些方法大多是考虑微博文本本身的特征，而未能考虑微博文本与微博文本之间的关系。而本发明能够较好地解决上面的问题。

【发明内容】

[0006] 本发明目的在于提供一种基于转发关系的微博聚类方法，该方法解决了微博文本特征稀疏造成的聚类效果不佳的问题。该方法根据微博文本间的转发关系以及转发文本之间的主题相似性，构建了微博转发关系有向图，将转发关系作为单向边，使用微博作为节点构成图，将相互连通的部分视作一个小簇，本发明称之为转发关系簇。在这个小簇中所有微博有同一个最初的转发源，本发明认为它们之间互相具有转发关系，将转发关系簇作为聚类的初始对象，进行文本聚类。
[0007] 方法流程：
[0008] 步骤1 :提取微博文本中的hashtag信息；
[0009] 步骤2 :使用ICTCLAS分词系统对微博文本和标签进行分词，并去除非实词和停用词；
[0010] 步骤3 :基于本文的特征权重的计算方法，计算词项的权重；
[0011] 步骤4 :基于微博的转发关系，构造转发关系矩阵；
[0012] 步骤5 :基于转发关系构造聚类的初始簇；
[0013] 步骤6 :基于初始簇，使用基于最大最小距离和SSE的自适应聚类算法，并使用余弦距离度量文本间的相似度，进行聚类；
[0014] 步骤7:输出聚类的结果。
[0015] 本发明上述步骤3中是特征权重的计算方法是根据公式hi^weighu X Wu计算得到的，其中的常量λ是在大量的实验后根据经验的到的。
[0016] 本发明上述步骤4中构造转发关系矩阵，是基于每个转发关系生成一个转发关系邻接矩阵。
[0017] 本发明上述步骤5中构造聚类初始簇，是基于图的广度优先遍历，将同一转发链中的微博放入转发簇中。
[0018] 本发明上述步骤6中的基于最大最小距离和SSE的自适应聚类算法的初始点是基于每个初始簇的中心，计算出它们的最大最小距离得到的。
[0019] 有益效果：
[0020] 本发明基于转发关系构造聚类的初始簇，以转发关系簇为基本单位进行聚类，采用基于最大最小距离和SSE的自适应聚类算法中的方法计算得到初始中心，改善了在多主题多类别下，微博文本特征稀疏造成的聚类效果不佳的问题，提高了文本特征稀疏的微博文本的聚类准确率。
【附图说明】
[0021] 图1为本发明的方法流程图。
[0022] 图2为本发明实施例中的实验微博数据示意图。
【具体实施方式】
[0023] 下面结合说明书附图对本发明作进一步的详细说明。
[0024] 如图1所示，本发明提出一种基于转发关系的微博聚类方法。其包括如下步骤
[0025] 1、微博文本预处理
[0026] 对于已有的微博文本，本发明使用分词软件NLPIR2015来进行分词预处理操作，具体的步骤如下所示：
[0027] 步骤1 :通过调用NLPIR2015中提供的新词发现功能，以微博数据中每5000条微博为一组作为输入文本找出新词，并存入新词词典文件中。
[0028] 步骤2 :对于每条微博用正则表达式提取出hashtag
[0029] 步骤3 :对每一条微博，调用NLPIR2015进行分词
[0030] 2、计算文本特征词的特征权重
[0031] 对此本发明计算每条微博中的所有特征词的词频为
其中tf^表示的是词在微博dj内的相对词频，f (Wi)表示的是词Wi在微博d 内出现的次数，n (d J表示的是微博士保留的特征词的个数。 CN 105159905 A VL 贝
[0032] 对于每个词，计算它的逆文档频率
、其中ni为包含词^的文档数量，N为文档的总数量，为了消除由文本长短不同造成的权重的差异，本发明队权重进行标准化。则，该词汇在微博d,中基于词频-反文档频率的权重公式如下面的公式所示：
[0033]
[0034] 对于微博中的话题信息，本发明在之前的分词工作中已经提取出话题，并对其进行分词，根据分词后的信息，本发明基于TF-IDF为特征词定义权重，如下面公式所示：
[0036] Iii^weighu表示的一个词的词标签权重，第一个式子表示词w ;在微博hashtag中时，词的标签权重，第二个表示标签中不存在该词时的标签权重。其中Mflj表示的是在标签中的相对词频，hN表示的是包含标签的微博个数，！^表示的是hashtag中包含词wi的微博个数，λ为一个常数。
[0037] 本发明可以得到最后的特征权重公式
[0038] Weighij= ht_weigh uXwij (3)
[0039] 该方法在考虑了微博中的hashtag的信息的基础上，对含有hashtag信息的特征词项进行加权，在一定程度上提高了聚类的效果。经多次实验，选择λ的值为1.5。由于 hashtag只占有25 %左右，故对于微博的文本聚类而言，hashtag对聚类的结果影响不大。
[0040] 3、构造转发关系矩阵

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：成卫青;束珏;邓聪;黄卫东;
技术所有人：南京邮电大学;
我是此专利的发明人

上一篇：信息展示方法及装置的制造方法
上一篇：一种数字资源关联管理的方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。