一种对微博进行主题发现与追踪的方法
【专利摘要】本发明公开一种对微博进行主题发现与追踪的方法,包括如下步骤:将原创微博及其评论、转发组织在一起,整体作为同一个单元输入;从微博文本中提取特征词,获得特征词列表,并统计各特征词在输入单元的词频;计算特征词列表中的特征词的权值,获得VSM向量;采用增量聚类算法,将输入的VSM向量依次与已有微博簇进行相似度比较,获得相似度最高的微博簇,若二者相似度高于阈值,则将该微博并入所述相似度最高的微博簇,否则以该微博为基础生成一个新微博簇;对微博簇进行筛选,获得主题簇。本发明方便用户通过微博随时了解舆论主流和社会热点,同时也为进一步的舆论分析提供了支持。
【专利说明】一种对微博进行主题发现与追踪的方法
【技术领域】
[0001] 本发明涉及主题发现与追踪【技术领域】,尤其涉及一种对微博进行主题发现与追踪 的方法。
【背景技术】
[0002] 微博是"微型博客"的简称,是一种通过关注机制分享简短实时信息的广播式的社 交网络平台。微博具有准入门槛低、信息分享便捷迅速、即时性等特点。这些特点使得微博 迅速发展,在改变用户生活方式的同时,也极大地改变了信息的传播渠道和传播方式。由于 微博庞大的用户数量和信息发布的实时性,使得微博成为实时获取社会热点信息的重要来 源。但是,用户们每天发布的微博数目庞大且内容五花八门,人们很难将其整体把握,发掘 出其中的重要信息。
[0003] 早在微博出现之前,人们就已经尝试在大量的新闻报道或者其他网上信息资源上 进行话题的检测与追踪(TopicDetectionandTracking,TDT),旨在解决信息过载的问 题,对信息加以归类、合并,帮助人们可以快速便捷的从整体上对信息加以理解和分析,发 掘出其中的重要信息。对于在新闻报道上进行话题检测与追踪,人们已经有了较为成熟的 技术,取得了令人满意的结果。但是,微博兴起时间短,并且微博的语料与新闻报道有着极 大的不同,传统主题发现与追踪技术不适用于微博,给微博的主题发现与追踪带来了新的 挑战。
【发明内容】
[0004] 本发明的目的在于通过一种对微博进行主题发现与追踪的方法,来解决以上背景 技术部分提到的问题。
[0005] 为达此目的,本发明采用以下技术方案:
[0006] 一种对微博进行主题发现与追踪的方法,包括如下步骤:
[0007] S101、输入微博:将原创微博及其评论、转发组织在一起,整体作为同一个单元输 入;
[0008] S102、提取特征词:从微博文本中提取出代表该文本特征的词即特征词,获得特征 词列表,并统计各特征词在输入单元中出现的次数即特征词的词频;
[0009] S103、计算权值:计算特征词列表中的特征词的权值,获得向量空间模型(Vector SpaceModel,VSM)向量;
[0010] S104、增量聚类:采用增量聚类算法,将输入的VSM向量依次与已有微博簇进行相 似度比较,获得相似度最高的微博簇,若二者相似度高于阈值,则将该微博并入所述相似度 最高的微博簇,否则以该微博为基础生成一个新微博簇;
[0011] S105、输出主题:对微博簇进行筛选,获得主题簇。
[0012] 特别地,所述步骤SlOl中对已经处理过的原创微博的转发微博,将直接丢弃,不 包括在输入单元内。
[0013] 特别地,所述步骤S102具体包括:S1021、对微博文本进行去噪,获得微博主干内 容;S1022、对文本进行分词和词性标注;S1023、对分词结果进行选取,获得最终的特征词, 并统计各特征词的词频。
[0014] 特别地,所述步骤S1023中对分词结果进行选取,获得最终的特征词,具体包括: 从分词结果中选出名词、动词、形容词及字符串,然后去除掉里面的停用词,获得最终的特 征词。
[0015] 特别地,所述步骤S103 具体包括:TF-IDF(TermFrequency-InverseDocument Frequency)模型的权值由词频(TermFrequency,TF)经逆文档频率(InverseDocument Frequency,IDF)加权获得,权值计算公式如下:
[0016] Clfl(W) =Clfl +
[0017]idft(w) = (log(Nt/dft(w)))
[0018] 其中,dft (w)表示t时刻词w的文档频率,(IfV1 (w)是前一时刻w的文档频率, (Ifet (w)表示代表新加入的文档集合(^中w的文档频率;idft (w)表示t时刻词w的逆文档 频率,Nt表示t时刻文档数目;dfd(w)表示初始时刻词w的文档频率;
[0019] 将微博流划分为时间长度为T的段,统计特征词在每段内的文档频率;在t 时刻,取t之前η个时间段内特征词的归一化文档频率组成长度为η的序列yw,t = [yw⑴,yw⑵,…,yw (n-1),yw (η)],其中yw (i)是特征词w在i段内的归一化文档频率; dfU) yw(i)计算公式如下:N(i)是i段内总的微博数目,对该序列ywt进 Ν{?) 行离散傅里叶变换得Yw= [YW(1),YW(2),?,Y>-1),Y>)];获得得到7¥后,由公式?剛I2 BurslvWeiQhl(/) =-_ weightt (d,w) = f (d,w)*(idft (w)+BurstyWeightw (t))获 MK.(丨)1:, 得文档d中t时刻词w的权值Weightt (d,w)。
[0020] 特别地,所述步骤S103中初始时刻词w的文档频率通过对一训练用微博文库进行 特征词统计获得。
[0021] 特别地,所述步骤S104具体包括:TopicSct=丨7如<,7如/^2,心/)/_6';,?_,7如/ 60 示主题集,Topici={Weiboi;1,Weiboi,2, ...}表示主题即微博的集合;
[0022] 『即心^^^^^^…^少心表示七时刻已经存在的主题:如果七时刻加入新的 微博Weibot,Weibot分别与岣,·…,也,进行相似度比较,获得相似度的 最大值MaxSimi=Iiiaxi(similarity(Weibot,Topici)),并将与Weibot相似度最大的主题记 为TopicmaxJfMaxSimi与预先设置阈值进行比较,若MaxSimi大于阈值,则将Weibot归入 Topicmax,若MaxSimi小于阈值,则把Weibot作为一个新的主题,接入TopicSet。
[0023] 特别地,所述步骤S104中若微博Weibot的VSM向量为a,微博簇内微博的VSM向 量为Od1,b2, ···,bj,则微博与微博簇的相似度similarity(a,Od1,b2, ···,bj)为:
[0024] simiIarity(a, (, /?2,...,bM}) = (X^'')/m。 /-i\ a I
[0025] 特别地,所述步骤S105中对微博簇进行筛选,获得主题簇,具体包括:将微博簇中 微博数量小于预设最小值的微博簇筛除,剩下的微博簇作为主体簇。
[0026] 本发明提出的对微博进行主题发现与追踪的方法立足于VSM、TF-IDF模型和增量 聚类算法,同时深入分析微博的文本特征,利用了微博的发布时间信息,对特征词的突发性 进行权值估计,作为突发性权值加入到基本模型中,极大的改善了系统的聚类结果。本发明 为在微博语料上发展的实时话题自动识别和追踪方法,既可以方便用户随时了解舆论主流 和社会热点,也能够为进一步的舆论分析提供支持。
【专利附图】
【附图说明】
[0027] 图1为本发明实施例提供的对微博进行主题发现与追踪的方法流程图;
[0028] 图2为本发明实施例提供的提取特征词的流程图。
【具体实施方式】
[0029] 下面结合附图和实施例对本发明作进一步说明。可以理解的是,此处所描述的具 体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描 述,附图中仅示出了与本发明相关的部分而非全部内容,除非另有定义,本文所使用的所有 的技术和科学术语与属于本发明的【技术领域】的技术人员通常理解的含义相同。本文中在 本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发 明。本文所使用的术语"及/或"包括一个或多个相关的所列项目的任意的和所有的组合。
[0030] 请参照图1所示,图1为本发明实施例提供的对微博进行主题发现与追踪的方法 流程图。
[0031] 本实施例中对微博进行主题发现与追踪的方法具体包括如下步骤:
[0032] S101、输入微博:将原创微博及其评论、转发组织在一起,整体作为同一个单元输 入。
[0033] 在本实施例中假设对于一条原创微博的转发或者评论都和该原创微博具有相同 的主题。所以在微博输入部分将原创微博及其评论、转发组织在一起,整体作为同一个单元 输入,而输入单元的核心扔为原创微博。输入单元中既包括了原创微博的文本、发布者、发 布时间等信息,也包括了对该原创微博的众多评论。需要说明的是,对已经处理过的原创微 博的转发微博,将直接丢弃,不包括在输入单元内。
[0034] S102、提取特征词:从微博文本中提取出代表该文本特征的词即特征词,获得特征 词列表,并统计各特征词在输入单元中出现的次数即特征词的词频。
[0035] S103、计算权值:计算特征词列表中的特征词的权值,获得向量空间模型(Vector SpaceModel,VSM)向量。计算的过程中,使用到了从训练用数据库中统计的词的频率和文 档频率作为这些统计值的初始值,并随着不断输入微博,这些统计值也同时在实时更新,并 在权值计算中得到利用。权值计算完成后,得到完整的VSM向量。
[0036] VSM模型是把所有文档中出现的词作为特征,构成特征空间,然后将文本表示为特 征空间内的一个向量。向量的一维对应一个特征,也就是一个特征词。由于特征空间的维 度非常高,通常采用下面的方法进行向量表示:
[0037] dj-(t1,W1,j;t2,w2,』;…;tn,wn,』)
[0038] 其中,心表示文档d」中不同的词,wi;j表示ti在文档d」的权重。
[0039] TF-IDF(TermFrequency-InverseDocumentFrequency)模型的权值由词频 (TermFrequency,TF)经逆文档频率(InverseDocumentFrequency,IDF)加权获得,权值 计算公式如下:
[0040] =丨(uX(H')
[0041] idft(w) = (log(Nt/dft(w)))
[0042] 其中,dft (w)表示t时刻词w的文档频率,(IfV1 (w)是前一时刻w的文档频率, (Ifet (w)表示代表新加入的文档集合(^中w的文档频率;idft (w)表示t时刻词w的逆文档 频率,Nt表示t时刻文档数目;Clftl (w)表示初始时刻词w的文档频率,通过对一训练用微博 文库进行特征词统计获得。其中,TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术, 用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
[0043] 将微博流划分为时间长度为T的段,统计特征词在每段内的文档频率;在t 时刻,取t之前η个时间段内特征词的归一化文档频率组成长度为η的序列yw,t = [yw⑴,yw⑵,…,yw (n-1),yw (η)],其中yw (i)是特征词w在i段内的归一化文档频率; yw(i)计算公式如下:二-,N⑴是i段内总的微博数目,对该序列ywt进 N(i) 行离散傅里叶变换得Yw= [YW(1),YW(2),?,Y>-1),Y>)];获得得到7¥后,由公式 Ziwi2 BurslvWeichi= _weightt (d,w) =f(d,w) * (idft (w)+BurstyWeightw (t))获 得文档d中t时刻词w的权值Weightt (d,w)。
[0044] S104、增量聚类:采用增量聚类算法,将输入的VSM向量依次与已有微博簇进行相 似度比较,获得相似度最高的微博簇,若二者相似度高于阈值,则将该微博并入所述相似度 最高的微博簇,否则以该微博为基础生成一个新微博簇。
[0045] 聚类结果初始为空。TopicSel=彳Γο/7/q,Γορ/q,… Topici={Weiboi;1,Weib〇i,2,. . . }表示主题即微博的集合; 表示t时刻已经存在的主题。
[0046] 如果t时刻加入新的微博Weibot,Weibot分别与 进行相似度比较,获得相似度的最大值MaxSimi=Iiiaxi(similarity(Weibot,Topici)), 并将与Weibot相似度最大的主题记为Topic_;将MaxSimi与预先设置阈值进行比较, 若MaxSimi大于阈值,则将Weibot归入Topicmax,若MaxSimi小于阈值,则把Weibot作为 一个新的主题,接入TopicSet。其中,若令微博Weibot的VSM向量为a,微博簇内微博的 VSM向量为Ib1,b2, ...,bm},则微博与微博簇的相似度similarity(a,Ib1,b2, ...,bm})为:
【权利要求】
1. 一种对微博进行主题发现与追踪的方法,其特征在于,包括如下步骤:5101、 输入微博:将原创微博及其评论、转发组织在一起,整体作为同一个单元输入;5102、 提取特征词:从微博文本中提取出代表该文本特征的词即特征词,获得特征词列 表,并统计各特征词在输入单元中出现的次数即特征词的词频;5103、 计算权值:计算特征词列表中的特征词的权值,获得VSM向量;5104、 增量聚类:采用增量聚类算法,将输入的VSM向量依次与已有微博簇进行相似度 比较,获得相似度最高的微博簇,若二者相似度高于阈值,则将该微博并入所述相似度最高 的微博簇,否则以该微博为基础生成一个新微博簇;5105、 输出主题:对微博簇进行筛选,获得主题簇。
2. 根据权利要求1所述的对微博进行主题发现与追踪的方法,其特征在于,所述步骤 S101中对已经处理过的原创微博的转发微博,将直接丢弃,不包括在输入单元内。
3. 根据权利要求1所述的对微博进行主题发现与追踪的方法,其特征在于,所述步骤 S102具体包括:S1021、对微博文本进行去噪,获得微博主干内容;S1022、对文本进行分词 和词性标注;S1023、对分词结果进行选取,获得最终的特征词,并统计各特征词的词频。
4. 根据权利要求3所述的对微博进行主题发现与追踪的方法,其特征在于,所述步骤 S1023中对分词结果进行选取,获得最终的特征词,具体包括:从分词结果中选出名词、动 词、形容词及字符串,然后去除掉里面的停用词,获得最终的特征词。
5. 根据权利要求1所述的对微博进行主题发现与追踪的方法,其特征在于,所述步骤 S103具体包括:TF-IDF模型的权值由词频经逆文档频率加权获得,权值计算公式如下:
其中,dft(w)表示t时刻词w的文档频率,dUw)是前一时刻w的文档频率,dfc^w) 表示代表新加入的文档集合Ct中w的文档频率;idft(w)表示t时刻词w的逆文档频率,Nt表示t时刻文档数目;dfjw)表示初始时刻词w的文档频率;将微博流划分为时间长度为T的段,统计特征词在每段内的文档频率;在t时刻,取t之前n个时间段内特征词的归一化文档频率组成长度为n的序列yw,t=[yw(l),yw(2),…
6. 根据权利要求5所述的对微博进行主题发现与追踪的方法,其特征在于,所述步骤 S103中初始时刻词w的文档频率通过对一训练用微博文库进行特征词统计获得。
7. 根据权利要求1所述的对微博进行主题发现与追踪的方法,其特征在于,所述步 骤S104 具体包括:'T坤icSct=彳,,…{ffeibo^Weibou,…}表示主题即微博的集合;Topic^Topic2,Topic3,----,八少心,表示t时刻已经存在的主题;如果t时刻加入新的微博Weib〇t,Weib〇t分别与TopicdTopicsTopic3,…?,进行相似度比较,获得相似 度的最大值MaxSimi=maxi(similarity(Weibot,Topic)),并将与Weibot相似度最大的主 题记为Topicmax4#MaxSimi与预先设置阈值进行比较,若MaxSimi大于阈值,则将Weibot归入Topicmax,若MaxSimi小于阈值,则把Weibot作为一个新的主题,接入TopicSet。
8. 根据权利要求7所述的对微博进行主题发现与追踪的方法,其特征在于,所述步骤 S104中若微博Weib〇t的VSM向量为a,微博簇内微博的VSM向量为{b^b2,…,bm},则微博 与微博簇的相似度similarity(a, ,…,bm})为:
9. 根据权利要求1所述的对微博进行主题发现与追踪的方法,其特征在于,所述步骤 S105中对微博簇进行筛选,获得主题簇,具体包括:将微博簇中微博数量小于预设最小值 的微博簇筛除,剩下的微博簇作为主体簇。
【文档编号】G06F17/30GK104484343SQ201410694002
【公开日】2015年4月1日 申请日期:2014年11月26日 优先权日:2014年11月26日
【发明者】康延荣, 刘克彬, 苗欣, 马强 申请人:无锡清华信息科学与技术国家实验室物联网技术中心