一种中文微博突发热点话题检测方法

文档序号:6548936阅读:159来源:国知局
一种中文微博突发热点话题检测方法
【专利摘要】本发明提供了一种中文微博突发热点话题检测方法,该方法包括以下步骤:通过微博站点的数据接口获取所述微博站点的微博帖,所述微博帖包括提取的正文和发表时间;根据所述微博帖建立参考微博帖集合;确定检测微博帖集合;运用二元覆盖法进行切词;确定突发词,建立突发词聚类;确定热点话题,对所述热点话题排序。该方法针对海量中文微博帖中的突发话题检测,利用突发话题在微博帖中出现的特征,采用检测突发词和突发词聚类相结合的方法,能够准确的检测出突发话题。
【专利说明】一种中文微博突发热点话题检测方法

【技术领域】
[0001] 本发明涉及一种互联网数据挖掘【技术领域】的方法,具体讲涉及一种中文微博突发 热点话题检测方法。

【背景技术】
[0002] 中文微博用户数量巨大、信息即时性强、消息传播速度快,从海量的中文微博帖中 快速、准确地检测突发话题对政府决策和商业推广有重要意义。
[0003] 突发话题是指发生在某个时间的事件,通常有一个持续时间短、被大量网民热烈 讨论时间段。
[0004] 中文微博突发热点话题检测与传统的话题检测与跟踪项目(TDT)中采用的话题 检测方法主要有三个区别。
[0005] 首先,中文话题检测中的需要对中文进行分词,而TDT项目中大多数研究针对英 文文档,不需要进行分词处理。对中文的处理一般需要进行中文分词,目前普遍采用的是基 于分词词表的中文分词。基于分词词表的方法无法检测出微博中的新词,也称未登录词,即 没有被收录在分词词表中但必须切分出来的词。未登录词包括各类专有名词(人名、地名、 企业名等)、缩写词、新增词汇等。若无法检测出未登录词,将会降低突发话题检测效果。
[0006] 其次,微博是短文本形式,而TDT中是对长文本进行分析。短文本中只有少量的字 可以被分析使用,很难准确地抽取有效的语言特征。
[0007] 再次,待检测的微博帖集合中有大量的非事件类文档,而TDT中假设每个文档都 讨论某个话题。在该假设下,采用文本聚类的方法检测话题,当遇到非事件性文档时,也会 将该文档聚类到某个话题中,这样会造成话题检测结果的不准确。
[0008] 目前,并没有中文微博的突发话题的检测方法。


【发明内容】

[0009] 为克服上述现有技术的不足,本发明提供了一种中文微博突发热点话题检测方 法。
[0010] 实现上述目的所采用的解决方案为:
[0011] 一种中文微博突发热点话题检测方法,其改进之处在于:所述方法包括以下步 骤:
[0012] I、通过微博站点的数据接口获取所述微博站点的微博帖,所述微博帖包括提取的 正文和发表时间;
[0013] II、根据所述微博帖建立参考微博帖集合;
[0014] III、确定检测微博帖集合;
[0015] IV、运用二元覆盖法进行切词;
[0016] V、确定突发词,建立突发词聚类;
[0017] VI、确定热点话题,对所述热点话题排序。
[0018] 进一步的,所述步骤II包括:设定所述热点话题的时间窗[tp t2];
[0019] 根据所述微博帖的发表时间从所述微博帖的集合中提取发表时间在所述时间窗 [h,t2]内的微博帖,构建所述热点话题的所述参考微博帖集合。
[0020] 进一步的,所述步骤III包括:设定所述热点话题的检测时间窗[ts,tj ;
[0021] 根据所述微博帖的发表时间从所述微博帖的集合中提取发表时间在所述时间窗 [ts,tj内的微博帖,构建所述热点话题的所述检测微博帖集合。
[0022] 进一步的,所述步骤IV包括:对所述参考微博帖集合和所述检测微博帖集合中的 正文进行二元切词,将所述正文中任意相邻的两个字组成一个词,构成所述参考微博帖集 合和所述检测微博帖集合的索引文件。
[0023] 进一步的,所述步骤V包括:将在所述检测微博帖集合中的出现率大于在所述参 考微博帖集中的出现率T b倍的词确定为突发词;所述Tb的范围为2. 5-10 ;
[0024] 对检测出的所述突发词进行聚类。
[0025] 进一步的,所述步骤VI包括:
[0026] 将所述突发词连接成有向加权图G,所述有向加权图的顶点为所述突发词,两词之 间连接一条边,确定两词间的Tversky指数作为边的权重,所述Tversky指数的取值范围为 [0,1];
[0027] 移除所述有向加权图G中权重小于0. 3的边,形成图4 ;
[0028] 将所述图4划分为若干强连通子图,节点数大于等于3的强连通子图中的节点组 成一个突发词的有效聚类,形成话题;
[0029] 在所述检测微博帖集合中,若所述话题对应的突发词聚类中出现3个或以上的突 发词时,则所述微博帖与所述话题相关;
[0030] 获得每个所述话题的相关微博帖并根据微博帖数对话题进行排序;
[0031] 进一步的,选取与话题相关度最大的微博帖作为所述话题的语义标签,提高可读 性。
[0032] 进一步的,所述语义标签通过相关度确定,包括以下步骤:
[0033] 将与话题相关的微博帖根据相关度排序;相关度以微博帖中包含的话题对应的突 发词聚类的突发词个数表征;
[0034] 选取相关度最高的微博帖为所述话题的语义标签。
[0035] 与现有技术相比,本发明具有以下有益效果:
[0036] 1、本发明提供的方法可自动对检测出的话题进行语义标注,即选取与某话题相关 度最大的微博帖作为该话题的语义标签。这种方法客服了在权利要求1中采用二元分词方 法产生大量无确切语义的词造成的可读性差的缺点,如"北京首都机场"所切分的"京首"和 "都机",而采用含有该词的整条微博表示话题的语义,如"北京首都机场首推通程行李直挂 服务"。
[0037] 2、在突发词检测阶段,由于采用了二元分词,可检测出微博帖中出现的新词,而非 传统的基于分词词表的分词方法。二元分词可检测出微博中的新词,也称未登录词,即没有 被收录在分词词表中但必须切分出来的词,提高突发话题检测效果。
[0038] 3、首先,突发话题出现时,某些原先不出现的词会在文本中频繁出现,本发明的方 法通过词频比较的方法检测出这些词。其次,同一个话题的突发词往往出现在相同的微博 帖中,通过对突发词图划分为若干强连通子图将相同话题的突发词聚类,从而检测出微博 帖集合中突发的且不重复的话题。
[0039] 4、本发明提供的方法针对海量中文微博帖中的突发话题检测,性能优于已有的基 于文档聚类方法。
[0040] 5、利用突发话题在微博帖中出现的特征,采用检测突发词和突发词聚类相结合的 方法,能够准确地检测出突发话题。
[0041] 6、本发明是在线算法,对t时刻的话题检测仅需当期文档集和参考文档集,适用 实时性很强的微博话题检测应用。
[0042] 7、本发明的方法是非监督的方法,采用的参考文档集无需人工标定,效率更高。
[0043] 8、可将通过该方法检测到的热点话题撰写成检测报告提交给政府部门、新闻单位 或企业的相关部门,也可以作为后续科学研究如突发话题趋势分析、话题演变追踪等的已 知信息。

【专利附图】

【附图说明】
[0044] 图1为本发明的中文微博突发热门话题检测方法总体示意图;
[0045] 图2为本发明的方法应用实施例示意图;
[0046] 图3为本发明的话题检索显示实施例示意图。

【具体实施方式】
[0047] 下面结合附图对本发明的【具体实施方式】做进一步的详细说明。
[0048] 如图1所示,图1为本发明的中文微博突发热门话题检测方法总体示意图;本发明 提供的一种中文微博突发热点话题检测方法包括以下步骤:
[0049] 步骤一、通过微博站点的数据接口获取所述微博站点的微博帖,所述微博帖包括 提取的正文和发表时间;
[0050] 步骤二、根据所述微博帖建立参考微博帖集合;
[0051] 步骤三、确定检测微博帖集合;
[0052] 步骤四、运用二元覆盖法进行切词;
[0053] 步骤五、确定突发词,建立突发词聚类;
[0054] 步骤六、确定热点话题,对所述热点话题排序。
[0055] 步骤一中,从新浪微博、腾讯微博等各个中文微博站点,通过网站提供的基础数据 接口 API采集微博帖并保存。
[0056] 微博帖的信息包括:提取的本微博帖的正文内容和发表时间。
[0057] 所有采集到的微博帖构成微博话题检测的数据集D。设一个微博帖集合D = {dt} 是一个大小为|D|的微博帖的集合;运算符| · |表示集合的大小,dt表示一个在t时刻发 表的微博帖。
[0058] 微博帖正文dt为一个在字典Ω = h,…,w|£2|}上的二进制向量dt = {dt (w),… ,dt(w|£2|)};其中,dt(w) = 1表示词w在dt中出现,dt(w) = 0表示未出现。
[0059] 所述字典指,将本次采集的所有微博帖的微博正文以二分覆盖法进行切词,获得 的所有不重复词作为一个字典。
[0060] 步骤二中,根据微博帖建立参考微博帖集合。
[0061] 设定微博突发热门话题检测的参考时间窗[怀t2];从获取的微博帖集合中,提取 发表时间在[ti,t 2]内的微博帖,作为话题检测的参考微博帖集合。
[0062] 设参考微博帖集合Dr = {dt | dt e D,心彡t彡t2},为一个大小为| Dr |的微博帖集 合。
[0063] 步骤三中,构造检测微博帖集合。
[0064] 设定微博突发热门话题检测时间窗[ts,tj ;如步骤二的方法,从步骤一获取的微 博帖集合中,提取发表时间在[ts,te]内的微博帖,作为话题检测的检测微博帖集合。
[0065] 设检测微博帖集合Dd = {dt I dt e D,ts彡t彡tj,是一个大小为I Dd I的微博帖集 合,通常ts彡t2。
[0066] 本实施例中,假设检测某一天的微博突发话题,可将ts设为当天的0:00,设为当 天的24:00, tl设为30天前的0:00, t2设为当天的0:00。
[0067] 步骤四中,采用二元覆盖法进行中文切词。
[0068] 对上述参考微博帖集合和检测微博帖集合中的正文进行二元切词,切词方法为: 将文本中任意相邻的两个字可组成一个词,例如"北京首都机场"将被切分为"北京I京首 首都I都机I机场"五个词;将分词后获得词构成相应索引文件。
[0069] 步骤五中,确定突发词,建立突发词聚类。
[0070] 针对检测微博帖集合中得到的所有词,检测出突发词。检测方法为:若某个词在检 测微博帖集合中的出现率大于该词在参考微博帖集中的出现率的一定倍数T b时,则判为突 发词,Tb的取值范围为2. 5-10。
[0071] 确定词在微博帖集中的出现率的方法为:通过微博帖集合中包含该词的微博帖数 除以微博帖集合大小计算获得。
[0072] 在通过上述检测方法确定突发词后,对检测出的突发词进行聚类。
[0073] 上述检测方法的步骤包括:
[0074] S501、遍历检测微博帖集合中的词w e Ω& 为检测微博帖中所有非重复二元词 组成的集合;
[0075] S502、计算w在检测微博帖集中的出现率Xd(w) = |Dd(w) |/|Dd| ;
[0076] 其中,Dd (w)表示检测微博帖集合Dd中含有词w的微博帖集合,即Dd (w)= {dt|dt e Dd, dt(w) = 1};
[0077] S503、计算w在参考文档集中的平均出现率Xr(w) = |Dr(w) |/|Dr| ;
[0078] 其中,Djw)表示参考微博帖集合比中含有词w的微博帖集合,即Djw)= {dt|d t e Dr, dt(w) = 1};
[0079] 5504、计算界的突发性9卜)=4卜)/為.(州);当且仅当供卜')>2;时,将其判为突 发词,T b的取值范围为2. 5-10。
[0080] 步骤六中,确定热点话题,对所述热点话题排序。
[0081] 确定热点话题,具体包括以下步骤:
[0082] S601、将步骤五中确定的突发词连接成有向加权图G,该图的顶点是突发词,两 个有序突发词之间连接一条有向边,通过Tversky指数(Tversky index)度量边的权重, Tversky指数的取值范围是[0, 1];
[0083] 由于当两个词属于同一个话题时,倾向于出现在相同的文档集合中;同时,不同词 对于描述话题的重要性不同,如果两个词都比较重要,他们之间双向的边都会较大;如果两 个词中一个或两个词对描述话题不重要时,他们之间单向或双向的边则较小,使用Tversky 指数可以较好地体现边两端节点的不对称性。
[0084] S602、移除图G中权重小于0. 3的边,原图变为G,。
[0085] S603、将4划分为若干强连通子图;每一个节点数不小于3的强连通子图中的节 点组成一个突发词的有效聚类,代表一个话题。
[0086] S604、根据聚类结果对检测微博帖集合进行判别:当一条微博帖中出现某个话题 对应的突发词聚类中的3个或以上的突发词时,将该条微博帖判定为与该话题相关;从而 确定每个话题的所有相关微博帖;
[0087] S605、通过相关微博帖的数量对话题进行排序,以话题包含的微博帖数看作该话 题的热度;
[0088] S606、确定热点话题。

【权利要求】
1. 一种中文微博突发热点话题检测方法,其特征在于:所述方法包括以下步骤:
1. 通过微博站点的数据接口获取所述微博站点的微博帖,所述微博帖包括提取的正文 和发表时间; II、 根据所述微博帖建立参考微博帖集合; III、 确定检测微博帖集合; IV、 运用二元覆盖法进行切词; V、 确定突发词,建立突发词聚类; VI、 确定热点话题,对所述热点话题排序。
2. 如权利要求1所述的方法,其特征在于:所述步骤II包括:设定所述热点话题的时 间窗[t!,t2]; 根据所述微博帖的发表时间从所述微博帖的集合中提取发表时间在所述时间窗 [ti,t2]内的微博帖,构建所述热点话题的所述参考微博帖集合。
3. 如权利要求1所述的方法,其特征在于:所述步骤III包括:设定所述热点话题的检 测时间窗[ts,tj ; 根据所述微博帖的发表时间从所述微博帖的集合中提取发表时间在所述时间窗 [ts,tj内的微博帖,构建所述热点话题的所述检测微博帖集合。
4. 如权利要求1所述的方法,其特征在于:所述步骤IV包括:对所述参考微博帖集合 和所述检测微博帖集合中的正文进行二元切词,将所述正文中任意相邻的两个字组成一个 词,构成所述参考微博帖集合和所述检测微博帖集合的索引文件。
5. 如权利要求1所述的方法,其特征在于:所述步骤V包括:将在所述检测微博帖集合 中的出现率大于在所述参考微博帖集中的出现率T b倍的词确定为突发词;所述Tb的范围为 2. 5-10 ; 对检测出的所述突发词进行聚类。
6. 如权利要求1所述的方法,其特征在于:所述步骤VI包括: 将所述突发词连接成有向加权图G,所述有向加权图的顶点为所述突发词,两词之间连 接一条边,确定两词间的Tversky指数作为边的权重,所述Tversky指数的取值范围为[0, 1]; 移除所述有向加权图G中权重小于0. 3的边,形成图4 ; 将所述图4划分为若干强连通子图,节点数大于等于3的强连通子图中的节点组成一 个突发词的有效聚类,形成话题; 在所述检测微博帖集合中,若所述话题对应的突发词聚类中出现3个或以上的突发词 时,则所述微博帖与所述话题相关; 获得每个所述话题的相关微博帖并根据微博帖数对话题进行排序。
7. 如权利要求6所述的方法,其特征在于:选取与话题相关度最大的微博帖作为所述 话题的语义标签,提高可读性。
8. 如权利要求7所述的方法,其特征在于:所述语义标签通过相关度确定,包括以下步 骤: 将与话题相关的微博帖根据相关度排序;相关度以微博帖中包含的话题对应的突发词 聚类的突发词个数表征; 选取相关度最高的微博帖为所述话题的语义标签。
【文档编号】G06F17/30GK104063428SQ201410251473
【公开日】2014年9月24日 申请日期:2014年6月9日 优先权日:2014年6月9日
【发明者】赵丽, 刘欣然, 李焱 申请人:国家计算机网络与信息安全管理中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1