热点事件检测方法和装置的制造方法

文档序号:8282450阅读:333来源:国知局
热点事件检测方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,尤其涉及一种热点事件检测方法和装置。
【背景技术】
[0002] 微博从诞生到如今,以惊人的速度发展着,国内最大的两大微博平台新浪和腾讯 的注册人数早已超过5亿。尤其是在突发和热点事件中,微博的影响规模和传播速度超越 了普通博客和传统的新闻媒体。目前,从海量微博数据中检测热点事件的方法主要为:获取 海量微博数据,采用Canopy聚类算法或k-means聚类算法对海量微博数据进行聚类,获取 热点事件。
[0003] 然而现有技术中,海量微博数据中的微博条数过多,且海量微博数据中由极大部 分微博与热点事件毫无关系,对其进行聚类,延长了获取热点事件的时间,降低了聚类获取 热点事件的效率。

【发明内容】

[0004] 本发明提供一种热点事件检测方法和装置,用于解决现有技术中获取热点事件的 时间长,效率低的问题。
[0005] 本发明的第一个方面是提供一种热点事件检测方法,包括:
[0006] 获取社交网络中当前时间段内的微博数据;
[0007] 对所述微博数据中的多条微博的内容进行分词,统计分词得到的各个词在所述微 博数据中的出现次数;
[0008] 获取社交网络中历史时间段内所述各个词在历史微博数据中的出现次数;所述历 史时间段和所述当前时间段的时间长度相等;
[0009] 对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进 行比较,确定所述微博数据中的热词;
[0010] 获取所述微博数据中包括所述热词的微博;
[0011] 对包括所述热词的微博进行聚类,确定所述微博数据中的热点事件。
[0012] 进一步地,所述对所述各个词在所述微博数据中的出现次数和在历史微博数据中 的出现次数进行比较,确定所述微博数据中的热词,包括:
[0013] 计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数 的比值;
[0014] 将所述比值大于第一阈值的相应词确定为所述微博数据中的热词。
[0015] 进一步地,所述对所述各个词在所述微博数据中的出现次数和在历史微博数据中 的出现次数进行比较,确定所述微博数据中的热词,还包括:
[0016] 计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数 的差值;
[0017] 所述将所述比值大于第一阈值相应词确定为所述微博数据中的热词,包括:
[0018] 将所述比值大于第一阈值,且所述差值大于第二阈值的相应词确定为所述微博数 据中的热词。
[0019] 进一步地,所述对包括所述热词的微博进行聚类,确定所述微博数据中的热点事 件,包括:
[0020] 对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点;
[0021] 根据所述初始类的数目和中心点对包括所述热词的微博进行k-means聚类,确定 所述微博数据中的热点事件。
[0022] 进一步地,所述对包括所述热词的微博进行canopy聚类,确定初始类的数目和中 心点之前,还包括:
[0023] 查询预设的词表,确定所述热词在所述词表中的序号;
[0024] 根据所述热词在所述词表中的序号和所述热词在所述微博数据中的出现次数,确 定包括所述热词的微博对应的微博向量;
[0025] 所述对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点,包 括:
[0026] 对所述微博向量进行canopy聚类,确定初始类的数目和中心点。
[0027] 本发明的另一个方面提供一种热点事件检测装置,包括:
[0028] 获取模块,用于获取社交网络中当前时间段内的微博数据;
[0029] 分词模块,用于对所述微博数据中的多条微博的内容进行分词,统计分词得到的 各个词在所述微博数据中的出现次数;
[0030] 所述获取模块,还用于获取社交网络中历史时间段内所述各个词在历史微博数据 中的出现次数;所述历史时间段和所述当前时间段的时间长度相等;
[0031] 确定模块,用于对所述各个词在所述微博数据中的出现次数和在历史微博数据中 的出现次数进行比较,确定所述微博数据中的热词;
[0032] 所述获取模块,还用于获取所述微博数据中包括所述热词的微博;
[0033] 聚类模块,用于对包括所述热词的微博进行聚类,确定所述微博数据中的热点事 件。
[0034] 进一步地,所述确定模块具体用于,
[0035] 计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数 的比值;
[0036] 将所述比值大于第一阈值的相应词确定为所述微博数据中的热词。
[0037] 进一步地,所述确定模块具体还用于,计算所述各个词在所述微博数据中的出现 次数与在历史微博数据中的出现次数的差值;
[0038] 所述确定模块将所述比值大于第一阈值相应词确定为所述微博数据中的热词中, 所述确定模块具体用于,将所述比值大于第一阈值,且所述差值大于第二阈值的相应词确 定为所述微博数据中的热词。
[0039] 进一步地,所述聚类模块对包括所述热词的微博进行聚类,确定所述微博数据中 的热点事件中,所述聚类模块具体用于,
[0040] 对包括所述热词的微博进行canopy聚类,确定初始类的数目和中心点;
[0041] 根据所述初始类的数目和中心点对包括所述热词的微博进行k-means聚类,确定 所述微博数据中的热点事件。
[0042] 进一步地,所述聚类模块对包括所述热词的微博进行canopy聚类,确定初始类的 数目和中心点之前,所述确定模块还用于,查询预设的词表,确定所述热词在所述词表中的 序号;
[0043] 根据所述热词在所述词表中的序号和所述热词在所述微博数据中的出现次数,确 定包括所述热词的微博对应的微博向量;
[0044] 所述聚类模块对包括所述热词的微博进行canopy聚类,确定初始类的数目和中 心点中,所述聚类模块具体用于,
[0045] 对所述微博向量进行canopy聚类,确定初始类的数目和中心点。
[0046] 本发明中,通过获取社交网络中当前时间段内的微博数据;对微博数据中的多条 微博的内容进行分词,统计分词得到的各个词在微博数据中的出现次数;获取社交网络中 历史时间段内各个词在历史微博数据中的出现次数;历史时间段和当前时间段的时间长度 相等;对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较,确定 微博数据中的热词;获取微博数据中包括热词的微博;对包括热词的微博进行聚类,确定 微博数据中的热点事件,通过先从社交网络中当前时间段内的微博数据选出包括热词的微 博,对包括热词的微博进行聚类,减少了聚类时的微博数量,缩短了获取热点事件的时间, 提高了聚类获取热点事件的效率。
【附图说明】
[0047] 图1为本发明提供的热点事件检测方法一个实施例的流程图;
[0048] 图2为本发明提供的热点事件检测方法又一个实施例的流程图;
[0049] 图3为canopy聚类算法的示意图;
[0050]图4为本发明提供的热点事件检测装置一个实施例的结构示意图。
【具体实施方式】
[0051] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0052] 图1为本发明提供的热点事件检测方法一个实施例的流程图,如图1所示,包括:
[0053] 101、获取社交网络中当前时间段内的微博数据。
[0054] 本发明提供的热点事件检测方法的执行主体为热点事件检测装置,热点事件检测 装置具体可以为互联网中的应用服务器,或者设置在应用服务器上的软件或系统,用于检 测社交网络中用户发表的各微博中的热点事件。
[0055] 102、对微博数据中的多条微博的内容进行分词,统计分词得到的各个词在微博数 据中的出现次数。
[005
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1