热点事件检测方法和装置的制造方法

文档序号：8282450阅读：333来源：国知局

热点事件检测方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域，尤其涉及一种热点事件检测方法和装置。
【背景技术】
[0002] 微博从诞生到如今，以惊人的速度发展着，国内最大的两大微博平台新浪和腾讯的注册人数早已超过5亿。尤其是在突发和热点事件中，微博的影响规模和传播速度超越了普通博客和传统的新闻媒体。目前，从海量微博数据中检测热点事件的方法主要为：获取海量微博数据，采用Canopy聚类算法或k-means聚类算法对海量微博数据进行聚类，获取热点事件。
[0003] 然而现有技术中，海量微博数据中的微博条数过多，且海量微博数据中由极大部分微博与热点事件毫无关系，对其进行聚类，延长了获取热点事件的时间，降低了聚类获取热点事件的效率。

【发明内容】

[0004] 本发明提供一种热点事件检测方法和装置，用于解决现有技术中获取热点事件的时间长，效率低的问题。
[0005] 本发明的第一个方面是提供一种热点事件检测方法，包括：
[0006] 获取社交网络中当前时间段内的微博数据；
[0007] 对所述微博数据中的多条微博的内容进行分词，统计分词得到的各个词在所述微博数据中的出现次数；
[0008] 获取社交网络中历史时间段内所述各个词在历史微博数据中的出现次数；所述历史时间段和所述当前时间段的时间长度相等；
[0009] 对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定所述微博数据中的热词；
[0010] 获取所述微博数据中包括所述热词的微博；
[0011] 对包括所述热词的微博进行聚类，确定所述微博数据中的热点事件。
[0012] 进一步地，所述对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定所述微博数据中的热词，包括：
[0013] 计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的比值；
[0014] 将所述比值大于第一阈值的相应词确定为所述微博数据中的热词。
[0015] 进一步地，所述对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定所述微博数据中的热词，还包括：
[0016] 计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的差值；
[0017] 所述将所述比值大于第一阈值相应词确定为所述微博数据中的热词，包括：
[0018] 将所述比值大于第一阈值，且所述差值大于第二阈值的相应词确定为所述微博数据中的热词。
[0019] 进一步地，所述对包括所述热词的微博进行聚类，确定所述微博数据中的热点事件，包括：
[0020] 对包括所述热词的微博进行canopy聚类，确定初始类的数目和中心点；
[0021] 根据所述初始类的数目和中心点对包括所述热词的微博进行k-means聚类，确定所述微博数据中的热点事件。
[0022] 进一步地，所述对包括所述热词的微博进行canopy聚类，确定初始类的数目和中心点之前，还包括：
[0023] 查询预设的词表，确定所述热词在所述词表中的序号；
[0024] 根据所述热词在所述词表中的序号和所述热词在所述微博数据中的出现次数，确定包括所述热词的微博对应的微博向量；
[0025] 所述对包括所述热词的微博进行canopy聚类，确定初始类的数目和中心点，包括：
[0026] 对所述微博向量进行canopy聚类，确定初始类的数目和中心点。
[0027] 本发明的另一个方面提供一种热点事件检测装置，包括：
[0028] 获取模块，用于获取社交网络中当前时间段内的微博数据；
[0029] 分词模块，用于对所述微博数据中的多条微博的内容进行分词，统计分词得到的各个词在所述微博数据中的出现次数；
[0030] 所述获取模块，还用于获取社交网络中历史时间段内所述各个词在历史微博数据中的出现次数；所述历史时间段和所述当前时间段的时间长度相等；
[0031] 确定模块，用于对所述各个词在所述微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定所述微博数据中的热词；
[0032] 所述获取模块，还用于获取所述微博数据中包括所述热词的微博；
[0033] 聚类模块，用于对包括所述热词的微博进行聚类，确定所述微博数据中的热点事件。
[0034] 进一步地，所述确定模块具体用于，
[0035] 计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的比值；
[0036] 将所述比值大于第一阈值的相应词确定为所述微博数据中的热词。
[0037] 进一步地，所述确定模块具体还用于，计算所述各个词在所述微博数据中的出现次数与在历史微博数据中的出现次数的差值；
[0038] 所述确定模块将所述比值大于第一阈值相应词确定为所述微博数据中的热词中，所述确定模块具体用于，将所述比值大于第一阈值，且所述差值大于第二阈值的相应词确定为所述微博数据中的热词。
[0039] 进一步地，所述聚类模块对包括所述热词的微博进行聚类，确定所述微博数据中的热点事件中，所述聚类模块具体用于，
[0040] 对包括所述热词的微博进行canopy聚类，确定初始类的数目和中心点；
[0041] 根据所述初始类的数目和中心点对包括所述热词的微博进行k-means聚类，确定所述微博数据中的热点事件。
[0042] 进一步地，所述聚类模块对包括所述热词的微博进行canopy聚类，确定初始类的数目和中心点之前，所述确定模块还用于，查询预设的词表，确定所述热词在所述词表中的序号；
[0043] 根据所述热词在所述词表中的序号和所述热词在所述微博数据中的出现次数，确定包括所述热词的微博对应的微博向量；
[0044] 所述聚类模块对包括所述热词的微博进行canopy聚类，确定初始类的数目和中心点中，所述聚类模块具体用于，
[0045] 对所述微博向量进行canopy聚类，确定初始类的数目和中心点。
[0046] 本发明中，通过获取社交网络中当前时间段内的微博数据；对微博数据中的多条微博的内容进行分词，统计分词得到的各个词在微博数据中的出现次数；获取社交网络中历史时间段内各个词在历史微博数据中的出现次数；历史时间段和当前时间段的时间长度相等；对各个词在微博数据中的出现次数和在历史微博数据中的出现次数进行比较，确定微博数据中的热词；获取微博数据中包括热词的微博；对包括热词的微博进行聚类，确定微博数据中的热点事件，通过先从社交网络中当前时间段内的微博数据选出包括热词的微博，对包括热词的微博进行聚类，减少了聚类时的微博数量，缩短了获取热点事件的时间，提高了聚类获取热点事件的效率。
【附图说明】
[0047] 图1为本发明提供的热点事件检测方法一个实施例的流程图；
[0048] 图2为本发明提供的热点事件检测方法又一个实施例的流程图；
[0049] 图3为canopy聚类算法的示意图；
[0050]图4为本发明提供的热点事件检测装置一个实施例的结构示意图。
【具体实施方式】
[0051] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0052] 图1为本发明提供的热点事件检测方法一个实施例的流程图，如图1所示，包括：
[0053] 101、获取社交网络中当前时间段内的微博数据。
[0054] 本发明提供的热点事件检测方法的执行主体为热点事件检测装置，热点事件检测装置具体可以为互联网中的应用服务器，或者设置在应用服务器上的软件或系统，用于检测社交网络中用户发表的各微博中的热点事件。
[0055] 102、对微博数据中的多条微博的内容进行分词，统计分词得到的各个词在微博数据中的出现次数。
[005

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡春明;孙承根;吴博;于伟仁;沃天宇;
技术所有人：北京航空航天大学;
我是此专利的发明人

上一篇：一种监控数字视频数据存储的文件系统的制作方法
上一篇：分布式数据处理平台的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。