一种热点事件分类方法及装置的制造方法_2

文档序号:9579364阅读:来源:国知局
点事件μk的距离d(Xl,μk)的和为最小,确定该聚类的中心点对应的热点事件 其中
Xi为属于类别Ck的所有热点事件,μk为中心点对应的热 r x;:e€-k 点事件,丨为确定的该聚类的中心点对应的热点事件。
[0059] 可选的,所述确定模块,具体用于根据以下公式确定该待分类的热点事件与每个 聚类的中心点对应的热点事件的距离:
[0060]
[0061] 其中,X(t)为该待分类的热点事件X在该设定时间长度内每个时间点t的转发数 量或评论数量,C(t)为聚类中心对应的热点事件C在该设定时间长度内每个时间点t的转 发数量或评论数量,T为设定的时间长度。
[0062] 可见,本发明实施例中,提出了一种热点事件分类方法及装置,该方法中采集每个 热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量;根据每个热 点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点 事件划分到不同的聚类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚 类的中心点对应的热点事件,根据每个中心点对应的热点事件对待分类的热点事件进行分 类。由于本发明实施例中通过接收待分类的热点事件,确定该待分类的热点事件与每个聚 类的中心点对应的热点事件的距离,将所述待分类的热点事件划分到距离的最小值对应的 聚类中,实现了热点事件的分类。当然,实施本发明的任一产品或方法必不一定需要同时达 到以上所述的所有优点。
【附图说明】
[0063] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0064]图1A为本发明实施例提供的一种热点事件分类方法的流程示意图;
[0065] 图1B为本发明实施例提供的三类聚类中心点对应的热点事件在设定时间长度内 每个时间点及转发数量的关系示意图;
[0066] 图1C为本发明实施例提供的调整前及调整后的三类聚类中心点对应的热点事件 在设定时间长度内的转发数量示意图;
[0067] 图2为本发明实施例所提供的一种中心点对应的热点事件调整过程的流程示意 图;
[0068] 图3为本发明实施例提供的一种热点事件分类装置的结构示意图。
【具体实施方式】
[0069] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0070] 下面通过具体实施例,对本发明进行详细说明。
[0071] 图1A为本发明实施例提供的一种热点事件分类方法的流程示意图,包括如下步 骤:
[0072] S101 :接收待分类的热点事件。
[0073] 在本发明实施例中为了实现对热点事件的分类,该待分类的热点事件中包括该热 点事件对应的设定时间长度内的转发数量或评论数量。该设定的时间可以为一个固定的时 间,例如可以为30小时,该热点事件对应的设定时间长度内的转发数量或评论数量,可以 是以该热点事件发表为起点,至其传播30小时对应的转发数量或评论数量等。
[0074] S102 :确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离。
[0075] 其中,确定每个聚类的中心点对应的热点事件包括:采集每个热点事件,并获取该 热点事件对应的设定时间长度内的转发数量或评论数量;根据每个热点事件对应的设定时 间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚 类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点 事件。
[0076] 每个聚类中心点对应有一个热点事件,采用K-SC算法或者K-Means算法可以确定 两个热点事件之间的距离。
[0077] 具体的,根据以下公式确定该待分类的热点事件与每个聚类的中心点对应的热点 事件的距离:
[0078]
[0079] 其中,x(t)为该待分类的热点事件X在该设定时间长度内每个时间点t的转发数 量或评论数量,C(t)为聚类中心对应的热点事件C在该设定时间长度内每个时间点t的转 发数量或评论数量,T为设定的时间长度。具体的确定两个热点事件之间距离的方法属于 现有技术,在本发明实施例中对该过程不进行赘述。
[0080] S103:将所述待分类的热点事件划分到该距离的最小值对应的聚类中。
[0081] 通过本发明实施例提供的上述实现方案可以实现对热点事件的分类。
[0082] 在网络中,用户之间会通过相互关注而连接,热点事件在相互连接的用户之间进 行传播。与一个用户相连的所有边的数量就是这个用户的度。整个网络的度分布服从幂率 分布,即少部分用户拥有较大的度,而大部分用户只有很小的度。即主流领域中的少数关键 人物拥有大量的粉丝,处于核心地位,而大多数用户都是一般受众,影响力也较小,在一定 程度上会受到核心人物的影响。虽然网络中每个个体的特征和属性不同,但是所有个体的 集体行为会抵消不同个体之间的差异,从而造成整体的趋势,表现在热点事件的转发数量 或评论数量的波形变化上。
[0083]因此在本发明实施例中为了实现对热点事件的分类,首先采集每个热点事件,获 取每个热点事件对应的设定时间长度内的转发数量或评论数量,根据需要设置聚类的数 量,并设置每个聚类的初始的中心点对应的热点事件,针对采集到的每个热点事件,确定该 热点事件与每个聚类的初始的中心点对应的热点事件之间的距离,将该热点事件划分到距 离最小值对应的聚类中,并根据最终聚类后每个聚类中包含的所有热点事件,确定该聚类 的中心点对应的热点事件。由于本发明实施例中通过采集大量的热点事件,将采集到的热 点事件作为样本,通过对热点事件的分析,从而确定热点事件对应的每个聚类。
[0084] 具体的,所述采集每个热点事件,并获取该热点事件对应的设定时间长度内的转 发数量或评论数量,可以包括:
[0085] 使用爬虫或开放API采集热点事件在设定时间长度内的转发数量或评论数量。根 据对热点事件的大量观察,转发数量或者评论数量在距发表时间设定时间长度以后基本趋 于〇,其中设定时间长度均为30小时的长度。
[0086] 采集到的热点事件中可能还包括一些噪声,例如个人事件或者广告事件等,为了 提高后续对热点事件分类的准确性,在本发明实施例中,所述根据每个热点事件对应的设 定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同 的聚类中之前,可以包括:
[0087] 针对每个热点事件,判断该热点事件的平均时间转发量!和意见领袖占有率D是 否都大于相应的平均时间转发量阈值、和意见领袖占有率阈值tD;
[0088] 如果否,则删除该热点事件,如果是,则进行后续对该热点事件进行聚类的过程, 其中根据如下公式确定平均时间转发量f和意见领袖占有率D:
[0089]
[0090]
[0091] f为平均时间转发量,D为意见领袖占有率,Rt为该热点事件的总转发量,T为设 定的时间长度,Vb为该热点事件传播过程中转发该热点事件的意见领袖的个数,Vt为该热 点事件传播过程中转发该热点事件的用户的个数。
[0092]由于热点事件是很短时间内的大量传播,而且其中包括了相当一部分意见领袖的 参与,因而热点事件可以用平均时间转发量I和意见领袖占有率D来判断。其中意见领袖 针对不同领域可以设置不同的意见领袖,也可以设置相同的意见领袖,该意见领袖可以为 一些专家,或者经过认证的公众账号等。
[0093] 具体的,所述根据每个热点事件对应的设定时间长度内的转发数量或评论数量, 对热点事件进行聚类,可以包括:
[0094] 根据每个热点事件对应的设定时间长
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1