一种热点事件分类方法及装置的制造方法_3

文档序号：9579364阅读：来源：国知局

度内的转发数量或评论数量，采用K-SC算法对热点事件进行聚类。
[0095] 由于热点事件的类型很多，导致热点事件在对应的设定时间长度内的转发数量或评论数量的变化也很多。然而有些不同的热点事件虽然有所差异，但是它们的趋势是一致的，也就是服从相同的传播规律，可以划分到一个聚类中。
[0096] 具体的，采用K-SC算法对热点事件进行聚类，可以是针对每个热点事件，确定该热点事件与每个中心点对应的热点事件之间的距离，从而确定该热点事件所在的聚类。采用K-SC算法可以理解为，通过以下公式计算：
[0097；
[0098；
[0099] 其中，d(m,η)为任意两个热点事件m和η的距离，X为热点事件m在该设定的时间长度内每个时间点的转发数量或评论数量，α是使热点事件!!1和η转发数量或评论数量在设定时间长度内在同一时间点峰值达到一致的缩放系数，yq是使热点事件m在设定时间长度内与热点事件η在同一时间点转发数量或评论数量峰值达到一致时，热点事件y偏移的 q个时间点。
[0100] K-SC算法比较适合于对一定时间长度内的事件进行聚类，在进行聚类的过程中只需要考虑该时间长度内的趋势特征即可，而不考虑具体的时间点。K-SC算法在进行聚类计算时，无论是对热点事件在设定的时间长度内的转发数量或评论数量的峰值的幅值大小还是峰值点对应的时间都做了归一化，屏蔽了可能由于各种非趋势项的原因导致的热点事件在设定的时间长度内的转发数量或评论数量的差异，从而将在设定的时间长度内的转发数量或评论数量传播规律一致的热点事件聚到一个聚类中。
[0101] 将每个热点事件聚类到对应的聚类中后，为了保证后续对待分类热点事件进行分类的准确性，在本发明实施例中还可以针对每个聚类中包含的热点事件更新该聚类的中心点对应的热点事件。
[0102] K-SC算法的聚类中心更新策略并不是简单的对每个热点事件取平均，而是每个热点事件与新的聚类中心点对应的热点事件的距离达到最小，即对属于类别Ck的所有热点事件Xi，与中心点对应的热点事件的距离d(Xl，yk)的和为最小：
[0103]
[0104] 其中，A为新的聚类中心对应的热点事件。
[0105] 然而，热点事件的数据量较大，而且每一个热点事件的时间维度也较高，K-SC算法计算需要接近〇(n2)的时间复杂度，其中，0(n2)是衡量算法事件复杂度的参数，这里是平方级的，就是说有η个热点事件需要计算复杂度，那么需要计算rT2次，数据量大的情况下计算会很慢，而且聚类的过程需要不断地迭代，因而直接使用K-SC聚类算法性能会很差。为了实现海量热点事件在设定的时间长度内的转发数量或评论数量数据的高效聚类，本发明提供了基于MapReduce的K-SC并行聚类算法，该并行聚类算法可以直接运行在Hadoop平台，Hadoop平台是目前最流行、最具代表性的分布式处理框架，其中HDFS和MapReduce是它的两个核心基础，是专门为海量数据应用场景设计的文件系统和并行计算框架，采用分布式处理方法对热点事件实现分布式聚类。
[0106] K-SC并行聚类算法中，主服务器根据指定的聚类数量k的值，随机选取k个热点事件作为初始聚类中心点对应的热点事件，然后将聚类中心点对应的热点事件和对应数量的热点事件分配到各个服务器，其中，聚类中心点对应的热点事件分配到每个服务器，每个热点事件，可以称为热点事件的样本平均分配到每个服务器，即每个服务器的聚类中心点对应的热点事件相同，热点事件的样本平均分配。
[0107] 每个服务器分别读取分配到本地的热点事件的样本，计算每个热点事件的样本到各个聚类中心对应的热点事件的距离，并将其划分到该距离最小的聚类中，然后在每个服务器中，针对每个聚类，对该聚类中的聚类中心点对应的热点事件进行更新，即计算出与当前类别所有热点事件的样本距离最小的热点事件，将其作为新的聚类中心对应的热点事件。此过程每个服务器并行更新每个热点事件对应的聚类中心对应的热点事件。
[0108] 重复执行上述操作，直到聚类中心对应的热点事件不再变化或者热点事件的样本与聚类中心对应的热点事件的距离降低到设定的阈值以下。
[0109] 这样，就将原本逐个计算热点事件的样本与聚类中心对应的热点事件的距离的串行计算过程，分配给不同的服务器并行执行，提高了计算效率。
[0110] 热点事件聚类得到的聚类中心对应的热点事件代表了热点事件的类别，这个过程是初步的热点事件在传播过程中转发数量或评论数量随时间动态变化的规律发现过程。
[0111] 因为社交网络上热点事件的传播过程也符合两级传播论：第一阶段：热点事件首先传播到意见领袖，热点事件也就从意见领袖覆盖到社交网络中与该意见领袖相连的普通节点；第二阶段：普通节点之间相互传播的过程，扩散式的传播到整个社交网络。
[0112] 本发明实施例基于两级传播的基本理论，根据热点事件的时序特性和社交网络传播特性，构建两级时序传播模型，其中时序特性为该设定时间长度内转发数量或评论数量随时间变化的特性。时序特性表现为波形具有两个峰值，社交网络特性表现为长尾幂率分布。因此，在本发明实施例中可以在每个聚类中，对聚类中心点对应的热点事件进行调整，具体的所述方法还包括：
[0113] 针对每个聚类的中心点对应的热点事件，根据如下公式对该中心点对应的热点事件在设定时间长度内的转发数量或评论数量进行调整：
[0114]
[0115] 其中，AB(t)为设定时间长度内调整后的时间点t的转发量，U(n)为该热点事件在设定时间长度内的当前时间点η时，在网络中未传播到的用户的个数，ε为采集到的热点事件中包含的噪声所对应的广告事件和个人事件的数量，S(t)根据以下公式确定：
[0116]
[0117] 其中，nb为该热点事件在设定时间长度内传播到预设的意见领袖的时间点；
[0118] G(t)根据以下公式确定：
[0119] GU) = a cWi ' !
[0120] 其中，a为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值时的幅值，W为该热点事件在设定时间长度内从转发量或者评论数量出现第一峰值到第二峰值的时间长度，tp为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值的时间点；
[0121] f(T)根据以下公式确定：
[0122] f(τ ) =β*τL5
[0123] 其中β为热点事件传播过程中的传播系数，τ为传播过程中的每个时间点。传播系数的确定方法属于现有技术，在本发明实施例中对该确定过程不进行赘述。
[0124] 图1Β为本发明实施例提供的三类聚类中心点对应的热点事件在设定时间长度内每个时间点及转发数量的关系示意图。
[0125] 本发明实施例根据每个热点事件对应的设定时间长度内的转发数量或评论数量，采用K-SC算法对热点事件进行聚类得到了三类聚类中心对应的热点事件在设定时间长度内每个时间点及转发数量的关系示意图。
[0126] 其中，C1-C3代表三个聚类中心对应的热点事件，横坐标是时间，纵坐标是归一化后的转发数量。
[0127] 图1C为本发明实施例提供的调整前及调整后的三类聚类中心点对应的热点事件在设定时间长度内的转发数量示意图。
[0128] 针对图1Β提供的三类聚类的中心点对应的热点事件，根据该中心点对应的热点事件在设定时间长度内的转发数量或评论数量对其进行调整，得到每个热点事件对应的曲线，从而得到图1C所示三图中的连续的曲线。
[0129] 其中，C1-C3代表三个聚类中心对应的热点事件，横坐标是时间，纵坐标是归一化后的转发数量。
[0130] 采用本发明实施例提供的调整方法，对中心点对应的热点事件进行调整后，对应的调整的误差非常的小，其中RMSE是调整的误差，它的值越小代表调整效果越好。例如对图1Β中的三类热点事件进行调整后，对应的调整的误差分别为0. 0136、0. 0336和0. 0133。<

完整全部详细技术资料下载

当前第3页1 2 3 4 5