一种热点事件分类方法及装置的制造方法_5

文档序号:9579364阅读:来源:国知局
相同要素。
[0179] 本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实 施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例 的部分说明即可。
[0180] 以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在 本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围 内。
【主权项】
1. 一种热点事件分类方法,其特征在于,所述方法包括步骤: 接收待分类的热点事件; 确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离; 将所述待分类的热点事件划分到该距离的最小值对应的聚类中,其中根据以下方法, 确定每个聚类的中心点对应的热点事件:采集每个热点事件,并获取该热点事件对应的设 定时间长度内的转发数量或评论数量;根据每个热点事件对应的设定时间长度内的转发数 量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类 中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件。2. 根据权利要求1所述的方法,其特征在于,所述确定该聚类的中心点对应的热点事 件之后,所述方法还包括: 针对每个聚类的中心点对应的热点事件,根据如下公式对该中心点对应的热点事件在 设定时间长度内的转发数量或评论数量进行调整:其中,AB(t)为设定时间长度内调整后的时间点t的转发量,U(n)为该热点事件在设 定时间长度内的当前时间点η时,在网络中未传播到的用户的个数,ε为采集到的热点事 件中包含的噪声所对应的广告事件和个人事件的数量,S(t)根据以下公式确定:其中,nb为该热点事件在设定时间长度内传播到预设的意见领袖的时间点; G(t)根据以下公式确定:其中,a为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值时的幅 值,w为该热点事件在设定时间长度内从转发量或者评论数量出现第一峰值到第二峰值的 时间长度,tp为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值的时间 占 . f(T)根据以下公式确定:其中β为热点事件传播过程中的传播系数,τ为传播过程中的每个时间点。3. 根据权利要求1所述的方法,其特征在于,所述根据每个热点事件对应的设定时间 长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类 中之前,所述方法包括: 针对每个热点事件,判断该热点事件的平均时间转发量夏和意见领袖占有率D是否都 大于相应的平均时间转发量阈值、和意见领袖占有率阈值t D; 如果否,则删除该热点事件,如果是,则进行后续对该热点事件进行聚类的过程,其中 根据如下公式确定平均时间转发量I.和意见领袖占有率D :f为平均时间转发量,D为意见领袖占有率,Rt为该热点事件的总转发量,T为设定的 时间长度,Vb为该热点事件传播过程中转发该热点事件的意见领袖的个数,Vt为该热点事 件传播过程中转发该热点事件的用户的个数。4. 根据权利要求1所述的方法,其特征在于,所述确定该聚类的中心点对应的热点事 件包括: 根据属于类别(;的所有热点事件Xl,与中心点对应的热点事件yk的距离d(Xl,y k)的 和为最小,确定该聚类的中心点对应的热点事件/4,其中Xi为属 于类别Ck的所有热点事件,μ k为中心点对应的热点事件,< 为确定的该聚类的中心点对 应的热点事件。5. 根据权利要求1所述的方法,其特征在于,确定该待分类的热点事件与每个聚类的 中心点对应的热点事件的距离包括: 根据以下公式确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距 离:其中,X(t)为该待分类的热点事件X在该设定时间长度内每个时间点t的转发数量或 评论数量,C(t)为聚类中心对应的热点事件C在该设定时间长度内每个时间点t的转发数 量或评论数量,T为设定的时间长度。6. -种热点事件分类装置,其特征在于,所述装置包括: 接收模块,用于接收待分类的热点事件; 确定模块,用于确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距 离; 聚类模块,用于将所述待分类的热点事件划分到该距离的最小值对应的聚类中; 所述装置还包括: 采集模块,用于采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发 数量或评论数量; 所述聚类模块,还用于根据每个热点事件对应的设定时间长度内的转发数量或评论数 量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对该聚 类中包含的每个热点事件,确定该聚类的中心点对应的热点事件。7. 根据权利要求6所述的装置,其特征在于,所述装置还包括: 调整模块,用于针对每个聚类的中心点对应的热点事件,根据如下公式对该中心点对 应的热点事件在设定时间长度内的转发数量或评论数量进行调整:其中,AB(t)为设定时间长度内调整后的时间点t的转发量,U(n)为该热点事件在设 定时间长度内的当前时间点η时,在网络中未传播到的用户的个数,ε为为采集到的热点 事件中包含的噪声所对应的广告事件和个人事件的数量,S(t)根据以下公式确定:其中,nb为该热点事件在设定时间长度内传播到预设的意见领袖的时间点; G(t)根据以下公式确定: G(t) = a c ' 其中,a为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值时的幅 值,w为该热点事件在设定时间长度内从转发量或者评论数量出现第一峰值到第二峰值的 时间长度,tp为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值的时间 占 . f(T)根据以下公式确定: f ( τ ) = β * τ L5 其中β为热点事件传播过程中的传播系数,τ为传播过程中的每个时间点。8. 根据权利要求6所述的装置,其特征在于,所述装置还包括: 过滤模块,用于针对每个热点事件,判断该热点事件的平均时间转发量R和意见领袖 占有率D是否大于相应的平均时间转发量阈值tjP意见领袖占有率阈值t D;如果否,则删 除该热点事件,如果是,则将所述热点事件发送到所述聚类模块,其中根据如下公式确定平 均时间转发量R和意见领袖占有率D :f为平均时间转发量,D为意见领袖占有率,Rt为该热点事件的总转发量,T为设定的 时间长度,Vb为该热点事件传播过程中转发该热点事件的意见领袖的个数,Vt为该热点事 件传播过程中转发该热点事件的用户的个数。9. 根据权利要求6所述的装置,其特征在于,所述聚类模块,具体用于根据属于类别C k的所有热点事件Xi,与中心点对应的热点事件μ k的距离d(Xl,μ k)的和为最小,确定该聚 类的中心点对应的热点事件 <,其中' Xi为属于类别C k的所有 热点事件,μ k为中心点对应的热点事件,内为确定的该聚类的中心点对应的热点事件。10. 根据权利要求6所述的装置,其特征在于,所述确定模块,具体用于根据以下公式 确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离:其中,x(t)为该待分类的热点事件X在该设定时间长度内每个时间点t的转发数量或 评论数量,C(t)为聚类中心对应的热点事件C在该设定时间长度内每个时间点t的转发数 量或评论数量,T为设定的时间长度。
【专利摘要】本发明实施例提供了一种热点事件分类的方法及装置,该方法中采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量;根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件,根据每个中心点对应的热点事件对待分类的热点事件进行分类。由于本发明实施例中通过接收待分类的热点事件,确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离,将所述待分类的热点事件划分到距离的最小值对应的聚类中,实现了热点事件的分类。
【IPC分类】G06F17/30
【公开号】CN105335476
【申请号】CN201510645347
【发明人】牛凯, 黄家坤
【申请人】北京邮电大学
【公开日】2016年2月17日
【申请日】2015年10月8日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1