网络转发行为预测方法及装置的制造方法_4

文档序号:9217615阅读:来源:国知局
的的替代特征来代替。
[0140] 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例 中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的 范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任 意之一都可以以任意的组合方式来使用。
[0141] 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行 的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用 微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的加载有排序网址的客户 端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述 的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这 样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的 形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他 形式提供。
[0142] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领 域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中, 不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词"包含"不排除存在 未列在权利要求中的元件或步骤。位于元件之前的单词"一"或"一个"不排除存在多个这 样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来 实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件 项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为 名称。
【主权项】
1. 一种网络转发行为预测方法,其特征在于,包括: 计算待预测用户的转发行为与热点事件趋势的第一匹配度,并计算待预测微博与热点 事件的第二匹配度; 将所述第一匹配度、所述第二匹配度、W及所述待预测用户的信息输入到预先训练好 的分类器中,输出所述待预测用户对所述待预测微博的动作类型。2. 如权利要求1所述的方法,其特征在于,计算待预测用户的转发行为与热点事件趋 势的第一匹配度具体包括: 通过提取待预测微博的话题标签,判断所述话题标签内容是否命中热点事件,如果命 中,则确定所述待预测微博属于该热点事件,如果未命中,则计算待预测微博的关键词与热 点事件匹配度,将匹配度最高的热点事件判定为待预测微博所属的热点事件。3. 如权利要求2所述的方法,其特征在于,计算待预测微博的关键词与热点事件匹配 度具体包括: 根据公式1计算待预测微博的关键词与热点事件匹配度;公式1; 其中,m表示所述待预测微博,S表示热点事件,Vm表示待预测微博的特征词集合,VS表 示热点事件的特征词集合。4. 如权利要求1所述的方法,其特征在于,计算待预测微博与热点事件的第二匹配度 具体包括: 在热点事件发生周期内,计算热点事件相关微博在所述热点事件发生周期内每天的积 累转发量,并计算所述待预测微博的用户在所述热点事件发生周期内每天转发相关微博的 数量; 根据公式2计算待预测微博的用户转发行为与热点事件趋势的匹配度公式2; 其中,S表示热点事件,U表示待预测微博的用户,t表示热点事件发生周期,Wf表示 第i天与热点事件S相关的微博转发总量,成S表示的平均值。表示第i天用户 U所转发的与热点事件S相关的微博数量,々f表示的平均值。5. 如权利要求1所述的方法,其特征在于,对分类器进行训练具体包括: 选取预订时段内的热点事件列表,根据所述热点事件列表在网络上爬取相关信息,针 对所述信息进行内容提取,对提取的内容进行分词和词频统计,形成由关键词组成的特征 词集合,并获取与所述热点事件列表中的热点事件相关的微博用户作为训练样本集,并在 所述训练样本集中标识用户、微博、W及动作类型之间的关系; 基于所述训练样本集,通过提取微博的话题标签,判断所述话题标签内容是否命中热 点事件,如果命中,则确定所述微博属于该热点事件,如果未命中,则根据公式1计算微博 的关键词与热点事件匹配度戶f,将匹配度最高的热点事件判定为待预测微博所属的热点 事件;公式1; 其中,m表示微博,S表示热点事件,Vm表示微博的特征词集合,VS表示热点事件的特征 词集合; 基于所述训练样本集,在热点事件发生周期内,计算热点事件相关微博在所述热点事 件发生周期内每天的积累转发量,并计算所述微博用户在所述热点事件发生周期内每天转 发相关微博的数量; 根据公式2计算微博用户转发行为与热点事件趋势的匹配度片fJ公式2; 其中,S表示热点事件,U表示待预测微博的用户,t表示热点事件发生周期,Wf表示第i天与热点事件S相关的微博转发总量,々S表示wf的平均值。W,f巧表示第i天用户U所 转发的与热点事件S相关的微博数呈,化表示成的的平均值; 基于所述训练样本集,将所述微博的关键词与热点事件匹配度片^、所述微博用户转发 行为与热点事件趋势的匹配度片、W及动作类型输入到分类器,对所述分类器进行训练。6. -种网络转发行为预测装置,其特征在于,包括: 计算模块,用于计算待预测用户的转发行为与热点事件趋势的第一匹配度,并计算待 预测微博与热点事件的第二匹配度; 预测模块,用于将所述第一匹配度、所述第二匹配度、W及所述待预测用户的信息输入 到训练模块预先训练好的分类器中,输出所述待预测用户对所述待预测微博的动作类型。7. 如权利要求6所述的装置,其特征在于,所述计算模块具体用于: 通过提取待预测微博的话题标签,判断所述话题标签内容是否命中热点事件,如果命 中,则确定所述待预测微博属于该热点事件,如果未命中,则计算待预测微博的关键词与热 点事件匹配度,将匹配度最高的热点事件判定为待预测微博所属的热点事件。8. 如权利要求7所述的装置,其特征在于,所述计算模块具体用于: 根据公式1计算待预测微博的关键词与热点事件匹配度巧::;公式1; 其中,m表示所述待预测微博,S表示热点事件,Vm表示待预测微博的特征词集合,Vs 表示热点事件的特征词集合。9. 如权利要求6所述的装置,其特征在于,所述计算模块具体用于: 在热点事件发生周期内,计算热点事件相关微博在所述热点事件发生周期内每天的积 累转发量,并计算所述待预测微博的用户在所述热点事件发生周期内每天转发相关微博的 数量; 根据公式2计算待预测微博的用户转发行为与热点事件趋势的匹配度A;公式2; 其中,S表示热点事件,U表示待预测微博的用户,t表示热点事件发生周期,Wf表示 第i天与热点事件S相关的微博转发总量,々S表示wf的平均值。W,f0表示第i天用户 U所转发的与热点事件S相关的微博数量,々,f表示W,f巧的平均值。10. 如权利要求6所述的装置,其特征在于,所述训练模块具体用于: 选取预订时段内的热点事件列表,根据所述热点事件列表在网络上爬取相关信息,针 对所述信息进行内容提取,对提取的内容进行分词和词频统计,形成由关键词组成的特征 词集合,并获取与所述热点事件列表中的热点事件相关的微博用户作为训练样本集,并在 所述训练样本集中标识用户、微博、W及动作类型之间的关系; 基于所述训练样本集,通过提取微博的话题标签,判断所述话题标签内容是否命中热 点事件,如果命中,则确定所述微博属于该热点事件,如果未命中,则根据公式1计算微博 的关键词与热点事件匹配度.pf,将匹配度最高的热点事件判定为待预测微博所属的热点 事件;公式1; 其中,m表示微博,S表示热点事件,Vm表示微博的特征词集合,Vs表示热点事件的特 征词集合; 基于所述训练样本集,在热点事件发生周期内,计算热点事件相关微博在所述热点事 件发生周期内每天的积累转发量,并计算所述微博用户在所述热点事件发生周期内每天转 发相关微博的数量; 根据公式2计算微博用户转发行为与热点事件趋势的匹配度P,f,公式2; 其中,S表示热点事件,U表示待预测微博的用户,t表示热点事件发生周期,Wf表示第 i天与热点事件S相关的微博转发总量,々s表示w/的平均值。表示第i天用户u所 转发的与热点事件S相关的微博数量,表示的平均值; 基于所述训练样本集,将所述微博的关键词与热点事件匹配度pf、所述微博用户转发 行为与热点事件趋势的匹配度Af、W及动作类型输入到分类器,对所述分类器进行训练。
【专利摘要】本发明公开了一种网络转发行为预测方法及装置。该方法包括:计算待预测用户的转发行为与热点事件趋势的第一匹配度,并计算待预测微博与热点事件的第二匹配度;将第一匹配度、第二匹配度、以及待预测用户的信息输入到预先训练好的分类器中,输出待预测用户对待预测微博的动作类型。借助于本发明的技术方案,有效提高了微博转发行为预测的准确性。
【IPC分类】G06Q10/04, G06F17/30
【公开号】CN104933475
【申请号】CN201510275958
【发明人】刘玮, 王丽宏, 陈江, 张同虎, 马宏远, 王博
【申请人】国家计算机网络与信息安全管理中心
【公开日】2015年9月23日
【申请日】2015年5月27日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1