网络转发行为预测方法及装置的制造方法_3

文档序号:9217615阅读:来源:国知局
热点事件发生后60天为事件周期,统计热点事件相关微博在事件周期内 每天的累积转发量,表示热点事件的传播趋势分布heat_event;
[0099] (2)统计用户在事件周期内每天转发的事件相关微博的数量user_heat_event;
[0100] (3)计算微博m与热点事件的匹配度S,即判断微博属于某热点事件的概率大 小,概率越大,微博越有可能属于某热点事件。计算分为两步进行,首先通过提取微博的话 题标签,判断话题标签内容是否命中热点事件,如果命中,该微博就属于该热点事件,如果 未命中,就进行第二步判断,计算微博关键词与热点事件相似度,相似度最高的热点事件判 定为微博所属热点事件,计算方法如下:表示微博特征词集合,V S表示热点事件S的特征 词集合。
[0102] (4)计算用户u转发行为与热点事件S趋势的匹配度Af,即用户u行为与事件S 传播趋势的共变关系大小,匹配度越高,表明用户在事件周期对事件相关微博进行了持续 关注,对事件具有较高的兴趣度。用户行为与事件趋势的匹配度计算公式如下:t表示事件 周期,表示第i天的与事件S相关的微博总数,]^表示TVf的平均值。表示第i天 用户U所转发的与事件S相关的微博数,及丨表示的平均值。
[0104] 三、模型训练
[0105] 从训练集提取微博与热点事件匹配度、用户转发行为与热点事件趋势匹配度、动 作类型,输入C4. 5决策树分类模型,对模型参数进行训练;
[0106] 四、转发预测
[0107] (1)计算待预测用户转发行为与热点事件趋势匹配度;
[0108] (2)计算待预测微博与热点事件匹配度;
[0109] (3)将上述特征输入训练好的分类器,输出结果为动作类型。
[0110] 从上述处理可以看出,本发明实施例针对现有微博转发预测方法没有充分考虑用 户对热点事件已有背景知识对是否采取转发动作的影响,以及仅依靠内容相似度来判断用 户对微博感兴趣程度的不准确性等问题,(1)提出事件背景知识获取和特征向量计算方法, 用于表示用户对热点事件的综合认知程度,并将直接判断用户对微博的感兴趣程度问题转 换成判断用户对微博所属热点事件的感兴趣程度问题,能够避免因用户历史微博内容局 限性而导致的预测准确性低问题。(2)提出利用用户历史转发行为趋势特征及其与热点事 件传播趋势一致性的计算方法,以此代表用户对热点事件的关注程度,进而表示该用户对 热点事件微博的感兴趣程度,避免直接通过计算单条微博与用户兴趣相似程度所带来的不 准确性问题。
[0111] 综上所述,借助于本发明实施例的技术方案,通过将用户背景知识作为用户转发 决策的影响因素之一,通过判断微博所属热点事件,进而计算用户行为与事件趋势一致性 程度,最终判断用户对微博的感兴趣程度,有效解决了现有技术中不考虑用户即有的知识 背景,以及微博所含信息量少,用户兴趣计算不准确性的问题,有效提高了微博转发行为预 测的准确性。
[0112] 装置实施例
[0113] 根据本发明的实施例,提供了一种网络转发行为预测装置,图3是本发明实施例 的网络转发行为预测装置的结构示意图,如图3所示,根据本发明实施例的网络转发行为 预测装置包括:计算模块30、预测模块32,以下对本发明实施例的各个模块进行详细的说 明。
[0114] 计算模块30,用于计算待预测用户的转发行为与热点事件趋势的第一匹配度,并 计算待预测微博与热点事件的第二匹配度;计算模块具体用于:
[0115] 通过提取待预测微博的话题标签,判断话题标签内容是否命中热点事件,如果命 中,则确定待预测微博属于该热点事件,如果未命中,则计算待预测微博的关键词与热点事 件匹配度,将匹配度最高的热点事件判定为待预测微博所属的热点事件。
[0116] 根据公式1计算待预测微博的关键词与热点事件匹配度pf ;
[0118]其中,m表示待预测微博,s表示热点事件,Vm表示待预测微博的特征词集合,V 5表 示热点事件的特征词集合。
[0119] 在热点事件发生周期内,计算热点事件相关微博在热点事件发生周期内每天的积 累转发量,并计算待预测微博的用户在热点事件发生周期内每天转发相关微博的数量;
[0120] 根据公式2计算待预测微博的用户转发行为与热点事件趋势的匹配度;
[0122] 其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,表 示第i天与热点事件S相关的微博转发总量,^^表示iVf的平均值。表示第i天用 户U所转发的与热点事件S相关的微博数量,表示仍的平均值。
[0123] 预测模块32,用于将第一匹配度、第二匹配度、以及待预测用户的信息输入到训练 模块预先训练好的分类器中,输出待预测用户对待预测微博的动作类型。
[0124] 训练模块具体用于:
[0125] 选取预订时段内的热点事件列表,根据热点事件列表在网络上爬取相关信息,针 对信息进行内容提取,对提取的内容进行分词和词频统计,形成由关键词组成的特征词集 合,并获取与热点事件列表中的热点事件相关的微博用户作为训练样本集,并在训练样本 集中标识用户、微博、以及动作类型之间的关系;
[0126] 基于训练样本集,通过提取微博的话题标签,判断话题标签内容是否命中热点事 件,如果命中,则确定微博属于该热点事件,如果未命中,则根据公式1计算微博的关键词 与热点事件匹配度pi,将匹配度最高的热点事件判定为待预测微博所属的热点事件;
[0128] 其中,m表示微博,s表示热点事件,Vm表示微博的特征词集合,Vs表示热点事件 的特征词集合;
[0129] 基于训练样本集,在热点事件发生周期内,计算热点事件相关微博在热点事件发 生周期内每天的积累转发量,并计算微博用户在热点事件发生周期内每天转发相关微博的 数量;
[0130] 根据公式2计算微博用户转发行为与热点事件趋势的匹配度;
[0132] 其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,况f表 示第i天与热点事件S相关的微博转发总量,及5表示ivf的平均值。表示第i天用 户U所转发的与热点事件S相关的微博数量,允表示<(/)的平均值;
[0133] 基于训练样本集,将微博的关键词与热点事件匹配度pf、微博用户转发行为与热 点事件趋势的匹配度A)以及动作类型输入到分类器,对分类器进行训练。 、
[0134] 综上所述,借助于本发明实施例的技术方案,通过将用户背景知识作为用户转发 决策的影响因素之一,通过判断微博所属热点事件,进而计算用户行为与事件趋势一致性 程度,最终判断用户对微博的感兴趣程度,有效解决了现有技术中不考虑用户即有的知识 背景,以及微博所含信息量少,用户兴趣计算不准确性的问题,有效提高了微博转发行为预 测的准确性。
[0135] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含这些改动和变型在内。
[0136] 在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。 各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求 的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种 编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发 明的最佳实施方式。
[0137] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施 例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构 和技术,以便不模糊对本说明书的理解。
[0138] 类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在 上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施 例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保 护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面 的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此, 遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身 都作为本发明的单独实施例。
[0139] 本领域那些技术人员可以理解,可以对实施例中的客户端中的模块进行自适应性 地改变并且把它们设置在与该实施例不同的一个或多个客户端中。可以把实施例中的模块 组合成一个模块,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特 征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包 括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者客户端 的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和 附图)中公开的每个特征可以由提供相同、等同或相似目
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1