一种微博转发行为预测方法及装置的制造方法

文档序号:9200408阅读:268来源:国知局
一种微博转发行为预测方法及装置的制造方法
【技术领域】
[0001] 本发明涉及通信技术领域,尤其涉及一种微博转发行为预测方法及装置。
【背景技术】
[0002] 我国微博应用于2009年正式发布,迅速以其内容简洁、交互便捷和快速传播等特 点,发展成为人们表达观点、抒发情绪、传递信息的重要社会媒体。截至2014年6月底,我 国微博用户规模为2. 75亿,用户之间结成复杂的关注关系,每天发送微博近1亿条,信息沿 着用户间的关注关系进行传播,形成传播扩散网络。微博转发是消息在微博网络中得到持 续传播的重要方式,微博转发预测能够有效估计消息是否能获得转发及其转发规模,及早 发现可能引发大规模爆发的微博,对微博突发性检测和微博影响力评估具有重要意义。
[0003] 目前对微博的转发主要是根据用户静态属性或消息本身特征来进行预测,预测的 结果并不准确,还有就是基于转发关系的因子图模型方法进行预测,而该方法需要建立完 整的微博转发树、前一时刻节点状态以及前后两个时刻的邻居节点状态,这需要获得完整 的转发关系和历史转发日志数据,但是在实际转发预测问题中,大部分情况下只能获取到 部分用户转发数据和局部日志数据,建立完整的转发树和节点状态是很困难的,并且计算 复杂度较高。

【发明内容】

[0004] 鉴于上述的分析,本发明旨在提供一种微博转发行为预测方法及装置,用以解决 现有技术中微博转发预测不准确的问题。
[0005] 为解决上述问题,本发明主要是通过以下技术方案实现的:
[0006] 本发明一方面提供了一种微博转发行为预测方法,该方法包括:
[0007] 接收微博;
[0008] 基于所述微博的用户属性、微博内容属性和用户行为属性来预测用户是否转发该 微博;
[0009] 其中,所述用户行为属性包括用户行为特征以及用户兴趣特征,所述用户行为特 征进一步包括:用户的转发帖数、用户转发率和互动频率,所述用户兴趣特征进一步包括: 用户兴趣标签和历史微博内容所构成的特征向量。
[0010] 优选地,该方法还包括:
[0011] 基于用户活跃期和时间窗的转发行为、忽略行为以及未接收行为构建该用户的行 为模型;
[0012] 根据所述行为模型的训练数据集确定所述微博内容属性和所述用户行为属性。
[0013] 优选地,所述微博内容属性进一步包括:情感词数量和实体词数量,其中,所述情 感词数量为微博内容所含情感词个数;所述实体词数量为微博的实体词个数;
[0014] 所述用户转发帖数为用户在预定时间段内转发帖子的总数;
[0015] 所述用户转发率为用户发帖数量中转帖子的比例;
[0016] 所述互动频率为:
[0017] 其中,Σ nuv为用户从其关注用户V所转发的帖子数,
为用户转发帖子的总 数量。
[0018] 优选地,该方法还包括:
[0019] 计算所述微博与用户兴趣向量的相似度: 其中,I u(t)为用户兴趣 特征,
[0020] 且IuUtl)为微博的标签关键词,α为权重因子,T为预设的时间段,V为微博内容 关键词的特征向量。
[0021] 优选地,所述微博内容属性包括:
[0022] 用户属性为用户加 V为0,不加 V为1 ;
[0023] 微博结构特征为是否含有url、以及是否含有图片和视频链接。
[0024] 优选地,所述基于所述微博的用户属性、微博内容属性和用户行为属性来预测用 户是否转发该微博的步骤具体包括:
[0025] 将所述微博的用户属性、微博内容属性和用户行为属性带入分类器,根据所述分 类器的结果预测用户是否转发该微博。
[0026] 本发明再一方面提供了一种微博转发行为预测装置,包括:
[0027] 接收单元,接收微博;
[0028] 处理单元,基于所述微博的用户属性、微博内容属性和用户行为属性来预测用户 是否转发该微博;
[0029] 其中,所述用户行为属性包括用户行为特征以及用户兴趣特征,所述用户行为特 征进一步包括:用户的转发帖数、用户转发率和互动频率,所述用户兴趣特征进一步包括: 用户兴趣标签和历史微博内容所构成的特征向量。
[0030] 优选地,该装置还包括:
[0031] 建模单元,用于基于用户活跃期和时间窗的转发行为、忽略行为以及未接收行为 构建该用户的行为模型;
[0032] 所述处理单元还用于,根据所述行为模型的训练数据集确定所述微博内容属性和 所述用户行为属性。
[0033] 优选地,所述微博内容属性进一步包括:情感词数量和实体词数量,其中,所述情 感词数量为微博内容所含情感词个数;所述实体词数量为微博的实体词个数;
[0034] 所述用户转发帖数为用户在预定时间段内转发帖子的总数;
[0035] 所述用户转发率为用户发帖数量中转帖子的比例;
[0036] 所述互动频率为
[0037] 其中,Σ nuv为用户从其关注用户v所转发的帖子数,
为所述用户转发帖子 的总数量。
[0038] 优选地,所述处理单元还用于,将所述微博的用户属性、微博内容属性和用户行为 属性带入分类器,根据所述分类器的结果预测用户是否转发该微博。
[0039] 本发明基于用户兴趣特征以及用户行为特征对转发与否进行预测,即,本发明在 转发预测中充分考虑了用户个人行为,从而有效提高了微博转发行为预测的准确性,并解 决了现有技术中微博转发预测不准确的问题。
[0040] 本发明的其他特征和优点将在随后的说明书中阐述,并且部分的从说明书中变得 显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、 权利要求书、以及附图中所特别指出的结构来实现和获得。
【附图说明】
[0041] 图1为本发明实施例的一种微博转发行为预测方法的流程示意图;
[0042] 图2为本发明实施例的另一种微博转发行为预测方法的流程示意图;
[0043] 图3为本发明实施例的再一种微博转发行为预测方法的流程示意图;
[0044]图4为本发明实施例的一种微博转发行为预测装置的结构示意图。
【具体实施方式】
[0045] 下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并 与本发明的实施例一起用于阐释本发明的原理。为了清楚和简化目的,当其可能使本发明 的主题模糊不清时,将省略本文所描述的器件中已知功能和结构的详细具体说明。
[0046] 为了解决现有技术中现有技术中微博转发预测不准确的问题,本发明提供了一种 微博转发行为预测方法,以下结合附图以及几个实施例,对本发明进行进一步详细说明。应 当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
[0047] 方法实施例
[0048] 本发明实施例提供了一种微博转发行为预测方法,参见图1,该方法包括:
[0049] S101、接收微博;
[0050] S102、基于所述微博的用户属性、内容属性和用户行为属性来预测用户是否转发 该微博;
[0051] 本发明实施例中所述的接收微博也可以是预先选定微博,基于预定的某个或某些 微博进行转发与否的预测。
[0052] 其中,本发明实施例所述用户行为属性包括用户行为特征以及用户兴趣特征,所 述用户行为特征进一步包括:用户的转发帖数、用户转发率和互动频率,所述用户兴趣特征 进一步:用户兴趣标签和历史微博内容所构成的特征向量(或者可称为微博内容关键词的 特征向量)。本发明实施例所述微博内容属性包括:微博内容所含情感词个数和微博的实 体词个数。
[0053] 本发明通过在转发预测中引入用户个人行为,即用户行为特征以及用户兴趣特 征,从而有效提高了微博转发行为预测的准确性。
[0054] 需要说明的是,本发明在进行转发预测前,先基于用户活跃期和时间窗的转发行 为、忽略行为以及未接收行为构建该用户的训练模型,再根据所述训练模型内的数据确定 所述微博内容属性和所述用户行为属性。
[0055] 下面将对本发明所涉及到的各个属性、特征和向量进行详细的说明:
[0056] 本发明实施例所述用户属性为用户加V为0,不加V为1 ;
[0057] 本发明实施例所述微博内容属性包括:微博结构特征为是否含有url、以及是否 含有图片和视频链接,还包括微博内容所含情感词个数和微博的实体词个数。其中,本发明 实施例所述情感词数量为微博内容所含情感词个数;情感词数量表明微博内容用词的激烈 程度,有统计数据表明,用词激烈的微博更容易得到转发;本发明实施例所述实体词数量为 微博的实体词个数;实体词数量表明微博内容的丰富程度,有统计表明,微博内容越丰富越 容易得到转发。
[0058] 本发明实施例所述的用户兴趣标签为用户自己在微博中所标注的,例如,设置的 体育、娱乐等等,根据该标签可以从一定程度上得出用户所倾向转发的微博;
[0059] 本发明实施例所述的历史微博内容所构成的特征向量为根据用户历史的微博内 容而统计的用户所倾向于转发的微博,如,根据统计标明用户更倾向于转发历史转发过的 微博主题等等;
[0060] 本发明实施例所述用户行为特征主要包括以下几个方面:
[0061] 用户转发帖数为用户在预定时间段内转发帖子的总数,转发帖子越多表明用户越 可能转发新贴;
[0062] 用户转发率为用户发帖数量中转帖子的比例,转发帖子比例越高表明用户越可能 转发新贴;
[0063] 互动频率为:
[0064] 其中,Σ nuv为用户从其关注用户V所转发的帖子数,
为用户转发帖子的总 数量。该指标表明了用户从其某个上游用户(即关注用户)转发微博的概率,概率越大,用 户越倾向于从该关注用户转发微博。例如:用户u关注了 5个好友(a、b、c、d和e),用户u 总转帖数为1〇〇,从a用户转发过5条微博,从b转发过10条微博,从c转发过50条微博, 从d转发过35条微博,从e转发过0条微博。则u和a之间的互动频率计算为5/100 = 0. 05,同样的,u与bcde的互动频率以此为0. 1,0. 5,0. 35,0。通过该指标的计算,可以得出 用户u最倾向于转发好友c的微博,该指标可以表明用户u转发好友微博的概率大小。
[0065] 本发明所述的方法还包括:计算所述微博与用户兴趣向量的相似度:
[0066]
[0067] 其中,V为微博内容关键词的特征向量,Iu⑴为用户兴趣特征:
[0068]
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1