一种产生社交媒体时间轴结构数据的方法

文档序号:9687526阅读:899来源:国知局
一种产生社交媒体时间轴结构数据的方法
【技术领域】
[0001] 本发明属于数据库技术领域,尤其涉及一种产生社交媒体时间轴结构数据的方 法。
【背景技术】
[0002] 随着社会信息化程度的持续加深和Web2. 0技术的不断发展,社交媒体(Social Media)逐渐盛行,并在人类生活中发挥着越来越重要的作用。同时,社交媒体上的数据也呈 现指数级的扩增趋势。
[0003] 社交媒体的用户达到数亿规模,送些海量用户可W在社交媒体上创建消息(即微 博),送就产生了大量半结构化或无结构化的用户生成数据,因此送些数据具有数据量大、 数据复杂和非结构化等特点。同时,送些庞大的数据也为社会科学家和必理学家研究用户 的行为提供来源。因此,有效的管理和挖掘社交媒体数据不论在学术界还是工业界都是一 项挑战。
[0004] 社交媒体数据是实质上是一系列非结构化的时序的信息。此外,由于转发和回复 机制的存在,送些信息是可W链接的,也就是说一条信息可W转发或回复另一条信息。因 此,社交媒体的管理和分析就是用一些相关的简单模型处理送些时序化数据的过程。
[0005] 伴随着社交媒体的兴盛与发展,越来越多的应用出现在社交媒体平台上。高效 的管理和分析社交媒体数据变成社交媒体应用取得成功的基石。基准测试则是作为衡量 系统性能的重要手段。目前,已经存在一些用来比较和衡量送些技术或系统的基准,例如 Linke地ench和BSMA。为了更加有效的测试送些技术,我们需要一个能够灵活的、有效的、 产生"真实的"数据的生成器。同时,送样的数据生成器还可W帮助我们更好的了解人们在 社交媒体中的集体行为,例如,利用数据生成器产生的数据与真实的数据进行比较,从而验 证送个数据生成器背后的假设是否正确等。
[0006] 现有的生成数据技术并不能直接应用到社交媒体时间轴结构数据的生成,由于产 生的数据模型不同,相似工作中缺少转发信息,并且不能够灵活的产生时间轴数据。为了能 够灵活的、有效的产生"真实的"社交媒体时间轴结构数据,本发明提出了一种产生社交媒 体时间轴结构数据的方法。

【发明内容】

[0007] 本发明公开了一种产生社交媒体时间轴结构数据的方法,包括W下步骤:
[0008] 信息预处理步骤;针对某一用户在社交媒体中发布和转发的微博信息建立模型, 该模型用于模拟下一条微博信息的发布时间,W及确定每条微博信息为所述用户转发的微 博信息或者由所述用户发布的被他人转发的微博信息;
[0009] 框架构建步骤:构建由第一缓冲池和第二缓冲池构成的框架,所述框架利用所述 模型模拟每一个用户的下一条微博信息的发布时间,W及确定每条微博信息为转发的微博 信息或者被他人转发的微博信息,所述第一缓冲池用于缓存当前时间之后的下一条微博, 所述第二缓冲池用于存储当前时间之前的历史微博信息,通过更新和维护所述第一缓冲池 和所述第二缓冲池来建立微博信息的索引;
[0010] 数据生成步骤:将所述框架配置到社交媒体的系统中,利用所述框架为所述系统 中的微博信息建立时间轴结构数据;
[0011] 其中,所述时间轴构建步骤包括:1)将下一条微博信息存入所述第一缓冲池;2) 从所述第一缓冲池中移除发布时间最早的微博信息,若所述微博信息为转发的微博信息, 则获取被转发的源微博信息及其转发信息组成完整的微博信息;3)将所述微博信息存入 所述第二缓冲池中,所述第二缓冲池将超出给定时间窗口的微博信息转移至存储设备,并 建立索引。
[0012] 本发明提出的所述产生社交媒体时间轴结构数据的方法中,在所述信息预处理步 骤中,利用非齐次泊松过程模拟下一条微博信息的发布时间,所述非齐次泊松过程包括如 下步骤:步骤al ;统计一时间区间内用户发布微博信息的总数,求得用户发送微博信息的 平均速率;步骤a2 ;将时间区间划分为两个W上时间段,统计用户在每个时间段内发布微 博信息的频率参数,记为时间调整函数;步骤a3 ;结合所述平均速率和时间调整函数及其 频率参数,利用相乘运算模拟出下一条微博信息的发布时间。
[0013] 本发明提出的所述产生社交媒体时间轴结构数据的方法中,在所述时间轴构建步 骤中,获取所述转发信息包括如下步骤:步骤bl ;获取被用户转发的由他人所发布的源微 博信息;步骤b2 ;设定一个初始的时间范围,利用所述时间范围缩小所述源微博信息,根据 转发延迟分布利用逆变换确定一个时间延迟,从而确定所述时间范围;步骤b3 ;利用概率 值确定所述源微博信息的转发信息,所述概率值W如下公式表示:
[0014]
[0015] 其中,m表示用户发布的微博信息,η表示被转发的源微博信息,P(m - η)是m转 发η的概率值,D (η)表示用户的微博信息m被发布时源微博信息η被转发的数量,F'。表 示经时间范围缩小的源微博信息,i表示F'。中任一微博。
[0016] 本发明提出的所述产生社交媒体时间轴结构数据的方法中,所述社交媒体的系统 为分布式架构的文件系统,在所述数据生成步骤中,建立一个主节点和多个从属节点W适 应于所述分布式架构的文件系统和产生高吞吐量数据;所述主节点用于将社交媒体中的分 区指定给所述从属节点,所述从属节点利用所述框架对所述分区中用户的微博信息建立局 部时间轴数据,所述主节点通过合并各个从属节点的局部时间轴数据,生成所述时间轴结 构数据。
[0017] 本发明提出的所述产生社交媒体时间轴结构数据的方法中,在所述数据生成步骤 中,当从属节点中的微博信息为转发的微博信息且其转发信息不在所属分区时,通知所述 主节点,由所述主节点指定与转发信息对应的从属节点进行确定转发信息的任务,并将确 定的转发信息返回至所述主节点中,所述主节点利用所述转发信息补全所述转发的微博信 息。
[0018] 本发明提出的所述产生社交媒体时间轴结构数据的方法中,在所述数据生成步骤 中,使用异步模型W处理所述分布式架构的文件系统的数据,所述异步模型是指:当本地的 从属节点处理的一条微博信息需要从其他节点上远程确定其转发信息指针时,所述本地的 从属节点将确定指针的任务发送到相应的远程的从属节点中,所述本地的从属节点不产生 中断W等待与远程的从属节点的数据交互,而是继续处理下一条微博信息。
[0019] 本发明提出的所述产生社交媒体时间轴结构数据的方法中,在所述数据生成步骤 中,使用延迟更新策略W处理所述分布式架构的文件系统的数据,所述延迟更新策略是指; 当所述从属节点确定一条微博信息的转发信息,且所述微博信息的发布时间晚于所述从属 节点产生下一条微博信息的发布时间时,所述从属节点继续产生下一条微博信息,直到所 述微博信息的发布时间等于或早于所述从属节点产生下一条微博信息的发布时间时,所述 从属节点才利用单节点确定指针来确定一条微博信息的转发信息。
[0020] 本发明中:
[0021] 完整的微博信息是指:利用一个Η元组<t,u,f〉,t表示该微博的发布时间,U是送 条微博的发布者,f是一个指针,当该微博为原始微博时,f为空,当该微博为转发微博时,f 指向转发信息。
[0022] 不完整的微博信息是指;相对于上述Η元组而言,缺少指针信息的微博信息<t, U>〇
[0023] 转发的微博信息是指;由某一用户发布的微博信息m是在他人发布的微博信息η 的基础上进行转发,则微博信息m为转发的微博信息,微博信息η为被转发的源微博信息。
[0024] 本发明的有益效果在于;能有效产生社交媒体时间轴结构数据的框架,使用用户 可配置数据参数,该框架可部署
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1