一种产生社交媒体时间轴结构数据的方法_2

文档序号：9687526阅读：来源：国知局

在分布式环境中W提高吞吐量。通过分析社交媒体用户的行为特点对用户发布转发信息进行建模，根据用户提供的或从真实数据中统计得来的时间轴数据参数，利用建立的生成模型和设计的分布式生成器框架来产生时间轴数据，同时可 W将送个生成框架部署到分布式环境中W提高数据生成的吞吐量。
【附图说明】
[0025] 图1为本发明产生社交媒体时间轴结构数据方法的流程示意图。
[0026] 图2为本发明产生社交媒体时间轴结构数据方法的产生时间轴数据流框的示意图。
[0027] 图3为本发明产生社交媒体时间轴结构数据方法的分布式架构图。
[0028] 图4为本发明产生社交媒体时间轴结构数据方法的分布式生成中主节点通信流程图。
[0029] 图5为本发明产生社交媒体时间轴结构数据方法的分布式生成中从属节点通信流程图。
[0030] 图6为本发明产生社交媒体时间轴结构数据方法的分布式生成中从属节点局部时间轴生成流程图。
[0031] 图7为本发明产生社交媒体时间轴结构数据方法的分布式生成中主节点全局时间轴生成流程图。
【具体实施方式】
[0032] 结合W下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除W下专口提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。
[003引如图1所示，本发明产生社交媒体时间轴结构数据的方法，包括W下步骤：
[0034] 信息预处理步骤；针对某一用户在社交媒体中发布和转发的微博信息建立模型，该模型用于模拟下一条微博信息的发布时间，W及确定每条微博信息为用户转发的微博信息或者由用户发布的被他人转发的微博信息；
[0035] 框架构建步骤：构建由第一缓冲池和第二缓冲池构成的框架，第一缓冲池用于缓存当前时间之后的下一条微博，框架利用模型模拟每一个用户的下一条微博信息的发布时间，W及确定每条微博信息为转发的微博信息或者被他人转发的微博信息，第二缓冲池用于存储当前时间之前的历史微博信息，通过更新和维护第一缓冲池和第二缓冲池来建立微博信息的索引；
[0036] 数据生成步骤：将框架配置到社交媒体的系统中，利用框架为系统中的微博信息建立时间轴结构数据；
[0037] 其中，时间轴构建步骤包括；1)将下一条微博信息存入第一缓冲池；2)从第一缓冲池中移除发布时间最早的微博信息，若微博信息为转发的微博信息，则获取被转发的源微博信息及其转发信息组成完整的微博信息；3)将微博信息存入第二缓冲池中，第二缓冲池将超出给定时间窗口的微博信息转移至存储设备，并建立索引。
[0038] W下结合本发明的详细实施步骤来对本发明技术内容作进一步解释说明。
[0039] (1)微博信息生成
[0040] 本发明使用非齐次泊松过程来模拟用户发布微博信息的过程，送部分决定了每条微博信息中的时间点t和作者U。
[0041] 每个用户发布微博信息可W模拟成一个非齐次泊松过程{N(t，u)，t > 0}，且不同用户的强度函数也不同，N(t，u)表示用户U在时间t W前发的微博信息数量。将用户U的强度函数定义为：
[0042] λυ(?) = AuXf(t);
[004引强度函数λ u(t)由两个因素所决定；1)每个用户发布微博信息的基础速度λ。，。时间调整函数f(t)。λ。是用户U每砂发布信息的平均速度，每个用户都有他们自己的 λ。。f(t)是对于λ。在不同时间段的调整系数。也就是说，一个用户的发布信息的频率会随着时间变化。时间调整函数的定义如下：
[0044] f(t)=DtXHt;
[004引其中，Dt是在时刻t时的天的系数，它有7个系数值，对应了一周走天。Ht是在时刻t的小时系数，它有24各个系数值，对应一天24个小时。通过对真实数据用户发布信息的频率观察，用户发布信息频率存在周期性变化的属性。用送个模型可W很简单的模拟，用户发布信息的频率会随着一周不同天和一天不同小时而变化。
[0046] 使用减弱算法来模拟非齐次泊松过程，该方法是利用普通的泊松过程的时间抽样生成非齐次的泊松过程。假设存在λ I使得λ I > λ u(t)，通过在具有频率λ I的泊松过程中随机生成发布时间，将送个时间作W概率为λ u(t)/λ I选取为非时齐泊松过程中的用户 U的发布时间。因此，根据提出的模型为：
[0047] λ I = λ U X MAX 值t) X MAX 化t);
[004引其中，MAX值t)和MAX化t)都是Dt和Ht的最大系数值。
[0049] 通过上述方法可W根据每个用户当前生成微博信息的时间点来生成下一条微博信息的时间点。算法伪代码如W下表1所示。
[0050] 表1模拟微博信息发布时间的伪代码实现方式
[0051]
[0052] (2)生成转发信息
[0053] 本发明利用微博信息被转发次数分布（通常是幕律分布）W及时间延迟函数来从已往发布的微博信息中选取被转发的微博信息，送部分决定了微博信息条目中的转发信息、。
[0054] 当一条微博信息利用上述方法产生后，接着需要判断送条微博信息是否为转发微博信息，如果是转发微博信息，确定其转发信息。利用指定给每个用户的转发概率来判断一条微博信息是否为转发微博信息rp。。每个用户的发布信息概率和转发概率都可W利用逆变换技术，根据λ。和巧。的累计的联合概率分布，利用逆变换技术来模拟产生。
[0055] 当一条微博信息被判定为转发微博信息时，本发明需要确定转发信息。在社交媒体中，用户通常转发他们所关注的用户的时间轴feed中的微博信息，对用户U的feed记为 F。。同时对于大多数社交媒体而言，F。都有一个截止长度以送意味着郝些很老的信息将不会被转发，因为它们会被新的信息挤出F。。
[0056] 为了实现送个转发机制，将用W下方法确定转发信息：
[0057] 1.获取用户U的转发的源微博信息F。。
[0058] 2.用一个时间范围缩小F。得到F'。，根据转发延迟分布利用逆变换技术确定一个时间延迟，W此确定该时间范围。
[0059] 3.通过下面的概率来确定微博信息m的转发信息：
[0060]
[0061] 其中，m表示用户发布的微博信息，η表示被转发的源微博信息，P(m - η)是m转发η的概率值，D (η)表示用户的微博信息m被发布时源微博信息η被转发的数量，F'。表示经时间范围缩小的源微博信息，i表示F'。中任一微博。
[0062] (3)构建产生时间轴结构数据的框架
[0063] 本发明要不断地输出时序的微博信息。通过构建由两个缓冲池一第一缓冲池化xtTweet和第二缓冲池 RecentTweet构成的框架来有效地产生输出时序的微博信息，从而构建时间轴结构数据。
[0064] 化xtTweet缓冲池：本缓冲池用来存储每个用户在当前时间之后下一个将要发布的不带转发信息的微博信息。利用算法1根据每个用户当前发布微博信息的时间可得到其发布的下一条微博信息的时间，然后将每个用户的<t，U〉存入送个缓冲池。同时送个缓冲池中所有信息都按照时间顺序排序。
[0065] RecentTweet缓冲池：它存储了当前时间之前的近期已经产生的历史微博信息。根据给定的窗口来控制送个缓冲池的大小。发布时间小于的哪些微博信息将被移除并刷新进二级

完整全部详细技术资料下载

当前第2页1 2 3 4