一种微博信息抓取方法及装置与流程

文档序号:11780227阅读:来源:国知局
一种微博信息抓取方法及装置与流程

技术特征:
1.一种微博信息抓取方法,其特征在于,所述方法包括:获取用户发布的历史微博,并根据所述历史微博的发布时间建立所述历史微博与预设时间点间的映射关系,所述预设时间点通过预设步长选取;将映射历史微博数的偏差在预设范围内的至少两个相邻预设时间点合并为一个时间段;根据每个时间段的时间长度及其映射的每条历史微博的权重确定每个时间段的抓取周期;根据每个时间段的抓取周期以及抓取初始时间点预测用户再次发布微博的时间点,并在该预测时间点上进行微博信息抓取;其中,预先设置一个合并窗,所述合并窗的窗口大小用于表示能够合并的预设时间点的个数,则所述将映射历史微博数的偏差在预设范围内的至少两个相邻预设时间点合并为一个时间段,包括:统计每个预设时间点映射的历史微博数;判断位于所述合并窗内的预设时间点映射的历史微博数的偏差是否在预设范围内:如果是,则将所述合并窗内的预设时间点合并为一个时间段;如果否,则判断所述合并窗外是否存在未判断预设时间点,如果存在,则将所述合并窗顺序后移一个预设时间点,继续执行所述判断位于所述合并窗内的预设时间点映射的历史微博数的偏差是否在预设范围内的步骤,直至所述合并窗外不存在未判断预设时间点时结束本流程。2.根据权利要求1所述的方法,其特征在于,所述将映射历史微博数的偏差在预设范围内的至少两个相邻预设时间点合并为一个时间段,包括:统计每个预设时间点映射的历史微博数;判断相邻预设时间点映射的历史微博数之间的偏差是否在预设范围内,如果是,则将所述相邻预设时间点合并为一个时间段。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:在判断所述合并窗外不存在未判断预设时间点之后,将合并后的时间段作为预设时间点,继续执行所述判断位于所述合并窗内的预设时间点映射的历史微博数的偏差是否在预设范围内的步骤,直至相邻预设时间点映射的历史微博数之间的偏差超过所述预设范围时结束本流程。4.根据权利要求3所述的方法,其特征在于,预先设置一个合并上限,所述方法还包括:将合并后的时间段作为预设时间点之后,判断所述预设时间点映射的历史微博数是否超过所述合并上限,如果否,则继续执行所述判断位于所述合并窗内的预设时间点映射的历史微博数的偏差是否在预设范围内的步骤,直至所述预设时间点映射的历史微博数超过所述合并上限时结束本流程。5.一种微博信息抓取装置,其特征在于,所述装置包括:映射单元,用于获取用户发布的历史微博,并根据所述历史微博的发布时间建立所述历史微博与预设时间点间的映射关系,所述预设时间点通过预设步长选取;合并单元,用于将映射历史微博数的偏差在预设范围内的至少两个相邻预设时间点合并为一个时间段;周期确定单元,用于根据每个时间段的时间长度及其映射的每条历史微博的权重确定每个时间段的抓取周期;预测单元,用于根据每个时间段的抓取周期以及抓取初始时间点预测用户再次发布微博的时间点,并在该预测时间点上进行微博信息抓取;其中,预先设置一个合并窗,所述合并窗的窗口大小用于表示能够合并的预设时间点的个数,则所述合并单元包括:第二统计单元,用于统计每个预设时间点映射的历史微博数;第二判断单元,用于判断位于所述合并窗内的预设时间点映射的历史微博数的偏差是否在预设范围内:第二合并子单元,用于在所述第二判断单元判断所述偏差在所述预设范围内时,则将所述合并窗内的预设时间点合并为一个时间段;第三判断单元,用于在所述第二判断单元判断所述偏差未在所述预设范围内时,判断所述合并窗外是否存在未判断预设时间点;后移单元,用于在所述第三判断单元判断所述合并窗外存在所述未判断预 设时间点时,将所述合并窗顺序后移一个预设时间点,通知所述第二判断单元判断所述偏差是否在所述预设范围内,直至所述合并窗外不存在未判断预设时间点时结束。6.根据权利要求5所述的装置,其特征在于,所述合并单元包括:第一统计单元,用于统计每个预设时间点映射的历史微博数;第一判断单元,用于判断相邻预设时间点映射的历史微博数之间的偏差是否在预设范围内;第一合并子单元,用于在所述第一判断单元判断所述偏差在所述预设范围内时,将所述相邻预设时间点合并为一个时间段。7.根据权利要求5所述的装置,其特征在于,所述合并单元还包括:第三合并子单元,用于在所述第三判断单元判断所述合并窗外不存在未判断预设时间点之后,将合并后的时间段作为预设时间点,通知所述第二判断单元判断所述偏差是否在所述预设范围内,直至相邻预设时间点映射的历史微博数之间的偏差超过所述预设范围时结束。8.根据权利要求7所述的装置,其特征在于,预先设置一个合并上限,所述合并单元还包括:第四判断单元,用于在所述第三判断单元判断所述合并窗外不存在未判断预设时间点之后,将合并后的时间段作为预设时间点,并判断所述预设时间点映射的历史微博数是否超过所述合并上限;所述第三合并子单元,还用于在所述第四判断单元判断所述预设时间点映射的历史微博数未超过所述合并上限时,通知所述第二判断单元判断所述偏差是否在所述预设范围内,直至所述预设时间点映射的历史微博数超过所述合并上限时结束。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1