一种博客数据搜索方法及系统的制作方法

文档序号:6489967阅读:311来源:国知局
一种博客数据搜索方法及系统的制作方法
【专利摘要】本发明涉及一种博客数据搜索方法及系统,其中,所述博客数据搜索方法,包括:根据博客数据发表或生成时间生成倒排数据,在倒排数据中添加时间戳跳表建立数据索引;接收微博数据检索请求;接收检索指令,根据各时间段采样情况和每个检索词在每个时间段内的文章数计算出所述时间段数据的总量,并给出各时间段博客数据的分布情况。本发明实施例的博客数据搜索方法及系统在博客数据建立数据索引,通过数据索引使检索更为快捷和方便,保证了检索的快速性及完整性,在不增加额外服务器的情况下可以方便、快捷的得到博客数据分布。
【专利说明】一种博客数据搜索方法及系统【技术领域】
[0001]本发明属于互联网【技术领域】,特别是涉及一种博客数据搜索方法及系统。
【背景技术】
[0002]近年来,以Internet为核心的现代网络技术和通信技术得到快速发展和广泛应用,其中,博客作为一种网络交流互动工具受到广泛的使用。博客特别是微博由于使用人数众多,信息量大,每天产生上亿的数据,现有技术中由于受限于检索服务器的数量以及庞大的数据,无法获取全部的博客数据进行检索,造成检索或者统计结果不准确。

【发明内容】

[0003]本发明提供了一种博客数据搜索方法及系统,旨在解决现有技术中受限于检索服务器的数量以及庞大的数据,无法获取全部的博客数据进行检索,造成检索或者统计结果不准确的问题。
[0004]本发明的目的及解决其技术问题是采用以下技术方案来实现的。
[0005]本发明提供一种博客数据搜索方法,包括:
[0006]根据博客数据发表或生成时间生成倒排数据,在倒排数据中添加时间戳跳表建立数据索引;
[0007]接收微博数据检索请求;
`[0008]接收检索指令,根据各时间段采样情况和每个检索词在每个时间段内的文章数计算出所述时间段数据的总量,并给出各时间段博客数据的分布情况。
[0009]本发明还提供一种博客数据搜索系统,包括:
[0010]至少一建索引模块,用于根据博客数据发表或生成时间生成倒排数据,在倒排数据中添加时间戳跳表建立数据索引;
[0011]代理模块,用于接收搜索需求并产生相应的检索指令;
[0012]至少一检索模块:用于接收代理模块发送的检索指令,调用建索引模块中的数据进行检索,并根据各时间段采样情况和每个检索词在每个时间段内的文章数计算出所述时间段数据的总量,给出各时间段博客数据的分布情况。
[0013]本发明的技术方案具有如下优点或有益效果:本发明实施例的博客数据搜索方法及系统在博客数据建立数据索引,通过数据索引使检索更为快捷和方便,保证了检索的快速性及完整性,在不增加额外服务器的情况下可以方便、快捷的得到博客数据分布。
[0014]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
【专利附图】

【附图说明】
[0015]附图1是本发明实施例的博客数据搜索系统的结构示意图;[0016]附图2是本发明第一实施例的博客数据搜索方法的结构示意图;
[0017]附图3是本发明第二实施例的博客数据搜索方法的结构示意图。
【具体实施方式】
[0018]为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的用户原创内容的推荐方法及推荐装置其【具体实施方式】、方法、步骤、结构、特征及其功效,详细说明如下。
[0019]有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例的详细说明中将可清楚呈现。通过【具体实施方式】的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
[0020]图1是本发明第一实施例的博客数据搜索方法的流程图。如图2所示,本发明第一实施例的博客数据搜索方法包括以下步骤:
[0021]步骤110:根据博客数据建立数据索引;
[0022]在步骤110中,在博客数据发表或生成时间生成倒排数据中添加时间戳跳表以建立数据索引。其中,可以按照博客数据发表时间逆序的顺序生成倒排数据,另外,由于博客内容在时新性方面比较敏感,也可以按照博客数据生成时间进行排序;时间戳跳表可以添加在倒排数据的头部,通过时间戳跳表,可以根据用户输入的检索需求直接跳到可能取到结果的块操作,具体的数据索引倒排头部的部分格式如下所示:
【权利要求】
1.一种博客数据搜索方法,包括: 根据博客数据发表或生成时间生成倒排数据,在倒排数据中添加时间戳跳表建立数据索引; 接收微博数据检索请求; 接收检索指令,根据各时间段采样情况和每个检索词在每个时间段内的文章数计算出所述时间段数据的总量,并给出各时间段博客数据的分布情况。
2.根据权利要求1所述的博客数据搜索方法,其特征在于,所述倒排数据按照博客数据发表或生成时间逆序的顺序生成,所述时间戳跳表添加在倒排数据的头部。
3.根据权利要求2所述的博客数据搜索方法,其特征在于,所述时间戳跳表为每个倒排块最后一篇文章的生成时间戳,所述时间戳跳表添加在倒排数据的头部。
4.根据权利要求2或3所述的博客数据搜索方法,其特征在于,所述接收微博数据检索请求步骤后还包括:判断检索请求是否是请求博客数据分布的检索,如果是请求博客数据分布的检索,获取数据索引并确定进行检索的检索模块,根据检索请求跳转到包含符合条件数据的倒排块,如果不是请求博客数据分布的检索,则根据检索请求的检索词进行检索。
5.根据权利要求4所述的博客数据搜索方法,其特征在于,所述接收检索指令,调用数据索引进行检索步骤后还包括:判断是否所有的时间段都采样到,如果都采样到,统计检索结果并返回博客数据分布;否则重新获取数据索引,根据检索请求跳转到包含符合条件数据的倒排块。
6.—种博客数据搜索系统,包括: 至少一建索引模块,用于根据博客数据发表或生成时间生成倒排数据,在倒排数据中添加时间戳跳表建立数据索引; 代理模块,用于接收搜索需求并产生相应的检索指令; 至少一检索模块:用于接收代理模块发送的检索指令,调用建索引模块中的数据进行检索,并根据各时间段采样情况和每个检索词在每个时间段内的文章数计算出所述时间段数据的总量,给出各时间段博客数据的分布情况。
7.根据权利要求6所述的博客数据搜索系统,其特征在于,所述倒排数据按照博客数据发表或生成时间逆序的顺序生成,所述时间戳跳表添加在倒排数据的头部。
8.根据权利要求7所述的博客数据搜索系统,其特征在于,所述时间戳跳表包括至少一个时间数组,每个数组元素均为每个倒排块最后一篇文章生成的时间戳。
9.根据权利要求7或8所述的博客数据搜索系统,其特征在于,所述倒排数据按照博客数据发表时间或博客数据生成时间逆序的顺序生成。
10.根据权利要求7或8所述的博客数据搜索系统,其特征在于,所述检索模块调用建索引模块中的数据进行检索具体为:所述检索模块根据检索请求所要请求的时间段,根据时间戳跳表跳转到可能归并出符合要求的结果的倒排块,根据时间数组采样情况和检索词出现数统计搜素结果。
【文档编号】G06F17/30GK103778129SQ201210397767
【公开日】2014年5月7日 申请日期:2012年10月18日 优先权日:2012年10月18日
【发明者】王佳强 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1