一种信息聚合方法及系统的制作方法

文档序号:9261393阅读:611来源:国知局
一种信息聚合方法及系统的制作方法
【技术领域】
[0001]本发明涉及信息聚合领域,尤其涉及一种信息聚合方法及系统。
【背景技术】
[0002]现有技术中,聚合网站会抓取多个不同网站的内容,聚合后提供给用户使用。例如,视频网站都会有各种类型视频的排行榜,以便让用户了解最热的视频内容,而视频网站一般都是通过每个视频被观看的次数(点击数)排序,从而得出最热视频的排行榜,聚合网站则会将这些视频网站的排行榜数据聚合在一起形成新的排行榜,提供给用户使用。
[0003]但,以视频网站为例,现有的聚合网站存在以下问题:因为抓取的是不同视频网站的排行榜数据,而不同视频网站的用户数量大都不在一个基数,所以每个网站的视频被观看次数也大都不在一个基数,所以聚合网站若将各视频网站的排行榜直接抓取过来使用,则无法反映出各视频真实的热度。
[0004]因此,现有技术还有待于改进和发展。

【发明内容】

[0005]鉴于上述现有技术的不足,本发明的目的在于提供一种信息聚合方法及系统,旨在解决现有的信息聚合方法无法真实反映信息的热度的问题。
[0006]本发明的技术方案如下:
一种信息聚合方法,其中,包括步骤:
A、抓取多个网站的信息库数据,并为每一网站配置一个权重值;
B、对各网站的信息库数据进行去重处理,将各网站信息库数据中相同内容的信息过滤,只保留其中一条权重值最闻的网站的?目息;
C、按信息库中的信息排序将各网站去重处理之后的信息库数据进行重新排列;
D、将各网站按照权重大小进行排序,然后按照网站排序依次从各网站的信息库数据中抽取排列在前的信息,形成包含预定信息数量的聚合信息库。
[0007]所述的信息聚合方法,其中,所述步骤D具体包括:
D1、预先设置聚合信息库中的信息数量T ;
D2、计算需从每个网站的信息库中抽取的平均信息数量X,Χ=Τ/Ν, N为网站的个数;
D3、判断是否有信息库数据中包含的信息数量小于X,当是时,转入步骤D4,当否时,转入步骤D5 ;
D4、按照网站排序逐条从各网站的信息库数据中抽取排列在前的信息,并将轮空的信息库剔除,然后继续按照网站排序逐条从各网站抽取排列在前的信息,直至抽取到T条信息;
D5、按照网站排序逐条从各网站的信息库数据中抽取排列在前的信息,直至抽取到T条信息;
D6、按照抽取的顺序对T条信息进行排序,形成聚合信息库。
[0008]所述的信息聚合方法,其中,所述网站为多媒体网站,所述信息为多媒体信息。
[0009]所述的信息聚合方法,其中,所述步骤A中,根据各网站的用户数量为每一网站配置一权重值。
[0010]所述的信息聚合方法,其中,所述步骤B具体包括:
将各个网站信息库数据中各条信息的名称进行比较,将相同名称的信息过滤掉,只保留其中一条权重值最闻的网站的彳目息。
[0011]所述的信息聚合方法,其中,所述步骤C中,在被去重的网站信息库数据中,被过滤掉的信息依次由后面的信息补上,形成重新排列之后的信息库。
[0012]—种信息聚合系统,其中,包括:
抓取模块,用于抓取多个网站的信息库数据,并为每一网站配置一个权重值;
去重模块,用于对各网站的信息库数据进行去重处理,将各网站信息库数据中相同内容的信息过滤,只保留其中一条权重值最高的网站的信息;
重排模块,用于按信息库中的信息排序将各网站去重处理之后的网站信息库数据进行重新排列;
聚合模块,用于将各网站按照权重大小进行排序,然后按照网站排序依次从各网站的信息库数据中抽取排列在前的信息,形成包含预定信息数量的聚合信息库。
[0013]所述的信息聚合系统,其中,所述聚合模块具体包括:
数量设置单元,用于预先设置聚合信息库中的信息数量T ;
平均信息数量计算单元,用于计算需从每个网站的信息库中抽取的平均信息数量X,X=T/N,N为网站的个数;
判断单元,用于判断是否有网站信息库数据中包含的信息数量小于X,当是时,按照网站排序逐条从各网站的信息库数据中抽取排列在前的信息,并将轮空的信息库剔除,然后继续按照网站排序逐条从各网站抽取排列在前的信息,直至抽取到T条信息,当否时,按照网站排序逐条从各网站的信息库数据中抽取排列在前的信息,直至抽取到T条信息;
排序单元,用于按照抽取的顺序对T条信息进行排序,形成聚合信息库。
[0014]所述的信息聚合系统,其中,所述网站为多媒体网站,所述信息为多媒体信息。
[0015]所述的信息聚合系统,其中,所述去重模块用于将各个网站信息库数据中各条信息的名称进行比较,将相同名称的信息过滤掉,只保留其中一条权重值最高的网站的信息。
[0016]有益效果:本发明通过对各网站的信息库数据进行去重处理,使得重复信息被剔除,并且为每一网站设置一权重值,按照权重大小从各网站抽取排列在前的信息,从而形成聚合信息库,通过本发明的方法,信息聚合可更真实反映各条信息的热度,并且结合了各网站的权重,将各网站信息库的数据融合在一起,得出的数据更加真实、准确。
【附图说明】
[0017]图1为本发明一种信息聚合方法较佳实施例的流程图。
[0018]图2为图1所示方法较佳实施例中步骤S104的具体流程图。
[0019]图3为本发明一种信息聚合系统较佳实施例的结构框图。
[0020]图4为图3所示系统较佳实施例中聚合模块的具体结构框图。
【具体实施方式】
[0021]本发明提供一种信息聚合方法及系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0022]请参阅图1,图1为本发明一种信息聚合方法较佳实施例的流程图,如图所示,其包括步骤:
5101、抓取多个网站的信息库数据,并为每一网站配置一个权重值;
5102、对各网站的信息库数据进行去重处理,将各网站信息库数据中相同内容的信息过滤,只保留其中一条权重值最闻的网站的?目息;
5103、按信息库中的信息排序将各网站去重处理之后的网站信息库数据进行重新排列;
5104、将各网站按照权重大小进行排序,然后按照网站排序依次从各网站的信息库数据中抽取排列在前的信息,形成包含预定信息数量的聚合信息库。
[0023]在本实施例中,首先抓取多个网站的信息库数据,本实施例中,所述的信息库数据可以是各网站的排行榜数据,例如视频网站的视频排行榜,也可以是其他信息库数据,例如视频网站的各种类型的影片库,例如喜剧片、战争片、科幻片、动作片等等类型的影片库,在这些信息库中都具有原有的排序。本发明的目的就是将各种网站的信息库数据融合在一起,形成能够真实反映热度排行的聚合信息库。本实施例主要以排行榜数据来举例说明,显然,对于其他类型的信息库都可以采用本发明的方法来进行聚合
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1