一种信息聚合方法及系统的制作方法_2

文档序号:9261393阅读:来源:国知局
处理。
[0024]例如需要聚合视频信息时,则将多个视频网站的排行榜数据抓取过来,对于视频网站而言,其排行榜数据则指最热门的视频排行榜。另外,从各网站抓取回来的排行榜数据可以是各排行榜的所有信息,也可以是排在排行榜前面的预定数量的信息,例如前50条信息,以提高聚合效率。
[0025]对于各网站来说,不同网站的用户数量可能不在一个基数上,所以其排行榜中的相关内容的观看次数也可能不在一个基数上,也就是说,各网站得到的排行榜数据可能都不在一个基数上,所以本发明实施例根据各网站的用户数量为每个网站配置一个权重值,用户数量越多,权重值越大,用户数量越少,权重值越小,即可将权重值设置成与用户数量成正比的关系。
[0026]然后在步骤S102中,对各网站的排行榜数据进行去重处理,一般来说,在各大网站上的排行榜中的信息多数都是相同的,例如对于视频网站,在排行榜上相同视频可能有多个,所以需要对各网站排行榜数据中相同的信息进行去重处理,将相同的信息去除,只保留一个在权重值最高的网站的信息,例如对于网站Α、网站B、网站C,其中,权重值大小为:网站Α>网站B〉网站C,而网站A包含有信息Al、Α2、A3,网站B包含有信息B1、Α2、Β3,网站C包含有信息Cl、Α2、A3,那么即可将各网站中相同的信息进行去重处理,只保留一个权重值最高的网站的信息,即可将网站B中的信息Α2以及网站C中的信息Α2及A3过滤掉,而只保留网站A中的Α2和A3,这样过滤后,网站A还包括有信息Al、Α2、A3,而网站B剩下信息BI和Β3,网站C剩下信息Cl。
[0027]在去重处理时,可以按照信息的名称来处理,例如将相同名称的视频过滤掉,只保留一个权重值最高的网站的相同信息即可。由于不同网站对于同一信息的命名可能有所不同,例如同一电影在不同视频网站可能名称有所不同,所以还可以通过信息简介来进行去重处理,例如对于视频而已,在视频简介中包含了上映名称、上映时间、主演、剧情等信息,若这些信息均匹配或者匹配信息超过若干数量则可以判定是同一视频。
[0028]另外,若某网站中所包含的信息均被过滤掉,则可直接将该网站的信息库剔除掉,继续进行接下来的步骤。
[0029]在步骤S103中,在去重处理之后,各网站的排行榜数据可能有所变化,那么需要对各网站的排行榜进行重新排列,将过滤掉的信息依次用后面的信息补上,例如第二名的信息被去掉,那么就用第三名的信息补上,原来第三名的位置则由第四名的信息补上,依次类推,按照排行榜顺序依次补上,形成连续的排行榜,例如,网站B经过去重处理之后剩下B1、B3、B4、B5,那么重新排列之后,B3递补到原来B2的位置,B4和B5则分别递补到原来B3和B4的位置,形成连续的排行榜;网站C经过去重处理之后剩下C1、C4、C5,那么C4递补到原来C2的位置,C5递补到原来C3的位置,形成连续的排行榜。
[0030]在步骤S104中,将各网站按照权重值大小进行排序,权重值高的排列在前,权重值低的排列在后,然后按照网站排序依次从各网站的排行榜数据中抽取排列在前的信息,形成包含预定信息数量的聚合排行榜,信息抽取方式为循环抽取,即依次从各网站抽取排列在前的信息后,再循环重新依次抽取各网站排列在前的信息,如此反复。例如,权重值大小为:网站A>网站B〉网站C〉网站D>网站E,排序后的网站顺序为:网站A、网站B、网站C、网站D、网站E,那么首先从网站A中抽取排行榜数据中第一名的信息,然后依次从网站B、网站C、网站D、网站E中抽取各排行榜数据中第一名的信息,再从网站A中抽取排行榜数据中第二名的信息,然后依次从网站B、网站C、网站D、网站E中抽取各排行榜数据中第二名的信息,依次类推,直到抽取到预定信息条数的信息,组成聚合排行榜。
[0031]作为本发明更优选的实施例,如图2所示,所述步骤S104具体包括:
S201、预先设置聚合信息库中的信息数量T ;
以排行榜为例,此信息数量T可以根据各网站源的排行榜的信息条数来确定,例如一般来说,各视频网站排行榜的信息条数为1(Γ50条,则可设置聚合排行榜中的信息数量为20。
[0032]S202、计算需从每个网站的信息库中抽取的平均信息数量X,Χ=Τ/Ν, N为网站的个数;
其中的X向上取整,例如信息数量τ=20,Ν=5,那么Χ=20/5=4,若Τ=20,Ν=6,那么Χ=4。
[0033]S203、判断是否有网站信息库数据中包含的信息数量小于X,当是时,转入步骤S204,当否时,转入步骤S205 ;
此处是判断经过去重的各网站排行榜数据中包含的信息数量是否足够,例如某一网站C经过去重处理之后,所包含的信息数量为3条,而Χ=4,那么则转入到步骤S204中进行处理,若每个网站排行榜数据都满足要求则可以转入步骤S205中进行处理。
[0034]S204、按照网站排序逐条从各网站的信息库数据中抽取排列在前的信息,并将轮空的信息库剔除,然后继续按照网站排序逐条从各网站抽取排列在前的信息,直至抽取到T条信息;
先逐条抽取排列在前的信息,当某个网站的排行榜数据被抽空,这是由于对应的信息库数据中包含的信息数量小于X,即存在排行榜数据中信息条数不够的情况,那么将轮空的排行榜剔除,然后继续按照网站排序逐条从其他各网站抽取排列在前的信息,若另一个网站的排行榜数据也被抽空,则将新轮空的排行榜剔除,如此循环反复,直到抽取到T条信肩、O
[0035]举例说明,权重值大小为:网站A>网站B〉网站C〉网站D>网站E,网站A包含Al、A2、A3、A4、A5、A6、A7,网站 B 包含 B1、B2、B3,网站 C 包含 Cl、C2、C3、C4、C5、C6、C7、C8,网站D包含Dl、D2、D3、D4,网站E包含El、E2、E3、E4、E5、E6,那么首先按照网站排序依次抽取各网站排列在前的信息,即Al、B1、Cl、DU E1,然后再循环抽取各网站排列在前的信息,即A2、B2、C2、D2、E2,然后再循环抽取各网站排列在前的信息,即A3、B3、C3、D3、E3,此时网站B的数据已抽空,可将该网站的信息库剔除,当再次抽取时,则依次抽取A4、C4、D4、E4,这样,网站D的数据也抽空,则将该网站的信息库剔除,当再次抽取时,依次抽取A5、C5、E5,这样循环反复,直至抽取到T条信息即可。
[0036]S205、按照网站排序逐条从各网站的信息库数据中抽取排列在前的信息,直至抽取到T条信息;
此步骤是直接按照网站排序逐条从各网站的排行榜数据中抽取排列在前的信息,因为所有的网站的排行榜数据都至少包含X条信息,所以可以满足逐个网站抽取信息的目的,而不存在在步骤S204中某个网站的信息被抽空的情况。
[0037]具体在抽取时,可以按照网站排序从各网站排行榜数据抽取第一名的信息,然后将各排行榜数据中第一名的信息去除,并由各自的第二名补上,然后继续抽取依次抽取各网站排行榜数据的第一名的信息,依次类推,重复以上的操作,直到满足抽取到T条信息即可。
[0038]S206、按照抽取的顺序对T条信息进行排序,形成聚合信息库。
[0039]对于抽取到的信息,可以按照抽取的顺序进
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1