一种网页排序方法和装置的制作方法

文档序号:6338326阅读:171来源:国知局
专利名称:一种网页排序方法和装置的制作方法
技术领域
本发明涉及搜索引擎技术,特别涉及一种网页排序方法和装置。
背景技术
搜索引擎是当前竞争非常激烈的一个领域。当用户输入一个关键词后,通常会得到成千上万甚至更多的搜索结果,而对于用户来说,其会希望在显示页面的第一页甚至第一页的前几个网页中即找到自己想要的结果,因此,如何对搜索到的各网页进行排序,将直接影响到用户的用户体验。现有技术中,各搜索引擎通常会综合多个算法来对搜索到的各网页进行排序,其中一个算法即为用户浏览次数越多的网页排序越靠前。但是,这种方式在实际应用中会存在一定的问题如果某个网页和一厂商的利益有关,那么该厂商可能会通过一定的方式对该网页进行多次恶意点击,从而使得该网页的排序靠前,如果排序靠前的均是这类网页,无疑会降低用户体验。

发明内容
有鉴于此,本发明的主要目的在于提供一种网页排序方法,能够提升用户体验。本发明的另一目的在于提供一种网页排序装置,能够提升用户体验。为达到上述目的,本发明的技术方案是这样实现的一种网页排序方法,包括确定一个网页类别集合A,并为预先保存的每个网页分别创建一个N维的网页类别向量,所述N的取值与所述网页类别集合A中的类别数相同,每个网页类别向量分别用于记录其对应的网页在不同类别中的权重,初始状态,各权重的取值均为0 ;分别确定用户行为日志数据库中记录的每个用户所属的类别,并将每个用户浏览过的网页对应的网页类别向量中与该用户所属类别对应的权重的取值加上M,所述M为正整数;当接收到来自任一用户X的搜索请求时,获取符合条件的网页并进行预排序;确定所述用户X搜索的类别,依据与所述搜索的类别对应的权重取值越大排序越靠前的原则,对预排序后的各网页进行重新排序,并进行显示。一种网页排序装置,包括第一处理单元,用于确定一个网页类别集合A,并为预先保存的每个网页分别创建一个N维的网页类别向量,所述N的取值与所述网页类别集合A中的类别数相同,每个网页类别向量分别用于记录其对应的网页在不同类别中的权重,初始状态,各权重的取值均为 0;分别确定用户行为日志数据库中记录的每个用户所属的类别,并将每个用户浏览过的网页对应的网页类别向量中与该用户所属类别对应的权重的取值加上M,所述M为正整数;第二处理单元,用于当接收到来自任一用户X的搜索请求时,获取符合条件的网页并进行预排序;确定所述用户X搜索的类别,依据与所述搜索的类别对应的权重取值越大排序越靠前的原则,对预排序后的各网页进行重新排序,并进行显示。可见,采用本发明的技术方案,根据进行过搜索的各用户所属的类别以及浏览情况确定预先保存的各网页在不同类别中的权重,并根据当前用户搜索的类别以及搜索到的各网页对应于该类别的权重的取值,对搜索出的各网页进行重新排序,从而尽可能地避免了现有技术中的恶意点击等问题,提升了用户体验。


图1为本发明方法实施例的流程图。图2为本发明装置实施例的组成结构示意图。具体实施万式针对现有技术中存在的问题,本发明中提出一种全新的网页排序方案,能够提升用户体验。为使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。图1为本发明方法实施例的流程图。如图1所示,包括以下步骤步骤11 确定一个网页类别集合A。现有搜索引擎中,需要预先利用爬虫(Crawler)等工具到互联网上下载网页,并保存到网页数据库中,当前互联网上的网页数已经超过百亿,爬虫会为每个网页唯一分配一个标识符,并建立索引,以便于后续搜索。当接收到来自任一用户的搜索请求后,从所保存的网页中查找符合条件的网页,并综合多种算法对搜索到的各网页进行排序,显示给用户。另外,每个用户每次进行搜索时的相关信息,如用户输入了什么关键词以及浏览了搜索结果中的哪些网页等均会被记录到用户行为日志数据库中。本发明所述方案即基于上述网页数据库以及用户行为日志数据库实现。本步骤中,根据不同网页的内容,人工确定一个网页类别集合A,其中可包括历史、 军事、体育、新闻、人文、旅游、汽车、电脑等各种类别,即有A= {历史、军事、体育、新闻、人文.......)。步骤12:为预先保存的每个网页分别创建一个N维的网页类别向量,N的取值与网页类别集合A中的类别数相同,每个网页类别向量分别用于记录其对应的网页在不同类别中的权重,初始状态,各权重的取值均为0。本发明所述方案中,不是将每个网页简单地划归为一种类别,而是为每个网页分别创建一个N维的网页类别向量,利用每个网页类别向量来记录其对应的网页在不同类别中的权重,如在历史类别中的权重、在军事类别中的权重以及在体育类别中的权重等。步骤13 分别确定用户行为日志数据库中记录的每个用户所属的类别,并将每个用户浏览过的网页对应的网页类别向量中与该用户所属类别对应的权重的取值加上M,M 为正整数。本步骤中,针对用户行为日志数据库中记录的每个用户,首先分别确定其所属的类别。具体来说,针对每个用户Y,分别确定其每次搜索的类别,将搜索次数最多的类别确定为用户Y所属的类别。举例说明用户Y共进行过5次搜索,每次输入的关键词分别为“桑塔纳”、“AK47”、“别克”、“舒马赫”、“捷达”,其中,“桑塔那”、“别克”和“捷达”对应的类别均为“汽车”,“AK47”
对应的类别为“军事”,“舒马赫”对应的类别为“体育”,即用户Y搜索次数最多的类别为汽车类别,那么则可确定用户Y所属类别为汽车类别。特殊地,如果搜索次数最多的类别有多个(次数相同),可确定用户Y属于其中的任一类别。如何确定不同关键词对应的类别为现有技术。用户Y经常搜索某一类别,则可认为用户Y为该类别的专家,相应地,可认为其浏览过的网页与该类别比较相关,因此,针对每个用户Y,可分别将其浏览过的网页对应的网页类别向量中与用户Y所属类别对应的权重的取值加上Μ。M的具体取值可根据实际需要而定,通常为1。举例说明用户Y共浏览过10个网页,那么针对这10个网页,分别将其对应的网页类别向量中与汽车类别对应的权重的取值加1。步骤14 当接收到来自任一用户X的搜索请求时,获取符合条件的网页并进行预排序。本步骤的具体实现为现有技术。按照现有方式,预排序后的各网页即可作为搜索结果显示给用户X,但是本发明所述方案还会在此基础上按照步骤15所示方式进行进一步地处理。步骤15 确定用户X搜索的类别,依据与搜索的类别对应的权重取值越大排序越靠前的原则,对预排序后的各网页进行重新排序,并进行显示。本步骤中,首先确定用户X搜索的类别,比如用户X输入的关键词为“T43”,那么则可确定用户X搜索的类别为电脑类别;之后,依次查看获取到的各网页对应的网页类别向量中与电脑类别对应的权重的取值,依据取值越大排序越靠前的原则,对预排序后的各网页进行重新排序,即对预排序结果进行进一步地优化;最后,将优化后的各网页按顺序依次显示给用户X。需要说明的是,在实际应用中,用户X输入的关键词可能为多个,比如为“舒马赫” 和“法拉利”,那么可将用户X搜索的类别确定为体育类别或汽车类别中的任意一个,或者, 也可将用户X搜索的类别确定为体育类别,即以第一个关键词为准,还可根据需要采用其它确定方式,本发明对此不作限制。后续,当监控到用户X浏览了所显示的任一网页Z后,首先确定用户X所属的类另IJ,具体来说,如果用户X在此之前已经进行过搜索,那么结合之前用户搜索的类别以及本次搜索的类别,确定用户X所属的类别,即将搜索次数最多的类别确定为用户X所属的类另IJ,如果用户X在此之前未进行过搜索,那么用户X搜索的类别即为用户X所属的类别;之后,将网页Z对应的网页类别向量中与用户X所属类别对应的权重的取值加1。可以看出, 按照步骤13所述方式确定出各网页在不同类别中的权重后,后续还可根据用户的浏览情况对其不断进行优化。按照现有方式,当用户X结束本次搜索后,用户X本次输入了什么关键词以及浏览了搜索结果中的哪些网页等信息也会被记录到用户行为日志数据库中。基于上述介绍,图2为本发明装置实施例的组成结构示意图。如图2所示,包括第一处理单元21,用于确定一个网页类别集合A,并为预先保存的每个网页分别创建一个N维的网页类别向量,N的取值与网页类别集合A中的类别数相同,每个网页类别向量分别用于记录其对应的网页在不同类别中的权重,初始状态,各权重的取值均为0 ;分别确定用户行为日志数据库中记录的每个用户所属的类别,并将每个用户浏览过的网页对应的网页类别向量中与该用户所属类别对应的权重的取值加上M,M为正整数;第二处理单元22,用于当接收到来自任一用户X的搜索请求时,获取符合条件的网页并进行预排序;确定用户X搜索的类别,依据与搜索的类别对应的权重取值越大排序越靠前的原则,对预排序后的各网页进行重新排序,并进行显示。其中,第一处理单元21中可具体包括第一处理子单元211,用于确定一个网页类别集合A,并为预先保存的每个网页分别创建一个N维的网页类别向量,N的取值与网页类别集合A中的类别数相同,每个网页类别向量分别用于记录其对应的网页在不同类别中的权重,初始状态,各权重的取值均为0 ;第二处理子单元212,用于针对用户行为日志数据库中记录的每个用户Y,分别确定其每次搜索的类别,将搜索次数最多的类别确定为用户Y所属的类别,并将用户Y浏览过的网页对应的网页类别向量中与用户Y所属类别对应的权重的取值加上M。另外,第二处理单元22还可进一步用于,当监控到用户X浏览了所显示的任一网页Z后,确定用户X所属的类别,并将网页Z对应的网页类别向量中与用户X所属类别对应的权重的取值加上M。图2所示装置实施例的具体工作流程请参照图1所示方法实施例中的相应说明, 此处不再赘述。总之,采用本发明的技术方案,能够提升用户体验。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种网页排序方法,其特征在于,包括确定一个网页类别集合A,并为预先保存的每个网页分别创建一个N维的网页类别向量,所述N的取值与所述网页类别集合A中的类别数相同,每个网页类别向量分别用于记录其对应的网页在不同类别中的权重,初始状态,各权重的取值均为0 ;分别确定用户行为日志数据库中记录的每个用户所属的类别,并将每个用户浏览过的网页对应的网页类别向量中与该用户所属类别对应的权重的取值加上M,所述M为正整数;当接收到来自任一用户X的搜索请求时,获取符合条件的网页并进行预排序;确定所述用户X搜索的类别,依据与所述搜索的类别对应的权重取值越大排序越靠前的原则,对预排序后的各网页进行重新排序,并进行显示。
2.根据权利要求1所述的方法,其特征在于,所述分别确定用户行为日志数据库中记录的每个用户所属的类别包括针对每个用户Y,分别确定其每次搜索的类别,将搜索次数最多的类别确定为所述用户 Y所属的类别。
3.根据权利要求1所述的方法,其特征在于,该方法进一步包括当监控到所述用户X浏览了所显示的任一网页Z后,确定所述用户X所属的类别,并将所述网页Z对应的网页类别向量中与所述用户X所属类别对应的权重的取值加上Mo
4.根据权利要求1、2或3所述的方法,其特征在于,所述M的取值为1。
5.一种网页排序装置,其特征在于,包括第一处理单元,用于确定一个网页类别集合A,并为预先保存的每个网页分别创建一个 N维的网页类别向量,所述N的取值与所述网页类别集合A中的类别数相同,每个网页类别向量分别用于记录其对应的网页在不同类别中的权重,初始状态,各权重的取值均为0 ;分别确定用户行为日志数据库中记录的每个用户所属的类别,并将每个用户浏览过的网页对应的网页类别向量中与该用户所属类别对应的权重的取值加上M,所述M为正整数;第二处理单元,用于当接收到来自任一用户X的搜索请求时,获取符合条件的网页并进行预排序;确定所述用户X搜索的类别,依据与所述搜索的类别对应的权重取值越大排序越靠前的原则,对预排序后的各网页进行重新排序,并进行显示。
6.根据权利要求5所述的装置,其特征在于,所述第一处理单元包括第一处理子单元,用于确定一个网页类别集合A,并为预先保存的每个网页分别创建一个N维的网页类别向量,所述N的取值与所述网页类别集合A中的类别数相同,每个网页类别向量分别用于记录其对应的网页在不同类别中的权重,初始状态,各权重的取值均为0 ;第二处理子单元,用于针对所述用户行为日志数据库中记录的每个用户Y,分别确定其每次搜索的类别,将搜索次数最多的类别确定为所述用户Y所属的类别,并将所述用户Y浏览过的网页对应的网页类别向量中与所述用户Y所属类别对应的权重的取值加上M。
7.根据权利要求5或6所述的装置,其特征在于,所述第二处理单元进一步用于,当监控到所述用户X浏览了所显示的任一网页Z后,确定所述用户X所属的类别,并将所述网页 Z对应的网页类别向量中与所述用户X所属类别对应的权重的取值加上Mo
全文摘要
本发明公开了一种网页排序方法和装置确定一个网页类别集合A,并为预先保存的每个网页分别创建一个N维的网页类别向量,N的取值与网页类别集合A中的类别数相同,用于记录其对应的网页在不同类别中的权重,初始状态,各权重的取值均为0;分别确定用户行为日志数据库中记录的每个用户所属的类别,并将每个用户浏览过的网页对应的网页类别向量中与该用户所属类别对应的权重的取值加上M;当接收到来自任一用户X的搜索请求时,获取符合条件的网页并进行预排序;确定用户X搜索的类别,依据与所述搜索的类别对应的权重取值越大排序越靠前的原则,对预排序后的各网页进行重新排序,并进行显示。应用本发明所述方案,能够提升用户体验。
文档编号G06F17/30GK102541857SQ20101058498
公开日2012年7月4日 申请日期2010年12月8日 优先权日2010年12月8日
发明者刘致远 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1