网站权威值的获取方法及装置的制作方法

文档序号:6400427阅读:116来源:国知局
专利名称:网站权威值的获取方法及装置的制作方法
技术领域
本发明涉及计算机信息检索领域,具体而言,涉及一种网站权威值的获取方法及
>J-U ρ α装直。
背景技术
搜索引擎是网民获取资料信息的主要方式,搜索引擎应该提供给网民满足需求的、真实权威的信息。搜索结果的权威度、可信度是衡量搜索引擎优劣的重要因素之一。目前,网页或网站权威性评价方法大多数都采用根据页面的链接关系迭代计算页面的权威值的做法,PageRank算法是评价网页权威值的重要和首要的方法,之后不断出现对其改进的网页排序算法和网站排序算法。PageRank算法的核心思想是如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。因此,页面的重要性可以用PageRank度量。HITS算法的目标就是通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的权威网页。随着网络的发展,网页间的推荐作用在下降,一些商业网站为了获得更好的排名而互相连接,导致一些搜索结果中排在前面的网页与用户需求并不相关,在此基础上也出现了一些衍生的算法。但在反作弊策略“魔高一尺,道高一丈”的工作模式下,总会有一部分spam链接或seo 链接影响到页面权威值的计算,导致部分计算结果不准确。另外,由于整个互联网中的网页数量是天文数字,搜索引擎无法全部纳入页面权威值的计算。因此,搜索引擎一般都设计各种策略过滤掉部分价值不大的链接。由于策略的取舍,一些没有外链的网站/网页难免会被过滤掉,使得他们无法获得权威值,从而影响了搜索结果的质量。以下内容涉及到站点等概念,这里先对这些概念进行适当介绍以便于理解:站点:指URL 中第一个 V’前的部分。例如,news.sina.com.cn, sports, sina.com.cn被认为是两个站点。主域:即主域名,指域名注册人的网上名称。例如,“jike.com”(详见http =//baike.baidu.com/view/3444440.htm)。子域:指比主域更低级的三级域名、甚至四级域名。例如,homebbs.cq.soufun.com 中的 cq.soufun.com。以mil.news.sina.com.cn 这个 host 为例,其主域为 sina.com.cn,其一级子域为new.sina.com.cn,当然如果还存在xxx.mil.news.sina.com.cn的话,那么此 host 还存在二级子域 mil.news.sina.com.cn。这里请参照图1,图1是根据相关技术的以主域及子域的树形结构示意图,如图1所示,方框表示不包含站点,胶囊型的框表示域,其中树根便是主域。因此,对于任何一个节点而言,从该节点到根的路径上,除去本身和根节点之外的所有域都是其子域,而根节点就是其主域。可信站:自动生成或手工整理的站点集合。认为站点内容权威可信,站点的出链具有推荐性,几乎没有spam的出链或SEO的出链。可信投票数:只来自于可信站链接的主域数。其中,不论来自同一个域的链接有多少,都算做一次计数。用户生成内容(User Generated Content,简称为UGC):包括有论坛、博客、分享网络、微博等站点形式和评论、回复等页面的形式。主域传递树:表示主域的权威值能否遗传给其下的子域、站点,以及子域的权威值能否遗传给其下站点的树状结构。本地化站点:例如“bj.ganj1.com”,对于北京地区的网民而言就相当于主站,可视为与 “WWW.ganj1.com” 等同。对于一些新上线的优质资源站点或频道,一般没有足够的超链指向它们,这就导致新站点受到歧视,计算得出的权威值偏低或根本没有权威值。不论是PageRank算法还是HITS算法,都忽略了网页作为网站一部分的属性。传统意义上,网络由网页和链接两部分组成,分别对应网络的内容和结构。PageRank算法和HITS算法都是针对网络结构的研究。近年来,越来越多的研究者意识到网站同样是网络的组成部分,并且在其中扮演着重要的角色。与单个网页相比,网站可以提供更多的语义信息。首先,同一站点的网页通常在内容、页面布局及链接方面有很高的相似性;其次,从拓扑学的观点看,相比不同网站的网页链接集合,同一站点的网页链接结构通常有更高的密集度。网站作为互联网中更高抽象层次的组成单元,能够展现比网页更全面的信息和信息结构,而且针对站点的spam行为或seo行为会更加困难,所以站点排序技术已经成为搜索引擎中一项非常重要的技术。目前常见的有SiteRank和AggregateRank两种站点排序算法。SiteRank算法与PageRank类似,就是基于站点链接图采用PageRank算法计算出域名的排序。AggregateRank是对PageRank的一个近似,并且简化了计算复杂度。因此,网站作为网络结构的组成单元,是评价权威性不可或缺的维度,网站排序技术已也经成为搜索引擎中一项非常重要的技术。然而,目前的网站权威值计算方法仍然以PageRank为基础,不可避免地也引入了PageRank的一些缺点:权威性计算易受spam等问题的影响,导致部分计算结果不准确;权威性计算倾向于老站点,无法反应新上线的优质资源站点的权威性。针对相关技术中网站权威值计算方法存在权威性计算易受spam等问题的影响,且无法反应新上线的优质资源站点的权威性的问题,目前尚未提出有效的解决方案。

发明内容
本发明提供了一种网站权威值的获取方法及装置,以至少解决上述问题。根据本发明的一个方面,提供了一种网站权威值的获取方法,包括:根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个站点的可信投票数;根据互联网上所有站点的可信投票数将所有站点归档至预设的不同档位中,并为每个档位分配一个档位权威值,将每个档位内站点的站点权威值设定为档位权威值;将站点权威值大于权威值阈值且不属于可信站集合的站点添加到可信站集合中。优选地,在根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个站点的可信投票数之前,包括:抽取全网链接数据形成满足目标统一资源定位符Dest URL源统一资源定位符Source URL锚文本Anchor Text格式的原始数据;从原始数据中获取多个领域的URL列表页,并将URL列表页汇总成种子站集合;从种子站集合中剔除低质量站点、搜索引擎优化SEO站点以及作弊SPAM站点,得到可信站集合。优选地,在将站点权威值大于权威值阈值且不属于可信站集合的站点添加到可信站集合中之后,包括:获取主域下所有站点的站点信息,根据站点信息确定主域的域权威值;根据站点信息和域权威值生成主域的主域遗传树;根据主域遗传树、域权威值,以及预定的权威值递减规则确定主域包括的子域的权威值、以及子域包括的站点的权威值。优选地,在将站点权威值大于权威值阈值且不属于可信站集合的站点添加到可信站集合中之后,包括:挖掘与当前主域存在站点关系的其他主域,其中,站点关系包括:跳转或站群;确定当前主域的权威值在当前主域中的站点与其他主域的站点间的传递方式。优选地,在根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个站点的可信投票数之前,包括:挖掘与当前主域存在站点关系的其他主域,其中,站点关系包括:跳转或站群;确定当前主域的权威值在当前主域中的站点与其他主域的站点间的传递方式。优选地,站点信息包括:站点的可信投票数、站点所属档位的档位权威值、站点所属主域下的站点数目、站点所属子域下的站点数目。根据本发明的另一方面,提供了一种网站权威值的获取装置,包括:获取模块,用于根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个站点的可信投票数;处理模块,用于根据互联网上所有站点的可信投票数将所有站点归档至预设的不同档位中,并为每个档位分配一个档位权威值,将每个档位内站点的站点权威值设定为档位权威值;添加模块,用于将站点权威值大于权威值阈值且不属于可信站集合的站点添加到可信站集合中。优选地,该装置还包括:获取确定模块,用于获取主域下所有站点的站点信息,根据站点信息确定主域的域权威值;生成模块,用于根据站点信息和域权威值生成主域的主域遗传树;第一确定模块,用于根据主域遗传树、域权威值,以及预定的权威值递减规则确定主域包括的子域的权威值、以及子域包括的站点的权威值。优选地,该装置还包括:挖掘模块,用于挖掘与当前主域存在站点关系的其他主域,其中,站点关系包括:跳转或站群;第二确定模块,用于确定当前主域的权威值在当前主域中的站点与其他主域的站点间的传递方式。优选地,站点信息包括:站点的可信投票数、站点所属档位的档位权威值、站点所属主域下的站点数目、站点所属子域下的站点数目。通过本发明,采用先选出一批包括优质站点的可信站集合,并通过可信站集合中优质站点的投票确定这些优质站点的权威值,再将满足权威值的且未被包含在可信站集合中的其它站点也添加到可信站集合中的方式,解决了相关技术中网站权威值计算方法存在权威性计算易受spam等问题的影响,且无法反应新上线的优质资源站点的权威性的问题,进而达到了避免权威值计算受到spam等问题的影响,同时能够正确反映新上线站点的权威性的效果。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是根据相关技术的以主域及子域的树形结构示意图;图2是根据本发明实施例的网站权威值的获取方法流程图;图3是根据本发明优选实施例的主域传递示意图;图4是根据本发明优选实施例的基于投票和传递的网站权威值计算方法的流程图;图5是根据本发明实施例的网站权威值的获取装置的结构框图;图6是根据本发明优选实施例的网站权威值的获取装置的结构框图。
具体实施例方式下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。图2是根据本发明实施例的网站权威值的获取方法流程图,如图2所示,该方法主要包括以下步骤(步骤S202-步骤S206):步骤S202,根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个站点的可信投票数;步骤S204,根据互联网上所有站点的可信投票数将所有站点归档至预设的不同档位中,并为每个档位分配一个档位权威值,将每个档位内站点的站点权威值设定为档位权威值;步骤S206,将站点权威值大于权威值阈值且不属于可信站集合的站点添加到可信站集合中。在本实施例中,在根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个站点的可信投票数之前,包括:抽取全网链接数据形成满足目标统一资源定位符Dest URL源统一资源定位符Source URL锚文本Anchor Text格式的原始数据;从原始数据中获取多个领域的URL列表页,并将URL列表页汇总成种子站集合;从种子站集合中剔除低质量站点、搜索引擎优化SEO站点以及作弊SPAM站点,得到可信站集合。在本实施例中,在将站点权威值大于权威值阈值且不属于可信站集合的站点添加到可信站集合中之后,包括:获取主域下所有站点的站点信息,根据站点信息确定主域的域权威值;根据站点信息和域权威值生成主域的主域遗传树;根据主域遗传树、域权威值,以及预定的权威值递减规则确定主域包括的子域的权威值、以及子域包括的站点的权威值。在本实施例中,在将站点权威值大于权威值阈值且不属于可信站集合的站点添加到可信站集合中之后,包括:挖掘与当前主域存在站点关系的其他主域,其中,站点关系包括:跳转或站群;确定当前主域的权威值在当前主域中的站点与其他主域的站点间的传递方式。在本实施例中,在根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个站点的可信投票数之前,包括:挖掘与当前主域存在站点关系的其他主域,其中,站点关系包括:跳转或站群;确定当前主域的权威值在当前主域中的站点与其他主域的站点间的传递方式。在本实施例中,站点信息包括:站点的可信投票数、站点所属档位的档位权威值、站点所属主域下的站点数目、站点所属子域下的站点数目。下面对上述实施例进行适当描述,例如,本实施例提供的网站权威值的获取方法可以采用以下几个步骤来实现:(I)、抽取全网链接数据,形成destURL sourceURLAnchor格式的原始数据;(2)、挖掘互联网上各个领域的hub页,汇总一个初始的网站列表,即种子站集合;(3)、清理种子站集合中的低质量站点和易seo或易spam的站点。形成可信站集合;(4)、统计每个站点的入链中来自于(3)中可信站的入链,计算出每个站点的可信投票数;(5)、根据(4)的计算结果,设计分档的阈值,把站点分入若干个档位,每个档位赋予一个权威值。进一步,那些有足够可信站投票数但原来不在信任站中的站点,也会被加入
任站中;(6)、统计域内站点的所有站点信息,汇总出主域的权威值;(7)、根据¢)的中间结果,进一步计算主域、子域、站点间的特征,生成主域遗传树;⑶、根据(7)的主域遗传树,判断主域权威值如何遗传给域内的站点;(9)、挖掘不同主域间的站点关系(包括跳转、站群等),判断权威值在不同主域间站点的传递关系;(10)、根据(5)、(8)、(9)的计算结果,综合给出每个站点的权威值。在实际应用中,可以将可信站集合称之为“专家网站”通过来自于“专家网站”的外链和来自于主域的遗传信息判定网站的基础级别,再通过一些调整策略最终给出一个网站的权威性级别打分。下面结合图3、图4以及优选实施例对上述实施例提供的网站权威值的获取方法进行更加详细的描述。请同时参考图3、图4,图3是根据本发明优选实施例的主域传递示意图,图4是根据本发明优选实施例的基于投票和传递的网站权威值计算方法的流程图,如图4所示,该流程主要包括以下步骤(步骤S402-步骤S422):步骤S402,链接数据抽取;步骤S404,挖掘种子站;步骤S406,清理低端站;步骤S408,统计一个网站的“可信投票数”;其包含如下子步骤:步骤S4082:投 票赋权重;“可信站”投票权根据其自身的权威性做区分,例如分为0-4共5种权重,初始权重为1,后续的权重通过迭代计算确定;步骤S4084:限制“可信站”的投票次数,避免SPAM的影响;例如每个“可信站”只能投一票;即不管来自“专家网站”所在主域的外链有多少个,仅能认为是一次投票;
步骤S4086:非“可信站”不能投票;即来自非“可信站”的外链不计入投票数,同时UGC站点的外链不计入投票数,来自“可信站”的UGC页面的外链也不计入投票数。步骤S410,可信投票数评级,即计算权威度级别,根据网站的“可信投票数”大小,将网站的权威度分为若干个级别,例如0-4共5个级别;其包含如下子步骤:步骤S4102:更新站点权威度分档阈值;初始阈值根据人工经验设定,后续的阈值根据迭代计算;根据上一次分级临界点(阈值)附件站点的“可信投票数”的变话情况,重新计算分级的阈值;步骤S4104:站点权威值分级;根据站点的“可信投票数”与分级阈值的关系,把站点分档到对应的权威值档位中;如果某网站之前已经在“可信站”列表中,则正常分级,否贝U,其权威度级别为正常分级减掉I分,待下一轮计算时,再根据新的“可信投票数”调整到正常级别;步骤S4106:不可信站退场;对于在“可信站”集合中的站点,如果其“可信投票数”小于某个阈值,例如10,则把他从“可信站”集合中剔除;步骤S412:域内站点信息统计,统计主域的权威度;该步骤汇总主域下的所有站点,选出最优站用于表示该主域的权威度级别;包括如下子步骤:步骤S4122:选出主域下“来自专家网站的投票总数”最高的网站代表该主域,其投票总数也用于表示对该主域的投票数;步骤S4142:选出主域下所有站点权威度的最大值表示该主域的权威度级别;步骤S414,生成主域传递树;本步骤判断主域的权威级别是否可用遗传给其下的站点,进一步判断站点的权威度是否可用遗传给其下的子站点,如此往复,形成一颗“主域遗传树”;包括如下子步骤:步骤S4142:统计真站;使用DNS、死链等数据,过滤掉主域下无法访问的站点;步骤S4144:判断传递性;沿着“主域传递树”的每个非叶节点,使用“可信投票数”与其下一级的节点数之间比值的大小,判断该节点的权威性是否可以遗传给其各个孩子节点;比较的阈值由人工设定;步骤S4146:挖掘频道站;对于那些可以注册的平台站,“主域传递树”的判断结果是权威性不能传递给其孩子节点。但实际上有一些孩子节点是由站长维护的、即可以继承的。本发明通过挖掘网站地图、首页内链等方式挖掘可以继承权威度的频道站;步骤S416:传递性评级,即判定遗传方式;本步骤通过统计网站类型判断传递的方式一一衰减遗传和不衰减遗传;其包含如下步骤:步骤S4162:挖掘“本地化”站点;如果一个域内的本地化站点数占到域内总站点数的一定比例以上,例如0.25。则认为该域是一个“本地化”的域;步骤S4164:如果一个站点是“本地化”站点,且域是“本地化”域,则域的权威值可以直接传递给该本地化站点;否则,站点的权威值要在域的权威值上打个折扣,例如减一分;步骤S418,清理低端站;步骤S420,站间关系调级,即站间关系传递权威值的调整;其包含如下子步骤:步骤S4202:如果站点sitel跳转到站点site2,且sitel的权威值比site2高,则site2可以获得sitel的权威值;
步骤S4204:如果站点siteA, siteB,..., siteN是站群,且已知siteM的权威值,则站群内的其他站点可在siteM权威值的基础上打个折扣获得一个权威值,例如减一分;步骤S422,根据步骤S410、步骤S416、步骤S420的计算结果,综合给出每个站点的权威值。例如去上述三个步骤权威值的最大值。采用上述实施例提供的网站权威值的获取方法,可以提高搜索引擎的准确率,同时能够提高搜索结果的排序质量,减少搜索结果中非权威站点的数量,使得将搜索结果提供给用户时,用户获得更好的使用体验。图5是根据本发明实施例的网站权威值的获取装置的结构框图,该装置用以实现上述实施例提供的网站权威值的获取方法,如图5所示,该装置主要包括:获取模块10、处理模块20以及添加模块30。其中,获取模块10,用于根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个站点的可信投票数;处理模块20,用于根据互联网上所有站点的可信投票数将所有站点归档至预设的不同档位中,并为每个档位分配一个档位权威值,将每个档位内站点的站点权威值设定为档位权威值;添加模块30,用于将站点权威值大于权威值阈值且不属于可信站集合的站点添加到可信站集合中。图6是根据本发明优选实施例的网站权威值的获取装置的结构框图,如图6所示,该装置还包括:获取确定模块40,用于获取主域下所有站点的站点信息,根据站点信息确定主域的域权威值;生成模块50,用于根据站点信息和域权威值生成主域的主域遗传树;第一确定模块60,用于根据主域遗传树、域权威值,以及预定的权威值递减规则确定主域包括的子域的权威值、以及子域包括的站点的权威值。在该优选实施例中,该装置还包括:挖掘模块70,用于挖掘与当前主域存在站点关系的其他主域,其中,站点关系包括:跳转或站群;第二确定模块80,用于确定当前主域的权威值在当前主域中的站点与其他主域的站点间的传递方式。在该优选实施例中,站点信息包括:站点的可信投票数、站点所属档位的档位权威值、站点所属主域下的站点数目、站点所属子域下的站点数目。当然,该优选实例提供的网站权威值的获取装置仅仅展现了一个较佳的构成结构,在实际应用中完全不必局限于此,只要是能够实施上述实施例提供的网站权威值的获取方法即可。例如,也完全可以通过由以下各个功能模块构成的装置来实现:(I)预处理模块:该模块处理全网的外链数据,形成“destURLsourceURLAnchor’ ’格式的原始数据。(2)链接特征统计模块:该模块统计每个站点的外链中来自于可信站的入链,计
算可信站投票数。(3)链接评级模块:该模块自动的设定权威值分档的阈值,根据链接特征统计模块的统计结果对每个站点的权威值评级、分入不同的档位。同时负责提高可信站的召回率。(4)低端站清理模块:该模块用于清理可信站中的低质量站和易seo、易spam的站点。提高可信站的纯度,保证可信站投票的权威度。(5)主域传递模块:该模块用于汇聚主域、子域级别的权威值,进而决定权威值如何传递给域内的其他站点。(6)站间传递模块:该模块用于判断权威值在站点之前的传递关系。包括跳转传递、站群传递等子模块,分别处理站点间的跳转关系和站群关系。
(7)综合评级模块:该模块汇总上述各个模块的产出结果,给出站点的最终权威值。采用上述实施例提供的网站权威值的获取装置,可以提高搜索引擎的准确率,同时能够提高搜索结果的排序质量,减少搜索结果中非权威站点的数量,使得将搜索结果提供给用户时,用户获得更好的使用体验。从以上的描述中,可以看出,本发明实现了如下技术效果:采用先选出一批包括优质站点的可信站集合,并通过可信站集合中优质站点的投票确定这些优质站点的权威值,再将满足权威值的且未被包含在可信站集合中的其它站点也添加到可信站集合中的方式,解决了相关技术中网站权威值计算方法存在权威性计算易受spam等问题的影响,且无法反应新上线的优质资源站点的权威性的问题,进而达到了避免权威值计算受到spam等问题的影响,能够正确反映新上线站点的权威性的效果。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种网站权威值的获取方法,其特征在于,包括: 根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取所述每个站点的可信投票数; 根据互联网上所有站点的可信投票数将所有站点归档至预设的不同档位中,并为每个所述档位分配一个档位权威值,将每个所述档位内站点的站点权威值设定为所述档位权威值; 将站点权威值大于权威值阈值且不属于所述可信站集合的站点添加到所述可信站集
2.根据权利要求1所述的方法,其特征在于,在根据互联网上每个站点的所有入链中来自于可信站集合中的入链 的数量,获取所述每个站点的可信投票数之前,包括: 抽取全网链接数据形成满足目标统一资源定位符Dest URL源统一资源定位符SourceURL锚文本Anchor Text格式的原始数据; 从所述原始数据中获取多个领域的URL列表页,并将所述URL列表页汇总成种子站集合; 从所述种子站集合中剔除低质量站点、搜索引擎优化SEO站点以及作弊SPAM站点,得到所述可信站集合。
3.根据权利要求1或2所述的方法,其特征在于,在将站点权威值大于权威值阈值且不属于所述可信站集合的站点添加到所述可信站集合中之后,包括: 获取主域下所有站点的站点信息,根据所述站点信息确定所述主域的域权威值; 根据所述站点信息和所述域权威值生成所述主域的主域遗传树; 根据所述主域遗传树、所述域权威值,以及预定的权威值递减规则确定所述主域包括的子域的权威值、以及所述子域包括的站点的权威值。
4.根据权利要求1或2所述的方法,其特征在于,在将站点权威值大于权威值阈值且不属于所述可信站集合的站点添加到所述可信站集合中之后,包括: 挖掘与当前主域存在站点关系的其他主域,其中,所述站点关系包括:跳转或站群;确定所述当前主域的权威值在所述当前主域中的站点与所述其他主域的站点间的传递方式。
5.根据权利要求3所述的方法,其特征在于,在根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取所述每个站点的可信投票数之前,包括: 挖掘与当前主域存在站点关系的其他主域,其中,所述站点关系包括:跳转或站群;确定所述当前主域的权威值在所述当前主域中的站点与所述其他主域的站点间的传递方式。
6.根据权利要求4所述的方法,其特征在于,所述站点信息包括:站点的可信投票数、站点所属档位的档位权威值、站点所属主域下的站点数目、站点所属子域下的站点数目。
7.—种网站权威值的获取装置,其特征在于,包括: 获取模块,用于根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取所述每个站点的可信投票数; 处理模块,用于根据互联网上所有站点的可信投票数将所有站点归档至预设的不同档位中,并为每个所述档位分配一个档位权威值,将每个所述档位内站点的站点权威值设定为所述档位权威值; 添加模块,用于将站点权威值大于权威值阈值且不属于所述可信站集合的站点添加到所述可信站集合中。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括: 获取确定模块,用于获取主域下所有站点的站点信息,根据所述站点信息确定所述主域的域权威值; 生成模块,用于根据所述站点信息和所述域权威值生成所述主域的主域遗传树; 第一确定模块,用于根据所述主域遗传树、所述域权威值,以及预定的权威值递减规则确定所述主域包括的子域的权威值、以及所述子域包括的站点的权威值。
9.根据权利要求7或8所述的装置,其特征在于,所述装置还包括: 挖掘模块,用于挖掘与当前主域存在站点关系的其他主域,其中,所述站点关系包括:跳转或站群; 第二确定模块,用于确定所述当前主域的权威值在所述当前主域中的站点与所述其他主域的站点间的传递方式。
10.根据权利要求9所述的装置,其特征在于,所述站点信息包括:站点的可信投票数、站点所属档位的档位权威 值、站点所属主域下的站点数目、站点所属子域下的站点数目。
全文摘要
本发明公开了一种网站权威值的获取方法及装置。其中,该方法包括根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个站点的可信投票数;根据互联网上所有站点的可信投票数将所有站点归档至预设的不同档位中,并为每个档位分配一个档位权威值,将每个档位内站点的站点权威值设定为档位权威值;将站点权威值大于权威值阈值且不属于可信站集合的站点添加到可信站集合中。通过本发明,达到了避免权威值计算受到spam等问题的影响,同时能够正确反映新上线站点的权威性的效果。
文档编号G06F17/30GK103116660SQ201310084599
公开日2013年5月22日 申请日期2013年3月15日 优先权日2013年3月15日
发明者白俊良 申请人:人民搜索网络股份公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1