一种网页评估值的确定及运用的方法、系统的制作方法

文档序号:6576893阅读:115来源:国知局
专利名称:一种网页评估值的确定及运用的方法、系统的制作方法
技术领域
本申请涉及信息处理技术,特别涉及一种利用计算机对网页评估值进行确定及运用的方法、系统。
背景技术
搜索引擎从互联网上抓取网页,在用户查询时,会找到满足用户关键字的所有网页,然后按照相关度排序,以便排在前面的搜索结果更符合用户的需求。由于相关度是一个非常复杂、基于很多参数计算出来的结果,因而也就存在着利用各种各样的算法和参数来计算相关度的技术方案,并且, 一般来说各个搜索引擎厂商用的参数和算法也都各不相同。
例如,Google在1997年提出了 Page rank这种提高相关度算法的参数以及计算这个参数的算法。大概可以这样理解Page rank,重要网页链接出去的目标网页,会获得重要的权值,被越多重要网页指向的网页,pagerank越高,也就越重要。
现有搜索引擎在处理内容类查询词的排序时,普遍解决的不够好。重点体现在如下两点
1、 使用外链计算Pagerank以判断重要网页的方式基本不起作用,导致排在搜索结果前面的结果,很大程度上并不是用户最想看到的结果。
2、 现有的搜索引擎通常用排重技术处理内容相同或接近相同的网页。例如,在抓取网页时并不储存某些内容重复的网页,或在收到用户搜索请求后不显示某些内容重复的网页或将该等内容排在搜索结果的后面。如果没有合适的链接数据,搜索引擎有可能根据Page rank算法将原创网页忽略或排后,而把转载的网页排在前面。因此,现有的搜索引擎并没有考虑到内容相同的不同网页对结果排序的影响。

发明内容
本申请提供一种利用计算机对网页评估值进行确定及运用的方法、系统,用以提高对查询结果的反馈准确性。
本申请实施例中提供了 一种利用计算机对网页评估值进行确定方法,包括
如下步骤
从搜索引擎服务器系统获取具有相同或接近相同的内容的网页;搜索引擎服务器系统确定所述各网页的生成时间及第 一评估值;搜索引擎服务器系统根据所述各网页的第一评估值确定生成时间最早的网页的第二评估值。
较佳地,所述具有相同或接近相同的内容的网页,包括数字指紋相同的网页。
较佳地,所述获取具有相同或接近相同的内容的网页,包括
获取各网页中非第一段和非最后一段的中间内容最长的段落或段落非第
一句和非最后一句的最长句子,并生成数字指紋;
根据数字指紋确定各网页内容是否相同后获取具有相同或接近相同的内
容的网页。
较佳地,所述确定所述各网页的生成时间,包括下列方式之一或者其组合
根据网页统一资源定位符URL包含的时间确定;
根据内容类网页中的时间确定;
根据抓取网页的时间确定;
根据最早将网页收入索引的时间确定。
较佳地,所述第二评估值大于所述第一评估值。
较佳地,所述第二评估值为与所述生成时间最早的网页具有相同或接近相同的内容的网页的第一评估值之和与第一加权系数的乘积加上所述生成时间最早的网页的第 一评估值与第二加权系数的乘积。
较佳地,所述第 一加权系数与所述第二加权系数的取值相同或不同。较佳地,所述第一评估值为根据包括外链在内的数据而形成的评估值。本申请还提供了 一种根据网页评估值对搜索查询结果进行排序的方法,包
括如下步骤
从搜索引擎服务器系统获取查询后的查询结果;
搜索引擎服务器系统根据各网页的第一评估值及生成时间最早的网页的第二评估值对查询结果排序。较佳地,进一步包括
搜索引擎服务器在查询结果中显示每个网页的转载次数。本申请还提供了 一种利用计算机对网页搜索查询结果进行排序的方法,其包括如下步骤
从搜索引擎服务器系统获取具有相同或接近相同的内容的网页;
搜索引擎服务器系统确定所述各网页的生成时间;
搜索引擎服务器系统根据所述各网页的生成时间的先后顺序进行排序。
较佳地,进一步包括搜索引擎服务器系统根据所述各网页的生成时间以
及外链数据进行排序。
本申请提供了一种搜索引擎服务器系统,包括
爬虫系统,用于获取具有相同或接近相同的内容的网页;
索引系统,用于确定各网页的生成时间及各网页的第一评估值,并根据各
网页的第 一评估值确定生成时间最早的网页的第二评估值。
较佳地,所述索引系统进一步用于根据网页的数字指紋确定各网页是否具
有相同或接近相同的内容。
较佳地,所述索引系统包括
数字指紋生成单元,用于获取各网页中非第一段和非最后一段的中间内容最长的段落或段落非第一句和非最后一句的最长句子,并生成数字指紋;比较单元,用于根据数字指紋确定各网页内容是否相同;
获取单元,用于根据数字指紋确定各网页内容是否相同后,获取具有相同 或接近相同的内容的网页。
较佳地,所述索引系统进一步用于根据下列方式之一或者其组合确定网页 生成时间
网页统一资源定位符URL包含的时间;
内容类网页中的时间;
4爪取网页的时间;
最早将网页收入索引的时间。
较佳地,所述索引系统进一步用于根据各网页的第一评估值确定生成时间 最早的网页的第二评估值时,确定所述第二评估值为与所述生成时间最早的网 页具有相同或接近相同的内容的网页的第 一评估值之和与第一加权系数的乘 积加上所述生成时间最早的网页的第 一评估值与第二加4又系it的乘积。
较佳地,所述索引系统进一步用于根据包括其他网页指向在内的数据而形 成的评估值确定各网页的第一评估值。
较佳地,所述索引系统还用于根据各网页的第一评估值及第二评估值对查 询结果排序。
较佳地,所述索引系统进一步用于在查询结果中显示每个网页的转载次数。
本申请还提供了一种搜索引擎服务器系统,包括
爬虫系统,用于从搜索S j擎服务器系统获取具有相同或接近相同的内容的 网页;
搜索引擎服务器,用于搜索引擎服务器系统确定所述各网页的生成时间, 并根据所述各网页的生成时间的先后顺序进行排序。
较佳地,搜索引擎服务器进一步用于根据所述各网页的生成时间以及外链 数据进行排序。本申请有益效果如下
在本申请实施中,首先获取具有相同或接近相同的内容的网页;然后确定 各网页的生成时间及评估值;最后再根据各网页的评估值确定生成时间最早的 网页的评估值。
由于在方案中通过对生成时间这一参数考虑到了网页是否为原创,从而确 定了与生成时间为依据的、判断网页实际评估值的方案,因此克服了在使用外 链计算Page rank以判断重要网页的方式时,导致排在搜索结果前面的结果并 不能代表其评估值的问题。
并将其用于改进搜索结果的排序,因此提高了查询结果反馈的准确性。


图1为本申请实施例中Copy Rank在搜索引擎结果中的效果示意图; 图2为本申请实施例中网页评估值的确定方法实施流程示意图; 图3为本申请实施例中转载网页与原创网页Copy Rank关系示意图; 图4为本申请实施例中根据网页评估值对查询结果进行排序的方法实施流 程示意图5为本申请实施例中搜索引擎服务器系统结构示意图; 图6为本申请实施例中搜索引擎服务器系统运用环境结构示意图; 图7为本申请实施例中利用计算机对网页搜索查询结果进行排序的方法实 施流程示意图8为本申请实施例中搜索引擎服务器系统结构示意图。
具体实施例方式
下面结合附图对本申请具体实施方式
进行说明。 发明人在发明过程中注意到
101、 内容类网页往往外链很少,因此使用外链计算Page rank以判断重要网 页的方式基本不起作用,从而导致排在搜索结果前面的结果,很大程度上并不 是用户最想看到的结果。
2、 对于内容相同的不同网页,搜索引擎都把他们当做干扰搜索结果的负 面因素,要么被搜索引擎直接扔掉,要么将page rank降的很低。但其实这些 内容相同的不同网页,对于改进搜索结果排序具有非常重要的作用。
鉴于此,本申请提出了为搜索引擎的结果排序增加一个新的、重要的排序 参数,大幅度提高内容类查询词的搜索结果效果的技术方案。使得网页搜索中 找文章的查询结果满意度大幅度提高。下面先对网页评估值的确定实施方式进 行说明,在对将该网页评估值运用于返回查询结果以提高搜索准确性的实施方 式进行说明。
实施中,借用Google对某个网页的重要性评估的评估值Page Rank的概 念,将本申请中网页的评估值称为Copy rank,其代表了 一种用于改进搜索引 擎相关度排序的参数和产生这个参数的算法,适用于优化内容类查询的搜索结 果排序。它利用互联网上文章的转载次数,计算原创网页的Copy mnk,并对 转载网页进行聚合。搜索引擎在计算相关度时,综合pagerank、关键词匹配程 度等传统计算相关度的参数和Copy rank, —起计算出一个新的相关度值。在 搜索引擎显示结果时,也显示转载数目,以帮助用户最快判断互联网上符合此 查询词的最佳结果。
图1为CopyRank在搜索引擎结果中的效果示意图,如图所示搜索结果, 版本(转载次数)越多的文章,越有可能是用户想要看到的文章。
Copy Rank的确定主要包括三个因素, 一是判断网页内容是否基本相同; 二是判断网页的真实发布时间;三是判断谁是原创网页,下面进行说明。
图2为网页评估值的确定方法实施流程示意图,如图所示,在进行评估值 确定时可以包括如下步骤
步骤201 、从搜索引擎服务器系统获取具有相同或接近相同的内容的网页;步骤202、搜索引擎服务器系统确定各网页的生成时间及第一评估值; 步骤203、搜索引擎服务器系统根据相同或接近相同的内容的各网页的第
一评估值确定生成时间最早的网页的第二评估值。
实施中,在步骤201中,具有相同或接近相同的内容的网页包括数字指紋
相同的网页。
则获取具有相同或接近相同的内容的网页,可以包括
从搜索引擎服务器获取各网页中非第一段和非最后一段的中间内容最长 的段落或段落非第一句和非最后一句的最长句子,并生成MD5;
根据数字指紋确定各网页内容是否相同后获取具有相同或接近相同的内 容的网页。
MD5是message-digest algorithm 5 (信息-摘要算法)的缩写,被广泛用于 加密和解密技术上,它可以说是文件的"数字指紋"。任何一个文件,无论是 可执行程序、图像文件、临时文件或者其他任何类型的文件,也不管它体积多 大,都有且只有一个独一无二的MD5信息值,并且如果这个文件净皮^^改过, 它的MD5值也将随之改变。因此,实施中可以通过MD5来确定各网页内容是 否具有相同或接近相同的内容,即,通过对比同一文件的MD5值,来校验这 个文件是否浮皮"篡改"过。MD5的作用在于当下载了文件后,如果想知道 下载的这个文件和网站的原始文件是否一样,就可以给下载的文件做个MD5 校验。如果得到的MD5值和网站公布的相同,可确认所下载的文件是完整的。 如有不同,说明你下载的文件是不完整的要么就是在网络下载的过程中出现 错误,要么就是此文件已被修改。 一般正规的站点,都会提供文件md5校验码。
判断网页内容是否相同,具体采用的办法可以是在所有文章类网页中寻找 非第一段和非最后一段的中间最长段落,生成MD5作为网页指紋,作为判断 相同的依据。对于只有两个以内段落的文章,取段落非第一句和非最后一句的 最长句子,生成MD5作为网页指紋,作为判断相同的依4居。如果两个网页的 网页指紋一样,则说明两个网页的整篇内容是相同的。具体实施中,寻找非第一段和非最后一段的中间最长^a落,以及取革爻落非
第一句和非最后一句的最长句子生成MD5作为网页指紋,是因为发明人在发 明过程中注意到通常第一段和最后一段、第一句和最后一句被改动的频率4艮 高,并不能代表文章的真实内容,因此选用非第一段和非最后一段、非第一句 和非最后一句来生成MD5。
实施中,可以通过MD5来判断两个文件之间是否相同,本领域技术人员 易知,当在执行步骤201获取具有相同或接近相同的内容的网页时,并不仅限 于采用通过MD5判断内容一致的方式,其他能够比较出两个网页内容是否一 致的技术手段均可采用,其最终目的在于当存在内容相同的不同网页时,不会 把他们当做干扰搜索结果的负面因素来直接扔掉,并将其用于改进搜索结果排 序。
在步骤202中,在确定网页的生成时间时可以包括
根据网页统一资源定位符URL包含的时间,和/或,根据文章类网页中的 时间确定网页生成时间。
实施中,判断网页的真实发布时间,可以采用计算机程序抽取的方式获得。 由于目前大部分网站的网页都是动态生成的,因而网页服务器返回的 Last-modified (最后修改时间)字段已经没有什么意义,因此可以从网页正文 等处抽取时间。抽取时间可以按以下算法
首先判断URL中是否含有时间,例如下面的一个例子中的URL (Uniform Resource Locator,统一资源定位符)中便含有时间
http:〃news.sina.com.cn/w/2009國01隱15/184017052431 .shtml;
然后通过程序便有可能把2009-01-15抽取出来。实施中,具体的抽取手段 可以包括A、列举常用的时间格式,并建立时间格式维表用以存储常用的时 间格式;B、按照分割符对URL进行切分;C、将切分后的每一部份在时间格 式维表中进行查询,若与该维表中的时间格式相匹配,则说明该URL中含有 时间,i更可以4是取该时间。如果URL中没有时间,则从文章正文中获取。文章正文中的时间格式有 很多种,实施中只要根据实际情况将计算机程序考虑周全,便可以尽快找到时 间。如下面的例子中文章正文中便含有时间
2009年01月15曰18:40 中国网
2009年12月27日23:35
通过程序便可以很容易的把2009年12月27日23:35抽取出来。 实施中,在具体的实现手段上,可以通过分析网页中各种时间、日期格式 的代码,用正则表达式匹配等任意程序方式来进行获取。如果程序不能确定生 成时间,则取当前抓取的时间作为生成时间。实施中不论如何实现计算生成时
实施中可以在i)l^又网页、建立网页索引时就判断生成时间,并将生成时间 储存在网页索引的一个字段(F正LD)里。
实施中,当存在无法从文章或URL中抽取生成时间的情况时,可以使用 抓取网页的时间作为生成时间,也可以把最早收入索引的时间假定为文章生成 时间。
在通过上述方式确定出内容相同的网页以及其生成时间后,便可以判断出 谁是原创网页,即,在所有相同网页中,找到真实发布时间最早的网页,即为 原创网页。
下面对步骤202中的评估值进行说明。
首先对Page Rank进行说明,以便更深入的理解本申请中所定义的Copy Rank, Page Rank是Google对某个网页的重要性评估的评估值,是Page Rank, 而不是"SiteRank (网站评估值)",不是对整个网站的评估值。如果一个网 站首页的PageRank是5,那只是说首页那个页面的PageRank是5,而不是说 整个网站是5。 Google的Page Rank不针对网站而言,只针对页面, 一个个的 页面。
某个页面的Page Rank值,主要来自于指向这个页面的所有链接所代表的那些页面。所谓"所有链接"包括两部分本网站之外的外部链接和本网站内 的其他页面的内部链4妄。也就是说,任何一个页面的Page Rank值,是由外部 链接和内部链接共同作用而产生的。而不只是由外部链接或只由内部链接单方 面作用而产生。々Ii殳一个网站的首页因为有两个PageRank为5的外部链^l妻指 过来,加上还有更多的内部链接指向首页,才使网站首页的PageRank为5。
同样道理,在本申请实施中,当在步骤203根据相同或接近相同的内容的 各网页的评估值确定生成时间最早的网页的评估值时,{更可以确定第二评估值 为与生成时间最早的网页具有相同或接近相同的内容的网页的第 一评估值之 和与第 一加权系数的乘积加上所述生成时间最早的网页的第 一评估值与第二 加权系数的乘积。
也就是说,Copy Rank使得原创网页获得了所有转载网页的权重,即,Copy Rank可按如下公式计算
原创网页的Copy Rank = S每个转载网页的Page Rank*wl +原创网页 的Page Rank * w 2 ;其中Wl和W2为加权系数,Wl和W2的值可在实施中 按照需要自行设定,并且W1和W2的取值可以相同也可以不同。
需要说明的是,本申请实施例中用以说明评估值的是Page Rank,但是, 实际上根据包括其他网页指向在内的数据而形成的评估值都可以用来实现。
另外,实施中可以在抓取网页下来后生成Copy Rank,也可以定期更新所 有网页的CopyRank。
实施中,在确定原创网页时还可以根据历史数据或经验建立一个网站黑名 单和/或白名单,属于白名单上网站的网页假定为原创网页,而属于黑名单上网 站的网页假定为非原创网页。
图3为转载网页与原创网页CopyRank关系示意图,如图所示,将外链网 页给所有转载网页的评估值权重,全部给了原创网页,相当于从外部看,这些 网页外链的评估值都给了原创网页。
图4为根据网页评估值对查询结果进行排序的方法实施流程示意图,如图
15所示,在将网页评估值运用于返回查询结果以提高搜索准确性的实施过程中可
以包括如下步骤
步骤401 、从搜索? 1擎服务器系统获取查询后的查询结果;
步骤402、搜索引擎服务器系统在查询结果中获取具有相同或接近相同的
内容的网页;
步骤403、搜索引擎服务器系统确定各网页的生成时间及第一评估值; 步骤404、搜索引擎服务器系统根据各网页的第一评估值确定生成时间最
早的网页的第二评估值;
步骤405、根据各网页的第一评估值及第二评估值对查询结果排序。 搜索引擎服务器系统在步骤405的实施中便可以根据评估值对查询到的网
页排序,比如按评估值大小排序后依次返回并显示给查询的用户。
进一步的,搜索引擎服务器系统还可以在查询结果中显示每个网页的转载次数。
基于同 一 申请构思,本申请实施例中还提供了 一种搜索引擎服务器系统, 由于系统解决问题的原理与网页评估值的确定方法、4艮据网页评估值返回查询 结果的方法相似,因此系统的实施可以参见方法的实施,重复之处不再赘述。
图5为搜索引擎服务器系统结构示意图,如图所示,搜索引擎服务器系统 中可以包括
爬虫系统501 ,用于获取具有相同或接近相同的内容的网页;
索引系统502,用于确定各网页的生成时间及各网页的第一评估值,并根 据各网页的第 一评估值确定生成时间最早的网页的第二评估值。
实施中,索引系统可以进一步用于根据网页的MD5确定各网页是否具有 相同或接近相同的内容。
网页荻耳4莫块中可以包括
MD5生成单元,用于获取各网页中非第一段和非最后一段的中间内容最 长的段落或段落非第一句和非最后一句的最长句子,并生成MD5;比较单元,用于根据MD5确定各网页内容是否相同;
获取单元,用于根据MD5确定各网页内容是否相同后,获取具有相同或 接近相同的内容的网页。
实施中,索引系统可以进一步用于根据网页URL包含的时间,和/或,根 据内容类网页中的时间确定网页生成时间。
实施中,索引系统还可以进一步用于根据各网页的第一评估值确定生成时 间最早的网页的第二评估值时,确定所述第二评估值为与所述生成时间最早的 网页具有相同或接近相同的内容的网页的第 一评估值之和与第 一加权系数的 乘积加上所述生成时间最早的网页的第 一评估值与第二加权系数的乘积。
实施中,索引系统还可以进一步用于根据包括外链在内的数据而形成的评 估值确定各网页的第 一评估值。
索引系统还可以用于根据根据各网页的第 一评估值及第二评估值对查询 结果排序。
实施中,索引系统还可以进一步用于在查询结果中显示每个网页的转载次数。
图6为搜索引擎服务器系统运用环境结构示意图,如图所示,网络中包括 有根据网页评估值对查询结果进行排序的索引系统601、网页602 (代表产生 网页的各种实体,具体的网页可以表现为服务器等,实施例中用网页来指代这 类实体仅是为了描述方便,同时,这类实体可以有很多,图中仅以一个示意)、 用户端603 (图中^f义用一个示意)、爬虫系统604、查询系统605。
由图也可见,索引系统601与爬虫系统604也构成了搜索引擎服务器系统, 需要说明的是,图中各功能实体的连接方式有通过网络连接,也有以直线表示 的直接连接,但是,该图仅为示意图,实际实施中,可以根据实际需要进行网 络架构,比如爬虫系统与索引系统通过因特网连接,而非局域网连接等,只 要各实体之间能实现数据交互的连接方式均可实施本申请。
实施中,网页602提供各种网页内容,爬虫系统604可以在网络中采集各种网页信息,并将网页信息储存在一个或多个服务器上。本申请中的索引系统
601根据采集到的网页信息建立索引,以便快速处理查询请求。索引系统601 还可以确定网页的第一评估值和第二评估值,并根据上述第一评估值、第二评 估值进行网页的排序。所述排序可以在爬虫系统采集到网页信息之后立刻进 行,也可以在收到用户端的查询请求之后再进行,本申请对此并不做限定。
当用户端603通过网络到查询系统605中进行查询时,查询系统605便可 以根据排序装置601的排序结果,将用户端603所需的信息返回,使得用户获 得的查询结果排序准确,能够真实反映查询结果之间的关系。
由上述实施例可以看出,本申请在实施时使用了内容被转载的次数和基于 转载计算出来的Copy Rank值,Copy mnk是能够改进搜索引擎相关度排序的 参数,适用于优化内容类查询的搜索结果排序。能够利用互联网上文章的转载 次数计算原创网页的Copy mnk,并对转载网页进行聚合,因此在搜索引擎计 算相关度时,便可以综合如page rank等根据包括外链在内的数据而形成的评 估值、关键词匹配程度等传统计算相关度的参数和Copy rank —起计算出一个 新的相关度值,在搜索引擎显示结果时,也显示转载数目,以帮助用户最快判 断互联网上符合此查询词的最佳结果,因而能够提高搜索引擎返回结果的准确 性。本领域技术人员易知,搜索引擎包括网页搜索引擎、图片搜索引擎、软件 搜索引擎等,本申请的技术方案能够提高搜索引擎结果的准确性,包括对搜索 结果排序顺序的影响(使得转载次数更高的结果排在前面),也包括对搜索结 果界面的影响(在结果页面上显示转载的次数,在结果页面上优先展示原创内 容)等。
本申请实施例中为搜索引擎的结果排序增加一个新的重要的排序参数,大 幅度提高内容类查询词的搜索结果效果,能够使得用户在网页搜索中找文章的 查询结果满意度大幅度提高。
为了描述的方便,以上所述装置的各部分以功能分为各种模块或单元分别 描述。当然,在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。
图7为利用计算才几对网页4叟索查询结果进行排序的方法实施流程示意图,
如图所示,当进行排序时可以包括如下步骤
步骤701 、从搜索引擎服务器系统获取具有相同或接近相同的内容的网页;
步骤702、搜索引擎服务器系统确定所述各网页的生成时间;
步骤703、搜索引擎服务器系统根据所述各网页的生成时间的先后顺序进
行排序。
进一步的,还可以包括搜索引擎服务器系统根据所述各网页的生成时间
以及外链数据进行排序。
图8为搜索引擎服务器系统结构示意图,如图所示,包括
爬虫系统801,用于从搜索引擎服务器系统获取具有相同或接近相同的内
容的网页;
搜索引擎服务器802,用于搜索引擎服务器系统确定所述各网页的生成时 间,并才艮据所述各网页的生成时间的先后顺序进行排序。
搜索引擎服务器802还可以进一步用于根据所述各网页的生成时间以及外 链数据进行排序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计 算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、
CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图 一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图 一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一 系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员 一旦得知了基 本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要 求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申 请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及 其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
权利要求
1、一种利用计算机对网页评估值进行确定的方法,其特征在于,包括如下步骤从搜索引擎服务器系统获取具有相同或接近相同的内容的网页;搜索引擎服务器系统确定所述各网页的生成时间及第一评估值;搜索引擎服务器系统根据所述各网页的第一评估值确定生成时间最早的网页的第二评估值。
2、 如权利要求1所述的方法,其特征在于,所述具有相同或接近相同的 内容的网页,包括数字指紋相同的网页。
3、 如权利要求2所述的方法,其特征在于,所述获取具有相同或接近相 同的内容的网页,包括获取各网页中非第一段和非最后一段的中间内容最长的段落或段落非第 一句和非最后一句的最长句子,并生成数字指紋;根据数字指紋确定各网页内容是否相同后获取具有相同或接近相同的内 容的网页。
4、 如权利要求1所述的方法,其特征在于,所述确定所述各网页的生成 时间,包括下列方式之一或者其组合才艮据网页统一资源定位符URL包含的时间确定; 根据内容类网页中的时间确定; 根据4爪取网页的时间确定; 根据最早将网页收入索引的时间确定。
5、 如权利要求1所述的方法,其特征在于,所述第二评估值大于所述第 一评估值。
6、 如权利要求1所述的方法,其特征在于,所述第二评估值为与所述生 成时间最早的网页具有相同或接近相同的内容的网页的第 一评估值之和与第 一加权系数的乘积加上所述生成时间最早的网页的第 一评估值与第二加权系数的乘积。
7、 如权利要求6所述的方法,其特征在于,所述第一加权系数与所述第 二加权系数的取值相同或不同。
8、 如权利要求1至7任一项所述的方法,其特征在于,所述第一评估值 为根据包括外链在内的数据而形成的评估值。
9、 一种根据权利要求1至8任一项所述的网页评估值对搜索查询结果进 行排序的方法,其特征在于,包括如下步骤从搜索引擎服务器系统获取查询后的查询结果;搜索引擎服务器系统根据各网页的第一评估值及生成时间最早的网页的 第二评估值对查询结果排序。
10、 如权利要求9所述的方法,其特征在于,进一步包括 搜索引擎服务器在查询结果中显示每个网页的转载次数。
11、 一种利用计算机对网页搜索查询结果进行排序的方法,其特征在于, 包括如下步骤从搜索? 1擎服务器系统获取具有相同或接近相同的内容的网页;搜索引擎服务器系统确定所述各网页的生成时间;搜索引擎服务器系统根据所述各网页的生成时间的先后顺序进行排序。
12、 如权利要求11所述的排序方法,其特征在于,进一步包括搜索引 擎服务器系统根据所述各网页的生成时间以及外链数据进行排序。
13、 一种搜索引擎服务器系统,其特征在于,包括 爬虫系统,用于获取具有相同或接近相同的内容的网页;索引系统,用于确定各网页的生成时间及各网页的第一评估值,并根据各 网页的第 一评估值确定生成时间最早的网页的第二评估值。
14、 如权利要求13所述的搜索引擎服务器系统,其特征在于,所述索引 系统进一步用于根据网页的数字指紋确定各网页是否具有相同或接近相同的 内容。
15、 如权利要求13所述的搜索引擎服务器系统,其特征在于,所述索引 系统包括数字指紋生成单元,用于获取各网页中非第一段和非最后一段的中间内容 最长的段落或4殳落非第 一 句和非最后一 句的最长句子,并生成数字指紋; 比较单元,用于根据数字指紋确定各网页内容是否相同; 获取单元,用于根据数字指紋确定各网页内容是否相同后,获取具有相同 或接近相同的内容的网页。
16、 如权利要求13所述的搜索引擎服务器系统,其特征在于,所述索引 系统进一步用于根据下列方式之一或者其组合确定网页生成时间网页统一资源定位符URL包含的时间;内容类网页中的时间;l爪耳又网页的时间;最早将网页收入索引的时间。
17、 如权利要求13所述的搜索引擎服务器系统,其特征在于,所述索引 系统进一步用于根据各网页的第 一评估值确定生成时间最早的网页的第二评 估值时,确定所述第二评估值为与所述生成时间最早的网页具有相同或接近相 同的内容的网页的第一评估值之和与第一加权系数的乘积加上所述生成时间 最早的网页的第 一评估值与第二加权系数的乘积。
18、 如权利要求13至17任一项所述的搜索引擎服务器系统,其特征在于, 所述索引系统进一步用于根据包括其他网页指向在内的数据而形成的评估值 确定各网页的第 一评估值。
19、 如权利要求13所述的搜索引擎服务器系统,其特征在于,所述索引 系统还用于根据各网页的第一评估值及第二评估值对查询结果排序。
20、 如权利要求19所述的搜索引擎服务器系统,其特征在于,所述索引 系统进一步用于在查询结果中显示每个网页的转载次数。
21、 一种搜索引擎服务器系统,其特征在于,包括爬虫系统,用于从搜索? 1擎服务器系统获取具有相同或接近相同的内容的网页;搜索引擎服务器,用于搜索引擎服务器系统确定所述各网页的生成时间,并根据所述各网页的生成时间的先后顺序进行排序。
22、如权利要求21所述的搜索引擎服务器系统,其特征在于,搜索引擎服务器进一步用于根据所述各网页的生成时间以及外链数据进行排序。
全文摘要
本申请公开了一种网页评估值的确定及运用的方法、系统,包括从搜索引擎服务器获取具有相同或接近相同的内容的网页;确定各网页的生成时间及第一评估值;根据各网页的第一评估值确定生成时间最早的网页的第二评估值。进一步的,搜索引擎服务器根据网页的第二评估值对查询结果进行排序。使用本申请能够为搜索引擎的结果排序增加一个新的重要的排序参数,大幅度提高内容类查询词的搜索结果效果,能够使得用户在网页搜索中找内容类网页的查询结果满意度大幅度提高。
文档编号G06F17/30GK101499098SQ200910118150
公开日2009年8月5日 申请日期2009年3月4日 优先权日2009年3月4日
发明者华 陈 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1