一种互联网上镜像和准镜像网站的识别方法

文档序号:6478933阅读:152来源:国知局
专利名称:一种互联网上镜像和准镜像网站的识别方法
技术领域
本发明涉及计算机网络技术,特别是涉及一种互联网上镜像和准镜像网站的识别方法。
为了帮助人们快速准确的查找和定位信息,一种软件系统搜索引擎迅速发展了起来。在搜索引擎系统可以根据用户的查询返回查询结果之前,搜索引擎系统一般是通过一个通常称为网络蜘蛛的程序来发现和抓取互联网上的信息,并建立这些信息的索引。在搜索引擎中用统一资源标识符(URL)来标识信息。常见的URL有如下的形式协议//网站/路径例如http//www.baidu.com/about/baiduncn/index.htm,其中http表示这个信息资源要通过http协议来访问,www.baidu.com表示信息资源所在的网站,/about/baiduncn/index.htm表示信息资源在网站的具体位置。在搜索引擎抓取、索引和检索信息时,只要信息单元的标识URL不同,就会被认为是不同的信息单元,即使这些信息单元的信息或内容是相同的。例如http//www.baidu.com/about/baiduncn/index.htm和http//baidu.com/about/baiduncn/index.htm是两个不同的URL,但它们有相同的内容。
用不同的URL表示同一份内容有各方面的原因,有技术方面的,也有非技术方面的。例如有些网站可以用不同的名字来表示和访问就是最主要的技术方面的原因,而将同样的内容复制在不同的主机上或同一主机的不同的目录上是比较常见的非技术原因。
搜索引擎不仅因为重复的抓取处理同样的信息,极大的浪费各种计算资源,而且因为检索出重复的结果而极大的影响的检索结果的质量,影响用户的查找效率。实验和统计表明,在某些情况下,检索结果的重复率会达到50%以上。本发明的目的就是要开发一种简单有效的方法来检测这些信息重复问题。[现在方法]1,DNS方法在互联网上域名服务器(DNS)可以给出域名的IP地址和一些域名的别名。有些方法认为IP相同的域名和互为别名的域名就互为镜像网站,但这类方法有一下问题1)很多域名服务器DNS不进行别名配置,DNS提供别名的域名相对来说不多。因此很多镜像网站不能检测出来。
2)很多域名和IP没有关系的网站提供相同或相似的内容。这些网站的重复不可能通过DNS方法来检测。
3)域名服务器认为互为别名的域名,在提供HTTP服务时并不一定也为别名而提供相同内容。这些因为HTTP服务器可以独立的解释利用域名信息。
4)IP地址相同的域名也不能保证它们在提供HTTP服务时也为提供相同内容。很多主机提供虚拟主机服务,它们可以在一个IP或一组IP上建立很多网站,这些网站的内容没有任何直接关系。2,URL分析法很多提供相同或相似内容的网站的域名有某种相似性,例如www.baidu.com和www.baidu.com.cn,人们很自然的想到了通过利用和分析这些网站的域名或URL的相似性来检查镜像网站。但这类方法有很严重的问题1)有很多网站名字相似但其内容不同。而URL方法可能会将它们判为镜像网站。
2)而另外有一些网站,它们内容相同,但URL没有任何相似性。URL方法则不能识别出这些镜像网站。3,连通性方法基于互联网中互相链接的特性,提供相同内容的网站中的链接必然相应的指向相同的内容。因此有的方法就是通过判定网站的连通性,即通过判定指出链接,是否相同来判定网站是否提供相同内容。但是这种方法有以下问题1)有些网站的指出链接是相同的,但其内容并不相同,而连通性方法会将它们判为提供相同内容的网站。
2)而另外有一些镜像网站,内容基本相同,仅仅是某些相应链接不同。连通性方法检测不出这一类的镜像。
本发明的又一目的是提供一种方法,使得可以有针对性的发现一个或一组站点在互联网上是否有其镜像或准镜像站点。
本发明的目的是这样实现的通过含由内容获取服务器,相似性分析服务器,配置和展示服务器,网站信息数据库四个部分组成的识别系统,执行互连网上镜像和准镜像网站的识别。该方法主要步骤包括对于一组已知网站,通过工具将其首页获取并判断其相似程度,将相似程度大的网站归为候选网站组,对候选网站组中的网站,采取使用工具在网站内抽样的方式决定镜像和准镜像网站。
网站泛指在互联网上提供服务的网站,可以包含WWW网站、FTP网站、BBS网站等。可使用的网站不限于上面列举的网站,只要该网站的内容在互联网上可访问,网站上内容可比较,即为本方法适用网站。
一组已知网站包含两种情况,其一是所有网站都是无特指网站,该方法发现这些网站之间的镜像和准镜像关系,即在给定的大量网站中找出所有的相似网站组合;其二是部分网站为特指网站,即用户给定一些网站,该方法用于发现其他无特指网站和特指网站之间的镜像和准镜像关系,即从大量网站中寻找和给定网站相似的网站。这两种情况实现了两种不同的目的;第一种是在对一个团体根据某种标准分类,第二种是给定一个或几个样本,在团体中按照某种标准找到和这些样本相似的个体。
所述的镜像和准镜像网站判定包含如下步骤a、获取一组网站b、获取该组网站中每个网站的首页信息c、对所有的首页进行相似度判定d、设定阈值,对所有的网站,按照首页的相似程度选出候选网站组e、对于每个候选网站组,对网站组中每个网站上进行相同策略的内容抽样f、对每个网站组中,对网站组内所有网站的内容抽样进行相似度判定g、设定阈值,对每个网站组使用,使用网站组内网站内容抽样的相似度,确定镜像和准镜行网站。
获取首页和网站内容的工具可以是大型搜索引擎、可以是定向的网站内容下载的软件等各种可以获得网站内容的工具。
利用首页的各种特征,包括首页长度、首页各种字符比例、首页各种多媒体信息数量特征、首页内容相似程度等各种可量化信息,综合给出这些网站之间的两两相似度。
首页内容相似程度比较包括各种现有以及将来会有内容的相似度算法,包括文本相似度的各种算法如向量空间模型算法;包括图像相关度的各种算法;声音相关度各种算法等。包括以后出现的各种算法和内容类型。
对每一个相似的网站组,对网站组内每个网站采用相同的方法进行相关信息抽样。对抽样信息采用与首页内容相似程度相同的计算方法计算抽样信息的相似度。并对这些相似度进行综合,计算出该相似网站组中网站之间的两两相似度。并按照相似度决定镜像和准镜像网站。
对网站内容抽样的方法可采用通过首页可达到的内容的抽样选取,或是其他任何可行的网站上可访问内容的抽样办法。抽样可以采取随机抽样法、有选择抽样法等所有抽样方法。
按照网站间两两相似度,以及实际的需要,选择合适的阈值。对于相似度超过阈值的网站,认为是准镜像网站。如果阈值选择为两者必须完全相同才可以达到的值,这认为网站为镜像网站。
在以上前提下,我们设计了互联网上对镜像和准镜像WWW网站进行识别的系统。参考

图1和图2,该系统由内容获取服务器,相似性分析服务器,配置和展示服务器,网站信息数据库四个部分组成。这四个部分由内部网互连,可以进行相互之间的通信。该系统中的内容获取服务器是一台和Internet相联接的服务器,用于从WWW上获取指定网站的信息;相似性分析服务器是一台计算服务器,用于计算各种内容之间的相似程度,并依据给定阈值进行选取;配置和展示服务器是一台用于人机接口的服务器,主要用于接受用户的输入参数和指令,用于输出各种用户需要的结果信息。
该系统中使用的服务器可以各种品牌和配置的服务器,例如可采用Dell、Compaq、IBM、联想、方正等品牌的服务器。相应服务器上的操作系统也可以是多种选择,如Window、Linux、Solaris等。对于数据库,系统在设计上也没有特指性,可以选用商业数据库如DB2、Oracle、SQLServer等,也可以选择免费的数据库如MySQL等。
基于存在的硬件系统,我们可以实施软件系统的设计。结合图3,我们来展示一个对互联网上镜像和准镜像网页进行判定的系统。该系统由三个主要模块组成,各个模块间按照如下流程进行工作100配置和展示模块,从用户那里得到用户所期望进行镜像网站判定的所有网站集合,并让用户对一些系统需要的阈值进行配置,如判定侯选镜像站点组的阈值设定;判定(准)镜像站点组的阈值设定等。
200获取站点首页并判定相关性模块,利用内容获取服务器和相似性分析服务器对用户输入的站点进行首页获取和相似性运算,获得候选镜像站点组。
300获取抽样内容并判定相似性模块,对每个候选镜像站点组,采用特定的抽样算法获得抽样内容。利用内容获取服务器和相似性分析服务器对用抽样内容进行获取和相似性运算,获得(准)镜像站点组。
400配置和展示模块,按照用户需要的模式,将这些(准)镜像站点组输出给用户。
以上流程中,100和400由同一个配置和展示模块模块完成,用于本系统和用户的沟通,我们可以采用通常使用的WWW下的服务器+浏览器模式实现,其中服务器可以采用流行的Apache或IIS等,浏览器可以采用IE或Netscape等。另外,我们也可以开发特定的服务端和客户端程序,为本系统所使用。
以上流程中,200和300为本系统的关键流程,我们将在下面结合具体的流程图进行进一步的阐述。
结合图4,我们对流程200进行进一步的阐述其详细流程210获得一个站点,其数据来源是用户通过配置输入的待比较的站点。
220建立一条到该站点的连接,这里的连接指网络连接。
230按照HTTP协议获取该站点首页。
240关闭到该站点的连接。
250保存该首页数据,将该数据保存到站点信息数据库中,用作以后的相似度计算时使用。
260还有站点?如果还有,则跳转到210,继续获取这些站点的首页信息,否则,进行270。
270计算所有网站首页的两两相似度,这里的数据来源于站点信息数据库。
280按照配置的阈值选取候选镜性网站,这里的阈值由配置时完成。按照270计算获得的相似度和阈值,将两两相似度高于阈值的站点划归为一个候选镜像站点组,这样我们可以获得多个候选镜像站点组,将这些信息保存在站点信息数据库中,留给以后使用。
对以上的步骤,210-260由内容获取服务器完成,270-280由相似性分析服务器完成。
220-240为使用HTTP协议,在互联网上获取信息的过程。我们可以按照标准的网络协议开发实现,也可以借助现在已经存在的程序如Netants的网页获取模块、百度搜索引擎的搜集模块等进行完成。
对于270中的首页的两两相似性计算,我们可以采用进行文本相似性比较的经典方法——向量空间模型法。另外,我们也可以采用概率方法或多维曲面法。我们也可以进一步考虑页面上的图像或其他多媒体信息,采用相关的相似性方法进行比较。
对于流程200获得的候选镜像站点组,我们使用流程300进行进一步的判定,最终获得我们期望的(准)镜像站点的数据参见图5305获得一个站点组,其获取来源是保存在站点内容数据库中的候选镜像站点组。
310选取该站点组的抽样内容,由于我们处理的网页信息,我们通过跟踪主页上超链的方式来进行抽样,抽样的数据是网页或网页上的其他信息。
315建立一条到该站点的连接320按照HTTP协议获取这些抽样内容325关闭到该站点的连接330保存这些抽样内容,保存到站点信息数据库中。
335还有站点?如果有,跳转到315,继续从网上抓取抽样信息;否则,到340继续执行。
340按照抽样内容计算该站点组内相似性345按照配置的阈值选取(准)镜性网站350保存(准)镜像网站信息,这些信息被保存到网站信息数据库中,以备以后使用。
355还有站点组?如果有,跳转到305,继续处理这些站点组;否则,结束整个流程。
以上流程中部分内容和流程200相似,就不再重复解释。流程300中的重点步骤是310,即对候选镜像站点组的内容抽样。我们可以通过如下方式实现抽样我们对其中的一个网站,对首页上的超链随机选取n个,对n个超链中,随机对其中的m条进行一层或多层跟踪,得到一定数量的超链k个。对于这k个超链,随机抽取其中的p个作为网站间相似程度的抽样超链。利用这些超链获取的内容既为我们抽样的内容。
对于320,由于抽样是以一个站点为基准进行的,因此有可能在进行后继站点上对应内容抓取时,出现该内容不存在的情况。此时,视为我们获取到一个空内容。
以上是整个在搜索引擎中使用本发明方法的实际流程。通过使用该方法,可以为搜索引擎节约大量的带宽资源;可以减轻被访问站点的压力,尤其是两个镜像网站保存在一台计算机上时;可以节省搜索引擎本身对资源的消耗,因为它排除了大量的重复信息;可以提高搜索引擎的性能;可以为用户提供质量更高的服务,因为它可以让你在相同的显示篇幅里看到尽量多不同的信息。
作为以上实例的衍生结果,本方法也可以用于判定在大量的网站列表中是否存在一个或几个指定网站的镜像和准镜像网站,即特指网站的镜像和准镜像判定。只需要将这些网站放入网站列表中,采用以上实例的步骤,可以得到所有镜像和准镜像网站组。如果这些镜像和准镜像网站组中包含了特指网站,则该特指网站在网站列表中有镜像和准镜像网站存在;如果没有任何一个镜像和准镜像网站组包含特指网站,则该特指网站在网站列表中没有镜像和准镜像网站。
权利要求
1.一种互联网上镜像和准镜像网站的识别方法,该方法通过含由内容获取服务器,相似性分析服务器,配置和展示服务器,网站信息数据库四个部分组成的识别系统,执行互连网上镜像和准镜像网站的识别,其特征在于该方法的步骤包括对于一组已知网站,通过工具将其首页获取并判断其相似程度,将相似程度大的网站归为候选网站组,对候选网站组中的网站,采取使用工具在网站内抽样的方式决定镜像和准镜像网站。
2.根据权利要求1所述的互联网上镜像和准镜像网站的识别方法,其特征在于网站泛指在互联网上提供服务的网站,可以包含WWW网站、FTP网站、BBS网站,网站的内容在互联网上可访问、可比较的网站。
3.根据权利要求1所述的互联网上镜像和准镜像网站的识别方法,其特征在于当一组已知网站为所有网站都是无特指网站,则在给定的大量网站中找出所有的相似网站组合;当一组已知网站为有特指网站,即用户给定一些网站,则从大量网站中寻找和给定网站相似的网站。
4.根据权利要求1所述的互联网上镜像和准镜像网站的识别方法,其特征在于所述的镜像和准镜像网站判定包含如下步骤a、获取一组网站,b、获取该组网站中每个网站的首页信息,c、对所有的首页进行相似度判定,d、设定阈值,对所有的网站,按照首页的相似程度选出候选网站组,e、对于每个候选网站组,对网站组中每个网站上进行相同策略的内容抽样,f、对每个网站组中,对网站组内所有网站的内容抽样进行相似度判定,g、设定阈值,对每个网站组使用,使用网站组内网站内容抽样的相似度,确定镜像和准镜行网站。
5.根据权利要求4所述的互联网上镜像和准镜像网站的识别方法,其特征在于获取首页和网站内容的工具可以是大型搜索引擎、可以是定向的网站内容下载的软件或各种可以获得网站内容的工具。
6.根据权利要求4所述的互联网上镜像和准镜像网站的识别方法,其特征在于利用首页的各种特征,包括首页长度、首页各种字符比例、首页各种多媒体信息数量特征、首页内容相似程度等各种可量化信息,综合给出这些网站之间的两两相似度。
7.根据权利要求1所述的互联网上镜像和准镜像网站的识别方法,其特征在于对每一个相似的网站组,对网站组内每个网站采用相同的方法进行相关信息抽样,对抽样信息利用首页特征的方法计算抽样信息的相似度。并对这些相似度进行综合,计算出该相似网站组中网站之间的两两相似度,并按照相似度决定镜像和准镜像网站。
8.根据权利要求8所述的互联网上镜像和准镜像网站的识别方法,其特征在于对网站内容抽样的方法可采用通过首页可达到的内容的抽样选取,或是其他任何可行的网站上可访问内容的抽样办法,抽样可以采取随机抽样法、有选择抽样法或所有抽样方法。
9.据权利要求9所述的互联网上镜像和准镜像网站的识别方法,其特征在于按照网站间两两相似度,以及实际的需要,选择合适的阈值,对于相似度超过阈值的网站,认为是准镜像网站,如果阈值选择为两者必须完全相同才可以达到的值,认为网站为镜像网站。
全文摘要
本发明为一种互联网上镜像和准镜像网站的识别方法。该方法是通过对已知的大量网站首页进行相似度判定,选取候选镜像网站组;再通过对候选镜像网站组中的网站上内容进行抽样比较统计,通过设定相似度阈值的方法获得镜像和准镜像网站。该方法对于需要大量采集互联网上信息的系统(如搜索引擎)具有十分重要的意义,可以避免这类系统对雷同信息的重复获取,节省网络资源和本地资源,提高系统服务的质量和效率。
文档编号G06F17/30GK1435775SQ02100550
公开日2003年8月13日 申请日期2002年1月31日 优先权日2002年1月31日
发明者雷鸣, 徐海洋, 郭眈, 崔珊珊, 刘建国 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1