一种镜像网页的查找方法及查找系统的制作方法

文档序号:6615766阅读:192来源:国知局
专利名称:一种镜像网页的查找方法及查找系统的制作方法
技术领域
本发明涉及镜像网页领域,特别是涉及一种镜像网页的查找方法及查找系统。
背景技术
镜像网页是指实质内容相同的网页,例如,显示内容完全相同的网页;正 文内容相同,但标题不同的网页;正文内容相同,但辅助内容不同的网页等。 在互联网上查找镜像网页,可以排除重复的网页,便于用户检索下载。目前, 现有技术常通过直接计算网页特征值的方法查找镜像网页,将特征值相同及相 近的网页认定为镜像网页。参阅图l,示出现有镜像网页的查找方法,具体步骤如下。步骤SlOl、在互联网上抽取每个网站的主域首页、子域首页、目录首页 等各个网页,组成镜像网页查找集合。新浪主域首页,如,http: 〃www. sina. com 网页各子域首页,如,http://www.sina.com.cn/ 网页 , http://news, sina. com. cn网页;http://finance, sina. com. cn网页;目录首 页,如,http://finance, sina. com. cn/stock网页。步骤S102、分别提取各个网页的特征词语。特征词语为具有实质意义的 词i吾,i。名词、动词等。步骤SI03、分析各个网页的特征词语,统计各个网页特征词的特征值, 特征值包括词语数量、词频、出现位置等。步骤S104、依据特征值在镜像网页查找集合中查找镜像网页。将各个网 页的各项特征值进行比较,特征值相同及相近的网页确定镜像网页,在镜像网 页查找集合中提取出来,进行相应处理。上述方法虽然可以较全面地查找镜像网页,但互联网中的网站数以万计, 每个网站还包括大量的子域页面、目录页面,由每个网站的主域首页、子域首 页、目录首页等各个网页组成的镜像网页查找集合相当庞大,在如此庞大的集 合中查找镜像网页,需占用大量的网络资源,进行相关运算、分析、统计,耗 时耗力,查找效率低下。 发明内容本发明所要解决的技术问题是提供一种镜像网页的查找方法,以解决现有 技术中查找方法效率低下的不足。本发明能够简单、快捷地查找镜像网.页,具 有较高的效率。本发明的另一个目的是提供一种镜像网页的查找系统,以解决现有技术中 查找方法效率低下的不足。本发明能够简单、快捷地查找镜像网页,具有较高 的效率。本发明一种镜像网页的查找方法,包括获取网页反向连接的锚文本;判 断上述锚文本相对于所述网页是否合法,确定不合法锚文本所属的网页,提取 该网页所在主域、子域、及目录的首页;将提取的网页组成镜像网页查找集合, 基于所述镜像网页查找集合查找镜像网页。优选的,判断上述锚文本相对于所述网页是否合法之前,还包括计算上 述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例 的锚文本。优选的,计算上述锚文本的权重具体为统计与子网页同主域的父网页数 量,乘以同主域权重系数;统计与子网页不同主域的各主域的父网页数量,乘 以不同主域—又重系数;将上述乘积相加的和为上述锚文本权重。优选的,还包括如与子网页同主域的父网页数量大于预置数值,按预置 数值计算。优选的,还包括与子网页不同主域的各主域的父网页数量大于预设数值, 按预设数据计算。优选的,获取网页反向链接的锚文本具体为在互联网的各网页上提取正 向连接的锚文本;反转各正向链接,获取网页反向链接的锚文本。优选的,判断上述锚文本相对于所述网页是否合法具体为判断上述锚文 本内容与所述网页内容是否相关联,如是,确定上述锚文本相对于所述网页合法;如不是,确定上述锚文本相对于所述网页不合法。优选的,判断上述锚文本相对于所述网页是否合法具体为对上述锚文本 分解为各词语,判断各词语与所述网页是否相关联;如相关联词语个数小于绝 对阈值,确定上述锚文本相对于所述网页不合法;否则,确定上述锚文本相对 于所述网页合法。优选的,判断上述锚文本相对于所述网页是否合法具体为对上述锚文本 分解为各词语,判断各词语与所述网页是否相关联;如相关联词语在上述各词 语中的比例小于相对阈值,确定上述锚文本相对于所述网页不合法;否则,确 定上述锚文本相对于所述网页合法。本发明 一种镜像网页的查找系统,包括锚文本获取4莫块、合法性判断模块、 网页提取模块、集合组成模块、及查找模块;所述锚文本获取模块,用于获取 网页反向连接的锚文本;所述合法性判断模块,用于判断上述锚文本相对于所 述网页是否合法;所述网页提取模块,用于确定不合法锚文本所属的网页,提 取该网页所在主域、子域、及目录的首页;所述集合组成模块,用于将提取的 网页组成镜像网页查找集合;所述查找模块,用于基于所述镜像网页查找集合 查找镜像网页。优选的,还包括权重计算模块,用于计算上述锚文本的权重,按权重大小 顺序,提取设置数量的锚文本,或提取设置比例的锚文本,发送到所述合法性 判断模块。与现有技术相比,本发明具有以下优点本发明根据锚文本判断选取可能存在镜像的网页,只将可能存在镜像的网 页组成镜像网页查找集合,相对于现有技术中由互联网上全部网页组成镜像网 页查找集合,本发明组成的镜像网页查找集合只包含可能存在镜像的网页,服 务器也只针对可能存在镜像的网页进行计算、分析、统计,查找镜像网页,避 免不必要的分析计算,具有较高的查找效率。本发明在锚文本数量较多的情况下,只对权重较高的锚文本进行合法性判 断,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首 页,组成镜像网页查找集合,进一步缩小镜像网站集合的范围,该集合的网页 存在镜像的可能性较高,使得基于该集合查找镜像网页的效率进一步提高。


图1为现有镜-像网页的查找方法流程图;图2为本发明镜像网页的查找方法第一实施例流程图;图3为本发明判断锚文本是否合法的方法第一实施例流程图;图4为本发明判断锚文本是否合法的方法第二实施例流程图;图5为本发明镜像网页的查找方法第二实施例流程图; . 图6为本发明计算锚文本权重方法第一实施例流程图; 图7为本发明计算锚文本权重方法第二实施例流程图; 图8为本发明镜像网页的查找系统第一实施例示意图; 图9为本发明镜像网页的查找系统第二实施例示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。一个网页包含指向另 一个网页的超链接(URL ),认为这两个网页之间存在 链接关系。超链接上的文字为锚文本。如果网页A使用锚文本S链接网页B, 网页A可称为父网页,网页B可称为子网页,该链"^妄对于网页A为正向链^f妻, 对于网页B为反向链接。每个网页都可能存在多个正向链接和反向链接。一个网页使用某个锚文本链接另 一个网页,可以看作是现实中 一个人对另 一个人的称谓、评价、总结。例如,网页A使用锚文本"北大"指向网页B, 可以看作是网页A称呼网页B为"北大"。但如果"北大"并不是网页B合法 称呼,那么网页A就可能存在问题。同理,使用锚文本"北大"指向网页B 的各网页都可能存在同样的问题,因存在同样的问题,上述各网页间存在镜像 网页可能性较大。将存在镜像可能性较大的网页提取出来,组成镜像网页查找 集合,再基于该集合查找镜像网页,缩小查找范围,提高查找效率。参阅图2,示出本发明镜像网页的查找方法第一实施例,具体步骤如下。步骤S201、获取网页反向连接的锚文本。网络服务器在互联网的各网页 内提取全部正向链接的锚文本,再反转获得各网页反向链接的锚文本。例如,网页A使用锚文本S指向网页B, S是网页A的正向链接锚文本, 为网页A (S)——>网页B。反转后,得到网页B (S) <_ —网页A,对于网页 B,则是锚文本S为反向链接的锚文本。再例如,新浪网首页使用"搜狐"指向搜狐网首页,"搜狐"是新浪网首 页的正向链才妄4苗文本,"i己录为{parent: www. sina. com child: www. sohu. com anchortext: 搜狐}, 反转后获得 {child: www. sohu.com parent: www. sina. com anchortext:搜狐}。步骤S202、判断锚文本相对于网页是否合法,如是,可认为该锚文本合 法;如否,则i人为该4苗文本不合法。对于每个网页,可预置词语列表,词语列表内包含与该网页直接相关的词 语、语句和标识。例如,对于新浪网首页,"新浪"、"新浪首页""www. sina. com" 等都是直接相关词语、语句和标识。判断时,在该网页的词语列表中查找该锚 文本,如查找到,认为该锚文本相对于该网页合法;如查找不到,i人为该4苗文 本相对于该网页不合法。当然,对于每个网页,可预置反向词语列表,该反向词语列表内包含与该 网页完全不相关的词语、语句和标识。例如,对于新浪网首页,"苹果"、"游 戏,,"www.sna.com"等都是不相关词语、语句和标识。如果锚文本包含在该反 向词语列表内,认为该锚文本不合法;如锚文本不包含在该词语列表内,则认 为该4苗文本合法。步骤S203、确定不合法锚文本所属的网页,提取该网页所在主域、子域、 及目录的首页,组成镜像网页查找集合。锚文本所属的网页是指锚文本所在的 网页,即使用该锚文本作为正向链接的网页。同主域是指包含相同的第一级域 名,如新浪网首页、新浪网各子网页、和新浪网各目录网页为同主域,都包含 www.sina.con这个第 一级域名。子域是主域的下一级域名。例如,网页A、网页B、网页C使用锚文本S正向链接网页D,如锚文本S 不合法,确定锚文本S所属的网页A、网页B、网页C,在分别提取网页A、网 页B、网页C所在主域、子域、及目录的首页。再例如,网页A为http:〃news.sohu.com/20071217/n254120723.shtml,则提 取其主域首页http:〃www.sohu.com, 子域首页http:〃news.sohu.com, 目录首页 http:〃news.sohu.com/20071217。步骤S204、基于镜像网页查找集合查找镜像网页。在镜像网页查找集合 内,分别提取各个网页特征词语,再分析各网页的特征词语,统计特征词的特 征值,依据特征值在镜像网页查找集合中查找镜像网页。将各项特征值相同及 相近的网页作为镜像网页,在镜像网页查找集合提取出来,进行相应处理。本发明根据锚文本判断选取可能存在镜像的网页,只将可能存在镜像的网 页组成镜像网页查找集合,相对于现有技术中由互联网上全部网页组成镜Z象网页查找集合,本发明组成的镜像网页查找集合只包含可能存在镜像的网页,服 务器也只针对可能存在镜像的网页进行计算、分析、统计,查找镜像网页,裤 免不必要的分析计算,具有较高的查找效率。在上述步骤S202中,如果锚文本包含多个词语,简单将锚文本与网页词 语列表内的语句进行比较,可能存在因某个虚词和某个词语不对应,导致锚文 本的误判。本发明将该锚文本分解为各词语,依据各词语判断该锚文本是否合 法。参阅图3,示出本发明判断锚文本是否合法的方法第一实施例,具体步骤 如下所述。步骤S301、对上述锚文本进行分词。将上述锚文本分解为多个词语,选 择具有实质意思的词语。例如,锚文本为"冬季请到海南旅游"分解为词语"冬 季"、"请"、"到"、"海南"、"旅游,,,过滤掉"请"和"到"等没有实质意义 的词语,提取"冬季"、"海南"、"旅游"词语。步骤S302、判断各词语与所述网页是否相关联。对于每个网页,可预置 词语列表,词语列表内包含与该网页直接相关的词语、语句和标识。分别判断 各词语是否包含在该词语列表内,如是,认为该词语与所述网页相关联;如否, 认为该词语与所述网页不相关联。例如,锚文本为"冬季请到海南旅游",提取的具有实质意义的词语"冬 季"、"海南"、"旅游",其中,"海南"、"旅游"包含在词语列表内,为相关联 词语;"冬季"不包含在词语列表内,为不相关联词语。步骤S303、如相关联词语小于绝对阈值,判断该锚文本相对于该网页不 合法;如相关联词语大于或等绝对阈值,判断该锚文本相对于该网页合法。绝 对阈值的取值范围为3-5。例如,绝对阈值为2,锚文本"冬季请到海南旅游"中2个词语为相关联 词语,等于绝对阈值,该锚文本为合法锚文本。本发明通过对锚文本分解后判断其是否合法,有利于对包含多个词语的锚 文本的合法性进行准确判断。因网页词语列表所包含的词语数量有限,如果锚 文本包含词语数量较多,很可能因与词语列表所包含的词语不完全相同而被误 认为不合法锚文本,导致判断的准确性较低。本发明将锚文本分解后对各词语分别进行判断,降低了判断的偶然性,增大判断的准确性。参阅图4,示出发明判断锚文本是否.合法的方法第二实施例,具体步骤如 下所述。步骤S401、对上述锚文本进行分词。将上述锚文本分解为多个词语,选 择具有实质意思的词语。步骤S402、判断各词语与所述网页是否相关联。对于每个网页,可预置 词语列表,分别判断各词语是否包含在该词语列表内,如是,认为该词语与所 述网页相关if关;如否,认为该词语与所述网页不相关耳关。步骤S403、如相关联词语在各词语中的比例小于相对阈值,判断锚文本 不合法;如相关联词语的比例大于或等相对阈值,判断锚文本合法。相对阈值 的取值范围是30% -70%。例如,相对阈值取值为50%,锚文本为"冬季请到海南旅游",其中,"海 南"、"旅游"包含在词语列表内,为相关联词语;"冬季"不包含在词语列表 内,为不相关联词语。相关联词语占67%,等于相对阈值,该锚文本为合法 锚文本。本发明依据对锚文本包含的相关联词语所占的比例进行判断,避免锚文本 包含词语数量多或少而影响判断,能更准确判断锚文本与网页的相关度,使锚 文本的合法性判断更科学、更准确。锚文本的权重是指网页反向链接中该锚文本出现的总次数。如果某个锚文 本权重很高,那么该网页反向链接可能来自多个不同的网站。如果高权重的锚 文本不合法,那么该锚文本所述的全部网页就值得检验,这些网页存在镜像网 页的可能性很高。本发明在锚文本数量较多的情况下,只对权重较高的锚文本 进行合法性判断,确定不合法锚文本所属的网页,提取该网页所在主域、子域、 及目录的首页,对进一步缩小镜像网站集合的范围。参阅图5,示出本发明镜像网页的查找方法第二实施例,具体步骤如下。步骤S501、获取网页反向连接的锚文本。网络服务器在互联网的各网页 内提取全部正向链接的锚文本,再反转获得各网页反向链接的锚文本。步骤S502、计算锚文本的权重。遍历网页的每一个反向链接,获取全部 锚文本,统计每一个锚文本的权重。对于某子页面的某个反向链接锚文本,设该子网页的父网页为Nl个,上述父网页属于N2个主域(有些父页面可能属于同一个主域,即N1>=N2)。设 和该子网页属于同主域的父网页有M1个,其它N1-M1个父网页分别属于N2-l 个主域。设与子网页同主域的权重系数为ul,与子网页不同主域的权重系数 为u2,该4苗文本的4又重为该4苗文本4又重=Ml*ul+ (Nl-Ml) *u2。ul的斥又值范围是0. 05 - 0. 15,优选为0. 1; u2的权值范围是0. 15 - 0. 25, 优选为0. 2。举例为,共有网页A、 Al、 A2、 A3、 B、 Bl、 B2、 B3、 C、 Cl、 C2、 C3,使 用锚文本S正向链接网页K,对于网页K的反向《连接锚文本S,父网页为A、 Al、 A2、 A3、 B、 Bl、 B2、 B3、 C、 Cl、 C2、 C3共12个,其中,A、 Al、 A2、 A3为同一主域,且与K为相同主域,B、 Bl、 B2、 B3为同一主域,C、 Cl、 C2、 C3为同一主域。计算可知,Ml为4, N1-M1为8。如111 = 0. 1, u2 = 0. 2,贝寸; 锚文本S的权重=4 x 0. 1 + 8 x 0. 2 = 2。步骤S503、将各锚文本按权重大小排序,提取设置数量的锚文本,或提 取设置比例的锚文本。计算各锚文本的权重后,如锚文本数量较大,可按设置 比例提取一定数量权重较大的锚文本。设置比例可为20% -80%;如锚文本 数量较小,可按设置数量提取权重较大的锚文本。设置数量可为100 - 10000。步骤S504、判断锚文本相对于网页是否合法,如是,可认为该锚文本合 法;如否,则i人为该4苗文本非法。步骤S505、确定不合法锚文本所属的网页,提取该网页所在主域、子域、 及目录的首页,组成镜像网页查找集合。锚文本所属的网页是指锚文本所在的网页,即^f吏用该锚文本作为正向^y妻的网页。步骤S506、基于镜像网页查找集合查找镜像网页。本发明提取权重较高的锚文本进行分析,提取不合法锚文本对应的网页, 组成镜像网页查找集合,该集合的网页存在镜像的可能性较高,使得基于该集 合查找镜像网页的效率进一步提高。为了避免某主域的对某网页的正向链接过多而使锚文本的权重失真,本发 明对同主域的正向链接的网页数量进行限制,使锚文本权重能更好的体现其应用的广度。在步骤S502中,本发明可对锚文本在父网页和子网页出现次数进 行限制。参阅图6,示出本发明计算锚文本权重方法第一实施例,具体步骤如下。 步骤S601、统计锚文本在各网页的出现次数。步骤S602、检查与子网页同主域的父网页数量,如该数量超过预置数值, 锚文本在该主域的数量按预置数值计算;如没有超过预置数值,按实际数量计 算。预置数值的范围可为10-100。如,预置数值为Yl, M1〉Y1,则使M^Y1; MKY1,则使M1不变。参阅图7,示出本发明计算锚文本权重方法第二实施例,具体步骤如下。步骤S701、统计上述锚文本在各网页的出现次数。步骤S702、检查不与子网页同主域的各主域父网页数量,如该数量超过 预设数值,按预设数值计算;如没有超过预设数值,按实际数量计算。预设数 值的范围可为8-80。如,预置数值为Y2,该主域父网页数量为XI, X1〉Y2,则使XhY2; XKY2, 则使X1不变。本发明通过对同主域父网页数量的进行限制,防止锚文本在某主域出现次 数过多,影响该锚文本权重的代表性。本发明计算的锚文本权重能更好地体现 其在互联网使用的广度,从而使组成的镜像网页查找集合中的网页存在镜像的 可能性更高,进一步提高查找效率。基于上述镜像网页查找方法,本发明还提供一种镜像网页查找系统。该系 统能够简单、快捷地查找镜像网页,具有较高的效率。参阅图8,为本发明镜像网页的查找系统第一实施例,包括锚文本获取模 块81、合法性判断模块82、网页提取模块83、集合组成模块84、及查找模块 85。锚文本获取模块81获取网页反向连接的锚文本。锚文本获取模块81在互 联网的各网页内提取全部正向链接的锚文本,再反转获得各网页反向链接的锚 文本。锚文本获取模块81将获取的锚文本发送到合法性判断模块82。合法性判断模块82判断上述锚文本相对于所述网页是否合法,如是,可 认为该锚文本合法;如否,则认为该锚文本不合法。合法性判断模块82将不合法锚文本发送到网页提^4莫块83。网页提取模块83确定不合法锚文本所属的网页,提取该网页所在主域、 子域、及目录的首页。锚文本所属的网页是指锚文本所在的网页,即使用该锚 文本作为正向链接的网页。网页提取^莫块83将提取的网页发送到集合组成模 块84。集合组成模块84将提取的网页组成镜像网页查找集合,将该镜像网页查 找集合发送到查找模块85。查找模块85基于镜像网页查找集合查找镜像网页。查找模块85在镜像网 页查找集合内,分别提取各个网页特征词语,再分析各网页的特征词语,统计 特征词的特征值,依据特征值在镜像网页查找集合中查找镜像网页。将各项特 征值相同及相近的网页作为镜像网页,在镜像网页查找集合提取出来,进行相 应处理。本发明镜像网页的查找系统在锚文本数量较多的情况下,通过权重计算模 块计算各锚文本的权重,只对权重较高的锚文本进行合法性判断,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页组成镜像网站 查找集合,对进一步缩小镜像网站查找集合的范围。参阅图9,为本发明镜像网页的查找系统第二实施例,包括锚文本获取模 块81、合法性判断模块82、网页提取模块83、集合组成模块84、查找模块 85、及权重计算模块86。权重计算模块86在锚文本获取模块81中获取各锚文本,计算上述锚文本 的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例的锚文本, 发送到合法性判断模块82。获取模块81、合法性判断模块82、网页提取模块83、集合组成模块84、 及查找模块85在该实施例中的功能和作用与图8所示实施例相同,不再赘述。以上对本发明所提供的一种镜像网页查找方法及查找系统,进行了详细介例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的 一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变 之处,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1、一种镜像网页的查找方法,其特征在于,包括获取网页反向连接的锚文本;判断上述锚文本相对于所述网页是否合法,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页;将提取的网页组成镜像网页查找集合,基于所述镜像网页查找集合查找镜像网页。
2、 如权利要求1所述的方法,其特征在于,判断上述锚文本相对于所述 网页是否合法之前,还包括计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提 取设置比例的锚文本。
3、 如权利要求2所述的方法,其特征在于,计算上述锚文本的权重具体为统计与子网页同主域的父网页数量,乘以同主域权重系数;统计与子网页不同主域的各主域的父网页数量,乘以不同主域权重系数;将上述乘积相加的和为上述锚文本权重。
4、 如权利要求3所述的方法,其特征在于,还包括 如与子网页同主域的父网页数量大于预置数值,按预置数值计算。
5、 如权利要求3所述的方法,其特征在于,还包括与子网页不同主域的各主域的父网页数量大于预设数值,按预设数据计算。
6、 如权利要求1至5任一项所述的方法,其特征在于,获取网页反向链 接的锚文本具体为在互联网的各网页上提取正向连接的锚文本; 反转各正向链接,获取网页反向链接的锚文本。
7、 如权利要求1至5任一项所述的方法,其特征在于,判断上述锚文本 相对于所述网页是否合法具体为判断上述锚文本内容与所述网页内容是否相关联,如是,确定上述锚文本 相对于所述网页合法;如不是,确定上述锚文本相对于所述网页不合法。
8、 如权利要求1至5任一项所述的方法,其特征在于,判断上述锚文本 相对于所述网页是否合法具体为对上述锚文本分解为各词语,判断各词语与所述网页是否相关联; 如相关联词语个数小于绝对阈值,确定上述锚文本相对于所述网页不合 法;否则,确定上述锚文本相对于所述网页合法。
9、 如权利要求1至5任一项所述的方法,其特征在于,判断上述锚文本 相对于所述网页是否合法具体为对上述锚文本分解为各词语,判断各词语与所述网页是否相关联; 如相关联词语在上述各词语中的比例小于相对阈值,确定上述锚文本相对 于所述网页不合法;否则,确定上述锚文本相对于所述网页合法。
10、 一种镇 像网页的查找系统,其特征在于,包括锚文本获取才莫块、合法 性判断模块、网页提取模块、集合组成模块、及查找模块;所述锚文本获取模块,用于获取网页反向连接的锚文本; 所述合法性判断模块,用于判断上述锚文本相对于所述网页是否合法; 所述网页提取模块,用于确定不合法锚文本所属的网页,提取该网页所在 主域、子域、及目录的首页;所述集合组成模块,用于将提取的网页组成镜像网页查找集合; 所述查找模块,用于基于所述镜像网页查找集合查找镜像网页。
11、 如权利要求10所述的系统,其特征在于,还包括权重计算模块,用 于计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取 设置比例的锚文本,发送到所述合法性判断模块。
全文摘要
本发明涉及一种镜像网页的查找方法,包括获取网页反向连接的锚文本,计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例的锚文本,判断上述锚文本相对于所述网页是否合法,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页,再将提取的网页组成镜像网页查找集合,基于所述镜像网页查找集合查找镜像网页。同时,本发明还提供一种镜像网页的查找系统。本发明解决现有技术中查找方法效率低下的不足,能够简单、快捷地查找镜像网页,具有较高的效率。
文档编号G06F17/30GK101226531SQ20071030456
公开日2008年7月23日 申请日期2007年12月28日 优先权日2007年12月28日
发明者刘云峰, 熊展志, 禹荣凌 申请人:腾讯科技(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1