识别统一资源定位符url中无效参数的设备及方法

文档序号:6514498阅读:202来源:国知局
识别统一资源定位符url中无效参数的设备及方法
【专利摘要】本发明涉及搜索引擎【技术领域】,其公开了识别统一资源定位符URL中无效参数的设备及方法,其中所述设备包括:待测URL提取单元,适于获取待测的网页链接对应的待测URL地址;URL片段组合提取单元,适于从所述待测URL地址中提取URL片段组合;URL参数检测单元,适于根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。通过该设备,可以快速识别无效链接中的参数,提高识别重复链接的效率,进而提高了搜索引擎抓取信息的效率。
【专利说明】识别统ー资源定位符URL中无效参数的设备及方法
【技术领域】
[0001]本发明涉及搜索引擎【技术领域】,具体涉及识别统ー资源定位符URL中无效參数的设备及方法。
【背景技术】
[0002]随着计算机网络技术的飞跃发展和计算机设备的迅速普及,越来越多的人们利用计算机和互联网来获取信息,互联网能够给人们带来的服务也越来越丰富和多祥化,存在于互联网上的数据呈现出爆炸式的增长,以中文网页为例,互联网上的中文网页链接数量已经达到万亿規模。
[0003]搜索引擎是伴随着互联网信息爆炸式增长过程出现的技木,g在满足人们在互联网的海量信息中捜索自己所需信息的需求。一方面,搜索引擎使用一定的策略和特定的搜索程序,在互联网中搜集各种各样的信息,进而对信息进行加工和整理;另ー方面,搜索引擎将加工整理后的信息以一定的次序展示给用户,来满足用户的检索需求。在搜索引擎搜集互联网信息时,ー个重要的依据便是统ー资源定位符URL (也可以理解为网页对应的网址),这是因为URL对于每ー个网页都是唯一的,即在互联网上每ー个网页对应于唯一的一个URL,搜索引擎可以依据URL来获取对应网页中的信息。但在当今互联网上数量庞大的URL中,存在着不同URL对应的不同页面,但页面本身的内容是相同的情況,尤其是在当今动态网页技术越来越多的被使用,导致URL不同但网页的主体内容相同的情况也在迅速的増加,这就给搜索引擎技术的应用提出了一个问题:如何在数量庞大的URL中识别重复的链接,以减少重复信息的收录,提高搜集信息的效率。

【发明内容】

[0004]鉴于上述问题,提出了本发明以便提供ー种克服上述问题或者至少部分地解决上述问题的识别统ー资源定位符URL中无效參数的设备,和相应的识别统ー资源定位符URL中无效參数的方法。
[0005]依据本发明的ー个方面,提供了 一种识别统ー资源定位符URL中无效參数的设备,包括:
[0006]待测URL提取单元,适于获取待测的网页链接对应的待测URL地址;
[0007]URL片段组合提取单元,适于从所述待测URL地址中提取URL片段组合;
[0008]URL參数检测单元,适于根据无效片段组合列表判断所述URL片段组合中URL參数的有效性。
[0009]可选地,所述URL片段组合提取单元,适于:
[0010]从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL參数,将提取到的所述动态文件的文件名以及所述对应的URL參数进行组合,作为所述URL片段组合。
[0011]可选地,所述无效片段组合列表中保存有无效片段组合及组合中各URL參数的有效性信息。
[0012]可选地,所述URL參数检测单元,适于:以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;
[0013]如存在,则根据相匹配的无效片段组合及其中各URL參数的有效性信息,判断所述URL片段组合中URL參数的有效性。
[0014]可选地,所述无效片段组合列表通过如下単元建立:
[0015]URL获取单元,适于多个网页链接的URL ;
[0016]所述URL片段组合提取单元,适于分别从获取到的多个网页链接的URL中提取出所述URL片段组合;
[0017]统计单元,适于统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
[0018]有效性判断単元,适于针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL參数的有效性进行判断。
[0019]可选地,所述统计単元,包括:
[0020]第一统计子単元,适于统计包含有同一 URL片段组合的URL的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
[0021]或,
[0022]第二统计子単元,适于统计同一 URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;其中,所述互联网位置由URL中的网络路径确定。
[0023]可选地,所述统计単元,包括:
[0024]第三统计子単元,适于统计包含有同一 URL片段组合的URL的数目,将该数目确定为所述URL片段组合的第一出现频次;
[0025]第四统计子単元,适于统计同一 URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的第二出现频次;其中,所述互联网位置由URL中的网络路径确定;
[0026]确定子単元,适于将所述第一出现频次以及第ニ出现频次符合预置条件的URL片段组合确定为目标URL片段组合。
[0027]可选地,所述确定子単元,包括:
[0028]联合频次计算子単元,适于根据第一出现频次、第二出现频次以及各自预置的权重,计算URL片段组合的联合频次;
[0029]联合确定子单元,适于将联合频次符合预置条件的URL片段组合确定为目标URL片段组合。
[0030]可选地,所述有效性判断単元,包括:
[0031]抽样单元,适于在包含有所述目标URL片段组合的URL中抽取预置数量的URL ;
[0032]有效性判断子単元,适于基于所述抽样单元抽取的所述预置数量的URL,对目标URL片段组合中各參数的有效性进行判断。
[0033]可选地,所述有效性判断単元,具体适于:[0034]针对各个目标URL片段组合,对包含有所述目标URL片段组合的URL,对比分别去掉所述URL的每个参数前后网页内容的变化情况,如果去掉某参数前后网页内容一致,则确定该参数对应于目标URL片段组中的参数的为无效参数。
[0035]可选地,所述URL片段组合提取单元,具体适于:
[0036]如果某URL中包含动态文件的文件名以及对应的至少两个参数,则将所述动态文件的文件名以及对应的各个参数作为该URL中的URL片段组合提取出来。
[0037]可选地,所述有效性判断单元,适于:
[0038]针对各个目标URL片段组合,从包含有所述目标URL片段组合的URL中,抽取分布在不同互联网位置的预置数目的URL,并基于抽取出的URL,对目标URL片段组中各参数的有效性进行判断。
[0039]根据本发明的另一方面,提供了一种判断URL中无效参数的方法,包括:
[0040]获取待测的网页链接对应的待测URL地址;
[0041]从所述待测URL地址中提取URL片段组合;
[0042]根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。
[0043]可选地,所述从所述待测URL地址中提取URL片段组合,包括:
[0044]从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合
[0045]所述无效片段组合列表中保存有无效片段组合及组合中各参数的有效性信息。
[0046]可选地,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有效性信息。
[0047]可选地,所述根据无效片段组合列表判断所述URL片段组合中URL参数的有效性,包括:
[0048]以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;
[0049]如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。
[0050]可选地,所述无效片段组合列表通过如下方式建立:
[0051]获取多个网页链接的URL ;
[0052]分别从获取到的多个网页链接的URL中提取出所述URL片段组合;
[0053]统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
[0054]针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。
[0055]可选地,所述统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合,包括:
[0056]统计包含有同一 URL片段组合的URL的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
[0057]或,[0058]统计同一 URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;其中,所述互联网位置由URL中的网络路径确定。
[0059]可选地,所述统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合,包括:
[0060]统计包含有同一 URL片段组合的URL的数目,将该数目确定为所述URL片段组合的第一出现频次;
[0061]统计同一 URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的第二出现频次;其中,所述互联网位置由URL中的网络路径确定;
[0062]将所述第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合。
[0063]可选地,所述将所述第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合,包括:
[0064]根据第一出现频次、第二出现频次以及各自预置的权重,计算URL片段组合的联合频次;
[0065]将联合频次符合预置条件的URL片段组合确定为目标URL片段组合。
[0066]可选地,所述针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各参数的有效性进行判断,包括:
[0067]在包含有所述目标URL片段组合的URL中抽取预置数量的URL ;
[0068]基于所述抽样单元抽取的所述预置数量的URL,对目标URL片段组合中各参数的有效性进行判断。
[0069]可选地,所述针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各参数的有效性进行判断,包括:
[0070]针对各个目标URL片段组合,对包含有所述目标URL片段组合的URL,对比分别去掉所述URL的每个参数前后网页内容的变化情况,如果去掉某参数前后网页内容一致,则确定该参数对应于目标URL片段组中的参数的为无效参数。
[0071]可选地,所述分别从各URL中提取URL片段组合,包括:
[0072]如果某URL中包含动态文件的文件名以及对应的至少两个参数,则将所述动态文件的文件名以及对应的各个参数作为该URL中的URL片段组合提取出来。
[0073]可选地,所述针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各参数的有效性进行判断,包括:
[0074]针对各个目标URL片段组合,从包含有所述目标URL片段组合的URL中,抽取分布在不同互联网位置的预置数目的URL,并基于抽取出的URL,对目标URL片段组中各参数的有效性进行判断。
[0075]根据本发明的识别统一资源定位符URL中无效参数的设备,可以通过该设备,可以从待测的网页链接URL地址中提取URL片段组合,根据无效片段则和列表判断URL片段组合中URL参数的有效性,解决了搜索引擎传统的识别重复链接中的无效参数时,需要穷举各个链接的无效参数的所有可能性,并分别进行一一判断,识别效率低下的问题。达到了快速识别无效链接中的参数,提高识别重复链接的效率。[0076]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0077]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的參考符号表示相同的部件。在附图中:
[0078]图1示出了根据本发明一个实施例的识别统ー资源定位符URL中无效參数的方法的流程图;
[0079]图2示出了根据本发明一个实施例的识别统ー资源定位符URL中无效參数的设备示意图;
[0080]图3示出了根据本发明一个实施例的另ー识别统ー资源定位符URL中无效參数的设备不意图;
[0081]图4示出了根据本发明一个实施例的再一识别统ー资源定位符URL中无效參数的设备不意图;
[0082]图5示出了根据本发明一个实施例的又一识别统ー资源定位符URL中无效參数的设备不意图;
[0083]图6示出了根据本发明一个实施例的又另ー识别统ー资源定位符URL中无效參数的设备示意图;
[0084]图7示出了根据本发明一个实施例的又再一识别统ー资源定位符URL中无效參数的设备示意图;以及
[0085]图8示出了根据本发明一个实施例的识别统ー资源定位符URL中无效參数的方法的应用举例不意图。
【具体实施方式】
[0086]下面将參照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0087]请參见图1,为本发明实施例提供的识别统ー资源定位符URL中无效參数的方法流程图,如图所示,该方法可以包括以下步骤:
[0088]SI 10:获取待测的网页链接对应的待测URL地址;
[0089]首先可以获取待测的网页链接对应的待测URL地址,互联网中,每ー个页面都有唯一的URL与之对应,在对URL地址进行无效參数的检测时,可以首先获取待测的URL地址,待测URL地址可以通过搜索引擎服务器抓取,或者也可以通过用户浏览器对所浏览的网页的URL地址进行提取,作为待测URL地址。或者也可以通过搜索引擎服务器抓取,与用户浏览器抓取相结合的方式,以更加全面的获取互联网上的待测URL。针对出现无效參数大多是在动态网页的网址中,在获取待测URL地址时,可以仅获取地址中包含有动态文件的文件名以及所使用的参数的地址,将这样的网址作为待测URL地址。
[0090]S120:从所述待测URL地址中提取URL片段组合;
[0091]在获取到待测URL地址后,接下来可以从待测URL地址中提取URL片段组合,URL片段组合中包括了待测URL地址中包括的动态文件名,以及所使用的对应参数名。即从待测URL地址中提取URL片段组合的过程,可以是从待测URL地址中提取动态文件名,以及所使用的各个参数,并将待测URL中提取出来的动态文件名以及各个参数组合为URL片段组合的过程。
[0092]在URL不同但网页的主体内容相同的页面中,大多是使用了动态网页技术的页面,在这种页面的URL中,常常会包含动态运行的程序文件的文件名,以及所程序所使用的参数。其中,一个页面的URL中可以只包含一个参数,也可以包括两个或两个以上参数。可以将使用动态网页技术的页面的URL作为待测URL,并将其中的动态文件名,以及一个或多个URL参数提取出来并组合在一起,作为该待测URL的URL片段组合。例如在步骤SI 10中,获取到带检测的URL为:
[0093]http://bbs.xxxxx.com.cn/viewthread.php?page=l&sid=yyy&tid=zzzz
[0094]其中viewthread.php为该待测URL中包含的动态文件名,且该待测URL中还包含了 sid,tid两个参数。可以将该待测URL中包含的动态文件名以及各个参数提取出来,并组合作为该待测URL对应的URL片段组合。如待测URL中动态文件名以及各个参数所组成的URL片段组合可以是:
[0095]viewthread.php+sid+tid`[0096]实际的应用于计算机时,URL片段组合中的有效性与否可以以二进制数来标识,如可以以二进制数0代表有效,以二进制数I代表无效。
[0097]S130:根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。
[0098]在实际应用中,无效片段组合列表可以是保存一定数量的无效片段组合的集合。无效片段组合,包括通过一定方式检测到URL片段组合中含有无效的URL参数,并将URL片段组合,以及对应参数有效性一并保存起来的组合,如通过一定手段检测到上述的URL片段组合中,参数sid为有效参数,tid为无效参数,以二进制数0代表有效,以二进制数I代表无效,则可以无效片段组合列表保存这样一条无效片段组合:
[0099]viewthread.php+sid (0) +tid (I)
[0100]即在无效片段组合列表中,保存有若干无效片段组合,以及组合中各参数的有效性信息。在待测URL地址中提取URL片段组合后,可以根据无效片段组合列表中保存的无效片段组合,来判断提取的URL片段组合中的各URL参数是否有效。
[0101]由于不同URL片段组合,可以通过其中的动态文件名或者URL参数来区分;不同的无效片段组合,也可以通过其中的动态文件名或者URL参数来区分。而如果URL片段组合,与无效片段组合列表中保存的某个无效片段组合,具有相同的动态文件名和参数名,则可以认为该URL片段组合与该无效片段组合具有匹配关系,即在互联网上代表同一动态文件。因此,在根据无效片段组合列表来判断待测的URL片段组合中参数是否有效时,可以以待测的URL片段组合查询无效片段组合列表,查询其中是否存在相匹配的无效片段组合;如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,确定URL片段组合中URL参数的有效性。[0102]其中无效片段组合列表可以通过如下方式建立。首先获取多个网页链接的URL,这些URL可以看作是ー种样本URL,可以是由搜索引擎,或浏览器抓取的样本网页链接URL。从这些样本URL中,可以提取去URL片段组合,即分别从获取到的多个网页链接的URL中提取出URL片段组合,从样本URL中提取出的URL片段组合,可以理解为ー种样本性质的URL判断组合;接下来,还可以根据样本URL判断组合的影响面或普遍性进行过滤,选取其中影响面大,使用普遍的URL片段组合,具体的,可以统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;最后针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL參数的有效性进行判断。
[0103]由此获得了样本URL提取的样本URL片段组合中,各个參数的有效性。然后可以将其中的动态文件名,各參数,以及參数的有效性信息,保存起来作为无效片段组合列表。建立无效片段组合列表的过程,可以看作是在有限数量的URL样本中提取URL片段组合,并判断其中各參数是否有效,从而建立判断样本:无效參数列表的过程。
[0104]在统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合的过程中,对于不经常出现的,或者点击率不高的URL,或含有特定片段组合的URL可以过滤棹,从而仅利用经常出现的或者点击率较高的URL,或含有特定片段组合的URL生成无效片段组合列表,从而挑选出普遍性大,影响URL数量多的动态程序及其对应的URL片段组合,来建立无效组合列表,使无效片段组合列表中的无效片段组合更加具有普遍性,以及更广泛的实用性。具体的,可以对样本URL中的URL片段组合的出现频次进行统计,获得每个URL片段组合的影响面;或者对同一URL片段组合对应的不同互联网位置的数目进行统计,获得每个URL片段组合的普遍性。因此具体的过滤可以有多种实现方式,下面对过滤作为样本的URL片段组合的过程进行具体的介绍。
[0105]首先可以从获取到的作为样本的网页链接的URL中,提出URL片段组合,提取的过程与S102中从待测URL中提取URL片段组合的过程类似,所提取出的URL片段组合的形式类似于:
[0106]动态文件+參数列表;
[0107]比如 forum, php+authorid, mod, page, tid, sid
[0108]其中forum, php代表了 URL中提取的动态文件的文件名,authorid, mod, page, tid, sid则代表了 URL中提取的各參数的參数名。
[0109]假设从各网页链接的URL中分别提取了 URL片段组合,以及统计数据,如表1所示:
[0110]表1
[0111]
【权利要求】
1.一种识别统一资源定位符URL中无效参数的设备,包括: 待测URL提取单元,适于获取待测的网页链接对应的待测URL地址; URL片段组合提取单元,适于从所述待测URL地址中提取URL片段组合; URL参数检测单元,适于根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。
2.如权利要求1所述的设备,所述URL片段组合提取单元,适于: 从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合。
3.如权利要求1或2所述的设备,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有效性信息。
4.如权利要求1至3任一项所述的设备,所述URL参数检测单元,适于:以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合; 如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。
5.如权利要求1-4任一项所述的设备,所述无效片段组合列表通过如下单元建立: URL获取单元,适于多个网页链接的URL ;` 所述URL片段组合提取单元,适于分别从获取到的多个网页链接的URL中提取出所述URL片段组合; 统计单元,适于统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合; 有效性判断单元,适于针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。
6.一种识别URL中无效参数的方法,包括: 获取待测的网页链接对应的待测URL地址; 从所述待测URL地址中提取URL片段组合; 根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。
7.如权利要求6所述的方法,所述从所述待测URL地址中提取URL片段组合,包括: 从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合; 所述无效片段组合列表中保存有无效片段组合及组合中各参数的有效性信息。
8.如权利要求6或7所述的方法,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有效性信息。
9.如权利要求6至8任一项所述的方法,所述根据无效片段组合列表判断所述URL片段组合中URL参数的有效性,包括: 以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;如存在,则根据相匹配的无效片段组合及其中各URL參数的有效性信息,判断所述URL片段组合中URL參数的有效性。
10. 如权利要求6至9任一项所述的方法,所述无效片段组合列表通过如下方式建立: 获取多个网页链接的URL; 分别从获取到的多个网页链接的URL中提取出所述URL片段组合; 统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合; 针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL參数的有效性进行判断。
【文档编号】G06F17/30GK103530337SQ201310462625
【公开日】2014年1月22日 申请日期:2013年9月30日 优先权日:2013年9月30日
【发明者】魏少俊 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1