统一资源定位符url中无效参数的识别设备及方法

文档序号:6514471阅读:219来源:国知局
统一资源定位符url中无效参数的识别设备及方法
【专利摘要】本发明涉及搜索引擎【技术领域】,其公开了统一资源定位符URL中无效参数的识别设备及方法,其中所述设备包括:URL获取单元,适于获取多个网页链接的URL;URL片段组合提取单元,适于分别从获取到的多个网页链接的URL中提取出所述URL片段组合;统计单元,适于统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;有效性判断单元,适于针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。提高识别重复链接的效率,进而提高了搜索引擎抓取信息的效率。
【专利说明】统一资源定位符URL中无效参数的识别设备及方法
【技术领域】
[0001]本发明涉及搜索引擎【技术领域】,具体涉及统一资源定位符URL中无效参数的识别设备及方法。
【背景技术】
[0002]随着计算机网络技术的飞跃发展和计算机设备的迅速普及,越来越多的人们利用计算机和互联网来获取信息,互联网能够给人们带来的服务也越来越丰富和多样化,存在于互联网上的数据呈现出爆炸式的增长,以中文网页为例,互联网上的中文网页链接数量已经达到万亿规模。
[0003]搜索引擎是伴随着互联网信息爆炸式增长过程出现的技术,旨在满足人们在互联网的海量信息中搜索自己所需信息的需求。一方面,搜索引擎使用一定的策略和特定的搜索程序,在互联网中搜集各种各样的信息,进而对信息进行加工和整理;另一方面,搜索引擎将加工整理后的信息以一定的次序展示给用户,来满足用户的检索需求。在搜索引擎搜集互联网信息时,一个重要的依据便是统一资源定位符URL (也可以理解为网页对应的网址),这是因为URL对于每一个网页都是唯一的,即在互联网上每一个网页对应于唯一的一个URL,搜索引擎可以依据URL来获取对应网页中的信息。但在当今互联网上数量庞大的URL中,存在着不同URL对应的不同页面,但页面本身的内容是相同的情况,尤其是在当今动态网页技术越来越多的被使用,导致URL不同但网页的主体内容相同的情况也在迅速的增加,这就给搜索引擎技术的应用提出了一个问题:如何在数量庞大的URL中识别重复的链接,以减少重复信息的收录,提高搜集信息的效率。

【发明内容】

[0004]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的统一资源定位符URL中无效参数的识别设备,和相应的统一资源定位符URL中无效参数的识别方法。
[0005]依据本发明的一个方面,提供了一种统一资源定位符URL中无效参数的识别设备,包括:
[0006]URL获取单元,适于获取多个网页链接的URL ;
[0007]URL片段组合提取单元,适于分别从获取到的多个网页链接的URL中提取出所述URL片段组合;
[0008]统计单元,适于统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
[0009]有效性判断单元,适于针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。
[0010]可选地,还包括:
[0011]保存单元,用于将所述有效性判断单元对目标URL片段组中各URL参数的有效性进行判断的结果,保存为无效片段组合列表;
[0012]待测URL提取单元,适于获取待测的网页链接对应的待测URL地址;
[0013]URL片段组合提取单元,适于从所述待测URL地址中提取URL片段组合;
[0014]URL参数检测单元,适于根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。
[0015]可选地,所述URL片段组合提取单元,适于:
[0016]从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合。
[0017]可选地,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有效性信息。
[0018]可选地,所述URL参数检测单元,适于:以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;
[0019]如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。
[0020]可选地,所述统计单元,包括:
[0021 ] 第一统计子单元,适于统计包含有同一 URL片段组合的URL的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
[0022]或,
[0023]第二统计子单元,适于统计同一 URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;其中,所述互联网位置由URL中的网络路径确定。
[0024]可选地,所述统计单元,包括:
[0025]第三统计子单元,适于统计包含有同一 URL片段组合的URL的数目,将该数目确定为所述URL片段组合的第一出现频次;
[0026]第四统计子单元,适于统计同一 URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的第二出现频次;其中,所述互联网位置由URL中的网络路径确定;
[0027]确定子单元,适于将所述第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合。
[0028]可选地,所述确定子单元,包括:
[0029]联合频次计算子单元,适于根据第一出现频次、第二出现频次以及各自预置的权重,计算URL片段组合的联合频次;
[0030]联合确定子单元,适于将联合频次符合预置条件的URL片段组合确定为目标URL片段组合。
[0031]可选地,所述有效性判断单元,包括:
[0032]抽样单元,适于在包含有所述目标URL片段组合的URL中抽取预置数量的URL ;
[0033]有效性判断子单元,适于基于所述抽样单元抽取的所述预置数量的URLJig#URL片段组合中各参数的有效性进行判断。
[0034]可选地,所述有效性判断单元,具体适于:
[0035]针对各个目标URL片段组合,对包含有所述目标URL片段组合的URL,对比分别去掉所述URL的每个参数前后网页内容的变化情况,如果去掉某参数前后网页内容一致,则确定该参数对应于目标URL片段组中的参数的为无效参数。
[0036]可选地,所述URL片段组合提取单元,具体适于:
[0037]如果某URL中包含动态文件的文件名以及对应的至少两个参数,则将所述动态文件的文件名以及对应的各个参数作为该URL中的URL片段组合提取出来。
[0038]可选地,所述有效性判断单元,适于:
[0039]针对各个目标URL片段组合,从包含有所述目标URL片段组合的URL中,抽取分布在不同互联网位置的预置数目的URL,并基于抽取出的URL,对目标URL片段组中各参数的有效性进行判断。
[0040]根据本发明的另一方面,提供了一种URL中无效参数的识别方法,包括:
[0041]获取多个网页链接的URL ;
[0042]分别从获取到的多个网页链接的URL中提取出所述URL片段组合;
[0043]统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
[0044]针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。
[0045]可选地,还包括:
[0046]将所述有效性判断单元对目标URL片段组中各URL参数的有效性进行判断的结果,保存为无效片段组合列表;
[0047]获取待测的网页链接对应的待测URL地址;
[0048]从所述待测URL地址中提取URL片段组合;
[0049]根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。
[0050]可选地,所述从所述待测URL地址中提取URL片段组合,包括:
[0051]从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合;
[0052]所述无效片段组合列表中保存有无效片段组合及组合中各参数的有效性信息。
[0053]可选地,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有效性信息。
[0054]可选地,所述根据无效片段组合列表判断所述URL片段组合中URL参数的有效性,包括:
[0055]以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;
[0056]如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。
[0057]可选地,所述统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合,包括:
[0058]统计包含有同一 URL片段组合的URL的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
[0059]或,
[0060]统计同一 URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;其中,所述互联网位置由URL中的网络路径确定。
[0061]可选地,所述统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合,包括:
[0062]统计包含有同一 URL片段组合的URL的数目,将该数目确定为所述URL片段组合的第一出现频次;
[0063]统计同一 URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的第二出现频次;其中,所述互联网位置由URL中的网络路径确定;
[0064]将所述第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合。
[0065]可选地,所述将所述第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合,包括:
[0066]根据第一出现频次、第二出现频次以及各自预置的权重,计算URL片段组合的联合频次;
[0067]将联合频次符合预置条件的URL片段组合确定为目标URL片段组合。
[0068]可选地,所述针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各参数的有效性进行判断,包括:
[0069]在包含有所述目标URL片段组合的URL中抽取预置数量的URL ;
[0070]基于所述抽样单元抽取的所述预置数量的URL,对目标URL片段组合中各参数的有效性进行判断。
[0071]可选地,所述针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各参数的有效性进行判断,包括:
[0072]针对各个目标URL片段组合,对包含有所述目标URL片段组合的URL,对比分别去掉所述URL的每个参数前后网页内容的变化情况,如果去掉某参数前后网页内容一致,则确定该参数对应于目标URL片段组中的参数的为无效参数。
[0073]可选地,所述分别从各URL中提取URL片段组合,包括:
[0074]如果某URL中包含动态文件的文件名以及对应的至少两个参数,则将所述动态文件的文件名以及对应的各个参数作为该URL中的URL片段组合提取出来。
[0075]可选地,所述针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各参数的有效性进行判断,包括:
[0076]针对各个目标URL片段组合,从包含有所述目标URL片段组合的URL中,抽取分布在不同互联网位置的预置数目的URL,并基于抽取出的URL,对目标URL片段组中各参数的有效性进行判断。
[0077]根据本发明的统一资源定位符URL中无效参数的识别设备,可以获取多个网页链接的URL ;进而分别获取到的多个网页链接的URL中提取出所述URL片段组合;统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。基于获取到的多个网页链接的URL,通过统计和过滤,对符合条件的具有相同的URL片段组合进行一次性判断,解决了搜索引擎传统的识别重复链接中的无效参数时,需要检测收集到的所有链接的无效参数,并且对每个参数都要穷举其所有可能性并分别进行一一判断,识别效率低下的问题。达到了快速识别无效链接中的参数,提高识别重复链接的效率。
[0078]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0079]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0080]图1示出了根据本发明一个实施例的统一资源定位符URL地址中无效参数的识别方法的流程图;
[0081]图2示出了根据本发明一个实施例的统一资源定位符URL地址中无效参数的识别设备不意图;
[0082]图3示出了根据本发明一个实施例的另一统一资源定位符URL地址中无效参数的识别设备示意图;
[0083]图4示出了根据本发明一个实施例的再一统一资源定位符URL地址中无效参数的识别设备示意图;
[0084]图5示出了根据本发明一个实施例的又一统一资源定位符URL地址中无效参数的识别设备示意图;
[0085]图6示出了根据本发明一个实施例的又另一统一资源定位符URL地址中无效参数的识别设备示意图;
[0086]图7示出了根据本发明一个实施例的又再一统一资源定位符URL地址中无效参数的识别设备示意图;以及
[0087]图8示出了根据本发明一个实施例的统一资源定位符URL地址中无效参数的识别方法的应用举例示意图。
【具体实施方式】
[0088]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0089]请参见图1,为本发明实施例提供的统一资源定位符URL地址中无效参数的识别方法流程图,如图所示,该方法可以包括以下步骤:
[0090]S110:获取多个网页链接的URL ;
[0091]首先可以获取待测的网页链接对应的待测URL地址,互联网中,每一个页面都有唯一的URL与之对应,在对URL地址进行无效参数的检测时,可以首先获取待测的URL地址,待测URL地址可以通过搜索引擎服务器抓取,或者也可以通过用户浏览器对所浏览的网页的URL地址进行提取,作为待测URL地址。或者也可以通过搜索引擎服务器抓取,与用户浏览器抓取相结合的方式,以更加全面的获取互联网上的待测URL。针对出现无效参数大多是在动态网页的网址中,在获取待测URL地址时,可以仅获取地址中包含有动态文件的文件名以及所使用的参数的地址,将这样的网址作为待测URL地址。
[0092]S120:分别从获取到的多个网页链接的URL中提取出所述URL片段组合;
[0093]在获取到待测URL地址后,接下来可以从待测URL地址中提取URL片段组合,URL片段组合中包括了待测URL地址中包括的动态文件名,以及所使用的对应参数名。即从待测URL地址中提取URL片段组合的过程,可以是从待测URL地址中提取动态文件名,以及所使用的各个参数,并将待测URL中提取出来的动态文件名以及各个参数组合为URL片段组合的过程。
[0094]在URL不同但网页的主体内容相同的页面中,大多是使用了动态网页技术的页面,在这种页面的URL中,常常会包含动态运行的程序文件的文件名,以及所程序所使用的参数。其中,一个页面的URL中可以只包含一个参数,也可以包括两个或两个以上参数。可以将使用动态网页技术的页面的URL作为待测URL,并将其中的动态文件名,以及一个或多个URL参数提取出来并组合在一起,作为该待测URL的URL片段组合。例如在步骤SllO中,获取到带检测的URL为:
[0095]http://bbs.xxxxx.`com.cn/viewthread.php?page=l&sid=yyy&tid=zzzz
[0096]其中viewthread.php为该待测URL中包含的动态文件名,且该待测URL中还包含了 sid,tid两个参数。可以将该待测URL中包含的动态文件名以及各个参数提取出来,并组合作为该待测URL对应的URL片段组合。如待测URL中动态文件名以及各个参数所组成的URL片段组合可以是:
[0097]viewthread.php+sid+tid
[0098]实际的应用于计算机时,URL片段组合中的有效性与否可以以二进制数来标识,如可以以二进制数O代表有效,以二进制数I代表无效。
[0099]S130:统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合。
[0100]在统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合的过程中,对于不经常出现的,或者点击率不高的URL,或含有特定片段组合的URL可以过滤掉,从而仅利用经常出现的或者点击率较高的URL,或含有特定片段组合的URL生成无效片段组合列表,从而挑选出普遍性大,影响URL数量多的动态程序及其对应的URL片段组合,来建立无效组合列表,使无效片段组合列表中的无效片段组合更加具有普遍性,以及更广泛的实用性。具体的,可以对样本URL中的URL片段组合的出现频次进行统计,获得每个URL片段组合的影响面;或者对同一 URL片段组合对应的不同互联网位置的数目进行统计,获得每个URL片段组合的普遍性。因此具体的过滤可以有多种实现方式,下面对过滤作为样本的URL片段组合的过程进行具体的介绍。
[0101]首先可以从获取到的作为样本的网页链接的URL中,提出URL片段组合,提取的过程与S102中从待测URL中提取URL片段组合的过程类似,所提取出的URL片段组合的形式类似于:
[0102]动态文件+参数列表;
[0103]比如 forum, php+authorid, mod, page, tid, sid
[0104]其中forum, php代表了 URL中提取的动态文件的文件名,authorid, mod, page, tid, sid则代表了 URL中提取的各参数的参数名。
[0105]假设从各网页链接的URL中分别提取了 URL片段组合,以及统计数据,如表1所示:
[0106]表1
[0107]
【权利要求】
1.一种统一资源定位符URL中无效参数的识别设备,包括: URL获取单元,适于获取多个网页链接的URL ; URL片段组合提取单元,适于分别从获取到的多个网页链接的URL中提取出所述URL片段组合; 统计单元,适于统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合; 有效性判断单元,适于针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。
2.如权利要求1所述的设备,还包括: 保存单元,用于将所述有效性判断单元对目标URL片段组中各URL参数的有效性进行判断的结果,保存为无效片段组合列表; 待测URL提取单元,适于获取待测的网页链接对应的待测URL地址; URL片段组合提取单元,适于从所述待测URL地址中提取URL片段组合; URL参数检测单元,适于根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。
3.如权利要求1或2所述的设备,所述URL片段组合提取单元,适于: 从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合。
4.如权利要求1-3任一项所述的设备,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有效性信息。
5.如权利要求1-4任一项所述的设备,所述URL参数检测单元,适于:以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合; 如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。
6.—种URL中无效参数的识别方法,包括: 获取多个网页链接的URL ; 分别从获取到的多个网页链接的URL中提取出所述URL片段组合; 统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合; 针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。
7.如权利要求6所述的方法,还包括: 将所述有效性判断单元对目标URL片段组中各URL参数的有效性进行判断的结果,保存为无效片段组合列表; 获取待测的网页链接对应的待测URL地址; 从所述待测URL地址中提取URL片段组合; 根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。
8.如权利要求6或7所述的方法,所述从所述待测URL地址中提取URL片段组合,包括: 从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合; 所述无效片段组合列表中保存有无效片段组合及组合中各参数的有效性信息。
9.如权利要求6-8任一项所述的方法,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有效性信息。
10.如权利要求6-9任一项所述的方法,所述根据无效片段组合列表判断所述URL片段组合中URL参数的有效性,包括: 以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合; 如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。
【文档编号】G06F17/30GK103530336SQ201310462262
【公开日】2014年1月22日 申请日期:2013年9月30日 优先权日:2013年9月30日
【发明者】魏少俊 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1