一种搜索引擎抓取服务器的制作方法

文档序号:6445866阅读:204来源:国知局
专利名称:一种搜索引擎抓取服务器的制作方法
技术领域
本实用新型属于网络技术领域,尤其涉及一种搜索引擎抓取服务器。
背景技术
随着互联网技术的迅速发展,各类网站的数量急剧增长,且站点内容更新频繁,因此也导致了各网站站点及其下各子域及页面的质量参差不齐。面对当前海量的互联网数据,现有的搜索引擎抓取服务器只是按照各站点的子域权重来进行调度,对于同一子域内的页面好坏却不加以区分,影响了数据分析的精度,降低了搜索结果的准确性。同时,各种页面的内容只有在下载后才能获取,因此只有通过抓取才能进行质量判别,造成了服务器资源的严重浪费,加之目前页面作弊现象普遍,对现有的搜索引擎抓取服务器提出了更高的要求。

实用新型内容本实用新型实施例的目的在于提供一种搜索引擎抓取服务器,旨在解决现有搜索弓I擎抓取服务器无法细分子域权重的问题。本实用新型实施例是这样实现的,一种搜索引擎抓取服务器,所述服务器包括链接存储器;连接所述链接存储器的数据分析器;连接所述数据分析器的调度器;连接所述调度器的下载器;连接所述下载器的网页存储器。本实用新型实施例通过数据分析器对已经抓取过的链接按照主域、子域和目录三个级别进行抓取权重细分,提高了数据分析精度,增加了搜索结果的准确性,并通过上述抓取权重对未下载页面的质量进行预测,确定是否继续抓取相关链接,由此避免了搜索服务器的无谓资源消耗。

图1是本实用新型实施例提供的搜索引擎抓取服务器的结构图。
具体实施方式
为了使本实用新型的目的、技术方案及优点更加清楚明白,
以下结合附图及实施例,对本实用新型进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本实用新型,并不用于限定本实用新型。在本实用新型实施例中,通过数据分析器对已经抓取过的链接的相关信息进行分析,确定不同主域、子域和目录的抓取权重,以提高数据分析精度,增加搜索结果的准确性。
3[0016]图1示出了本实用新型实施例提供的搜索引擎抓取服务器的结构,为了便于说明,仅示出了与本实施例相关的部分。参照图1,该搜索引擎抓取服务器包括链接存储器11;连接所述链接存储器的数据分析器12 ;连接所述数据分析器的调度器13 ;连接所述调度器的下载器14 ;连接所述下载器的网页存储器15。其中,搜索引擎抓取服务器各组成部分的实现原理如下所述链接存储器11,存储经过抓取的链接的相关信息,包括该链接的统一资源定位符 (Uniform Resource Location, URL)禾口下载信息。在本实用新型实施例中,链接的下载信息包括该链接的下载状态,例如该链接下载成功与否;该链接的页面分析结果,例如该链接是否为空页面、是否为作弊链接、是否包含病毒;以及该链接的页面中包含其他链接的数量,等等,在此不作限定。当链接存储器11需要对经过抓取的链接的相关信息进行存储时,首先检查该链接是否已经存储于链接存储器11中,如果是,则将该链接的下载信息进行更新,如果否,则在链接存储器11中新建该链接,并对该链接的URL以及下载信息进行存储。数据分析器12,对链接存储器11中存储的链接的相关信息进行分析,分别确定不同主域、子域和目录的抓取权重。在本实用新型实施例中,数据分析器12具体包括了以下结构连接所述链接存储器的链接分类单元121 ;连接所述链接存储器和所述链接分类单元的抓取权重确定单元122 ;连接所述链接存储器的下载压力检测单元123。上述各结构的实现原理如下所述链接分类单元121,根据链接存储器11中存储的链接的URL,将链接分类成主域、 子域和目录三个类别。抓取权重确定单元122,根据链接存储器11中存储的链接的相关信息,分别对不同主域、子域和目录的抓取权重进行确定,其具体包括了主域抓取权重确定单元1221、子域抓取权重确定单元1222和目录抓取权重确定单元1223,在本实用新型实施例中,抓取权重确定单元122根据链接存储器11中存储的链接的相关信息,统计出每个主域、子域和目录最近一段时期的下载信息,包括每个主域、子域和目录中链接的死链率、页面分析成功率、作弊率、病毒率、空页面率和发现新页面的能力等等,并依据上述参考因子,确定出每个主域、子域和目录各自对搜索引擎的贡献度,由此确定出其各自的抓取权重。通过抓取权重确定单元122,实现对主域、子域和目录三个级别的抓取权重细化,由此达到更好的数据分析精度和搜索准确度。在本实用新型实施例中,对根据参考因子确定抓取权重的具体方法不作限定。在本实用新型实施例中,数据分析器12还包括连接所述目录抓取权重确定单元的抓取控制单元123,其根据目录抓取权重确定单元122中确定的每个目录的抓取权重,确定是否继续对该目录进行抓取,以及控制继续抓取的链接数量。
4[0037]由于互联网中的很多数据都是由程序模板自动生成,因此,一般说来,同一目录下的链接,无论是在URL的形式上还是在页面内容方面都有着很大的相似性。例如,新浪新闻站点把其当天的新闻都放在同一个目录下,如2011年1月10日的国际新闻就放在目录 http://news. sina. com. cn/w/2011-01-10/下;或者,例如一些博客站点会把博文、图片分别划分到不同的目录中去。因此,在同一个目录下的网页总是存在一些相似性,有些是生成时间相近,有些是网页类型类似,搜索引擎只需要对目录中的一部分数据进行抓取并分析, 就可以预测这个目录总体质量的好坏,避免无效的抓取。因此,在本实用新型实施例中,可以通过每个目录下的当前抓取权重,决定是否继续对该目录下的链接进行抓取,以及控制抓取链接的数量。通过抓取控制单元123,可以对未下载的页面内容进行预测,达到有的放矢,很好地节省了搜索引擎抓取服务器的系统资源。在本实用新型实施例中,数据分析器12还包括下载压力检测单元124,其根据链接存储器11中存储的链接的相关信息,检测每个子域的页面下载压力,该页面下载压力即为每个子域每天需要下载的页面数目。在本实用新型实施例中,子域的下载压力通过检测每个子域下的子域个数、IP信息、是否为虚拟主机、下载速度、平均页面大小、平均页面更新周期,以及一些外部输入数据,如浏览器页面每天访问量、用户对搜索引擎的点击日志等信息确定。在本实用新型实施例中,通过确定不同子域的下载压力,可以控制搜索引擎对该子域每天的下载量。例如,子域news. sina. com. cn的下载压力为10个链接每秒,则搜索引擎抓取服务器每天从该子域中下载的页面个数为864000个。由此,通过检测每个子域的下载压力,很好地了解到每个子域的流量负荷情况,方便制定调度计划。调度器13根据数据分析器12分析出的相关数据,生成相应的调度计划,并根据调度计划发送需要下载的链接的URL。在本实用新型实施例中,调度器13包括连接所述数据分析器的调度顺序生成单元131 ;连接所述数据分析器的速度控制单元132,其中调度顺序生成单元131根据抓取权重确定单元122确定的主域、子域和目录三个级别的抓取权重,按照主域、子域以及目录的抓取权重轻重,对链接进行排序,生成调度计划,该调度计划指明了每个主域、子域及目录中需要下载的链接的下载顺序。速度控制单元132根据子域压力确定单元IM控制下载的速度,该下载速度即为该子域的压力。例如根据上文所述子域news. sina. com. cn的下载压力为10个链接每秒, 则控制对该子域的下载速度为10个链接每秒,避免因为下载速度过快造成该网站流量负荷大,容易瘫痪,也避免因为下载速度过慢而完不成相应的调度计划。下载器14,根据调度器13发送的链接的URL,下载相应页面中的链接和正文信息。在本实用新型实施例中,下载器14根据调度器13发送的链接的URL,获取该链接的域名和端口号,从而通过域名解析获得该链接的网络地址,并通过套接字程序连接到该链接的网络地址。之后,下载器14通过HTTP请求下载该链接的相应页面,包括页面中的链接和正文信息。
5[0050]网页存储器15,存储下载器14下载的正文信息并输出为索引,方便在用户进行搜索时进行搜索结果展示。在本实用新型实施例中,可以通过在下载器14中增加页面分析器141和连接所述页面分析器的反作弊器142,实现链接存储器11的过滤存储,有效避免了作弊页面对搜索结果的不良影响。页面分析器141,提取下载页面中的有效链接和正文信息。在本实用新型实施例中,页面分析器141通过对下载器14中下载的页面正文信息建立文档对象模型(Document Object Model,DOM),获取该页面正文中的链接,并通过现有的作弊名单过滤掉其中的作弊链接,再通过去除掉非作弊页面中的广告以及边框文字,提取出下载页面中的有效链接和正文信息,连同该下载页面的标题一起发送给反作弊器142。反作弊器142,根据页面的结构和内容特征,对页面分析器141发送的页面进行判断,判断其是否为作弊页面,以及其中是否包含病毒。在本实用新型实施例中,反作弊器142分别与链接存储器11和网页存储器15连接,其根据页面中的链接数量、文本相关度判断该页面是否为作弊页面,并根据该页面上的特征码,判断该页面是否包含病毒。当最终的识别结果为该页面是正常页面时,则将该页面中的链接发送给链接存储器11,同时将该页面标题连同正文信息一起发送至网页存储器 15进行存储。本实用新型实施例通过数据分析器对已经抓取过的链接按照主域、子域和目录三个级别进行抓取权重细分,提高了数据分析精度,增加了搜索结果的准确性,并通过上述抓取权重对未下载页面的质量进行预测,确定是否继续抓取相关链接,由此避免了搜索服务器的无谓资源消耗。以上所述仅为本实用新型的较佳实施例而已,并不用以限制本实用新型,凡在本实用新型的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本实用新型的保护范围之内。
权利要求1. 一种搜索引擎抓取服务器,其特征在于,所述服务器包括 链接存储器;连接所述链接存储器的数据分析器; 连接所述数据分析器的调度器; 连接所述调度器的下载器; 连接所述下载器的网页存储器。
专利摘要本实用新型适用于网络技术领域,提供了一种搜索引擎抓取服务器,所述服务器包括链接存储器;连接所述链接存储器的数据分析器;连接所述数据分析器的调度器;连接所述调度器的下载器;连接所述下载器的网页存储器。在本实用新型中,通过数据分析器对已经抓取过的链接的相关信息进行分析,确定不同主域、子域和目录的抓取权重,以提高数据分析精度,增加搜索结果的准确性。
文档编号G06F17/30GK202075736SQ20112004425
公开日2011年12月14日 申请日期2011年2月22日 优先权日2011年2月22日
发明者李晓堂, 詹峰 申请人:深圳信息职业技术学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1