一种网站内链的部署方法及装置的制造方法_3

文档序号:9432740阅读:来源:国知局
例中在检测到爬虫访问目标页面后,对爬虫的访问记录进行记录,根据记录的爬虫访问记录更新爬虫日志记录,进一步利用更新后的爬虫日志记录来确定目标页面,完成目标页面的更新。
[0106]在本申请的又一个实施例中,公开了上述网站内链部署方法的又一种可选方案,参见图4,图4为本申请实施例公开的又一种网站内链的部署方法流程图。
[0107]如图4所示,该方法包括:
[0108]步骤S400、根据爬虫日志记录,确定网站内被爬虫访问的次数超过阈值的目标页面;
[0109]通过分析爬虫日志记录,确定出一段时间内,网站内各个网页被爬虫访问的次数。进而,将访问次数超过阈值的页面确定为目标页面。这部分目标页面作为最新产生的链接地址的曝光入口。
[0110]可以理解的是,目标页面的个数可以是一个或多个。
[0111]步骤S410、从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址;
[0112]其中,所述链接地址存储队列中按照链接地址产生时间的先后顺序,存储有多条链接地址,所述目标数量为所述目标页面所能够展示的链接地址的条目数。
[0113]本申请可以预先统计一段时间内网站中新产生的页面的链接地址,进而按照产生时间的先后顺序,将链接地址存储在链接地址存储队列中。可选的,队列中靠前的可以是最新产生的链接地址。
[0114]实际应用中,一个页面所能够展示的链接地址的条目数是有规定的,因此本申请在确定出目标页面后可以进一步确定出目标页面所能够展示的链接地址的条目数,进而从链接地址存储队列中抽取最新产生的目标数量条的链接地址。
[0115]步骤S420、将抽取的目标数量条的链接地址展示在所述目标页面上;
[0116]步骤S430、确定所述目标页面上,预置时间段内未被爬虫抓取过的X条链接地址;
[0117]具体地,在目标页面上部署链接地址之后,对各条链接地址进行监控,确定各条链接地址是否被爬虫抓取过,进而找出在预置的时间段内存在未被爬虫抓取过的X条链接地址。
[0118]在预置的时间段内未被爬虫抓取过的链接地址代表着该条链接地址的质量不高,爬虫不青睐于抓取。
[0119]步骤S440、从最新的链接地址存储队列中抽取最新产生的X条链接地址;
[0120]其中,所述最新的链接地址存储队列为上一次抽取链接地址后的链接地址存储队列。这里,最新的链接地址存储队列的解释可以参照上一实施例相关解释,本实施例不做进一步说明。
[0121]步骤S450、利用抽取的X条链接地址替换掉所述未被爬虫抓取过的X条链接地址。
[0122]上述步骤已经确定出爬虫不青睐于抓取的X条链接地址,也即质量不高的X条链接地址,为了避免这部分链接地址占用目标页面,将其从目标页面中删除,并利用从最新的链接地址存储队列中抽取的X条链接地址进行补充。
[0123]本实施例中对目标页面上部署的各条链接地址进行监控,找出在预置的时间段内未被爬虫抓取过的链接地址,将其从目标页面上删除,并利用新的链接地址进行补充,避免了低质量的链接地址占用目标页面,进一步提高了新页面链接地址的曝光率。
[0124]在本申请的又一个实施例中,公开了上述网站内链部署方法的又一种可选方案,在本实施例中,假定目标页面的个数为多个。参见图5,图5为本申请实施例公开的又一种网站内链的部署方法流程图。
[0125]如图5所示,该方法包括:
[0126]步骤S500、根据爬虫日志记录,确定网站内被爬虫访问的次数超过阈值的目标页面;
[0127]其中,目标页面的个数为多个。
[0128]步骤S510、从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址;
[0129]其中,所述链接地址存储队列中按照链接地址产生时间的先后顺序,存储有多条链接地址,所述目标数量为所述目标页面所能够展示的链接地址的条目数。
[0130]本申请可以预先统计一段时间内网站中新产生的页面的链接地址,进而按照产生时间的先后顺序,将链接地址存储在链接地址存储队列中。可选的,队列中靠前的可以是最新产生的链接地址。
[0131]步骤S520、将多个目标页面的集合确定为目标集合;
[0132]步骤S530、从所述目标集合中抽取一个被爬虫访问次数最多的目标页面,作为待定目标页面;
[0133]步骤S540、从抽取的目标数量条的链接地址中抽取最新产生的Y条链接地址,Y为所述待定目标页面所能够展示的链接地址的条目数;
[0134]具体地,抽取Y条链接地址后,则目标数量条的链接地址将会减少Y条链接地址,再次抽取时将会从剩余的链接地址中进行抽取。
[0135]步骤S550、将抽取的Y条链接地址展示在所述待定目标页面上;
[0136]步骤S560、判断所述目标集合内是否还存在目标页面,若是,执行步骤S570,若否,退出;
[0137]具体地,经过上述步骤S530抽取目标页面后,目标集合中将会减少一个目标页面,剩余的目标页面组成新的目标集合。
[0138]步骤S570、将目标页面抽取后的目标集合确定为新的目标集合,返回执行步骤S530o
[0139]本实施例公开了一种将目标数量条的链接地址展示在目标页面上的可选实施方式,通过上述实施例的方式,将产生时间最近的链接地址展示在被爬虫访问次数最多的目标页面上,进一步提高了最新产生的页面的链接地址的曝光率。
[0140]下面对本申请实施例提供的网站内链的部署装置进行描述,下文描述的网站内链的部署装置与上文描述的网站内链的部署方法可相互对应参照。
[0141]参见图6,图6为本申请实施例公开的一种网站内链的部署装置结构示意图。
[0142]如图6所示,该装置包括:
[0143]目标页面确定单元60,用于根据爬虫日志记录,确定网站内被爬虫访问的次数超过阈值的目标页面;
[0144]第一链接地址抽取单元61,用于从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址,所述链接地址存储队列中按照链接地址产生时间的先后顺序,存储有多条链接地址,所述目标数量为所述目标页面所能够展示的链接地址的条目数;
[0145]链接地址展示单元62,用于将抽取的目标数量条的链接地址展示在所述目标页面上。
[0146]本申请实施例提供的网站内链部署装置,首先根据爬虫日志记录,确定出网站内被爬虫访问的次数超过阈值的目标页面,目标页面属于爬虫比较青睐访问的页面,然后从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址,其中链接地址存储队列中按照新页面的链接地址产生时间的先后顺序,存储有多条链接地址,而目标数量为目标页面所能够展示的链接地址的条目数,最后将抽取出的目标数量条的链接地址展示在目标页面上。本申请通过确定出爬虫青睐访问的目标页面,进而将最新产生的链接地址展示在目标页面上,使得最新产生的链接地址更加容易被爬虫所抓取,提高了新页面的链接地址的曝光率。
[0147]可选的,本申请实施例公开了上述网站内链部署装置的另一种可选结构,结合图6和图7可知,该装置还可以包括:
[0148]爬虫访问响应单元63,用于在检测到爬虫访问所述目标页面后,确定爬虫抓取的N条链接地址;
[0149]第二链接地址抽取单元64,用于从最新的链接地址存储队列中抽取最新产生的N条链接地址,所述最新的链接地址存储队列为上一次抽取链接地址后的链接地址存储队列;
[0150]第一链接地址替换单元65,用于利用抽取的N条链接地址替换掉所述爬虫抓取的N条链接地址。
[0151]可选的,本申请实施例公开了上述网站内链部署装置的又一种可选结构,结合图7和图8可知,该装置还可以包括:
[0152]爬虫日志记录单元66,用于在所述检测到爬虫访问所述目标页面后,记录爬虫的访问记录,该访问记录用于更新所述爬虫日志记录。
[0153]可选的,本申请实施例公开了上述网站内链部署装置的又一种可选结构,结合图6和图9可知,该装置还可以包括:
[0154]未访问链接地址
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1