一种网站内链的部署方法及装置的制造方法_2

文档序号:9432740阅读:来源:国知局
展示单元结构示意图。
【具体实施方式】
[0058]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0059]参见图1,图1为本申请实施例公开的一种网站内链的部署方法流程图。
[0060]如图1所示,该方法包括:
[0061]步骤S100、根据爬虫日志记录,确定网站内被爬虫访问的次数超过阈值的目标页面;
[0062]通过分析爬虫日志记录,确定出一段时间内,网站内各个网页被爬虫访问的次数。进而,将访问次数超过阈值的页面确定为目标页面。这部分目标页面作为最新产生的链接地址的曝光入口。
[0063]可以理解的是,目标页面的个数可以是一个或多个。
[0064]步骤S110、从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址;
[0065]其中,所述链接地址存储队列中按照链接地址产生时间的先后顺序,存储有多条链接地址,所述目标数量为所述目标页面所能够展示的链接地址的条目数。
[0066]本申请可以预先统计一段时间内网站中新产生的页面的链接地址,进而按照产生时间的先后顺序,将链接地址存储在链接地址存储队列中。可选的,队列中靠前的可以是最新产生的链接地址。
[0067]实际应用中,一个页面所能够展示的链接地址的条目数是有规定的,因此本申请在确定出目标页面后可以进一步确定出目标页面所能够展示的链接地址的条目数,进而从链接地址存储队列中抽取最新产生的目标数量条的链接地址。
[0068]步骤S120、将抽取的目标数量条的链接地址展示在所述目标页面上。
[0069]本申请实施例提供的网站内链部署方法,首先根据爬虫日志记录,确定出网站内被爬虫访问的次数超过阈值的目标页面,目标页面属于爬虫比较青睐访问的页面,然后从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址,其中链接地址存储队列中按照新页面的链接地址产生时间的先后顺序,存储有多条链接地址,而目标数量为目标页面所能够展示的链接地址的条目数,最后将抽取出的目标数量条的链接地址展示在目标页面上。本申请通过确定出爬虫青睐访问的目标页面,进而将最新产生的链接地址展示在目标页面上,使得最新产生的链接地址更加容易被爬虫所抓取,提高了新页面的链接地址的曝光率。
[0070]在本申请的另一个实施例中,公开了上述网站内链部署方法的另一种可选方案,参见图2,图2为本申请实施例公开的另一种网站内链的部署方法流程图。
[0071 ] 如图2所示,该方法包括:
[0072]步骤S200、根据爬虫日志记录,确定网站内被爬虫访问的次数超过阈值的目标页面;
[0073]通过分析爬虫日志记录,确定出一段时间内,网站内各个网页被爬虫访问的次数。进而,将访问次数超过阈值的页面确定为目标页面。这部分目标页面作为最新产生的链接地址的曝光入口。
[0074]可以理解的是,目标页面的个数可以是一个或多个。
[0075]步骤S210、从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址;
[0076]其中,所述链接地址存储队列中按照链接地址产生时间的先后顺序,存储有多条链接地址,所述目标数量为所述目标页面所能够展示的链接地址的条目数。
[0077]本申请可以预先统计一段时间内网站中新产生的页面的链接地址,进而按照产生时间的先后顺序,将链接地址存储在链接地址存储队列中。可选的,队列中靠前的可以是最新产生的链接地址。
[0078]实际应用中,一个页面所能够展示的链接地址的条目数是有规定的,因此本申请在确定出目标页面后可以进一步确定出目标页面所能够展示的链接地址的条目数,进而从链接地址存储队列中抽取最新产生的目标数量条的链接地址。
[0079]步骤S220、将抽取的目标数量条的链接地址展示在所述目标页面上;
[0080]步骤S230、在检测到爬虫访问所述目标页面后,确定爬虫抓取的N条链接地址;
[0081]爬虫在访问目标页面时,有可能将目标页面上所有的链接地址均进行了抓取,也有可能仅抓取了部分链接地址。因此,本步骤中确定出爬虫抓取的N条链接地址。被爬虫抓取的链接地址可以看作进行了曝光的链接地址。
[0082]步骤S240、从最新的链接地址存储队列中抽取最新产生的N条链接地址;
[0083]其中,所述最新的链接地址存储队列为上一次抽取链接地址后的链接地址存储队列。具体地,每次从链接地址存储队列中抽取链接地址之后,被抽取的链接地址将从链接地址存储队列中删除,剩余的链接地址组成的链接地址存储队列即为最新的链接地址存储队列。
[0084]举例如,链接地址存储队列中有abcdefg—共7个链接地址。第一次抽取了 abc三个链接地址,则抽取后的最新的链接地址存储队列为defg。
[0085]步骤S250、利用抽取的N条链接地址替换掉所述爬虫抓取的N条链接地址。
[0086]由于步骤S230中已经确定出爬虫抓取过的N条链接地址,因此为了提高新页面链接地址的曝光率,将已经被抓取过的这N条链接地址从目标页面上删除掉,并利用最新抽取的N条链接地址补充到目标页面上。
[0087]相比于上一实施例,本实施例中实时监控爬虫的抓取记录,及时将爬虫抓取过的链接地址从目标页面上删除掉,并从链接地址存储队列中抽取对应数目的新的链接地址,补充到目标页面上,进一步提高了新页面的链接地址的曝光率。
[0088]在本申请的又一个实施例中,公开了上述网站内链部署方法的又一种可选方案,参见图3,图3为本申请实施例公开的又一种网站内链的部署方法流程图。
[0089]如图3所示,该方法包括:
[0090]步骤S300、根据爬虫日志记录,确定网站内被爬虫访问的次数超过阈值的目标页面;
[0091]通过分析爬虫日志记录,确定出一段时间内,网站内各个网页被爬虫访问的次数。进而,将访问次数超过阈值的页面确定为目标页面。这部分目标页面作为最新产生的链接地址的曝光入口。
[0092]可以理解的是,目标页面的个数可以是一个或多个。
[0093]步骤S310、从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址;
[0094]其中,所述链接地址存储队列中按照链接地址产生时间的先后顺序,存储有多条链接地址,所述目标数量为所述目标页面所能够展示的链接地址的条目数。
[0095]本申请可以预先统计一段时间内网站中新产生的页面的链接地址,进而按照产生时间的先后顺序,将链接地址存储在链接地址存储队列中。可选的,队列中靠前的可以是最新产生的链接地址。
[0096]实际应用中,一个页面所能够展示的链接地址的条目数是有规定的,因此本申请在确定出目标页面后可以进一步确定出目标页面所能够展示的链接地址的条目数,进而从链接地址存储队列中抽取最新产生的目标数量条的链接地址。
[0097]步骤S320、将抽取的目标数量条的链接地址展示在所述目标页面上;
[0098]步骤S330、在检测到爬虫访问所述目标页面后,确定爬虫抓取的N条链接地址;
[0099]爬虫在访问目标页面时,有可能将目标页面上所有的链接地址均进行了抓取,也有可能仅抓取了部分链接地址。
[0100]步骤S340、记录爬虫的访问记录;
[0101 ] 具体地,该访问记录用于更新所述爬虫日志记录。通过一段时间内的爬虫的访问记录,可以对爬虫日志记录进行更新,进而对步骤S300所确定的目标页面进行更新。
[0102]步骤S350、从最新的链接地址存储队列中抽取最新产生的N条链接地址;
[0103]其中,所述最新的链接地址存储队列为上一次抽取链接地址后的链接地址存储队列。
[0104]步骤S360、利用抽取的N条链接地址替换掉所述爬虫抓取的N条链接地址。
[0105]相比于上一实施例,本实施
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1