一种快速查询网站搜录信息的系统及方法与流程

文档序号:12034845阅读:881来源:国知局
一种快速查询网站搜录信息的系统及方法与流程

本发明属于互联网搜索设计技术领域,涉及爬虫爬取技术,具体为一种快速查询网站搜录信息系统及方法。



背景技术:

当前我国中小企业已超过5000多万户,占全国企业总数的99%以上,中小企业创造的最终产品和服务的价值已占国内生产总值近6成,提供的城镇就业岗位已占到75%,已成为我国目前及未来最具活力的经济成分。随着互联网的发展,这些中小企业基本上都需要在网上建立发布自己的产品和服务的网站。在传统的网站开发流程中,“客户网站制作完成”意味着网站所有页面、产品、文章等基础数据制作完成,但网站后期的运营情况、网站搜录情况、网站关键词选择是否需要优化等方面都不再被关注。

实际上,网站所用者制作网站的本意是想让搜索引擎搜录自己的网站,然后世界各地的人都能够通过在搜索引擎上搜索某个词,能够更好更快地定位网站,从而帮助网站获取更多流量;然而,很多网站在完成制作、并发布后,网站所有者很长一段时间并不清楚网站被搜录的情况以及自己选择的关键词在搜索引擎上的月排名搜索量、cpc(costperclick,平均点击费用)、竞争度、kei(keyperformanceindicators,关键绩效指标)等搜录信息。搜索引擎(searchengine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统或软件模块。采用api应用程序编程接口(一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力)。

因而,如何帮助网站所有者及时且快速地获取网站搜录信息,成为当前技术突破的关键。



技术实现要素:

为解决上述问题,本发明目的是,提供一种快速查询网站搜录信息的系统及方法,通过对客户网站关键词抓取分析,获取客户网站的所有关键词,然后通过模拟用户搜索的方式,获取客户网站的关键词在对应的搜索引擎的搜录信息内容,最后再通过调用搜索引擎对应的api来获取单一关键词的月平均搜索量、cpc(costperclick,平均点击费用)、竞争度、kei(keyperformanceindicators,关键绩效指标)等等;

本发明采用的技术方案是:

一种快速查询网站搜录信息的系统,查询网站搜录信息的系统包括网站关键词查询系统、关键词分配系统、关键词搜录查询系统以及关键词搜录统计系统,所述网站关键词查询系统在获取到网站关键词后,由关键词分配系统将关键词分配至各个服务器,所述关键词搜录查询系统根据服务器内的关键词,向搜索引擎发出请求,并通过分析返回的数据获取关键词搜录情况,所述关键词搜录统计系统归纳并统计获取到的关键词搜录数据,形成关键词统计报表;

所述各个服务器包含应用服务器和代理服务器,应用服务器支撑实际程序运行,代理服务器支撑访问搜索引擎;

所述网站关键词查询系统,通过利用有查询搜录需求的网站地址,搜集并存储网站内允许被搜索引擎搜录页面的关键词;

所述关键词分配系统,用于监控各个应用服务器和代理服务器的关键词请求运行情况,其主要的功能包括:(1)将未被分配的关键词分配给空闲的代理服务器,并将这些关键词置为“已分配状态”;(2)将已降权的代理服务器中未进行搜索引擎调用的关键词置为“未搜索状态”;(3)监控将被降权的代理服务器在增权后是否达到调用搜索引擎的标准,将达至标准的代理服务器状态设置为“可用状态”;

所述关键词搜录查询系统,通过采用“模拟人工请求”和“机器权值控制”的方式,以关键词作为搜索条件,通过分析返回的搜索结果,获取网站关键词在搜索引擎中的搜录情况;

所述关键词搜录统计系统,用于在客户网站关键词搜录查询完之后对此次数据进行统计处理,采用map-reduce(映射-化简)的方式,对关键词进行归纳总结,生成关键词统计曲线图以及关键词统计列表,可以对客户的关键词进行系统的比较和查看;

一种快速查询网站搜录信息的方法,具体步骤包括:

步骤1:网站关键词获取;由网站关键词查询系统执行;具体为:通过网站地址获取网站的robots文件及网站的sitemap文件,遍历robots文件和sitemap文件中的数据,提取网站允许搜索引擎搜录的链接信息;

根据链接信息,获取链接对应的html信息,分析html内容,找到html中的<metaname=”keywords”content=”xxx”>标记,其中标签中content对应的xxx为对应链接的关键词内容,并以符号“,,\|;;、.。”作为切割依据,通过对关键词内容进行分词拆分,并过滤无效词组,提取核心词组;

进一步地,以核心词组为基础,在核心词组之前和之后添加新词,组合成为衍生词组;

所述核心词组和所述衍生词组是最终搜索引擎搜录查询的关键词数据,将此数据存储到存储介质中,为关键词分配系统和搜录查询系统做准备;

特别地,若没有robots文件,默认是所有页面全部抓取;

步骤2:网站关键词分配;应用服务器通过代理服务器代理访问搜索引擎并请求分配关键词,由关键词分配系统执行;具体包括:

步骤201:轮询所有“服务状态为空闲”的代理服务器,判断代理服务器权值是否超过预设的关键词搜录最小权值,若大于最小权值,转步骤202;若小于最小权值,转步骤203;

步骤202:如果大于关键词搜录最小权值,将未被分配的关键词分配给空闲的服务器,并将这些关键词置为已分配状态;

步骤203:如果小于关键词搜录最小权值,查看该服务器上一次增加权值时间,如果上一次增加权值时间距离当前时间大于或等于预设的权值增加时间,则在当前服务器权值的基础上增加权值;如果增加后的机器权值大于或等于最低关键词搜录权值则分配部分关键词给当前机器,如果增加后还是低于最低关键词搜录权值,则轮询下一个空闲代理服务器;

步骤3:关键词搜录查询,由关键词搜录查询系统执行:轮询已分配给代理服务器的关键词,通过“模拟人工请求”的方式,以轮询到的关键词作为检索条件,关键词搜录查询系统向搜索引擎发出请求,并根据搜索引擎返回的数据,分别执行指定操作:

步骤3-1:当搜索引擎拒绝访问请求时,服务器被拒访问次数增“1”,同时判断服务器被拒访问次数是否达到峰值;若达到峰值,终止当前应用服务器的访问,将已分配至当前代理服务器中未完成搜录信息查询的关键词置为“未分配”状态,代理服务器的权值=当前代理服务器的权值/2;若没有达到峰值,代理服务器进入休眠状态,待休眠结束后再次向搜索引擎发出请求;

当代理服务器因达到服务器被拒访问峰值而导致降权时,为避免搜索引擎察觉服务器频繁访问,默认至少1个小时以上后才能再次进行“关键词搜录查询”;每一次的权值增加根据服务器恢复工作状态的速度来设定,以1个小时作为计算依据,即根据最小权值和服务器当前权值的差值,将差值均匀分配在1个小时内;

特别地,当代理服务器被搜索引擎拒绝且被拒次数达到指定峰值时,在服务器权值不为0时,新权值=当前权值/2,并记录当前减权时间;每隔固定的时间,将被降权的服务器权值增加一些权值,如果增加后的服务器权值达到可以调用搜索引擎,则将服务器状态置为可用状态,否则等待下一次轮询到该服务器时增加权值判断;

特别地,当代理服务器被搜索引擎拒绝且被拒次数达到指定峰值时,在服务器权值为0时,将当前服务器置为“不可用”状态,并告知运维人员;

特别地,被降权的服务器中未进行搜索引擎调用的关键词置为“未搜素”状态;

步骤3-2:当搜索引擎返回正常,关键词搜录查询系统解析返回的网站域名数据集合,返回的网站域名数据集合以“多页的html网页页面”的形式呈现;在第一个html页面中,分析有查询搜录需求的网站地址是否在返回的网站域名数据集合中,如果有则将当前返回的网站域名数据存储在存储介质中;如果没有则调用下一个html页面中的网站域名数据集合进行分析,直到搜索有查询搜录需求的网站地址或直到最后一个html页面为止;经搜录查询完成的关键词,变更关键词的搜录状态为“已完成”,关键词所在代理服务器的服务器被拒访问次数减“1”;

针对搜录状态为“已完成”的关键词,通过调用搜索引擎的api接口获取关键词的月排名搜索量、cpc(costperclick,平均点击费用)、竞争度、kpi(keyperformanceindicators,关键绩效指标)

特别地,服务器休眠期随服务器被拒访问次数智能变化,服务器被拒访问次数,服务器进入休眠期的时间段越长;

步骤4:关键词统计,由关键词搜录统计系统执行;具体为:在网站关键词搜录查询完毕后,对此次数据进行统计处理,采用map-reduce(映射-化简)的方式,对关键词进行归纳总结,生成关键词统计曲线图以及关键词统计列表,可以对关键词进行系统的比较和查看。

本发明具有如下的有益效果:

(1)本发明通过抓取网站robots文件及sitemap文件获得网站的所有关键词,综合利用模拟人工搜索和权值控制的方式,模拟浏览器请求获得搜索引擎返回结果,实现自动并快速地抓取网站关键词被搜索引擎搜录的信息,及时并清楚地了解网站关键词在搜索引擎中的排名效果;

(2)本发明通过为服务器配置权值,以控制服务器权值的方式,控制网站关键词在服务器中的分配及服务器调用搜索引擎的操作,形成科学且有效的关键词抓取及检索搜录体系,帮助网站管理者便捷且快速地掌握网站搜录情况,进而及时优化网站关键词;

附图说明

图1为本发明实施例中一种快速查询网站搜录信息的系统结构图;

图2为本发明实施例中一种快速查询网站搜录信息的方法实现流程图;

图3为本发明实施例中网站关键词分配流程示意图

图4本发明实施例中关键词搜录查询流程示意图

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明实施例中一种快速查询网站搜录信息的系统结构图,包括服务器101、网站关键词查询系统102、关键词分配系统103、关键词搜录查询系统104以及关键词搜录统计系统105,所述网站关键词查询系统102在获取到网站关键词后,由关键词分配系统103将关键词分配至各个服务器101,所述搜录查询系统104根据服务器101内的关键词,向搜索引擎发出请求,并通过分析返回的数据获取关键词搜录情况,所述关键词搜录统计系统105归纳并统计获取到的关键词搜录数据,形成关键词统计报表;

所述服务器101包含应用服务器101-1和代理服务器101-2,应用服务器101-1支撑实际程序运行,代理服务器101-2支撑访问搜索引擎;

所述网站关键词查询系统102,通过利用有查询搜录需求的网站地址,搜集并存储网站内允许被搜索引擎搜录页面的关键词;

所述关键词分配系统103,用于监控各个应用服务器和代理服务器的关键词请求运行情况,其主要的功能包括:(1)将未被分配的关键词分配给空闲的代理服务器,并将这些关键词置为“已分配状态”;(2)将已降权的代理服务器中未进行搜索引擎调用的关键词置为“未搜索状态”;(3)监控将被降权的代理服务器在增权后是否达到调用搜索引擎的标准,将达至标准的代理服务器状态设置为“可用状态”;

所述关键词搜录查询系统104,通过采用“模拟人工请求”和“机器权值控制”的方式,以关键词作为搜索条件,通过分析返回的搜索结果,获取网站关键词在搜索引擎中的搜录情况;

所述关键词搜录统计系统105,用于在客户网站关键词搜录查询完之后对此次数据进行统计处理,采用map-reduce(映射-化简)的方式,对关键词进行归纳总结,生成关键词统计曲线图以及关键词统计列表,可以对客户的关键词进行系统的比较和查看;

图2为本发明实施例中一种快速查询网站搜录信息的方法实现流程图,通过对客户网站关键词抓取分析,获取客户网站的所有关键词,然后通过模拟用户搜索的方式,获取客户网站的关键词在对应的搜索引擎的搜录信息内容,最后再通过调用搜索引擎对应的api来获取单一关键词的月平均搜索量、cpc(costperclick,平均点击费用)、竞争度、kei(keyperformanceindicators,关键绩效指标,具体流程包括:

步骤201:网站关键词获取;网站关键词查询系统通过网站地址获取网站的robots文件及网站的sitemap文件,遍历robots文件和sitemap文件中的数据,提取网站允许搜索引擎搜录的链接信息;若没有robots文件,默认是所有页面全部抓取;

根据链接信息,获取链接对应的html信息,分析html内容,找到html中的<metaname=”keywords”content=”xxx”>标记,其中标签中content对应的xxx为对应链接的关键词内容,以“,,\|;;、.。”作为切割依据,对content内容进行拆分,并过滤类似“co.ltd”公司名称等无效词,获取核心词组;进一步地,基于核心词组,在核心词组的词前和词后加限定词,比如china、manufacturer形成衍生词组;

所有的核心词组和衍生词组组成搜索引擎搜索的关键词数据,将此数据存储到存储介质中,为关键词分配系统和搜录查询系统做准备;

步骤202:应用服务器通过代理服务器代理访问搜索引擎并请求分配关键词,由关键词分配系统执行,具体流程参阅图3为本发明实施例中网站关键词分配流程示意图,包括:

步骤201-1:确认应用服务器101-1和代理服务器101-2的数量,并将代理服务器平均分配给应用服务器;

步骤202-2:轮询所有“服务状态为空闲”的代理服务器,判断代理服务器权值是否超过预设的关键词搜录最小权值,若大于最小权值,转步骤202-3;若小于最小权值,转步骤202-4;其中,所述“服务状态为空闲”是指代理服务器的关键词不处于搜录查询中;

步骤202-3:如果大于最小关键词搜录权值,将未被分配的关键词分配给空闲的代理服务器,并将这些关键词置为已分配状态;

步骤202-4:如果小于最小关键词搜录权值,查看该服务器上一次增加权值时间,如果上一次增加权值时间距离当前时间大于或等于预设的权值增加时间,则在当前服务器权值的基础上增加权值;如果增加后的机器权值大于或等于最低关键词搜录权值则分配部分关键词给当前机器,如果增加后还是低于最低关键词搜录权值,则轮询下一个空闲代理服务器。

特别地,当代理服务器被搜索引擎拒绝且被拒次数达到指定峰值时,在服务器权值不为0时,新权值=当前权值/2,并记录当前减权时间;每隔固定的时间,将被降权的服务器权值增加一些权值,如果增加后的服务器权值达到可以调用搜索引擎,则将服务器状态置为可用状态,否则等待下一次轮询到该服务器时增加权值判断;

步骤203:关键词搜录查询,关键词搜录查询系统轮询已分配给代理服务器的关键词,通过“模拟人工请求”的方式,以轮询到的关键词作为检索条件,关键词搜录查询系统向搜索引擎发出请求,并根据搜索引擎返回的数据,分别执行指定操作:

步骤203-1:当搜索引擎拒绝访问请求时,服务器被拒访问次数增“1”,同时判断服务器被拒访问次数是否达到峰值;若达到峰值,终止当前应用服务器的访问,将已分配至当前代理服务器中未完成搜录信息查询的关键词置为“未搜索”状态,代理服务器的权值=当前代理服务器的权值/2;若没有达到峰值,代理服务器进入休眠状态,待休眠结束后再次向搜索引擎发出请求;

当代理服务器因达到服务器被拒访问峰值而导致降权时,为避免搜索引擎察觉服务器频繁访问,默认至少1个小时以上后才能再次进行“关键词搜录查询”;每一次的权值增加根据服务器恢复工作状态的速度来设定,以1个小时作为计算依据,即根据最小权值和服务器当前权值的差值,将差值均匀分配在1个小时内;比如:默认设置的权重为5000,最低分配权重值为4000,当失败时权重变成2500,服务器一个小时后才能再次被分配关键词,每隔3分钟增加一次权重,一个小时的权值增加频次为20(即=60min/3min)则每次增加的权重为1500/20=75,则每次增加75个权重;

步骤203-2:当搜索引擎返回正常,关键词搜录查询系统解析返回的网站域名数据集合,返回的网站域名数据集合以“多页的html网页页面”的形式呈现;在第一个html页面中,分析有查询搜录需求的网站地址是否在返回的网站域名数据集合中,如果有则将当前返回的网站域名数据存储在存储介质中;如果没有则调用下一个html页面中的网站域名数据集合进行分析,直到搜索有查询搜录需求的网站地址或直到最后一个html页面为止;经搜录查询完成的关键词,变更关键词的搜录状态为“已完成”,关键词所在代理服务器的服务器被拒访问次数减“1”;

针对搜录状态为“已完成”的关键词,通过调用搜索引擎的api接口获取关键词的月排名搜索量、cpc(costperclick,平均点击费用)、竞争度、kpi(keyperformanceindicators,关键绩效指标)。

特别地,服务器休眠期随服务器被拒访问次数智能变化,服务器被拒访问次数越多,服务器进入休眠期的时间段越长;

特别地,当代理服务器被搜索引擎拒绝且被拒次数达到指定峰值时,在服务器权值为0时,将当前服务器置为“不可用”状态,并告知运维人员;

特别地,被降权的服务器中未进行搜索引擎调用的关键词置为“未搜素”状态;

步骤204:关键词统计,关键词搜录统计系统执行在网站关键词搜录查询完毕后,对此次数据进行统计处理,采用map-reduce(映射-化简)的方式,对关键词进行归纳总结,生成关键词统计曲线图以及关键词统计列表,可以对关键词进行系统的比较和查看。

所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1