一种站点地域识别方法及系统与流程

文档序号:11180809阅读:353来源:国知局
一种站点地域识别方法及系统与流程

本发明涉及互联网技术领域,尤其涉及一种站点地域识别方法及系统。



背景技术:

站点地域信息指的是一个站点的地域归属信息。作为站点的基础属性,地域信息对站点的抓取、分类、信息提取等多种应用具有重要价值。比如在网站抓取方面,通过对站点地域信息的获取,选择最优抓取节点抓取站点网页,可以大大提高抓取成功率和速度;在搜索引擎的网页排名中,站点地域信息也可以作为一个调权因子,使搜索的排序结果可以满足不同地域用户的精确需求。

dns是域名系统(domainnamesystem)的缩写,是因特网的一项核心服务,可将域名转换成ip地址,这种将域名转换成ip地址的过程被称为域名解析。dns服务使用户可方便地通过域名访问互联网,而无需记住枯燥难记的ip地址。

现有的站点地域识别方法通过人工对站点的地域进行标注。但是互联网上的站点数量庞大,且持续增长,通过人工标注无法完成所有站点的地域识别,且大量的不知名站点的地域信息非人工能简单获取,因此,需要一种自动识别站点地域信息的方法,以满足站点数据处理的需要。



技术实现要素:

本发明所要解决的技术问题是:如何提供一种自动识别站点地域的方法。

为解决上述技术问题,本发明一方面提供一种站点地域识别方法,该方法包括:

根据待识别站点的域名获取待识别站点的ip地址;

根据全球ip地址分配表建立ip地址与站点地域信息的映射表;

查找所述ip地址与站点地域信息的映射表,获取与所述待识别站点的ip地址对应的站点地域信息。

可选地,在所述根据全球ip地址分配表建立ip地址与站点地域信息的映射表之前,还包括:获取全球ip地址分配表。

可选地,所述根据待识别站点的域名获取待识别站点的ip地址,包括:

采用dns服务根据待识别站点的域名解析出待识别站点的ip地址。

可选地,在所述根据全球ip地址分配表建立ip地址与站点地域信息的映射表之后,包括:

根据所述ip地址建立所述映射表的索引;

相应地,所述查找所述ip地址与站点地域信息的映射表,包括:采用二分法查找所述ip地址与站点地域信息的映射表。

可选地,所述查找所述ip地址与站点地域信息的映射表包括:

将所述ip地址与站点地域信息的映射表拆分成多个数据分片;

利用多个计算节点分别读取相应的数据分片进行数据查找。

本发明另一方面提供一种站点地域识别系统,该系统包括:

ip地址获取单元,用于根据待识别站点的域名获取待识别站点的ip地址;

映射表建立单元,用于根据全球ip地址分配表建立ip地址与站点地域信息的映射表;

地域识别单元,用于查找所述ip地址与站点地域信息的映射表,获取与所述待识别站点的ip地址对应的站点地域信息。

可选地,该系统还包括:

ip地址分配表获取单元,用于获取全球ip地址分配表

可选地,所述ip地址获取单元,进一步用于采用dns服务根据待识别站点的域名解析出待识别站点的ip地址。

可选地,该系统还包括:

索引建立单元,用于根据所述ip地址建立所述映射表的索引;

相应地,所述地域识别单元用于采用二分法查找所述ip地址与站点地域信息的映射表。

可选地,所述地域识别单元包括:

映射表拆分模块,用于将所述ip地址与站点地域信息的映射表拆分成多个数据分片;

数据查找模块,用于利用多个计算节点分别读取相应的数据分片进行数据查找。

本发明提供的站点地域识别方法及系统,通过获取到的待识别站点的ip地址查找ip地址与站点地域信息的映射表,获取与所述待识别站点的ip地址对应的站点地域信息,避免了部分站点信息无法通过人工获取的缺陷,实现了自动识别站点地域,方便快捷。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:

图1示出了本发明一个实施例的站点地域识别方法的流程示意图;

图2示出了本发明一个实施例的站点地域识别系统的结构示意图。

具体实施方式

下面将结合附图对本发明的实施例进行详细描述。

图1是本发明一个实施例的站点地域识别方法的流程示意图。如图1所示,本实施例的站点地域识别方法包括:

s11:根据待识别站点的域名获取待识别站点的ip地址;

s12:根据全球ip地址分配表建立ip地址与站点地域信息的映射表;

s13:查找所述ip地址与站点地域信息的映射表,获取与所述待识别站点的ip地址对应的站点地域信息。

本实施例的站点地域识别方法,通过获取到的待识别站点的ip地址查找ip地址与站点地域信息的映射表,获取与所述待识别站点的ip地址对应的站点地域信息,避免了部分站点信息无法通过人工获取的缺陷,实现了自动识别站点地域,方便快捷。

在一种可选的实施方式中,在所述根据全球ip地址分配表建立ip地址与站点地域信息的映射表之前,还包括:获取全球ip地址分配表。

在实际应用中,可以从全球ip地址分配委员会官方地址获取全球ip地址分配表,该全球ip地址分配表会定期更新。

进一步地,所述根据待识别站点的域名获取待识别站点的ip地址,包括:

采用dns服务根据待识别站点的域名解析出待识别站点的ip地址。

在实际应用中,采用dns服务解析ip地址的过程为:

客户端的发起包含有待解析域名的请求包,如果客户端缓存中没有该域名对应的ip地址,客户端会向本地dns服务器发起dns查询请求,如果本地dns服务器仍旧没有该域名对应的ip地址,则本地dns服务器会向递归服务器发起递归查询请求,递归服务器在接到递归查询请求后,会查看自己的缓存中是否有所查询的内容,若有,则直接响应本地dns服务器,若缓存中没有,则由递归服务器向根服务器发起查询请求,根服务器向递归服务器发送该域名对应的权威服务器的地址,递归服务器接收到该权威服务器的地址后,会向该权威服务器发起查询请求,直至权威服务器向递归服务器返回该域名对应的ip地址,递归服务器将该ip地址反馈给客户端, 完成了一次域名解析的过程。

为了提高查找所述映射表的效率,在所述根据全球ip地址分配表建立ip地址与站点地域信息的映射表之后,包括:

根据所述ip地址建立所述映射表的索引;

相应地,所述查找所述ip地址与站点地域信息的映射表,包括:采用二分法查找所述ip地址与站点地域信息的映射表。

进一步地,所述查找所述ip地址与站点地域信息的映射表包括:

将所述ip地址与站点地域信息的映射表拆分成多个数据分片;

利用多个计算节点分别读取相应的数据分片进行数据查找。

需要说明的是,将映射表拆分成多个数据分片,利用多个计算节点进行并行查找也提高了查找映射表的效率。本实施例的站点地域识别方法实现了自动、高效识别站点地域。

图2示出了本发明一个实施例的站点地域识别系统的结构示意图。如图2所示,本实施例的站点地域识别系统包括:

ip地址获取单元21,用于根据待识别站点的域名获取待识别站点的ip地址;

映射表建立单元22,用于根据全球ip地址分配表建立ip地址与站点地域信息的映射表;

地域识别单元23,用于查找所述ip地址与站点地域信息的映射表,获取与所述待识别站点的ip地址对应的站点地域信息。

在一种可选的实施方式中,该系统还包括:

ip地址分配表获取单元,用于获取全球ip地址分配表

ip地址获取单元31,进一步用于采用dns服务根据待识别站点的域名解析出待识别站点的ip地址。

进一步地,该系统还包括:

索引建立单元,用于根据所述ip地址建立所述映射表的索引;

相应地,地域识别单元23用于采用二分法查找所述ip地址与站点 地域信息的映射表。

进一步地,地域识别单元23包括:

映射表拆分模块,用于将所述ip地址与站点地域信息的映射表拆分成多个数据分片;

数据查找模块,用于利用多个计算节点分别读取相应的数据分片进行数据查找。

本实施例的站点地域识别系统可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。

本发明提供的站点地域识别方法及系统,通过获取到的待识别站点的ip地址查找ip地址与站点地域信息的映射表,获取与所述待识别站点的ip地址对应的站点地域信息,避免了部分站点信息无法通过人工获取的缺陷,实现了自动识别站点地域,方便快捷。

虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1