一种建立CDN厂家基础知识库的方法与流程

文档序号:16537450发布日期:2019-01-08 20:01阅读:334来源:国知局
一种建立CDN厂家基础知识库的方法与流程

本发明涉及互联网技术领域,特别涉及一种建立cdn厂家基础知识库的方法。



背景技术:

互联网迅猛发展,cdn作为一种为最终用户提供快速网页浏览、视频播放和文件下载的内容分发技术,在互联网中占据越来越重要的地位。本发明的技术方法,基于编写简单的爬虫工具、结合工信部已建的全国dns信息安全管理系统中采集的域名和ip地址数据、采用字典表关联、cname聚类、ip分散度分析、备案库查询、whois查询等综合技术,构建了较为完整的cdn厂家的子网域名和节点ip地址知识库,对于从整体上掌握cdn行业的发展和行业管理起到了很好的技术支撑作用。



技术实现要素:

为了更有效地对cdn厂家基础资源,包括cdn子网域名、节点ip地址、接入点数量、接入点所在国家/地区等进行准确的掌握,从而从整体上支持cdn行业发展和行业管理,本发明提出了一种建立cdn厂商基础知识库的方法。

本发明的技术方案如下:

通过爬虫主动爬取https://www.cdnplanet.com网站,获得cdn厂家信息;

通过dns信安系统被动采集全国解析的域名和ip地址信息;

针对域名进行字典表关联、cname聚类、ip分散度判别,从而形成cdn子网域名列表,并标定相应的相似度;

针对cdn子网域名列表通过字典表关联、备案查询、whois查询、人工判别等手段,建立与cdn厂家的关联关系;

基于以上数据,建立cdn厂家基础资源库,具体包括:厂家名称、cdn子网域名、cdn节点ip、cdn节点所在国家、cdn节点所在地点,通过统计汇总可以分析出每个cdn厂家的节点数、分布情况、业务量(接入的加速域名数量)等行业管理急需的基础数据。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的建立cdn厂商基础知识库的方法的流程图。

图2为本发明实施例中的cdn厂商信息采集的流程示意图。

图3为本发明实施例中的域名解析信息采集的流程示意图。

图4为本发明实施例中的cdn子网域名判别的流程示意图。

图5为本发明实施例中的字典表管理的流程示意图。

图6为本发明实施例中的字典表样例的示意图。

图7为本发明实施例中的域名数量聚类的计算流程图。

图8为本发明实施例中的ip分散度的计算流程图。

图9为本发明实施例中的cdn厂商数据关联的流程图。

具体实施方式

1、定义

1.1域名(domainname)

本发明方法中所指的域名(domainname)是指,由一串用点分隔的名字组成的互联网上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。域名采用分级结构,最高级为根域名,其次为顶级域名,再次为一级域名,二级域名,三级域名等。如.为根域名,.com、.cn为顶级域名,google.com为一级域名,www.google.com为二级域名。

1.2cdn(contentdeliverynetwork)

本发明方法中所指的cdn是指提供内容加速服务的一种互联网技术。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络,cdn系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上。其目的是使用户可就近取得所需内容,解决internet网络拥挤的状况,提高用户访问网站的响应速度。一般来说,采用cname的方式来实现cdn加速技术是一种常见的技术,cname的原理是,被加速域名在现有域名解析体系中不保留a记录,而只是保留cname记录,而cname记录对应的真实ip地址由cdn网络依据实际情况动态解析出来,返回给最终的用户。如www.google.com是通过阿卡曼cdn加速的,它的cname为www.google.com.akamaized.net

1.3cdn厂家

本发明方法中所指的cdn厂家,是指运营cdn业务的企业、个人或组织。如阿卡曼、阿里、腾讯等。cdn厂家运营cdn网络一般需要申请单独的cdn域名,该域名所属的命名空间均为该域名加速的范围,构成了一个逻辑上相对独立的网络空间,因此,一般也把cdn域名叫做子网域名。一般来说,为了达到大部分用户良好的客户感受度,一个cdn域名(子网域名)会对应多台地域分散的物理服务器,为最近的用户提供互联网服务。这些服务器都有独立的ip地址,每一个独立的ip地址叫做该子网的一个加速节点。

1.4cdn域名(子网域名)

本发明方法中所指的cdn域名,也叫子网域名,是指cdn厂家运营的用于cdn加速的相对独立的有相同cname后缀域名的域名。例如,阿卡曼运营的akamaized.net、akamai.net均为其cdn域名,每个cdn域名下都可以接入很多被加速的网站域名。

1.5节点

本发明方法中所指的节点是指cdn网络中在同一个子网内的物理服务器对应的一个ip地址。一般而言一个物理服务器至少对应一个ip地址,有时会有多个ip地址,这时我们把它看作多个节点。

1.6dns信安系统

本发明方法中所指的dns信安系统是指由工信部建设的部、省、企业三级采集监测和信安处置系统,支持基础资源上报、解析域名和ip采集、信息安全监测、信息安全处置、访问日志留存等功能。

1.7cdn厂商基础知识库

本发明方法中所指的cdn厂商基础知识库是指本发明方法建立的知识库,包括:cdn厂商名称、cdn子网域名、cdn节点ip、cdn节点所在国家、cdn节点所在地点等基本知识库,以及由基本知识库通过统计汇总可以得到的每个cdn厂家的节点数、分布情况、业务量等知识数据。

2、cdn厂商基础知识库建立方法

如图1所示,本发明实施例所公开的建立cdn厂商基础知识库的方法,包括如下步骤:

步骤101、通过爬虫主动爬取https://www.cdnplanet.com网站,获得cdn厂家信息;

步骤102、通过dns信安系统被动采集全国解析的域名和ip地址信息;

步骤103、针对域名进行字典表关联、cname聚类、ip分散度判别,从而形成cdn子网域名列表,并标定相应的相似度;

步骤104、针对cdn子网域名列表通过字典表关联、备案查询、whois查询、人工判别等手段,建立与cdn厂家的关联关系;

步骤105、基于以上数据,建立cdn厂家基础资源库,具体包括:厂家名称、cdn子网域名、cdn节点ip、cdn节点所在国家、cdn节点所在地点,通过统计汇总可以分析出每个cdn厂家的节点数、分布情况、业务量(接入的加速域名数量)等行业管理急需的基础数据。

下面来对上述各个步骤的具体过程进行详细描述。

2.1cdn厂商信息采集算子

cdn厂商采集算子的计算流程见附图1。

参照图1所示,cdn厂商采集算子每天(可根据系统需要进行调整)连接一次网站https://www.cdnplanet.com,从“selectfromallcountries”中依次选择每个国家,针对每个国家的连接页面爬取cdn厂商的列表信息,包括:cdn、popcount、poplocations,然后将所有信息汇总为一个关于cdn厂商的总表l1,包括:cdn厂商,对应cdn字段、所在国家,对应“selectfromallcountries”中选择的国家、所在地点,对应poplocations字段、节点数量,对应popcount字段。

2.2域名解析信息采集算子

域名解析信息采集算子每天(可根据系统需要进行调整)从dns信安系统中同步一次全国的域名解析数据,并加上当前时间标签,形成本地的域名解析数据库d1。

域名解析信息采集算子的具体流程见附图2。

通过定时器设定采集的时间,定时器时间到,通过接口访问dns信安系统,并获取全国的域名解析数据,包括:域名、ip地址类型、ip地址、存货时间、最近上报时间,之后将数据保存在本地,形成本地域名解析库d1,包括:域名、ip地址类型、ip地址、存货时间、最近上报时间、入库时间。然后等待下一个计时器触发,再次爬取,如此循环。

2.3cdn子网域名判定算子

cdn子网域名判定算子的总体计算流程见附图3。

cdn子网域名判定算子根据d1中的所有域名,首先调用字典表关联算子,将d1中所有域名划分为匹配成功的集合d2和匹配不成功的集合d3,把已知的cdn子网域名相关联的域名滤除,然后针对剩余的域名,也即依据d3中的所有域名,调用域名数量聚类算子进行计算,生成一个森林f1,之后按照系统配置的策略,对数量明显偏少的树和节点进行裁剪,对f1中每棵树的每个结点进行cdn域名相似度的判定,得到判定森林f2,在对f2中的每个节点对应的域名下挂的域名进行ip分散度检测算子的判别,剔除分散度太低的节点后生成森林f3,最后基于f3,将f3中每棵树的每个叶子节点信息捡摘出来,生成cdn子网域名列表库d4。

字典表关联算子的计算流程见附图4。

针对字典表中每一个cdncname与d1中每个域名进行子串右匹配,如匹配成功,则将域名加入d2中,如匹配失败,则将域名加入d3中。字典表的样例见附图5。cname指别名记录也被称为规范名字,这种记录允许将多个名字映射到同一台计算机。所述子串右匹配是指:首先被查询的字符串要比待查询的字符串(也叫目标字符串)长,也就是说,目标字符串是被查询字符串的严格真子串;右匹配是指从字符串的右侧开始向左匹配;比如(1)目标字符串hichina.com、被查询字符串www.baidu.com.hichina.com,这样按照子串右匹配就匹配上了。(2)目标字符串hichina.com、被查询字符串hichina.com不认为匹配上,因为不是真子串。(3)目标字符串hichina.com、被查询字符串www.baidu.com.hichina.com.cdncache.com也不认为匹配上,因为不是右匹配。

域名数量聚类算子的计算流程见附图6。

首先,提取d3中所有的一级域名、二级域名、三级域名,形成待判定的cdn子网域名总表r1;针对r1中每个域名按照子串右匹配算法与d3中所有域名进行比较,并记录命中数量,以及与其关联的域名集合,该集合实质为d3的一个子集;然后,针对r1中所有的cdn子网域名按照域名的层级关系进行关联,形成一个森林f0,f0由很多树构成,每棵树最高为3层,根为最高的一级的域名,二级节点为根的下一级域名,三级节点为二级节点的下一级域名,每个节点具有两个属性:域名和聚类到该域名上的域名数量(也即该域名为空间的所有d3中域名总数);最后,针对f1中的每棵树从树根开始递归数量裁剪操作,即树根对应的域名数量减去其所有直接子节点对应的域名数量之和作为新的树根对应的域名数量,下一级节点以此类推。所有节点都进行完操作后的森林计为f1,f1由很多树构成,每棵树最高为3层,根为最高的一级的域名,二级节点为根的下一级域名,三级节点为二级节点的下一级域名,每个节点具有两个属性:域名和聚类到该域名上的域名数量(不含其下级域名聚类的数量)。

系统配置策略是依据经验值设定的数量区间,一般来说,cdn加速的域名数量不会太少,因此,在区间集合下限以下的cdn子网域名可以裁剪掉,在区间以上的可能性更大,在区间中的可能性较大。依据经验,本发明方法确认的数量区间为[500,2000],区间对应的cdn域名相似度为{20%,50%,70%},实际应用时,可以设置更为细致的区间集合和相似度集,用户可以依据情况进行调整。

ip分散度是对以上步骤中判断为相似度50%(含)以上的t2中每颗树的每个节点的域名在d3中相关联的ip地址数量、地域分布情况等进行判别,如果ip地址数量较多、地域分布较广,则相应cdn域名的相似度应该进行提高,即相应cdn域名更为可能是真正的cdn加速域名。

ip分散度检测算子的计算流程见附图7。其中的置信区间和系数集合均可以依据实际数据测试结果进行调整。

首先,针对f2中每个cdn域名检测其下挂域名(随机抽取m个)的ip地址关联数量,计为n1、n2、…、nm,计算平均数量num=(n1+n2+…nm)/m,设置信区间[5,10],对应的ip地址数量系数为lambda1∈{0.8,1.0,1.2};

其次,针对以上ip地址判断其所属地域,并记录不同的地域数为s1、s2、…、sm,计算平均数量sum=(s1+s2+…+sm)/m,设置信区间[3,6],对应的ip地址数量系数为lambda2∈{0.8,1.0,1.2};

该cdn域名判断ip分散度指数为lambda=lambda1*lambda2;

该cdn域名的相似度最终判定为其原有相似度*lambda;

f2中所有节点都按照以上过程处理完成之后,剔除掉70%以下相似度的节点后形成的森林为f3。

2.4cdn厂家关联算子

cdn厂商关联算子的计算流程见附图8。

cdn厂家关联算子首先基于字典表中的cdn域名对d4中的cdn域名进行关联,关联上cdn厂家,然后将l1表中cdn厂家的相关信息关联上;然后针对d4中剩余的cdn域名查询备案库,并关联相关厂家信息;再对d4中剩余的cdn域名通过whois查询关联上相关厂家信息;最后对d4中剩余的cdn域名进行人工标注厂家信息,也可以对上面两步中的个别数据进行人工核验修正;经过以上处理的d4中的cdn域名都可以关联上厂家信息(个别无法判断的,设置为空)、ip地址信息、国家信息、接入地信息(ip地址所在地),形成最终的cdn厂商基础信息知识库d5,d5中的数据包含:厂家名称、cdn子网域名、cdn节点ip、cdn节点所在国家、cdn节点所在地。

本发明公开的方法能够较为全面地发现cdn厂商的加速节点,并建立cdn厂商子网域名、加速节点ip地址等基础知识库,从而为cdn业务的行业发展和有效管理提供一定的技术支撑。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1