一种基于多路数据接入方式的未备案网站探寻方法及系统的制作方法

文档序号:7807446阅读:247来源:国知局
一种基于多路数据接入方式的未备案网站探寻方法及系统的制作方法
【专利摘要】本发明提供一种基于多路数据接入方式的未备案网站探寻方法及系统,该方法包括如下步骤:通过多路数据接入方式获取域名,筛选出未备案域名形成域名种子库;对未备案域名进行DNS解析,获取对应的IP地址;定位IP地址,得出未备案域名库;通过活动性验证得出未备案网站信息。本发明提供的方法和系统通过多路数据接入方式,能够确保最终得到的未备案网站信息准确、全面,该成果已在未备案网站发现及多语言网站识别系统中得到验证;本发明使用轮询机制,各个模块同时、一直运行,能够保证最终得到的未备案网站信息始终是最新的。
【专利说明】一种基于多路数据接入方式的未备案网站探寻方法及系统

【技术领域】
[0001] 本发明涉及未备案网站探寻业务,具体讲涉及一种基于多路数据接入方式的未备 案网站探寻方法及系统。

【背景技术】
[0002] ICP/IP地址/域名信息备案管理系统的主要任务是收集国内ICP网站和IP地址 的相关信息,实现对ICP/IP的规范管理,为国家互联网的网络安全管理与信息安全监测提 供快速定位的手段,为有关职能部门提供决策基础。
[0003] 未备案网站发现子系统是ICP/IP地址/域名信息备案管理系统的子系统。
[0004] 未备案网站发现子系统的主要任务是实现已经备案的ICP网站的证书的合法性 检测、新的没有备案的ICP网站的自动发现、定位和统计,是ICP/IP地址/域名信息备案管 理系统基础数据提供者,是ICP网站整顿工作得以顺利进行的数据基础。
[0005] 对于未备案网站发现业务的数据来源有多种接入方式,如爬虫主动发现、域名日 志文件等。单一的数据接入方式无法保证数据的全面、准确,并且,任何一种数据接入方式 均有其优点与不足。
[0006] 对于爬虫主动发现接入方式而言,通过种子库爬取更多的域名,优点在于利用互 联网的网络互链结构特点,利用有限的资源抓取更多的域名;不足之处在于无法保证抓取 域名的全面性和及时性,如果此域名在孤岛上,那么将不会被发现。
[0007] 对于域名日志接入方式而言,因为数据从国内主流域名服务器日志取得,优点显 而易见,此种接入方式取得的新域名时效性高,且可以解决孤岛域名的问题;不足之处在于 需要将主要的域名解析服务都涵盖,同时域名必须有人访问过,如果域名服务器不能全涵 盖或者域名未被人访问,那么将丢失大量的域名。
[0008] 因此,通过多路数据接入方式获取,互相补充未备案发现数据,从而提高备案工作 的整体准确性。


【发明内容】

[0009] 为了克服上述现有技术的不足,本发明提供一种基于多路数据接入方式的未备案 网站探寻方法及系统。通过多路数据接入方式自动搜索互联网,发现IP地址在国内的网站 的独立域名,对该域名是否已向备案系统报备进行检测,并将未备案网站信息推送给其直 接接入服务提供者,进而提1? ICP网站备案率。
[0010] 为了实现上述发明目的,本发明采取如下技术方案:
[0011] 本发明的一方面,提供一种基于多路数据接入方式的未备案网站探寻方法,其特 征在于,所述方法包括如下步骤:
[0012] A.通过多路数据接入方式获取域名,筛选出未备案域名形成域名种子库;
[0013] B.对未备案域名进行DNS解析,获取对应的IP地址;
[0014] C.定位IP地址,得出未备案域名库;
[0015] D.通过活动性验证得出未备案网站信息。
[0016] 优选地,步骤A中,所述多路数据接入方式包括网络爬虫接入方式和域名日志接 入方式;通过网络爬虫接入方式获取域名包括如下步骤:
[0017] A-1-1.选取国内十万量级的可访问网站作为种子域名;
[0018] A-1-2.借助网络爬虫,在抓取到的网页中抽取域名;
[0019] A-1-3.将抓取到的域名与现有的域名种子库进行比对、去重;
[0020] A-1-4.将去重后的域名添加进域名种子库,进入下一轮循环;
[0021] 通过域名日志接入方式获取域名包括如下步骤:
[0022] A-2-1.从国内的主流域名服务器获取原始域名日志文件并汇总;所述主流域名 服务器包括各个省份域名服务器和国际出口域名服务器;
[0023] A-2-2.格式化所述原始域名日志文件,找出域名日志文件中每条记录对应的顶级 域名;
[0024] A-2-3.将步骤A-2-2中的所述顶级域名与现有的域名种子库进行比对、去重;
[0025] A-2-4.将去重后的域名添加进域名种子库,进入下一轮循环。
[0026] 优选地,步骤B包括如下步骤:
[0027] B-1.从域名种子库中提取已格式化的网站顶级域名;
[0028] B-2.借助域名服务器,对步骤B-1中得到的顶级域名做域名解析;所述域名服务 器的数目大于1 ;
[0029] B-3.将不同域名服务器得到的IP地址取交集,得到域名对应的IP地址。
[0030] 优选地,步骤C包括如下步骤:
[0031] C-1.将IP地址备案信息表加载到内存;
[0032] C-2.将一条IP地址与IP地址备案信息表信息比对、定位,得到该IP地址对应的 运营商、省份和直接接入者的信息,并排除无法定位的IP所对应的域名;
[0033] C-3.重复步骤C-2,直至结束,得到所述未备案域名库。
[0034] 优选地,步骤D包括如下步骤:
[0035] D-1.生成包含域名信息的任务文件;
[0036] D-2.利用多线程采集域名对应的网页;
[0037] D-3.根据采集结果判断网站的活动性;所述判断包括:若返回的HTTP报文的状态 码为200且能够下载到正常的网页,则判断网站为活动的;否则为不活动的。
[0038] 优选地,所述方法包括排查步骤D中得出的未备案网站信息;所述排查包括:
[0039] (1)阻断页面验证;若某个域名被ISP跳转到拦截页面,则将该域名从未备案网站 信息中剔除;
[0040] (2) IP智能纠错;若域名解析被自动纠正为ISP节点的IP,则将该域名从未备案网 站信息中剔除;
[0041] ⑶域名去重;与已备案网站信息进行比对,将已备案网站信息与未备案网站信 息中出现交集的域名从未备案网站信息中剔除。
[0042] 本发明的另一方面,提供一种基于多路数据接入方式的未备案网站探寻系统,其 特征在于,所述系统包括:数据接入模块、DNS解析模块、IP定位模块、活动性验证模块和未 备案网站信息数据生成模块;
[0043] 所述数据接入模块获取域名,筛选出未备案域名形成域名种子库;
[0044] 所述DNS解析模块对未备案域名进行DNS解析,获取对应的IP地址;
[0045] 所述IP定位模块定位IP地址,得出未备案域名库;
[0046] 所述活动性验证模块对网站进行活动性验证;
[0047] 所述未备案网站信息数据生成模块得出未备案网站信息。
[0048] 优选地,所述数据接入模块包括网络爬虫接入模块和域名日志接入模块;所述网 络爬虫接入模块包括:数据下载模块、数据分析模块和数据去重模块;所述数据下载模块 下载WEB服务器上的数据;所述数据分析模块分析数据源码中包含的外部链接;所述数据 去重模块在抓取到的域名中剔除种子库中已存在的域名。
[0049] 优选地,所述域名日志接入模块包括:数据格式化模块和数据去重模块;所述数 据格式化模块格式化原始域名日志文件。
[0050] 优选地,所述系统包括排查模块,排查未备案网站信息;所述排查包括:阻断页面 验证、IP智能纠错和域名去重。
[0051] 与现有技术相比,本发明的有益效果在于:
[0052] (1)通过多路数据接入方式,能够确保最终得到的未备案网站信息准确、全面,该 成果已在未备案网站发现及多语言网站识别系统中得到验证;
[0053] (2)域名解析过程中,通过多个域名服务器对同一域名进行解析,将解析结果取交 集这种方式,能够提高解析结果的有效性、正确性;
[0054] (3)活动性验证过程中,通过对HTTP报文状态码与下载到的网页数据的双重效 验,能够提高活动性判断的准确性;另外,增加活动性验证模块,剔除一部分未备案网站,使 最终得到的未备案网站信息更准确、有效;
[0055] (4)本发明使用的数据去重模块,在将多路数据接入方式获取的域名入域名种子 库之前进行去重,而不依赖于数据库的去重,能够极大地减小地数据库的压力;
[0056] (5)本发明使用轮询机制,各个模块同时、一直运行,能够保证最终得到的未备案 网站信息始终是最新的。

【专利附图】

【附图说明】
[0057] 图1是本发明基于多路数据接入方式的未备案网站探寻系统结果图;
[0058] 图2是本发明方法中爬虫主动发现域名的流程图;
[0059] 图3是本发明方法中域名日志获取域名的流程图;
[0060] 图4是本发明方法中域名解析的流程图;
[0061] 图5是本发明方法中IP定位流程图;
[0062] 图6是本发明方法中活动性验证的流程图。

【具体实施方式】
[0063] 本专利所提出的基于多路数据接入方式的未备案网站发现方法及系统的应用场 景包括但不限于如下几种情况:
[0064] 未备案网站发现;
[0065] 网站信息统计(如,网站运营商、所属分中心、直接接入者,网站活动性、网站语言 种类等);
[0066] 下面结合"说明书附图"和具体实例对本发明做详细介绍。
[0067] 图1是本发明的系统的结构图,该系统包括:网络爬虫接入模块、域名日志接入模 块、DNS解析模块、IP定位模块、活动性验证模块、排查模块和未备案网站信息数据生成模 块。
[0068] 本发明的方法主要包括如下步骤:
[0069] ①通过多路数据接入方式获取域名,结合备案系统提供的已备案域名信息进行初 步筛选,形成未备案域名种子库;
[0070] ②对①中域名进行DNS解析,获取对应的IP地址;
[0071] ③对②中IP地址进行IP地位,得到初步的国内未备案的域名库(对不能进行IP 地址定位对应的域名排除);
[0072] ④对③中所得域名进行活动性检测,得到最终的未备案网站信息。
[0073] 具体技术方案如下:
[0074] -、通过多路数据接入方式探寻模块(包括网络爬虫接入模块和域名日志接入模 块)发现新域名,形成未备案域名种子库。
[0075] ?通过网络爬虫获取域名
[0076] 网络爬虫的基本工作流程如"说明书附图"图2所示:
[0077] 1.首先选取国内的、能访问的、十万量级的网站作为种子域名(URL);
[0078] 2.将这些URL放入待抓取URL队列;
[0079] 3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的IP,并将URL 对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
[0080] 4.分析已抓取URL队列中的URL,分析其中的其他链接URL,并且将其他链接URL 放入待抓取URL队列,从而进入下一个循环。
[0081] 在基于多路数据接入方式的未备案网站发现方法及系统中,首先从已备案域名中 挑选活动的域名作为种子URL,借助网络爬虫,在抓取到的网页中抽取新的URL;其次,将抓 取到的URL与现有的域名种子库进行比对、去重,得到新的URL ;最后,将新的URL添加到域 名种子库中,进入下一轮循环。
[0082] 该步涉及到三个核心模块:数据下载、数据分析、数据去重。
[0083] 其中,数据下载,以已备案域名中的活动域名为基础,根据HTTP协议下载 Internet中的WEB服务器上的数据,得到网页数据,主要目的是为了分析网页中的内容提 供数据基础;
[0084] 包括如下步骤:
[0085] 1)连接WEB服务器;
[0086] 2)向WEB服务器发送HTTP请求;
[0087] 3)接收WEB服务器返回的结果;
[0088] 4)分析HTTP返回的头信息;
[0089] 5)如果返回成功那么接收返回的数据内容。
[0090] 数据分析,以数据下载得到的网页数据为基础,分析源码中包含的外部链接。
[0091] 数据去重,基本原理是采用HASH算法,将一个字符串计算成一个DWORD型的数,根 据数值的不同区分字符串的不同。根据数据分析得到的外部链接,将域名采用HASH算法生 成对应的特征值,结合去重记录文件,剔除种子库中已存在的域名,保留新的域名。
[0092] ?通过域名日志获取域名
[0093] 其基本工作流程如"说明书附图"图3所示:
[0094] 1.从国内的主流域名服务器(主要有各个省份域名服务器、国际出口域名服务 器)获取原始域名日志文件,汇总;
[0095] 2.格式化上一步得到的域名日志文件,找出域名日志文件中每条记录对应的顶级 域名;
[0096] 3.将上一步得到的域名与原来的域名种子库进行比对、去重,得到新的域名;
[0097] 将上一步得到的域名添加到域名种子库中,进入下一轮循环。
[0098] 该步涉及到两个核心模块:数据格式化、数据去重。
[0099] 其中,数据格式化,就是将域名标准化,根据国际域名标准将从域名日志文件中得 到的包含域名信息的记录格式化成标准的顶级域名形式,如,music, baidu. com - baidu. com。
[0100] 数据去重,原理、内容与"爬虫获取域名"相似。
[0101] 二、通过DNS解析模块对域名进行DNS解析,得到对应的IP
[0102] 主要步骤包括:
[0103] 1.从域名种子库中提取已格式化的网站顶级域名;
[0104] 2.借助多个域名服务器,对上一步得到的域名做域名解析;
[0105] 3.将不同域名服务器得到的IP地址取交集,得到域名对应的IP地址。
[0106] 其基本工作流程如"说明书附图"图4所示:
[0107] 1)连接DNS服务器;
[0108] 2)向DNS服务器发送请求;
[0109] 3)接收DNS服务器返回的结果;
[0110] 4)分析出DNS服务器解析的结果,取不同DNS解析结果的交集;
[0111] 5)如果存在交集,得到域名对应的IP列表。
[0112] 三、通过IP定位模块对已完成DNS解析的域名做IP定位,形成国内未备案的域名 库
[0113] 其基本的工作流程如"说明书附图"图5所示:
[0114] 1.将IP地址备案信息表加载到内存;
[0115] 2.取一条IP地址,与IP地址备案信息表信息进行比对、定位,根据该IP地址对应 的IP地址备案信息表中的记录,得到该IP地址对应的运营商、省份、直接接入者;对无法进 行IP地址定位对应的域名进行排除;
[0116] 3.重复上述第2步,直至结束,得到初步的国内未备案的域名库。
[0117] 备注:IP地址备案信息表,包含IP地址对应的所属运营商、省份、直接接入者信 肩、。
[0118] 四、通过活动性验证模块对国内未备案域名做活动性检测,形成最终未备案网站 信息
[0119] 其基本的工作流程如"说明书附图"图6所示:
[0120] 1.生成包含域名信息的任务文件;
[0121] 2.利用多线程采集域名对应的网页;
[0122] 3.根据采集结果进行网站的活动性判断:若返回的HTTP报文的状态码为200且 能够下载到正常的网页,则判断网站为活动的;否则为不活动的。
[0123] 备注:在进行网站的活动性检测之后,为了得到更精确的未备案网站信息,同时加 入了如下排查模块:
[0124] A.阻断页面验证,若某个域名被ISP (互联网服务提供商)跳转到拦截页面,则将 该域名从未备案网站信息中剔除;
[0125] B. IP智能纠错,在某些条件下(如,用户网络条件差、浏览器缓存出错、网站服务 器访问量过大、浏览器不兼容),域名解析被自动纠正为ISP节点的IP,则将该域名从未备 案网站信息中剔除;
[0126] C.与最新的已备案网站信息比对,将已备案网站信息与未备案网站信息中出现交 集的域名从未备案网站信息中剔除。
[0127] 最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽 管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然 可以对本发明的【具体实施方式】进行修改或者等同替换,而未脱离本发明精神和范围的任何 修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
【权利要求】
1. 一种基于多路数据接入方式的未备案网站探寻方法,其特征在于,所述方法包括如 下步骤: A. 通过多路数据接入方式获取域名,筛选出未备案域名形成域名种子库; B. 对未备案域名进行DNS解析,获取对应的IP地址; C. 定位IP地址,得出未备案域名库; D. 通过活动性验证得出未备案网站信息。
2. 如权利要求1所述的方法,其特征在于,步骤A中,所述多路数据接入方式包括网络 爬虫接入方式和域名日志接入方式;通过网络爬虫接入方式获取域名包括如下步骤: A-1-1.选取国内十万量级的可访问网站作为种子域名; A-1-2.借助网络爬虫,在抓取到的网页中抽取域名; A-1-3.将抓取到的域名与现有的域名种子库进行比对、去重; A-1-4.将去重后的域名添加进域名种子库,进入下一轮循环; 通过域名日志接入方式获取域名包括如下步骤: A-2-1.从国内的主流域名服务器获取原始域名日志文件并汇总;所述主流域名服务 器包括各个省份域名服务器和国际出口域名服务器; A-2-2.格式化所述原始域名日志文件,找出域名日志文件中每条记录对应的顶级域 名; A-2-3.将步骤A-2-2中的所述顶级域名与现有的域名种子库进行比对、去重; A-2-4.将去重后的域名添加进域名种子库,进入下一轮循环。
3. 如权利要求1所述的方法,其特征在于,步骤B包括如下步骤: B-1.从域名种子库中提取已格式化的网站顶级域名; B-2.借助域名服务器,对步骤B-1中得到的顶级域名做域名解析;所述域名服务器的 数目大于1 ; B-3.将不同域名服务器得到的IP地址取交集,得到域名对应的IP地址。
4. 如权利要求1所述的方法,其特征在于,步骤C包括如下步骤: C-1.将IP地址备案信息表加载到内存; C-2.将一条IP地址与IP地址备案信息表信息比对、定位,得到该IP地址对应的运营 商、省份和直接接入者的信息,并排除无法定位的IP所对应的域名; C-3.重复步骤C-2,直至结束,得到所述未备案域名库。
5. 如权利要求1所述的方法,其特征在于,步骤D包括如下步骤: D-1.生成包含域名信息的任务文件; D-2.利用多线程采集域名对应的网页; D-3.根据采集结果判断网站的活动性;所述判断包括:若返回的HTTP报文的状态码为 200且能够下载到正常的网页,则判断网站为活动的;否则为不活动的。
6. 如权利要求1所述的方法,其特征在于,所述方法包括排查步骤D中得出的未备案网 站信息;所述排查包括: (1) 阻断页面验证;若某个域名被ISP跳转到拦截页面,则将该域名从未备案网站信息 中剔除; (2) IP智能纠错;若域名解析被自动纠正为ISP节点的IP,则将该域名从未备案网站信 息中剔除; ⑶域名去重;与已备案网站信息进行比对,将已备案网站信息与未备案网站信息中 出现交集的域名从未备案网站信息中剔除。
7. -种基于多路数据接入方式的未备案网站探寻系统,其特征在于,所述系统包括: 数据接入模块、DNS解析模块、IP定位模块、活动性验证模块和未备案网站信息数据生成模 块; 所述数据接入模块获取域名,筛选出未备案域名形成域名种子库; 所述DNS解析模块对未备案域名进行DNS解析,获取对应的IP地址; 所述IP定位模块定位IP地址,得出未备案域名库; 所述活动性验证模块对网站进行活动性验证; 所述未备案网站信息数据生成模块得出未备案网站信息。
8. 如权利要求7所述的系统,其特征在于,所述数据接入模块包括网络爬虫接入模块 和域名日志接入模块;所述网络爬虫接入模块包括:数据下载模块、数据分析模块和数据 去重模块;所述数据下载模块下载WEB服务器上的数据;所述数据分析模块分析数据源码 中包含的外部链接;所述数据去重模块在抓取到的域名中剔除种子库中已存在的域名。
9. 如权利要求7所述的系统,其特征在于,所述域名日志接入模块包括:数据格式化模 块和数据去重模块;所述数据格式化模块格式化原始域名日志文件。
10. 如权利要求7所述的系统,其特征在于,所述系统包括排查模块,排查未备案网站 信息;所述排查包括:阻断页面验证、IP智能纠错和域名去重。
【文档编号】H04L29/12GK104065532SQ201410299875
【公开日】2014年9月24日 申请日期:2014年6月26日 优先权日:2014年6月26日
【发明者】王勇, 朱春鸽, 周润林, 丁国栋, 杨书童 申请人:国家计算机网络与信息安全管理中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1