一种高覆盖度且准确的域名IP对应关系获取方法及装置与流程

文档序号:11292344阅读:190来源:国知局
一种高覆盖度且准确的域名IP对应关系获取方法及装置与流程

本发明涉及数据处理领域,尤其涉及一种高覆盖度且准确的域名ip对应关系获取方法及装置。



背景技术:

目前,通过统合多个数据源以及使用多种降噪技术,能够获得全面准确的域名和ip。在获得全面且准确的域名和ip后,研究各域名的接入ip,即域名和ip的对应关系将成为下一步的关注点。目前,获取域名和ip的对应关系的方式主要有两种,其一是使用dns(domainnamesystem,域名系统)探针获取域名和ip的对应关系,即在机房内部署dns探针服务器,通过数据流量获取镜像数据,采集udp(userdatagramprotocol,用户数据报协议)协议的响应包,并从数据中提取dns六元组(cnname,源ip、目的ip、解析ip、域名,访问时间)信息,解析六元组信息获得域名ip对应关系。但是由于dns数据量极大,导致采集的数据存在一个域名对应大量ip,一个ip对应大量域名的情况;因此该方式中,数据源的准确性得不到保障,需要经过处理才能使用。由此,dns探针采集的域名ip对应关系存在着准确性问题。其二,使用eu(executionunit,执行单元)设备获取域名和ip的对应关系,即在运营商企业处部署eu采集设备,eu设备将采集通过该运营商的全部httpget请求和httpsget请求,将请求的域名和ip的对应关系以及域名的存活状态记录;通过这部分数据可以获取域名和ip的对应关系,并对域名的存活状态进行划分;然而,eu设备采集到的数据仅为拨测过的域名和ip数据,导致其全面性得不到保障,需要其他数据源进行补充。由此,eu设备采集的域名ip对应关系存在着全面性问题。可见,现有的域名和ip对应关系的获取方式均存在弊端,不能获取到全面的、准确的域名和ip的对应关系。因此,希望有一种能够获取最准确且最全面的域名ip对应关系的方法,从而能够有效的进行行业监管。



技术实现要素:

为克服现有技术的缺陷,本发明提供一种高效的域名ip对应关系获取方法及装置。

一方面,本发明提供一种高覆盖度且准确的域名ip对应关系获取方法,包括:

步骤s1:从各数据源中获取第一域名集合,并通过域名系统探针设备获取第二域名集合和第一域名ip对应关系集合,通过采集设备获取第三域名集合和第二域名ip对应关系集合;

步骤s2:对所述第一域名集合、所述第二域名集合和所述第三域名集合进行域名融合,得到域名总集,并获取所述域名总集中各域名的ip对应关系得到第三域名ip对应关系集合;

步骤s3:对所述第一域名ip对应关系集合、所述第二域名ip对应关系集合和所述第三域名ip对应关系集合进行域名ip对应关系融合,得到域名ip对应关系总集;

步骤s4:对所述域名ip对应关系总集中各域名ip对应关系进行存活判断得到存活域名ip对应关系总集并保存。

可选地,所述步骤s1,具体包括:

从备案数据、上报数据中获取第一域名集合;

通过域名系统探针设备获取镜像数据,在所述镜像数据中提取六元组信息,对所述六元组信息中含有的各域名进行降噪去重处理得到第二域名集合,并提取所述六元组信息中含有的各域名ip对应关系得到第一域名ip对应关系集合;

通过采集设备记录各预设请求的域名及域名ip对应关系得到活跃数据,对所述活跃数据中含有的各域名进行降噪去重处理得到第三域名集合,并提取所述活跃数据中含有的各域名ip对应关系得到第二域名ip对应关系集合。

可选地,所述步骤s1中,获取所述第一域名集合、所述第二域名集合和所述第三域名集合过程中,还包括:对各域名进行降噪去重处理;

可选地,所述步骤s2中,所述对所述第一域名集合、所述第二域名集合和所述第三域名集合进行域名融合,得到域名总集的过程中,还包括:对各域名进行降噪去重处理;

可选地,所述步骤s3中,所述对所述第一域名ip对应关系集合、所述第二域名ip对应关系集合和所述第三域名ip对应关系集合进行域名ip对应关系融合,得到域名ip对应关系总集的过程中,还包括:对各域名ip对应关系进行降噪去重处理。

可选地,所述步骤s2中,所述获取所述域名总集中各域名的ip对应关系得到第三域名ip对应关系集合,具体为:使用第一指令拨测所述域名总集中各域名对应的ip得到第三域名ip对应关系集合。

可选地,所述步骤s4,具体包括:

步骤a1:依次使用第二指令对所述域名ip对应关系总集中各域名ip对应关系进行拨测,判断是否存在未存活的域名ip对应关系,是则执行步骤a2;否则,将所述域名ip对应关系总集作为存活域名ip对应关系总集并保存;

步骤a2:使用第三指令对未存活的域名ip对应关系进行拨测,判断是否存活,是则将所述域名ip对应关系总集作为存活域名ip对应关系总集并保存;否则将其移除,并将保留的各域名ip对应关系作为存活域名ip对应关系总集并保存。

另一方面,本发明提供一种高覆盖度且准确的域名ip对应关系获取装置,包括:

第一获取模块,用于从各数据源中获取第一域名集合,并通过域名系统探针设备获取第二域名集合和第一域名ip对应关系集合,通过采集设备获取第三域名集合和第二域名ip对应关系集合;

第一融合模块,用于对所述第一获取模块获取的第一域名集合、第二域名集合和第三域名集合进行域名融合,得到域名总集;

第二获取模块,用于获取所述第一融合模块得到的域名总集中各域名的ip对应关系得到第三域名ip对应关系集合;

第二融合模块,用于对所述第一获取模块获取的第一域名ip对应关系集合、第二域名ip对应关系集合和所述第二获取模块获取的第三域名ip对应关系集合进行域名ip对应关系融合,得到域名ip对应关系总集;

存活判断模块,用于对所述第二融合模块得到的域名ip对应关系总集中各域名ip对应关系进行存活判断得到存活域名ip对应关系总集并保存。

可选地,所述第一获取模块,具体用于:

从备案数据、上报数据中获取第一域名集合;

通过域名系统探针设备获取镜像数据,在所述镜像数据中提取六元组信息,对所述六元组信息中含有的各域名进行降噪去重处理得到第二域名集合,并提取所述六元组信息中含有的各域名ip对应关系得到第一域名ip对应关系集合;

通过采集设备记录各预设请求的域名及域名ip对应关系得到活跃数据,对所述活跃数据中含有的各域名进行降噪去重处理得到第三域名集合,并提取所述活跃数据中含有的各域名ip对应关系得到第二域名ip对应关系集合。

可选地,所述第一获取模块,包括:第一降噪单元,用于对各域名进行降噪去重处理;

可选地,所述第一融合模块,包括:第二降噪单元,用于对各域名进行降噪去重处理;

可选地,所述第二融合模块,包括:第三降噪单元,用于对各域名ip对应关系进行降噪去重处理。

可选地,所述第二获取模块,具体用于:使用第一指令拨测所述域名总集中各域名对应的ip得到第三域名ip对应关系集合。

可选地,所述存活判断模块,包括:第一判断单元、第二判断单元、保存单元、移除单元;

所述第一判断单元,用于依次使用第二指令对所述域名ip对应关系总集中各域名ip对应关系进行拨测,判断是否存在未存活的域名ip对应关系;

所述保存单元,用于当所述第一判断单元判断出不存在未存活的域名ip对应关系时,将所述域名ip对应关系总集作为存活域名ip对应关系总集并保存;

所述第二判断单元,用于当所述第一判断单元判断出存在未存活的域名ip对应关系时,使用第三指令对未存活的域名ip对应关系进行拨测,判断是否存活;

所述移除单元,用于当所述第二判断单元判断出未存活时,将未存活的域名ip对应关系移除;

所述保存单元,还用于当第二判断单元判断出存活时,将所述域名ip对应关系总集作为存活域名ip对应关系总集并保存;还用于在所述移除单元将未存活的域名ip对应关系移除之后,将保留的各域名ip对应关系作为存活域名ip对应关系总集并保存。

本发明的优点在于:

本发明中,通过采集多方的域名及域名ip对应关系,并对域名及域名ip关系进行融合,保证了域名ip对应关系的全面性;同时对获取到的所有域名ip对应关系进行存活判断,保证了保留下来的域名ip对应关系的准确性。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

附图1为本发明提供的一种高覆盖度且准确的域名ip对应关系获取方法框架图;

附图2为本发明实施例一提供的一种高覆盖度且准确的域名ip对应关系获取方法流程图;

附图3为本发明实施例二提供的一种高覆盖度且准确的域名ip对应关系获取装置框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

在现有技术的基础上,本发明作出改进,如图1所示的框架图,本发明中使用dns探针设备和eu采集设备分别采集域名并降噪去重,同时提取域名ip对应关系,以及采集其他数据源(备案数据、上报数据等)中的域名并降噪去重,对上述降噪去重后的域名进行融合并再次降噪去重后,进行拨测得到域名ip对应关系,将得到的域名ip对应关系与dns探针设备和eu采集设备提取的域名ip对应关系融合并降噪去重处理得到全面的域名ip对应关系,随后使用httpget和httpsget进行存活判断,剔除不存活的域名ip对应关系,最终得到准确且全面的域名ip对应关系。

本发明中的域名ip对应关系,具体为域名和该域名的接入ip的对应关系。

实施例一

根据本发明的实施方式,提供一种高覆盖度且准确的域名ip对应关系获取方法,如图2所示,包括:

步骤101:从各数据源中获取第一域名集合,并通过域名系统探针设备获取第二域名集合和第一域名ip对应关系集合,通过采集设备获取第三域名集合和第二域名ip对应关系集合;

步骤102:对第一域名集合、第二域名集合和第三域名集合进行域名融合,得到域名总集,并获取域名总集中各域名的ip对应关系得到第三域名ip对应关系集合;

步骤103:对第一域名ip对应关系集合、第二域名ip对应关系集合和第三域名ip对应关系集合进行域名ip对应关系融合,得到域名ip对应关系总集;

步骤104:对域名ip对应关系总集中各域名ip对应关系进行存活判断得到存活域名ip对应关系总集并保存。

根据本发明的实施方式,步骤101,具体包括:

从备案数据、上报数据中获取第一域名集合;

通过域名系统探针设备获取镜像数据,在镜像数据中提取六元组信息,对六元组信息中含有的各域名进行降噪去重处理得到第二域名集合,并提取六元组信息中含有的各域名ip对应关系得到第一域名ip对应关系集合;

通过采集设备记录各预设请求的域名及域名ip对应关系得到活跃数据,对活跃数据中含有的各域名进行降噪去重处理得到第三域名集合,并提取活跃数据中含有的各域名ip对应关系得到第二域名ip对应关系集合。

其中,在镜像数据中提取六元组信息,具体为:在镜像数据中采集udp(英文全称:userdatagramprotocol;中文全称:用户数据报协议)协议的响应包,从响应包中提取dns(英文全称:domainnamesystem;中文全称:域名系统)六元组集合(cnname、源ip、目的ip、解析ip、域名、访问时间);

其中,通过采集设备记录各预设请求的域名及域名ip对应关系得到活跃数据,具体为:在运营商企业部署采集设备,采集设备采集通过该运营商的全部httpget请求,将请求的域名及域名ip对应关系记录得到活跃数据。

优选地,在本实施例中,第一域名ip对应关系集合具体为第一域名ip对应关系表,第二域名ip对应关系集合具体为第二域名ip对应关系表;域名系统探针设备具体为dns探针设备;采集设备具体为eu采集设备。

根据本发明的实施方式,步骤101中,获取第一域名集合、第二域名集合和第三域名集合的过程中,还包括:对各域名进行降噪去重处理;

根据本发明的实施方式,步骤102中,对第一域名集合、第二域名集合和第三域名集合进行域名融合,得到域名总集的过程中,还包括:对各域名进行降噪去重处理;

根据本发明的实施方式,步骤103中,对第一域名ip对应关系集合、第二域名ip对应关系集合和第三域名ip对应关系集合进行域名ip对应关系融合,得到域名ip对应关系总集的过程中,还包括:对各域名ip对应关系进行降噪去重处理。

其中,域名ip对应关系总集,优选为域名ip对应关系总表。

根据本发明的实施方式,步骤102中,获取域名总集中各域名的ip对应关系得到第三域名ip对应关系集合,具体为:使用第一指令拨测域名总集中各域名对应的ip得到第三域名ip对应关系集合。

优选地,第一指令为nslookup指令;第三域名ip对应关系集合具体为第三域名ip对应关系表。

在本实施例中,通过拨测操作则能够弥补当前时间域名系统探针设备和采集设备未获取到的域名ip对应关系,从而可以保证后续融合后的域名ip对应关系的全面性。

根据本发明的实施方式,步骤104,具体包括:

步骤a1:依次使用第二指令对域名ip对应关系总集中各域名ip对应关系进行拨测,判断是否存在未存活的域名ip对应关系,是则执行步骤a2;否则,将域名ip对应关系总集作为存活域名ip对应关系总集并保存;

步骤a2:使用第三指令对未存活的域名ip对应关系进行拨测,判断是否存活,是则将域名ip对应关系总集作为存活域名ip对应关系总集并保存;否则将其移除,并将保留的各域名ip对应关系作为存活域名ip对应关系总集并保存。

更加具体地,步骤104,包括:

步骤b1:读取域名ip对应关系总表中的第一个域名ip对应关系,并将其作为当前域名ip对应关系;

步骤b2:使用第二指令对当前域名ip对应关系进行拨测,判断是否存活,是则执行步骤b4;否则执行步骤b3;

步骤b3:使用第三指令对当前域名ip对应关系进行拨测,判断是否存活,是则将其属性改为存活,执行步骤b4;否则将当前域名ip对应关系移除,执行步骤b4;

步骤b4:判断当前域名ip对应关系是否为域名ip对应关系总表中的最后一个,是则将当前保留的属性为存活的域名ip对应关系作为存活域名ip对应关系总集并保存;否则读取当前域名ip对应关系的下一个域名ip对应关系并作为当前域名ip对应关系,返回步骤b2。

优选地,在本实施例中,第二指令为httpget请求,拨80端口,当接收到的返回值为200时,判定存活,否则判定未存活;第三指令为httpsget请求,拨443端口,当接收到的返回值为200时,判定存活,否则判定未存活。

进一步地,在本实施例中,将存活域名ip对应关系总集保存,具体为将存活域名ip对应关系总表入库,存活域名ip对应关系总表即为全面的准确的域名ip对应关系数据表。

实施例二

根据本发明的实施方式,提供一种高覆盖度且准确的域名ip对应关系获取装置,如图3所示,包括:

第一获取模块201,用于从各数据源中获取第一域名集合,并通过域名系统探针设备获取第二域名集合和第一域名ip对应关系集合,通过采集设备获取第三域名集合和第二域名ip对应关系集合;

第一融合模块202,用于对第一获取模块201获取的第一域名集合、第二域名集合和第三域名集合进行域名融合,得到域名总集;

第二获取模块203,用于获取第一融合模块202得到的域名总集中各域名的ip对应关系得到第三域名ip对应关系集合;

第二融合模块204,用于对第一获取模块201获取的第一域名ip对应关系集合、第二域名ip对应关系集合和第二获取模块203获取的第三域名ip对应关系集合进行域名ip对应关系融合,得到域名ip对应关系总集;

存活判断模块205,用于对第二融合模块204得到的域名ip对应关系总集中各域名ip对应关系进行存活判断得到存活域名ip对应关系总集并保存。

根据本发明的实施方式,第一获取模块201,具体用于:

从备案数据、上报数据中获取第一域名集合;

通过域名系统探针设备获取镜像数据,在镜像数据中提取六元组信息,对六元组信息中含有的各域名进行降噪去重处理得到第二域名集合,并提取六元组信息中含有的各域名ip对应关系得到第一域名ip对应关系集合;

通过采集设备记录各预设请求的域名及域名ip对应关系得到活跃数据,对活跃数据中含有的各域名进行降噪去重处理得到第三域名集合,并提取活跃数据中含有的各域名ip对应关系得到第二域名ip对应关系集合。

根据本发明的实施方式,第一获取模块201,包括:第一降噪单元,用于对各域名进行降噪去重处理;

根据本发明的实施方式,第一融合模块202,包括:第二降噪单元,用于对各域名进行降噪去重处理;

根据本发明的实施方式,第二融合模块204,包括:第三降噪单元,用于对各域名ip对应关系进行降噪去重处理。

根据本发明的实施方式,第二获取模块203,具体用于:使用第一指令拨测域名总集中各域名对应的ip得到第三域名ip对应关系集合。

根据本发明的实施方式,存活判断模块,包括:第一判断单元、第二判断单元、保存单元、移除单元;

其中,第一判断单元,用于依次使用第二指令对域名ip对应关系总集中各域名ip对应关系进行拨测,判断是否存在未存活的域名ip对应关系;

保存单元,用于当第一判断单元判断出不存在未存活的域名ip对应关系时,将域名ip对应关系总集作为存活域名ip对应关系总集并保存;

第二判断单元,用于当第一判断单元判断出存在未存活的域名ip对应关系时,使用第三指令对未存活的域名ip对应关系进行拨测,判断是否存活;

移除单元,用于当第二判断单元判断出未存活时,将未存活的域名ip对应关系移除;

保存单元,还用于当第二判断单元判断出存活时,将域名ip对应关系总集作为存活域名ip对应关系总集并保存;还用于在移除单元将未存活的域名ip对应关系移除之后,将保留的各域名ip对应关系作为存活域名ip对应关系总集并保存。

本发明中,通过采集多方的域名及域名ip对应关系,并对域名及域名ip关系进行融合,保证了域名ip对应关系的全面性;同时对获取到的所有域名ip对应关系进行存活判断,保证了保留下来的域名ip对应关系的准确性。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1