一种域名收集方法、装置、设备及计算机可读存储介质与流程

文档序号:32313067发布日期:2022-11-23 13:33阅读:97来源:国知局
一种域名收集方法、装置、设备及计算机可读存储介质与流程

1.本发明涉及通信技术领域,尤其是涉及一种域名收集方法、装置、设备及计算机可读存储介质。


背景技术:

2.域名系统(domain name system)用于命名从组织到域等层次结构中的计算机和网络服务。dns服务器可以为客户端提供域名解析服务,将客户端输入的域名解析为该域名对应的ip地址,进而客户端可以利用所述ip地址访问所述域名对应的网站。
3.相关技术中,通常利用域名采集爬虫对域名进行收集,网络爬虫是捜索引擎抓取系统的重要组成部分,爬虫的主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份,在收集域名时,域名采集爬虫能够根据网页内容将相关域名或子域名抓取存储在本地。
4.针对上述中的相关技术,发明人发现:利用网络爬虫抓取域名容易出现遗漏的情况,对于未开放网页,域名采集爬虫无法获取数据,也就无法进行域名的收集,导致了对域名收集时存在局限。


技术实现要素:

5.为了便于较为全面的收集域名,本技术提供了一种域名收集方法、装置、设备及计算机可读存储介质。
6.第一方面,本技术提供的一种域名收集方法,采用如下的技术方案:一种域名收集方法,包括实时接收初始域名信息;对初始域名信息进行扩充,得到一个或多个相关域名;逐个判断相关域名对应的网页是否为开放网页,若为开放网页,则获取开放网页的页面响应信息,并将页面响应信息储存至数据存储区;若为未开放网页,则对相关域名进行解析,得到ip地址,并绑定相关域名与ip地址,将相关域名与ip地址的绑定关系储存至数据存储区。
7.通过采用上述技术方案,在对初始域名信息进行扩充后,逐个判断相关域名对应的网页是否为开放网页,若为开放网页则能够直接从开放网页中获取页面响应信息,对页面响应信息进行储存,若为未开放网页,则解析出相关域名对应的ip,将相关域名与ip地址的绑定关系进行储存;从而对于相关域名真实存在,但未开放网页的这部分相关域名,不会直接丢弃,而是绑定ip地址与相关域名进行储存,进而实现了对初始域名信息的相关域名收集较为全面的效果。
8.可选的,所述将页面响应信息储存至数据存储区之后还包括:判断所述页面响应信息中是否包含页面域名信息,若是,则将页面域名信息设置为初始域名信息。
9.通过采用上述技术方案,若页面响应信息中包含页面域名信息,将页面域名信息
设置为初始域名信息,对页面域名信息进行再一次的扩充、储存,从而便于再次收集与初始域名信息相关的所有域名。
10.可选的,所述绑定相关域名与ip地址,将相关域名与ip地址的绑定关系储存至数据存储区具体包括:判断ip地址是否存在开放的端口;若是,将相关域名与ip地址的端口绑定,并将相关域名与ip地址端口的绑定关系储存至数据存储区;若否,将相关域名与ip地址绑定,并将相关域名与ip地址的绑定关系储存至数据存储区。
11.通过采用上述技术方案,若与相关域名对应的ip地址中存在开放的端口,将相关域名与ip地址的端口绑定,并将相关域名与ip地址的绑定关系储存在数据存储区中,若与相关域名对应的ip地址中没有开放的端口,则直接将相关域名与ip地址的绑定关系储存至数据存储区中,实现了对未开放网页的相关域名进行储存。
12.可选的,所述将相关域名与ip地址的端口绑定,并将相关域名与ip地址端口的绑定关系储存至数据存储区之后还包括:获取ip地址端口的协议响应信息;判断协议响应信息中是否存在协议域名信息,若存在,则将协议域名信息设置为初始域名信息。
13.通过采用上述技术方案,对于有开放端口的ip地址,获取协议响应信息并判断协议响应信息中是否存在协议域名信息,若存在,则将协议域名信息设置为初始域名信息,对协议域名信息进行扩充、储存,从而使得对初始域名信息的相关域名进行了进一步的收集,从而使得收集的域名更加全面。
14.可选的,所述对初始域名信息进行扩充,得到一个或多个相关域名具体包括:将初始域名信息输入至域名服务器、域名爆破工具或域名搜索引擎,查询得到相关域名。
15.通过采用上述技术方案,通过域名服务器、域名爆破工具或域名搜索引擎多种工具,实现了对相关域名的查询。
16.可选的,所述实时接收初始域名信息之后还包括:判断初始域名信息是否有效,若否,丢弃初始域名数据。
17.通过采用上述技术方案,对初始域名信息进行筛选,对于无效的初始域名信息及时丢弃,节约程序运行时间。
18.可选的,所述对初始域名信息进行扩充,得到一个或多个相关域名之后还包括:判断所述相关域名中是否存在泛域名,若存在,判断所述泛域名的数量是否大于预设数量,若大于预设数量,则随机选取预设数量的所述泛域名进行保留,若小于或等于预设数量,则保留全部所述泛域名;判断相关域名中是否存在无效域名,若存在,则丢弃无效域名。
19.通过采用上述技术方案,对相关域名中泛域名进行选择性地保留,对相关域名中无效域名进行舍弃,一方面减小了存储至数据存储区的数据量,另一方面,能够为用户筛选出有价值的信息。
20.第二方面,本技术提供的一种域名收集装置,采用如下技术方案:一种域名收集装置,包括数据接收单元、域名扩充单元、域名处理单元以及储存单
元;所述数据接收单元,用于实时接收初始域名信息;所述域名扩充单元,用于对初始域名信息进行扩充,得到一个或多个相关域名;所述域名处理单元,用于逐个判断相关域名对应的网页是否为开放网页,若为开放网页,则获取开放网页的页面响应信息;若为未开放网页,则对相关域名进行解析,得到ip地址,并绑定相关域名与ip地址;所述储存单元,用于储存页面响应信息以及绑定的相关域名与ip地址。
21.通过采用上述技术方案,对初始域名信息进行扩充后,判断得到的相关域名对应的网页是否为开放网页,若为开放网页则储存页面响应信息,若为未开放网页,则储存相关域名与ip地址的对应关系,并且若ip地址有开放端口,还能够获取协议响应信息,对协议响应信息进行储存,从而实现了较为全面的收集了初始域名信息的相关域名,不易由于相关域名对应的网页未开放而丢弃、遗漏域名。
22.第三方面,本技术提供了一种计算机设备,采用如下技术方案:一种计算机设备,包括存储器、处理器以及储存在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行如第一方面中任一所述的一种域名收集方法。
23.第四方面,本技术提供了一种计算机可读存储介质,采用如下技术方案:一种计算机可读存储介质,包括存储有能够被处理器加载并执行如第一方面中任一种方法的计算机程序。
24.综上所述,本技术包括以下有益技术效果:对初始域名信息进行扩充后,判断得到的相关域名对应的网页是否为开放网页,对于开放网页储存页面响应信息,对于未开放网页储存该相关域名与ip地址的对应关系,从而不易由于域名对应的网页未开放而丢弃、遗漏域名,既能够收集开放网页的相关域名,也能够收集到未开放网页的相关域名,实现了较为全面收集与初始域名信息有关的域名的效果。
附图说明
25.图1是本技术其中一实施例域名收集方法的流程示意图。
26.图2是本技术其中一实施例对于开放网页域名收集方法的流程示意图。
27.图3是本技术其中一实施例对于未开放网页域名收集方法的流程示意图。
28.图4是本技术其中一实施例筛选相关域名的方法流程示意图。
29.图5是本技术实施例其中一实施例收集装置的结构框图。
30.附图标记说明:1、数据接收单元;2、域名扩充单元;3、域名处理单元;4、储存单元。
具体实施方式
31.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图1-5及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
32.本技术实施例公开一种域名收集方法。参照图1,一种域名收集方法包括:步骤s101:实时接收初始域名信息;
其中,初始域名信息可由用户导入或系统自动导入。
33.步骤s102:对初始域名信息进行扩充,得到一个或多个相关域名。
34.其中,相关域名包括初始域名信息的子域名以及其他关联域名。
35.步骤s103:逐个判断相关域名对应的网页是否为开放网页,若为开放网页,执行步骤s104;若为未开放网页,执行步骤s105。
36.其中,开放网页是指输入网址能够正常显示页面的网页。
37.步骤s104:获取开放网页的页面响应信息,并将页面响应信息储存至数据存储区。
38.其中,页面响应信息至少包括ip地址、ip地址开放的端口、网页响应头信息、网页响应体信息以及网页证书。
39.具体地,网页响应头信息包括date(标识响应产生的时间)、last-modified(指定资源的最后修改时间)、content-encoding(指定响应内容的编码)、server(服务器的名称、版本号等信息)、content-type(返回数据的类型)以及expires(指定响应的过期时间)等;网页响应体信息包括响应的正文数据,例如,请求网页时,响应体为网页的html代码,请求图片时,响应体为图片的二进制数据。
40.步骤s105:对相关域名进行解析,得到ip地址,并绑定相关域名与ip地址,将相关域名与ip地址的绑定关系储存至数据存储区。
41.其中,数据存储区中储存的数据用于进行显示,以便用户查阅所需信息。
42.上述实施方式中,在对初始域名信息进行扩充后,逐个判断相关域名对应的网页是否为开放网页,若为开放网页则能够直接从开放网页中获取页面响应信息,对页面响应信息进行储存即可,若为未开放网页,则解析出相关域名对应的ip,将相关域名与ip地址的绑定关系进行储存;对于相关域名真实存在,但未开放网页的这部分数据,不会直接丢弃,而是绑定ip地址与相关域名进行储存,从而实现了对初始域名信息的相关域名的收集较为全面的效果。
43.作为步骤s102的一种实施方式,步骤s102具体包括:将初始域名信息输入至域名服务器、域名爆破工具或域名搜索引擎,查询得到相关域名。
44.参照图2,作为域名收集方法的进一步实施方式,在步骤s104之后还包括:步骤s1041:判断页面响应信息中是否包含页面域名信息,若是,则执行步骤s1042,若否,则不执行操作。
45.步骤s1042:将页面域名信息设置为初始域名信息。
46.其中,页面域名信息包含在页面响应信息中的网页响应头信息以及网页响应体信息中,从网页响应头信息以及网页响应体信息中进行搜索即可。
47.上述实施方式中,若页面响应信息中包含页面域名信息,将页面域名信息设置为初始域名信息,此时页面域名信息作为系统自动导入的初始域名信息重复执行步骤s101-步骤s105,对页面域名信息中的相关域名进行收集,从而便于再次收集与初始域名信息相关的所有域名。
48.参照图3,绑定相关域名与ip地址,将相关域名与ip地址的绑定关系储存至数据存储区具体包括,步骤s1051:判断ip地址是否存在开放的端口;若是,执行步骤s1052,若否,执行步骤s1053。
49.步骤s1052:将相关域名与ip地址的端口绑定,并将相关域名与ip地址端口的绑定关系储存至数据存储区;需要说明的是,若相关域名对应的ip地址存在多个开放的端口,则将多个端口均与该相关域名进行绑定。
50.步骤s1053:将相关域名与ip地址绑定,并将相关域名与ip地址的绑定关系储存至数据存储区。
51.作为域名收集方法的进一步实施方式,在步骤s1052之后还包括:步骤s1054:获取ip地址端口的协议响应信息;其中,协议响应信息包括证书和/或端口banner信息,banner信息包括软件开发商、软件名称、服务类型、版本号等信息。
52.另外,将协议响应信息储存至数据存储区。
53.步骤s1055:判断协议响应信息中是否存在协议域名信息,若存在,则执行步骤s1056。
54.步骤s1056:将协议域名信息设置为初始域名信息。
55.上述实施方式中,若与相关域名对应的ip地址中存在开放的端口,获取ip地址端口的协议响应信息,将相关域名与ip地址的端口绑定,并将相关域名与ip地址的绑定关系和协议响应信息均储存在数据存储区中,便于对初始域名信息的未开放网页的相关域名进行收集;判断协议响应信息中是否存在协议域名信息,若存在,则将协议域名信息设置为初始域名信息,重复执行步骤s101-步骤s105,对初始域名信息的相关域名进行进一步收集,从而使得对初始域名信息收集的更加全面。
56.作为域名收集方法的进一步实施方式,步骤s101之后还包括:判断初始域名信息是否有效,若否,丢弃初始域名数据。
57.其中,可通过域名存活测试检测初始域名信息是否存活,若存活,则认为初始域名信息为有效,继续执行下一步骤;否则,丢弃初始域名数据。
58.上述实施方式中,对初始域名信息进行筛选,对于无效的初始域名信息及时丢弃,节约程序运行时间。
59.参照图4,作为域名收集方法的进一步实施方式,步骤s102之后还包括:步骤s1021:判断相关域名中是否存在泛域名,若存在,执行步骤s1022。
60.其中,泛域名是指同一个根域名下,添加任意前缀都可以解析到相同的ip地址的域名,所以在判断是否存在泛域名时,可采用任意添加次级域名的方式进行测试,或利用通配符*(星号)来做次级域名进行解析。
61.步骤s1022:判断泛域名的数量是否大于预设数量,若是,则执行步骤s1023;若否,则执行步骤s1024。
62.其中,由于泛域名解析后,同一根域名下的泛域名对应的ip地址均相同,保留的预设数量的泛域名作为示例即可,预设数量可以是两个、三个、四个或四个以上。
63.需要说明的是,在判断泛域名的数量时,应分别判断不同根域名下的泛域名数量是否大于预设数量,即每个根域名下,都至多保留预设数量个泛域名。
64.步骤s1023:随机选取预设数量的泛域名进行保留。
65.步骤s1024:保留全部泛域名。
66.步骤s1025:判断相关域名中是否存在无效域名,若存在,则执行步骤s1026。
67.步骤s1026:丢弃无效域名。
68.其中,无效域名是指不存活的域名。
69.上述实施方式中,对相关域名中泛域名进行选择性的保留,对相关域名中无效域名进行舍弃,一方面减小了存储至数据存储区的数据量,减少可后续步骤的运算量,另一方面,能够为用户筛选出有价值的信息。
70.本技术实施例一种域名收集方法的实施原理为:对初始域名信息进行扩充后,判断得到的相关域名对应的网页是否为开放网页,若为开放网页则储存页面响应信息,若为未开放网页,则储存相关域名与ip地址的对应关系,并且若ip地址有开放端口,还能够获取协议响应信息,对协议响应信息进行储存,从而实现了较为全面的收集了与初始域名信息有关的域名,不易由于域名对应的网页未开放而丢弃、遗漏域名。
71.本技术实施例还公开一种域名收集装置。
72.参照图5,一种域名收集装置还包括数据接收单元、域名扩充单元、域名处理单元以及储存单元;数据接收单元1,用于实时接收初始域名信息;域名扩充单元2,用于对初始域名信息进行扩充,得到一个或多个相关域名;域名处理单元3,用于逐个判断相关域名对应的网页是否为开放网页,若为开放网页,则获取开放网页的页面响应信息;若为未开放网页,则对相关域名进行解析,得到ip地址,并绑定相关域名与ip地址;储存单元4,用于储存页面响应信息以及绑定的相关域名与ip地址。
73.上述实施方式中,利用数据接收单元接收初始域名信息,利用域名扩充单元对域名进行扩充,利用域名处理单元对扩充得到的相关域名进行判断,判断相关域名是否为开放网页,若为开放网页,则储存页面响应信息,若为未开放网页,则储存相关域名与ip地址的绑定关系,从而使得开放网页与未开放网页相对应的相关域名均能够得到保存,不易发生遗漏等情况,使得对初始域名信息的相关域名的查询更加全面。
74.本发明实施例的一种域名收集装置能够实现上述收集方法的任一种方法,且一种域名收集装置的具体工作过程可参考上述收集方法实施例中的对应过程。
75.本技术实施例还公开一种计算机设备。
76.一种计算机设备包括存储器、处理器以及储存在存储器上并可在处理器上运行的计算机程序,处理器执行如上述一种域名收集方法。
77.本技术实施例还公开一种计算机可读存储介质。
78.一种计算机可读存储介质包括存储有能够被处理器加载并执行上述任一种域名收集方法的计算机程序。
79.在本发明所提供的几个实施例中,应该理解到,所提供的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,某个模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
80.以上均为本技术的较佳实施例,并非依此限制本技术的保护范围,本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代
特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1