网站信息收集方法及系统的制作方法

文档序号:9687556阅读:572来源:国知局
网站信息收集方法及系统的制作方法
【技术领域】
[0001]本发明涉及互联网技术领域,尤其涉及一种网站信息收集方法及系统。
【背景技术】
[0002]随着互联网技术的高速发展和广泛应用,互联网上的网站信息越来越多地受到网络黑客和网络病毒的侵袭。网站信息通常包含大量的重要信息,比如域名地址信息、IP地址信息、电子邮件地址信息、甚至还包括特别重要的网络结构、系统版本和物理位置信息等。因此,现有的网络安全技术通常采用在单独的搜索引擎网页的搜索栏输入网站域名进行查询搜索,以收集该网站的重要信息,并对相应的信息安全进行加固。但是这种网站信息收集方法通常只在一个或少数几个搜索引擎网页上单独进行输入和检索,查询检索非常繁琐和耗时,同时由于受限于搜索引擎的数量导致查询结果并不全面,而输出的查询结果只能以各个独立的搜索引擎网站网页方式呈现而并不能整合在一起输出,影响对查询到的网站信息的分析和处理。

【发明内容】

[0003]鉴于此,本发明提供一种网站信息收集方法及系统,解决现有网站信息收集的工作效率低、收集的信息结果不全面的技术问题。
[0004]根据本发明的一个实施例,提供一种网站信息收集方法,包括步骤:获取输入的查询信息,所述查询信息包括待查询的网站域名和选择使用的搜索引擎;对所述查询信息进行解析,获取待查询的网站域名和选择使用的搜索引擎;根据所述选择使用的搜索引擎调用所述搜索引擎对应的类库和功能插件;通过所述功能插件分析所述搜索引擎的使用规则和语法结构;基于所述搜索引擎的使用规则向所述搜索引擎的服务器发送对所述网站域名进行搜索的请求;以及接收并输出所述搜索引擎的搜索结果。
[0005]优选的,所述搜索结果以HTML格式输出。
[0006]优选的,所述对所述查询信息进行解析包括:识别所述查询信息的关键字;根据识别到的关键字确定待查询的网站域名和选择使用的搜索引擎。
[0007]优选的,所述搜索引擎包括但不限于baidu、google、googleCSE、bing、bingap1、pgp、linkedin、google_profiles、peoplel 23、jigsaw、twitter 或 googleplus 及其组合。
[0008]优选的,所述查询信息中选择使用的搜索引擎包括所有预设的搜索引擎。
[0009]根据本发明的另一实施例,提供一种网站信息收集系统,包括:查询获取单元,用于获取输入的查询信息,所述查询信息包括待查询的网站域名和选择使用的搜索引擎;查询解析单元,用于对所述查询信息进行解析,获取待查询的网站域名和选择使用的搜索引擎;功能插件调用单元,用于根据所述选择使用的搜索引擎调用所述搜索引擎对应的类库和功能插件;搜索引擎分析单元,用于通过所述功能插件分析所述搜索引擎的使用规则和语法结构;搜索请求发送单元,用于基于所述搜索引擎的使用规则向所述搜索引擎的服务器发送对所述网站域名进行搜索的请求;以及接收与输出单元,用于接收并输出所述搜索引擎的搜索结果。
[0010]优选的,所述接收与输出单元将所述搜索结果以HTML格式输出。
[0011]优选的,所述查询解析单元包括:关键字识别单元,用于识别所述查询信息的关键字;以及确定单元,用于根据识别到的关键字确定待查询的网站域名和选择使用的搜索引擎。
[0012]优选的,所述搜索引擎包括但不限于baidu、google、googleCSE、bing、bingap1、pgp、linkedin、google_profiles、peoplel 23、jigsaw、twitter 或 googleplus 及其组合。
[0013]优选的,所述查询信息中选择使用的搜索引擎包括所有预设的搜索引擎。
[0014]本发明提供的网站信息收集方法及系统,分析输入的查新信息获取待查询的网站域名和选择使用的搜索引擎,并通过功能插件分析搜索引擎的使用规则和语法结构并向所有选择使用的搜索引擎服务器发送搜索查询请求,最终收集和输出HTML格式的搜索结果。相比传统的在多个搜索引擎网站单独输入满足使用规则和语法结构的网站域名进行查询搜索,本发明通过功能插件聚合搜索引擎,仅通过一次查询信息的输入就可以实现多个搜索引擎的查询搜索,简化了现有网站信息收集的流程,提高了网站信息收集的工作效率和搜索结果的全面性。
【附图说明】
[0015]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本发明一个实施例中网站信息收集方法的流程示意图。
[0017]图2为本发明一个实施例中对查询信息进行解析的流程示意图。
[0018]图3为本发明另一个实施例中网站信息收集系统的结构示意图。
[0019]图4为本发明另一个实施例中查询解析单元的结构示意图。
【具体实施方式】
[0020]下面结合附图和【具体实施方式】对本发明的技术方案作进一步更详细的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0021 ]在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0022]流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0023]图1为本发明一个实施例中网站信息收集方法的流程示意图。如图所示,本发明实施例提供的所述网站信息收集方法,包括:
[0024]步骤S100:获取输入的查询信息,所述查询信息包括待查询的网站域名和选择使用的搜索引擎。
[0025]具体的,用户可在命令行输入查询信息,所述查询信息可包括待查询的网站域名和选择使用的搜索引擎。比如,用户按照查询信息预设的标准规则在命令行输入:./f indweb.py-d cnbeta.com-b baidu,其中 f indweb.py表不查询网站信息的指令,-dcnbeta.com表示待查询的网站域名为cnbeta.com,_b baidu表示选择使用的搜索引擎为baidu。当用户选择使用多个搜索引擎google、bing和twitter时,可以在命令行输入:/findweb.py-d
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1