一种海量网站基础信息的快速检索方法和系统的制作方法

文档序号:9288453阅读:320来源:国知局
一种海量网站基础信息的快速检索方法和系统的制作方法
【技术领域】
[0001] 本发明涉及一种检索方法和系统,具体涉及一种海量网站基础信息的快速检索方 法和系统。
【背景技术】
[0002] 随着全球域名数量的不断激增,了解互联网网站的基础信息将变得十分有价值。 一方面我们可以了解互联网网站的技术和组件的发展方向,另一方面我们也可以通过对网 站基础信息的统计分析,关联到网站自身的脆弱性问题并给出预警和态势分析。
[0003] 由于计算资源有限,在全国乃至全球互联网网站关于基础信息收集、综合情况分 析等工作缺乏技术支持和资源基础,因此这部分研究在国内外一直处于空白阶段。
[0004] 而随着近几年各种云平台的崛起,大量资源得以开放;计算资源的不断增加和价 格不断下降使得这个工作变得越来越具备可行性。如国内开放的云平台就包括:盛大、阿里 巴巴、百度、新浪、华为、腾讯等。
[0005] 目前,国际上对于全球网站的基础信息收集已经做出了初步的研究并取得一定成 果。根据InternetCensus2012发布的报告,其完整探测了IPV4空间共4, 294, 967, 296 个地址,并收集了端口开放情况、组件类型及其版本等信息。但不得不提的是,该系统是通 过控制全球42万台Linux设备(肉鸡)构建了分布式信息收集系统并完成的探测,严格来 说属于非法侵犯了他人隐私。使用类似的手段和资源是极不可取的;因此必须我们依托云 平台云计算的能力。
[0006] 现有的数据查询和检索大多采用直接从数据库中获取检索信息的方法;每次检索 时,需要查询包含大量数据的所有数据库;这种方式势必造成效率低、检索结果重复率高的 难题,不但增加了数据库系统的开销而且严重影响了系统的并发处理能力。
[0007] 截至2013年12月31日,全球所有顶级域名(Top-LevelDomains,TLD)的域名注 册总数超过3. 52亿个。收集这些顶级域名和其二、三级域名的基础信息使用普通的关系型 数据库和N0SQL数据库来存储和查询,已不能完美的应对数据快速检索的需求。

【发明内容】

[0008] 针对现有技术的不足,本发明提供一种海量网站基础信息的快速检索方法和系 统,弥补了传统数据库检索方法效率低、检索结果重复率高的缺陷。
[0009] 本发明的目的是采用下述技术方案实现的:
[0010] -种海量网站基础信息的快速检索方法,所述方法包括下述步骤:
[0011] 收集网站基础信息,将其转化为固定字段的json格式文件作为检索对象;
[0012] 构建倒排索引系统;
[0013] 通过全文检索的方式进行快速检索;
[0014] 采用B树结构维护所述倒排索引系统。
[0015] 优选的,所述网站基础信息包括:网站操作系统类型、网站操作系统版本、网站服 务端语言类型、网站服务端语言版本、网站Web容器类型、网站Web容器版本、网站排名、网 站端口开放信息、网站第三方应用组件类型和网站第三方应用组件版本。
[0016] 优选的,构建倒排索引系统包括,将检索对象顺序排序后写入索引文件,同时创建 与检索对象信息相关联的关键词索引表,用于存储关键词与检索对象的映射关系,每个映 射关系包括关键词出现的位置、出现频率、出现次数、起始偏移量和结束偏移量。
[0017] 优选的,所述快速检索的具体步骤包括:
[0018] 输入待检索关键词或者语句;
[0019] 利用语法分析器,对待检索关键词或者语句进行词法分析,生成语法树;
[0020] 读取符合语法树的关键词索引表,通过索引表查询与索引文件的相似度,获取检 索结果并将其结果反馈至用户。
[0021] 优选的,所述采用B树结构维护倒排索引系统包括,根据实际需要,定期更新倒排 索引系统;将新的检索对象合并到当前索引文件中,扩展与新的检索对象信息相关联的关 键词索引表。
[0022] -种海量网站基础信息的快速检索系统,该系统包括:接收模块、检索模块、定时 更新模块、用户交互模块;其中,
[0023] 所述接收模块,用于接收用户输入的检索关键词或语句;
[0024] 所述检索模块,用于利用倒排索引系统根据关键词索引表对关键词索引表进行检 索;
[0025] 维护模块,用于采用B树结构维护倒排索引系统;
[0026] 用户交互模块,用于将查询结果反馈至用户。
[0027] 优选的,所述维护模块包括,定时更新单元和合并单元;
[0028] 所述定时更新单元,用于根据实际需要,定期更新倒排索引系统;
[0029] 所述合并单元,用于将新的检索对象合并到当前索引文件中,对应扩展与新的检 索对象信息相关联的关键词索引表。
[0030] 与现有技术比,本发明达到的有益效果是:
[0031] 本发明提供的方法和系统,采用对海量网站基础信息进行结构化处理;对海量网 站基础信息进行快速检索;
[0032] 采用B树结构维护索引系统,减少了更新索引文件时产生大量的10操作;
[0033] 该快速检索方法弥补了传统数据库检索方法效率低的缺陷,节约了工作时间,大 大提高了检索效率,且检索结果更为准确。
【附图说明】
[0034] 图1为本发明提供的一种海量网站基础信息的快速检索方法流程图;
[0035] 图2为本发明提供的一种海量网站基础信息的快速检索系统结构示意图。
【具体实施方式】
[0036] 下面结合附图对本发明的【具体实施方式】作进一步的详细说明。
[0037] 如图1所示,一种海量网站基础信息的快速检索方法,所述方法包括下述步骤:
[0038] 收集网站基础信息,将其转化为固定字段的json格式文件作为检索对象;所述网 站基础信息包括:网站操作系统类型、网站操作系统版本、网站服务端语言类型、网站服务 端语言版本、网站Web容器类型、网站Web容器版本、网站排名、网
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1