一种海量网站基础信息的快速检索方法和系统的制作方法

文档序号：9288453阅读：320来源：国知局

一种海量网站基础信息的快速检索方法和系统的制作方法
【技术领域】
[0001] 本发明涉及一种检索方法和系统，具体涉及一种海量网站基础信息的快速检索方法和系统。
【背景技术】
[0002] 随着全球域名数量的不断激增，了解互联网网站的基础信息将变得十分有价值。一方面我们可以了解互联网网站的技术和组件的发展方向，另一方面我们也可以通过对网站基础信息的统计分析，关联到网站自身的脆弱性问题并给出预警和态势分析。
[0003] 由于计算资源有限，在全国乃至全球互联网网站关于基础信息收集、综合情况分析等工作缺乏技术支持和资源基础，因此这部分研究在国内外一直处于空白阶段。
[0004] 而随着近几年各种云平台的崛起，大量资源得以开放；计算资源的不断增加和价格不断下降使得这个工作变得越来越具备可行性。如国内开放的云平台就包括：盛大、阿里巴巴、百度、新浪、华为、腾讯等。
[0005] 目前，国际上对于全球网站的基础信息收集已经做出了初步的研究并取得一定成果。根据InternetCensus2012发布的报告，其完整探测了IPV4空间共4, 294, 967, 296 个地址，并收集了端口开放情况、组件类型及其版本等信息。但不得不提的是，该系统是通过控制全球42万台Linux设备（肉鸡）构建了分布式信息收集系统并完成的探测，严格来说属于非法侵犯了他人隐私。使用类似的手段和资源是极不可取的；因此必须我们依托云平台云计算的能力。
[0006] 现有的数据查询和检索大多采用直接从数据库中获取检索信息的方法；每次检索时，需要查询包含大量数据的所有数据库；这种方式势必造成效率低、检索结果重复率高的难题，不但增加了数据库系统的开销而且严重影响了系统的并发处理能力。
[0007] 截至2013年12月31日，全球所有顶级域名（Top-LevelDomains，TLD)的域名注册总数超过3. 52亿个。收集这些顶级域名和其二、三级域名的基础信息使用普通的关系型数据库和N0SQL数据库来存储和查询，已不能完美的应对数据快速检索的需求。

【发明内容】

[0008] 针对现有技术的不足，本发明提供一种海量网站基础信息的快速检索方法和系统，弥补了传统数据库检索方法效率低、检索结果重复率高的缺陷。
[0009] 本发明的目的是采用下述技术方案实现的：
[0010] -种海量网站基础信息的快速检索方法，所述方法包括下述步骤：
[0011] 收集网站基础信息，将其转化为固定字段的json格式文件作为检索对象；
[0012] 构建倒排索引系统；
[0013] 通过全文检索的方式进行快速检索；
[0014] 采用B树结构维护所述倒排索引系统。
[0015] 优选的，所述网站基础信息包括：网站操作系统类型、网站操作系统版本、网站服务端语言类型、网站服务端语言版本、网站Web容器类型、网站Web容器版本、网站排名、网站端口开放信息、网站第三方应用组件类型和网站第三方应用组件版本。
[0016] 优选的，构建倒排索引系统包括，将检索对象顺序排序后写入索引文件，同时创建与检索对象信息相关联的关键词索引表，用于存储关键词与检索对象的映射关系，每个映射关系包括关键词出现的位置、出现频率、出现次数、起始偏移量和结束偏移量。
[0017] 优选的，所述快速检索的具体步骤包括：
[0018] 输入待检索关键词或者语句；
[0019] 利用语法分析器，对待检索关键词或者语句进行词法分析，生成语法树；
[0020] 读取符合语法树的关键词索引表，通过索引表查询与索引文件的相似度，获取检索结果并将其结果反馈至用户。
[0021] 优选的，所述采用B树结构维护倒排索引系统包括，根据实际需要，定期更新倒排索引系统；将新的检索对象合并到当前索引文件中，扩展与新的检索对象信息相关联的关键词索引表。
[0022] -种海量网站基础信息的快速检索系统，该系统包括：接收模块、检索模块、定时更新模块、用户交互模块；其中，
[0023] 所述接收模块，用于接收用户输入的检索关键词或语句；
[0024] 所述检索模块，用于利用倒排索引系统根据关键词索引表对关键词索引表进行检索；
[0025] 维护模块，用于采用B树结构维护倒排索引系统；
[0026] 用户交互模块，用于将查询结果反馈至用户。
[0027] 优选的，所述维护模块包括，定时更新单元和合并单元；
[0028] 所述定时更新单元，用于根据实际需要，定期更新倒排索引系统；
[0029] 所述合并单元，用于将新的检索对象合并到当前索引文件中，对应扩展与新的检索对象信息相关联的关键词索引表。
[0030] 与现有技术比，本发明达到的有益效果是：
[0031] 本发明提供的方法和系统，采用对海量网站基础信息进行结构化处理；对海量网站基础信息进行快速检索；
[0032] 采用B树结构维护索引系统，减少了更新索引文件时产生大量的10操作；
[0033] 该快速检索方法弥补了传统数据库检索方法效率低的缺陷，节约了工作时间，大大提高了检索效率，且检索结果更为准确。
【附图说明】
[0034] 图1为本发明提供的一种海量网站基础信息的快速检索方法流程图；
[0035] 图2为本发明提供的一种海量网站基础信息的快速检索系统结构示意图。
【具体实施方式】
[0036] 下面结合附图对本发明的【具体实施方式】作进一步的详细说明。
[0037] 如图1所示，一种海量网站基础信息的快速检索方法，所述方法包括下述步骤：
[0038] 收集网站基础信息，将其转化为固定字段的json格式文件作为检索对象；所述网站基础信息包括：网站操作系统类型、网站操作系统版本、网站服务端语言类型、网站服务端语言版本、网站Web容器类型、网站Web容器版本、网站排名、网

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡俊;高胜;何世平;徐原;赵慧;金皓;党向磊;李世淙;徐晓燕;刘婧;饶毓;赵宸;陈阳;
技术所有人：国家计算机网络与信息安全管理中心;
我是此专利的发明人

上一篇：基于查询扩展的有限数据源数据获取方法
上一篇：一种异构数据库之间的数据同步方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。