适用于专利公开科技数据库的信息抓取方法与流程

文档序号:11407478阅读:465来源:国知局

本发明涉及一种信息抓取方法,尤其涉及一种适用于专利公开科技数据库的信息抓取方法。



背景技术:

就现有的企业研发数据收集来看,往往是采用人工方式,通过关键词以及逻辑公式进行不同数据库的检索,以获得相关的资源信息。但是,这种搜集方式费时费力,搜集完毕后还需要通过人工进行二次比对,才能过滤出可用的参考信息。对于研发需求量大的部门或是企业,人力成本投入较大,且因为人员差异化会导致搜集差异。

有鉴于上述的缺陷,本设计人,积极加以研究创新,以期创设一种适用于专利公开科技数据库的信息抓取方法,使其更具有产业上的利用价值。



技术实现要素:

为解决上述技术问题,本发明的目的是提供一种适用于专利公开科技数据库的信息抓取方法。

本发明的适用于专利公开科技数据库的信息抓取方法,其中:设定独立的抓取模块,根据网段的不同设定抓取协议。衔接专利公开数据库的对外数据端口,按照设定关键词进行抓取。检索后的数据文件首先在抓取服务器中进行存储。同时,所述抓取服务器内的数据文件进行过滤后,进行解析。最终,解析后的数据存入终端服务器并通过发布装置进行发布。

进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述抓取模块为网络爬虫模块,所述网络爬虫模块设有独立的抓取关键词管理库,通过设定时间段进行数据抓取。

更进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述设定时间为网络爬虫模块依据带宽负荷,在低于拥堵阈值时,进行抓取。

更进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述抓取协议为,抓取模块根据针对的内网、外网的带宽、数据传输效率、验证方式、原始数据格式,判断采用文本文件导出,或是html格式文件导出,或是图片格式文件导出,或是pdf格式文件导出。

更进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述过滤过程为,搜寻数据文件内的无效内容,删除无效内容后进行逻辑判断,若影响逻辑表达,则保留无效内容,且对无效内容进行标注,若不影响逻辑表达,则确认删除。

更进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述无效内容包括,验证码、格式符标注、无效代码嵌入、乱码嵌入。

更进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述抓取过程中,设定抓取范围,包括标题、摘要、专利全文、说明书、权利要求书、说明书附图、著录项目信息。

更进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述终端服务器对解析后的数据进行加密,对解析后的数据匹配快速查找的搜索关键词。

再进一步地,上述的适用于专利公开科技数据库的信息抓取方法,其中,所述发布装置为pc机,和/或是为智能手机,和/或是为智能手持设备。

借由上述方案,本发明至少具有以下优点:

1、可依据网段的不同设定对应的抓取协议,减少抓取的匹配运算过程,提高抓取执行效率;

2、可依据关键词制定抓取方式,获取有针对性数据。

3、拥有完善的存储、过滤机制,提升数据的保存安全性,同时减少无效信息,便于文件汇总收录。

4、可匹配常用的智能设备进行信息抓取后的发布,实施便捷。

5、对服务器要求低,满足服务器长时间不间断抓取和发布运转。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例详细说明如后。

具体实施方式

下面结合实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

适用于专利公开科技数据库的信息抓取方法,其与众不同在于:本发明设有独立的抓取模块,可根据网段的不同设定抓取协议。这样,能够针对各种专利公开数据库的数据结构,实现优化数据抓取,且设定后能人工智能识别。在实施期间,衔接专利公开数据库的对外数据端口,按照设定关键词进行抓取。同时,为了预防数据出现不必要的丢失,检索后的数据文件首先在抓取服务器中进行存储。考虑到无效数据的过滤,便于提供最合理的抓取结果,抓取服务器内的数据文件进行过滤后,进行解析。最终,解析后的数据存入终端服务器并通过发布装置进行发布。

结合本发明一较佳的实施方式来看,为了实现全方位的数据抓取,抓取模块为网络爬虫模块,网络爬虫模块设有独立的抓取关键词管理库,通过设定时间段进行数据抓取。结合实际实施来说,设定时间为网络爬虫模块依据带宽负荷,在低于拥堵阈值时,进行抓取。这样,不会对自身的服务器构架造成过大的负担。同时,能够优化数据抓取,提升抓取效率。

进一步来看,本发明采用的抓取协议为,抓取模块根据针对的内网、外网的带宽、数据传输效率、验证方式、原始数据格式,判断采用文本文件导出,或是html格式文件导出,或是图片格式文件导出,或是pdf格式文件导出。由此,即便遭遇到需要反复数据验证的页面,亦可以进行针对性的数据获取导向,顺利抓取数据,减少多余乱码产生。更为重要的是,可以优化最终的数据,获得最合适的文件格式,减少存储负担。

结合实际实施来看,本发明采用的过滤过程为,搜寻数据文件内的无效内容,删除无效内容后进行逻辑判断,若影响逻辑表达,则保留无效内容,且对无效内容进行标注,若不影响逻辑表达,则确认删除。具体来说,为了尽可能排除潜在的无效内容,便于后续发布采用,本发明采用的无效内容包括,验证码、格式符标注、无效代码嵌入、乱码嵌入。为了起到更好的过滤效果,可通过专利公开数据库对应的语言文字,进行断字匹配,符合对应的语言词组习惯与阅读习惯。

本发明在实施抓取过程中,可设定抓取范围。具体来说,为了适应专利公开文件的常规格式或是内容,可包括标题、摘要、专利全文、说明书、权利要求书、说明书附图、著录项目信息。这样,可以根据不同的抓取需要来获得对应的内容,

从信息安全性出发,为了预防自身抓取的信息被其他服务器恶意侵入或是出现端口攻击,终端服务器对解析后的数据进行加密。由此,即便是数据因为攻击造成外泄,也不会造成真实的数据损失。同时,考虑到后续使用者进行人工二次搜索的便利,能够第一时间获取所需要的数据,可对解析后的数据匹配快速查找的搜索关键词。

结合实际实施来看,为了实现最终发布的便利,本发明采用的发布装置为pc机。同时,考虑到用户使用的便利,能够随时查阅相关的数据信息,可采用智能手机是为智能手持设备参与发布。

通过上述的文字表述可以看出,采用本发明后,拥有如下优点:

1、可依据网段的不同设定对应的抓取协议,减少抓取的匹配运算过程,提高抓取执行效率;

2、可依据关键词制定抓取方式,获取有针对性数据。

3、拥有完善的存储、过滤机制,提升数据的保存安全性,同时减少无效信息,便于文件汇总收录。

4、可匹配常用的智能设备进行信息抓取后的发布,实施便捷。

5、对服务器要求低,满足服务器长时间不间断抓取和发布运转。

以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1