基于文本关键字的输电线路设备关联图片爬取方法与流程

文档序号:11519730阅读:224来源:国知局

本发明涉及一种图片爬取方法,尤其是涉及一种基于文本关键字的输电线路设备关联图片爬取方法。



背景技术:

电力是现代工业发展的根本,也是我国的重要资源。为确保电力网络的安全运行,如何对电力网络进行安全巡检,是我们目前研究关注的重点。电线路巡检目前主要可分为人工巡检、机器人巡检、载人直升机巡检和无人机巡检4种方式。传统的人工巡检不仅要求巡检人员具有相关的专业知识,而且还极大的依赖于巡检员的工作态度,并且恶劣的环境也对人工巡检提出了极大的挑战。相比于人工巡检,其他3种巡检方式不仅提高了检修效率,而且人力成本低、风险小。在这类现代的电路巡检方法过程中,会拍摄大量的电路巡检图片,而利用这些巡检图片作为资源,可以开发出一个通过电力图像来分析电力器件安全性的智能系统。在开发一个具有智能检测的系统时,系统的图像资源集的大小对系统的智能识别准备率具有决定性的影响。目前,仅仅依靠巡检过程中现场采集的图片非常有限,而且单一电力企业没有足够的训练数据,计算机的训练集太小,学习训练不够充分,所以导致识别率不高。



技术实现要素:

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于文本关键字的输电线路设备关联图片爬取方。

本发明的目的可以通过以下技术方案来实现:

一种基于文本关键字的输电线路设备关联图片爬取方法,包括步骤:

s1:获取文本关键字;

s2:根据获取的文本关键字扩展得到相关关键字;

s3:基于文本关键字和相关关键字利用搜索引擎的图片搜索服务器搜索得到关联图片;

s4:下载关联图片。

所述步骤s3具体包括步骤:

s31:基于文本关键字和相关关键字向搜索引擎的图片搜索服务器发送http搜索请求;

s32:接收并获取由搜索服务器返回的关联图片的下载链接;

s33:保存获取的关联图片的下载链接。

所述步骤s32包括步骤:

s321:接收由搜索服务器返回的每一张关联图片的下载链接属性;

s322:从反馈的每一张关联图片的下载链接属性中获取该关联图片的下载链接。

所述步骤s4中,下载关联图片时更新并保存下载状态和源搜索引擎。

所述步骤s4中,采用异步多线程方式下载关联图片。

所述步骤s3中,利用多个搜索引擎的图片搜索服务器搜索得到关联图片。

与现有技术相比,本发明具有以下优点:

1)利用本地的联想功能,而不是利用搜索引擎自身的联想能力,可以让联想更加符合电力系统特点,从而搜索到更加符合要求的关联图片,有利于智能检测系统有效训练。

2)将获取的关联图片的下载链接进行本地保存,从而实现断点续传。

3)从服务器返回的下载链接属性筛选出下载链接,避免了搜索引擎的反爬机制影响。

附图说明

图1为本发明方法的主要步骤流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

一种基于文本关键字的输电线路设备关联图片爬取方法,如图1所示,包括步骤:

s1:获取文本关键字;

s2:根据获取的文本关键字扩展得到相关关键字;

s3:基于文本关键字和相关关键字利用多个搜索引擎的图片搜索服务器搜索得到关联图片,具体包括步骤:

s31:基于文本关键字和相关关键字向搜索引擎的图片搜索服务器发送http搜索请求;

s32:接收并获取由搜索服务器返回的关联图片的下载链接,具体包括步骤:

s321:接收由搜索服务器返回的每一张关联图片的下载链接属性;

s322:从反馈的每一张关联图片的下载链接属性中获取该关联图片的下载链接。

s33:保存获取的关联图片的下载链接。

s4:采用异步多线程方式下载关联图片,其中,下载关联图片时更新并保存下载状态和源搜索引擎。

利用此方法得到的关联图片可以为后续的图像识别系统研发提供结构化的训练集数据,进一步提升电力图像识别算法的有效性和准确率,提高系统的鲁棒性。自动的从互联网上异步多线程爬取关键字关联图片,对用户请求内容扩展关联内容,并且全自动操作,操作简单,提升工作效率。首先客户端向搜索引擎的图片搜索服务器发送关键字搜索请求,服务器接受到客户端的搜索请求后,根据用户请求的信息返回相关图片下载链接,客户端接收到服务器返回的图片下载链接,将图片下载链接信息存入到数据库,等待下载,最后客户端的本地下载器异步多线程下载数据库中未下载的资源。

1)搜索引擎的反爬虫机制。各大搜索引擎具有反爬虫机制,在搜索引擎的图片服务器接收到查询信息后返回到图片下载链接是不能直接被程序下载的。在申请中,根据搜索引擎返回的html代码,利用html解析器与正则表达式等相关技术,将html代码中图片的原始网站地址提取出来,图片的原始网站地址是能够被程序下载器下载的。以百度图片为例:下载百度图片中的图片,百度返回给用户的图片信息中包含thumburl、middleurl、objurl、fromurl这四个图片下载链接属性,其中只有通过objurl属性得到的图片原始下载链接可以被程序自动下载。通过其他3个属性得到图片下载链接利用程序自动下载时,都会被百度图片网站的反爬虫机制限制。

2)断点续传;从服务器得到的待下载图片url存入数据库,将待下载图片url存入数据库中的目的是为了便于实现对图片下载任务的断点续传。同时这也能够在数据库中保存图片的其他相关信息,例如图片下载状态、源搜索引擎等。

3)相似关键字关联下载;本方法提出对单一关键词进行相似关键词扩展,将对单一关键词的爬取扩展为与这一关键词相似的多关键词爬取。以关键字电塔为例,电塔为单一关键词,对电塔关键字进行相似扩展,得到电力塔、风电塔、高压电塔、电线塔、高压线等相似关键词

利用

本技术:
方法,将从前用户手动下载图片转变为程序自动下载关联图片,减少用户等待时间,提升用户体验感,使用方便,具有gui界面,极易上手。使用者可以自定义感兴趣的关键字本文,爬虫就能自动匹配互联网上相关的图片并保存到本地磁盘中。同时本方法支持并行图片爬取,对需要下载大量图片,同时又需要快速获取数据的用户而言使用其并行功能,可以达到令人满意的效果。



技术特征:

技术总结
本发明涉及一种基于文本关键字的输电线路设备关联图片爬取方法,包括步骤:S1:获取文本关键字;S2:根据获取的文本关键字扩展得到相关关键字;S3:基于文本关键字和相关关键字利用搜索引擎的图片搜索服务器搜索得到关联图片;S4:下载关联图片。与现有技术相比,本发明利用本地的联想功能,而不是利用搜索引擎自身的联想能力,可以让联想更加符合电力系统特点,从而搜索到更加符合要求的关联图片,有利于智能检测系统有效训练。

技术研发人员:何冰;袁奇;王媚;印明骋;王欣庭;赖志超;柴忠良
受保护的技术使用者:国网上海市电力公司
技术研发日:2017.02.16
技术公布日:2017.08.18
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1