本发明属于互联网领域,具体涉及基于web的生态空间数据爬取方法。
背景技术:
web空间数据获取主要采用网络爬虫技术,网络爬虫又称网络蜘蛛,网络机器人,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,传统网络爬虫从一个或若干初始网页的url开始,获得初始网页上的url,在抓取网页的过程中,不断从当前页面上抽取新的url放入队列,直到满足系统的一定条件停止。
目前,空气质量检测数据具有更新速度快,数据量大的特点,传统基于网络爬虫的web空间数据获取研究大多都是基于单机网络爬虫的形式;然而,web空间数据广泛分布于不同的网络站点中且更新频率较快,依赖单机网络爬虫抓取数据在抓取覆盖率和抓取效率上准以满足需求,难以保证抓取数据的及时性和全面性;同时单机网络爬虫为了提高数据抓取效率,通常采用多线程异步方式进行实现,其实现难度大、不易维护、容易发死锁现象。
基于web空间数据爬取方法收集到的空气质量数据中二氧化硫含量是大气污染的主要污染物之一,也是酸雨形成的原因之一,若空气中二氧化硫浓度超标,对人体危害较大,容易出现眼、鼻粘膜刺激症状,甚至发生猴头与支气管痉挛,轻则昏迷,重则死亡;若环境中二氧化硫浓度超标,植物也会出现“中毒”症状,叶片逐渐褪色、叶片萎蔫、叶脉变白,从而造成死亡;空气中二氧化硫溶于水后,不仅会使土壤和水体酸化,给人类和植物造成极大的危害,同时二氧化硫与酸雨出现后,为社会经济发展造成了严重阻碍。
我国二氧化硫污染严重,主要原因是我国的产业结构主要以煤炭产业为主,煤炭燃烧造成了大量二氧化硫以及其他污染物的排放,同时对二氧化硫的污染防治工作不到位,不重视保护生态环境。
目前二氧化硫处理方法有物理方法和化学方法,其中物理方法应用较广泛的为吸附法、溶剂吸收法,化学法中主要有钙法、钠法和钾法;单一的物理方法脱硫,往往需要加入大量的化学物质进行二氧化硫处理,能耗浪费较大;化学法中往往由于反应条件,处理后的溶液中含有未反应的溶液,造成分离困难,影响重复使用,造成资源的浪费。
技术实现要素:
本发明提供了基于web的生态空间数据爬取方法,以至少解决相关技术中对于空气质量数据收集数据量过大,无用数据过多,数据质量低的问题,同时对空气质量数据中二氧化硫进行分析,找出影响二氧化硫含量的影响因素,给出对应的室内二氧化硫治理方案。
基于web的生态空间数据爬取方法,包括以下步骤:
(1)二氧化硫数据爬取:根据二氧化硫浓度数据特征,选取爬取方案,进行数据爬取,筛选出二氧化硫浓度超标的城市;
(2)室内二氧化硫检测:使用二氧化硫检测仪检测二氧化硫浓度超标城市室内二氧化硫浓度;
(3)数据比对:根据室内二氧化硫检测浓度与爬取数据进行比对;
(4)二氧化硫脱硫处理:若室内二氧化硫浓度呈逐步上升的趋势且接近爬取二氧化硫浓度,则开启二氧化硫脱硫处理。
进一步,所述的步骤(1)中二氧化硫数据爬取具体步骤如下:
1.1,选择爬取方案:根据二氧化硫浓度数据特征,数据多,更新快,对环境监测网站html页面进行分析,查找需要的数据信息url及标签,根据该标签和url信息制定页面信息爬取方案为分布式网络爬虫;
1.2,爬取数据:从网页中提取出有关的url加入url队列,爬取网站上数据;
1.3,url处理:读取url,url去重,提取域名和url存储;
1.4,清洗数据:将爬取到的数据进行数据清洗,一致性检查和处理无效值和缺失值;一致性检查是根据每个变量的合理取值范围和相互关系,检查数据之间的关系,发现超出正常范围或者相互矛盾的值;采用估算、直接剔除、全局变量填充、随机插补法处理无效值和缺失值;
1.5,存储数据:将爬取到的数据存在数据库中。
进一步,所述的爬取数据具体步骤如下:
2.1,爬虫引擎打开一个环境监测网站的主域名,找到处理该网站的解析器,从解析器中获取系统首先要进行抓取的起始urls;
2.2,爬虫引擎将得到的起始urls发送给调度器,调度器将其依次加入到主节点redis缓存服务器存储的共享待爬取url队列中;
2.3,爬虫引擎向调度器查询共享待爬取url队列中的剩余url;
2.4,调度器将查询和获取共享待爬取url队列中第一个要爬取的url,然后爬虫引擎把该url所对应的网络请求通过下载器中间件发送给下载器;
2.5,下载器对该url所对应的web页面进行下载,然后将下载好的空气中二氧化硫含量数据通过下载器中间件传递给爬虫引擎;
2.6,爬虫引擎将下载好的数据通过爬虫中间件传递给解析器;
2.7,解析器对下载好的数据进行分析处理,并从中提取出感兴趣的数据项和新的urls发送给爬虫引擎;
2.8,爬取网站路径补充,避免网页为引用页面,导致路径不完整造成数据收集出现缺失,需要进行爬取网站路径补充。
其中,是否需要补充的判断方法为:两个连续访问页面pl、p2,若pl为p2引用页面,两个页面之间就需要补全路径,若非引用页面,就需要检查用户访问路径中是否存在p2访问页面,若没有,则判断p2为用户新会话过程,不需要再补全路径,若有,则表明用户是执行了后退操作通过pl访问了p2,需要补全路径。
补全方法一般采取匹配父节点的方法完成,当判断两个页面之间需要补充路径时,先检查p2的父页面,与pl的父节点进行匹配,若相同,就可以直接将pl的父节点作为p1与p2之间的完整路径;若不同,则需要继续检查pl的祖父节点,与p2父节点进行匹配,直至所有需匹配的p2父节点均补全到用户访问路径中。
进一步,所述的url处理包括以下流程,具体如下:
3.1,读取url:从redis数据库的url队列中读取一批url到storm分布式平台上进行处理;
3.2,url去重:过滤已爬取的url,防止网络爬虫对相同的url重复爬取,提高爬虫系统的爬取效率;
3.3,提取域名:从url中提取域名,依据网站域名的特点,识别url所属的网站url队列;
3.4,url存储:将url按照域名存储到不同的网站url队列中,url存储使用tridentstate实现。
进一步,数据爬取为北方火电厂、化工产业等主要重工业城市二氧化硫浓度。
进一步,二氧化硫治理的方案为膜吸收法,通过使用氧化石墨烯改性聚全氟乙丙烯中空纤维膜吸收器,选择氢氧化钠溶液为吸收液,实现脱硫的目标。
进一步,其中氧化石墨烯改性聚全氟乙丙烯中空纤维膜的制备方法为:
4.1,将聚全氟乙丙烯与纳米级二氧化硅和界面处理剂组成的致孔剂、增塑剂邻苯二甲酸二辛酯三种物质混合均匀后,在真空条件下,加入氧化石墨烯充分混合,烘干后进行熔融拉丝;
4.2将拉丝后物质进行静电纺丝处理,用无水乙醇萃洗浸泡,得到氧化石墨烯改性聚全氟乙丙烯中空纤维膜。
进一步,其中聚全氟乙丙烯:致孔剂:增塑剂质量比为3:2:1,氧化石墨烯质量为三种混合后溶液总质量的0.2%,真空干燥下温度为98℃,干燥时间为10h。
进一步,其中静电纺丝处理为电压25kv、注射速度2.0ml/h条件下进行静电纺丝。
有益效果
(1)本发明采用分布式网络爬取技术,主节点不做数据爬取,只进行爬取任务的调度,爬虫节点负责数据的下载和提取,部署简单,易于扩展;支持断点续爬,经过故障修复能够再次运行,能够快速恢复之前的数据结构,提升了系统的稳定性;主节点负责对分布式网络爬虫系统中各爬虫节点进行负载均衡,避免某个爬虫节点过载或者过于清闲,使得各爬虫节点所承担的工作量大致相当,提高了抓取效率;能够实现周期性的更新,提高了资源利用率。
(2)本发明在数据爬取中添加了路径补充环节,路径补充可以补全访问页面时的完整访问路径,提高数据爬取的完整性,避免数据出现缺失,提高数据爬取的精确性。
(3)本发明采用在数据存储前进行数据清洗处理,能够减少数据异常或缺失,使收集到的数据更加准确,同时经过处理后的数据能够减少数据存储中的存储空间,提高存储的效率。
(4)本发明采用膜吸收法,通过多孔膜把气相二氧化硫气体与氢氧化钠溶液分开,二氧化硫气体由多孔膜内的孔道进入气液相界面的位置,二氧化硫和氢氧化钠反应后,不仅能达到脱硫的目的,还能够对硫资源进行回收。
(5)本发明使用氧化石墨烯改性聚全氟乙丙烯中空纤维膜,增加了膜材料的亲水性、导电性,拉伸强度,使改性后的中空纤维膜能够更好的进行二氧化硫脱硫处理。
附图说明
图1为空间数据爬取的流程示意图;
图2为膜吸收器吸收二氧化硫装置示意图及流程图;
图3为吸收前后二氧化硫浓度柱状图。
具体实施方式
以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例;基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
实施例1
图1为本实施例提供的空间数据爬取的流程示意图,如图1所示,基于web的生态空间数据爬取方法,包括以下步骤:
(1)二氧化硫数据爬取:根据二氧化硫浓度数据特征,选取爬取方案,进行数据爬取,筛选出二氧化硫浓度超标的城市;
(2)室内二氧化硫检测:使用二氧化硫检测仪检测二氧化硫浓度超标城市室内二氧化硫浓度;
(3)数据比对:根据室内二氧化硫检测浓度与爬取数据进行比对;
(4)二氧化硫脱硫处理:若室内二氧化硫浓度呈逐步上升的趋势且接近爬取二氧化硫浓度,则开启二氧化硫脱硫处理。
进一步,所述的步骤(1)中二氧化硫数据爬取具体步骤如下:
1.1,选择爬取方案:根据二氧化硫浓度数据特征,数据多,更新快,对环境监测网站html页面进行分析,查找需要的数据信息url及标签,根据该标签和url信息制定页面信息爬取方案为分布式网络爬虫;
1.2,爬取数据:从网页中提取出有关的url加入url队列,爬取网站上数据;
1.3,url处理:读取url,url去重,提取域名和url存储;
1.4,清洗数据:将爬取到的数据进行数据清洗,一致性检查和处理无效值和缺失值;一致性检查是根据每个变量的合理取值范围和相互关系,检查数据之间的关系,发现超出正常范围或者相互矛盾的值;采用估算、直接剔除、全局变量填充、随机插补法处理无效值和缺失值;
1.5,存储数据:将爬取到的数据存在数据库中。
进一步,所述的爬取数据具体步骤如下:
2.1,爬虫引擎打开一个环境监测网站的主域名,找到处理该网站的解析器,从解析器中获取系统首先要进行抓取的起始urls;
2.2,爬虫引擎将得到的起始urls发送给调度器,调度器将其依次加入到主节点redis缓存服务器存储的共享待爬取url队列中;
2.3,爬虫引擎向调度器查询共享待爬取url队列中的剩余url;
2.4,调度器将查询和获取共享待爬取url队列中第一个要爬取的url,然后爬虫引擎把该url所对应的网络请求通过下载器中间件发送给下载器;
2.5,下载器对该url所对应的web页面进行下载,然后将下载好的空气中二氧化硫含量数据通过下载器中间件传递给爬虫引擎;
2.6,爬虫引擎将下载好的数据通过爬虫中间件传递给解析器;
2.7,解析器对下载好的数据进行分析处理,并从中提取出感兴趣的数据项和新的urls发送给爬虫引擎;
2.8,爬取网站路径补充,避免网页为引用页面,导致路径不完整造成数据收集出现缺失,需要进行爬取网站路径补充。
其中,是否需要补充的判断方法为:两个连续访问页面pl、p2,若pl为p2引用页面,两个页面之间就需要补全路径,若非引用页面,就需要检查用户访问路径中是否存在p2访问页面,若没有,则判断p2为用户新会话过程,不需要再补全路径,若有,则表明用户是执行了后退操作通过pl访问了p2,需要补全路径。
补全方法一般采取匹配父节点的方法完成,当判断两个页面之间需要补充路径时,先检查p2的父页面,与pl的父节点进行匹配,若相同,就可以直接将pl的父节点作为p1与p2之间的完整路径;若不同,则需要继续检查pl的祖父节点,与p2父节点进行匹配,直至所有需匹配的p2父节点均补全到用户访问路径中。
进一步,所述的url处理包括以下流程,具体如下:
3.1,读取url:从redis数据库的url队列中读取一批url到storm分布式平台上进行处理;
3.2,url去重:过滤已爬取的url,防止网络爬虫对相同的url重复爬取,提高爬虫系统的爬取效率;
3.3,提取域名:从url中提取域名,依据网站域名的特点,识别url所属的网站url队列;
3.4,url存储:将url按照域名存储到不同的网站url队列中,url存储使用tridentstate实现。
本实施例中数据爬取中添加了路径补充环节,路径补充可以补全访问页面时的完整访问路径,提高数据爬取的完整性,避免数据出现缺失,提高数据爬取的精确性;同时在数据存储前进行数据清洗处理,能够减少数据异常或缺失,使收集到的数据更加准确,同时经过处理后的数据能够减少数据存储中的存储空间,提高存储的效率。
实施例2
考虑到北方重工业城市中采暖期和非采暖期煤炭使用量不同,造成空气中二氧化硫含量也不同,热电厂中煤炭燃烧对空气造成的影响,因此针对二氧化硫治理的方案具体采用的是膜吸收法,通过使用氧化石墨烯改性聚全氟乙丙烯中空纤维膜吸收器,选择氢氧化钠溶液为吸收液,实现脱硫的目标。
其中氧化石墨烯改性聚全氟乙丙烯中空纤维膜的制备方法为:
4.1,将聚全氟乙丙烯与纳米级二氧化硅和界面处理剂组成的致孔剂、增塑剂邻苯二甲酸二辛酯三种物质按照质量比3:2:1进行混合均匀后,在真空条件下干燥,干燥温度为98℃,干燥时间为10h,加入氧化石墨烯充分混合,其中氧化石墨烯质量为三种混合后溶液总质量的0.2%,烘干后进行熔融拉丝;
4.2,将拉丝后物质进行静电纺丝处理,其中静电纺丝处理为电压25kv、注射速度2.0ml/h,静电纺丝处理后将所得物质用无水乙醇萃洗浸泡,得到氧化石墨烯改性聚全氟乙丙烯中空纤维膜。
将实验所得的氧化石墨烯改性聚全氟乙丙烯中空纤维膜进行水接触角、纯水通量、断裂强度、耐酸碱测试:
水接触角测试:将干燥好的样品膜固定在载玻片上,室温下测试静态水接触角;
纯水通量测试:在恒定压力为0.15mpa下对膜进行水通量测试;
断裂强度:采用拉伸试验机测试膜的断裂拉伸率;
耐酸碱性测试:将膜分别浸泡在稀硫酸、氢氧化钠水溶液浸泡30天后测试其性能保持率。
表1为实施例2中氧化石墨烯改性聚全氟乙丙烯中空纤维膜性能评价:
表1:
通过表1可以看出通过此实验制备的氧化石墨烯改性聚全氟乙丙烯中空纤维膜具有良好的通透性,断裂后拉伸率高,耐酸碱腐蚀性高,具有较好的应用前景。
实施例3-5
将制得的氧化石墨烯改性聚全氟乙丙烯中空纤维膜作为膜吸收器,选择氢氧化钠溶液为吸收液,进行模拟室内二氧化硫脱硫实验,具体实验装置及实验流程图如图2所示:通过压缩空气和so2配气模拟室内含硫气体,其浓度采用质量流量控制器控制在(1±0.1)mg/m3,并通过静态混合器与空气充分,运行过程中进口模拟室内含硫气体压力均不超过1kpa,温度设置为25℃,吸收液采用0.1mol/l的氢氧化钠溶液,在膜吸收器前端(膜吸收前)、后端(膜吸收后)各设置一个气体检测口,用于检测膜吸收器吸收so2的效果。
表2为膜吸收器吸附二氧化硫的相关比例:
表2:
图3为吸收前后二氧化硫浓度柱状图,通过表2和图3可以看出,氧化石墨烯改性聚全氟乙丙烯中空纤维膜作为膜吸收器吸附二氧化硫的吸收率高,接近于100%,相较于传统的脱硫方式,能耗较低,操作便利,具有较好的应用前景。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。