天气数据获取方法及装置、计算机装置及可读存储介质与流程

文档序号:15492551发布日期:2018-09-21 20:55阅读:257来源:国知局

本发明涉及数据处理技术领域,具体涉及一种天气数据获取方法及装置、计算机装置和计算机可读存储介质。



背景技术:

天气数据在我们的日常生活中起着越来越重要的作用。例如,对于沿海地区和从事海上作业的人们来说,可以通过天气预报了解未来是否有台风或暴雨,减少不必要的损失。如何获得可靠的天气数据成为了一个巨大的挑战。

传统的天气数据抓取仅仅是从网络上获取天气数据,缺少对天气数据的具体内容进行判定和处理的过程,因而获得的数据并不理想。



技术实现要素:

鉴于以上内容,有必要提出一种天气数据获取方法及装置、计算机装置和计算机可读存储介质,其可以获得高可靠性、高准确率的天气数据。

本申请的第一方面提供一种天气数据获取方法,所述方法包括:

从网页中抓取天气数据;

解析所述天气数据中的缺失值;

利用elasticnet算法进行回归拟合,填补所述缺失值;

利用moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;

利用elasticnet算法进行回归拟合,填补剔除的所述异常值。

另一种可能的实现方式中,所述从网页中抓取天气数据包括:

生成面向天气信息网站的api接口的种子url以及后续的url;

向所述天气信息网站的api接口发送http请求,请求访问所述api接口;

对所述天气信息网站提供的数据内容进行分析和识别,以查看所述数据内容;

判断所述数据内容是否为预定信息内容;

若所述数据内容为预定信息内容,则抓取所述数据内容;

将抓取的数据内容作为所述天气数据保存到本地。

另一种可能的实现方式中,假设t+1时刻的数据xt+1发生缺失,则所述利用elasticnet算法进行回归拟合,填补所述缺失值包括:

选取t+1时刻之前的24个时刻t-i,i=0,1,2,…,23,选取时间窗大小w,对于所述24个时刻中的每一个时刻t-i,得到一组数据集[xt-i-w,xt-i-w+1,…,xt-i-1],即得到24组数据集:

[xt-w,xt-w+1,…,xt-1],

[xt-w-1,xt-w,…,xt-2],

[xt-w-2,xt-w-1,…,xt-3],

[xt-w-23,x1,…,xt-24];

以所述24组数据集作为训练数据,对训练数据进行划分,每一组最后一个数组成集合y,每一组最后一个数以外的其他数组成集合x,集合x为:

[[xt-w,xt-w+1,…,xt-2],

[xt-w-1,xt-w,…,xt-3],

[xt-w-2,xt-w-1,…,xt-4],

[xt-w-23,x1,…,xt-25]],

集合y为:

[[xt-1],[xt-2],[xt-3],…,[xt-24]];

将训练数据的x值和y值输入elasticnet模型中,用每一组的x值去拟合y值,训练elasticnet模型;

以[xt-w+1,xt-w+1,…,xt]作为输入数据输入到训练好的elasticnet模型中,得到elasticnet模型输出的一个值,将该值作为缺失的xt+1。

另一种可能的实现方式中,设天气数据为x=[x0,x1,x2,…,xt′],所述利用moving-zscore算法检测所述天气数据中的异常值包括:

(1)选取时间窗大小w′,针对时间点w′至时间点t′中的每个时间点i′,i′=w′,w′+1,…,t′,计算所述时间点i′对应的时间窗内天气数据的均值μi′和标准差σi′,所述时间点i′对应的时间窗的长度为w′;

(2)根据每个时间点i′对应的时间窗内天气数据的均值μi′和标准差σi′,计算所述时间点i′对应的天气数据xi′的mz值mzi′,得到mz列表:

[mzw′,mzw′+1,mzw′+2,…,mzt′],

其中:

(3)求mz列表的第α分位数作为阈值,得到mzα_percentage,α为预设值;

(4)如果mzi′大于mzα_percentage,则对应第i′时刻的天气数据xi′为异常值。

另一种可能的实现方式中,所述天气数据包括湿度、气温、气压、降水量、水汽压、风速、风向、日照时数。

另一种可能的实现方式中,所述天气数据包括实时的天气数据、预报的天气数据和历史的天气数据。

另一种可能的实现方式中,所述解析所述天气数据中的缺失值包括:

将所述天气数据处理成行标签为时间信息、列标签为天气信息的矩阵;

判断所述矩阵中是否存在列信息字段为空的数据;

若所述矩阵中存在列信息字段为空的数据,则该列信息字段为空的数据为所述天气数据中的缺失值。

本申请的第二方面提供一种天气数据获取装置,所述装置包括:

抓取单元,用于从网页中抓取天气数据;

解析单元,用于解析所述天气数据中的缺失值;

第一填补单元,用于利用elasticnet算法进行回归拟合,填补所述缺失值;

检测单元,用于利用moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;

第二填补单元,用于利用elasticnet算法进行回归拟合,填补剔除的所述异常值。

本申请的第三方面提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现所述天气数据获取方法。

本申请的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述天气数据获取方法。

本发明从网页中抓取天气数据;解析所述天气数据中的缺失值;利用elasticnet算法进行回归拟合,填补所述缺失值;利用moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;利用elasticnet算法进行回归拟合,填补剔除的所述异常值。本发明可以获得高可靠性、高准确率的天气数据。

附图说明

图1是本发明天气数据获取方法的应用环境示意图。

图2是本发明天气数据获取方法较佳实施例的流程图。

图3是图2中步骤201的细化流程图。

图4为本发明天气数据获取装置较佳实施例的结构图。

图5是图4中抓取单元的细化结构图。

图6为本发明计算机装置较佳实施例的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

优选地,本发明的天气数据获取方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程门阵列(field-programmablegatearray,fpga)、数字处理器(digitalsignalprocessor,dsp)、嵌入式设备等。

所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

图1是本发明天气数据获取方法的应用环境示意图。

参阅图1所示,所述天气数据获取方法应用于计算机装置1中,所述计算机装置1通过网络2与网络服务器3通信连接,所述网络服务器3与网页库4相连,所述网页库4存储多个网页。所述计算机装置1通过网络服务器3抓取网页库4中网页上的天气数据,并对抓取的天气数据进行填补和修正,获得高可靠性、高准确率的天气数据。

图2是本发明天气数据获取方法较佳实施例的流程图。

参阅图2所示,所述天气数据获取方法具体包括以下步骤:

步骤201,从网页中抓取天气数据。

所述天气数据为时间序列数据。所述天气数据可以包括实时的天气数据、预报的天气数据和历史的天气数据。

所述天气数据可以包括湿度、气温、气压、降水量、水汽压、风速、风向、日照时数。在一具体实施例中,所述天气数据可以包括每日的平均气温、平均气压、最高气温、最低气温、平均相对湿度、最小相对湿度、降水量、平均风速、日照时数、平均水汽压。

可以从天气信息网站(例如中国天气网、新浪天气、搜狐天气等)抓取所述天气数据,以提高天气数据的可靠性。可以理解,可以从任意网页中抓取所述天气数据。

可以抓取预定区域的天气数据。所述预定区域可以包括省、市、地区等。例如,抓取深圳市的天气数据。

可以抓取预定时间的天气数据。所述预定时间可以包括年、月、日等。例如,抓取2018年1-2月每日的天气数据。

可以通过网络爬虫抓取所述天气数据。网络爬虫是一个可以自动提取网页数据信息内容的应用程序。网络爬虫通常是从一个或者是若干个初始网页的url(也称种子url)开始,获取初始网页的url,依照特定的算法和策略(例如深度优先搜索策略),在对网页进行抓取的过程中,不断地从当前的网页中抽取新的url放入到相应的队列中,直到满足停止条件为止。url为uniformresourcelocator的缩写,即统一资源定位符。

可以利用天气信息网站开放的api接口(例如中国天气网开放的api接口)抓取所述天气数据。api是应用程序接口(applicationinterface)的缩写,通过api接口可以实现计算机软件之间的相互通信。天气信息网站开放的api接口可以返回json格式或者xml格式的数据。

在一具体实施例中,可以利用天气信息网站开放的api接口,通过网络爬虫抓取所述天气数据。利用天气信息网站开放的api接口,通过网络爬虫抓取所述天气数据的具体过程参见图3。

图3是图2中步骤201的细化流程图。参阅图3所示,具体可以包括以下步骤:

步骤301,生成面向所述天气信息网站的api接口的种子url以及后续的url。

种子url是网络爬虫进行一切工作的基础和前提。种子url可以是一个也可以是多个。

可以对天气信息网站的url的结构特点进行分析,根据url的结构特点得到后续的url。例如,在对不同区域的天气数据进行抓取时,分析得到不同区域所对应的url的位置信息不同,修改url中的位置信息,即可得到后续的url(即另一区域所对应的url)。

步骤302,向所述天气信息网站的api接口发送http请求,请求访问所述api接口。

可以以get方式向所述天气信息网站的api接口发送http请求。当天气信息网站同意获取其提供的天气数据时,返回http响应,以告知可以进行获取天气数据的操作。

步骤303,对所述天气信息网站提供的数据内容进行分析和识别,以查看所述数据内容。

天气信息网站提供特定格式的数据内容,需要对天气信息网站提供的特定格式的数据内容进行分析和识别,来查看所述数据内容。例如,所述天气信息网站的api接口提供的数据格式为json格式。json是一种数据交换格式,使用了类似于c语言的语法习惯。对该json格式的数据内容进行分析和识别,来查看所述数据内容。

步骤304,判断所述数据内容是否为预定信息内容。

为了得到特定的天气数据,需要判断所述数据内容是否为预定信息内容。若所述数据内容是否不是预定信息内容,则舍弃该数据内容,否则执行下一步骤。

步骤305,若所述数据内容为预定信息内容,则抓取所述数据内容。

数据抓取的最终目的是将网络数据内容抓取到本地。对于json格式的数据内容,在抓取所述数据内容时可以采用深度优先搜索策略进行状态空间搜索。

步骤306,将抓取的数据内容作为所述天气数据保存到本地。

可以在计算设备上创建数据库,将所述天气数据保存到所述数据库中。

传统的网络爬虫都是首先设定一个或者多个入口url,在抓取网页的过程中,按照抓取的策略,从当前网页上提取出新的url放入队列,以便获取url对应的网页内容,将网页内容保存到本地,然后,再提取有效地址作为下一次的入口url,直到爬行完毕。随着网页数量的剧增,传统的网络爬虫会下载大量的无关网页。利用天气信息网站开放的api接口,通过网络爬虫抓取所述天气数据,可以避免下载无关网页,实现高效的天气数据抓取。

步骤202,解析所述天气数据中的缺失值。

在从网页中抓取天气数据的过程中,可能会因为发生异常,使部分天气数据没有抓取,导致抓取的天气数据存在缺失值。例如,在抓取天气数据的过程中,由于异常使某一预设时间段应抓取的天气数据没有抓取,导致该对应时间段的天气数据缺失。

或者,网页中的数据内容可能本身就有缺失,造成抓取到的天气数据存在缺失值。

具体地,可以将所述天气数据处理成行标签为时间信息、列标签为天气信息的矩阵。判断所述矩阵中是否存在列信息字段为空的数据,若所述矩阵中存在列信息字段为空的数据,则该列信息字段为空的数据为所述天气数据中的缺失值。

步骤203,利用elasticnet算法进行回归拟合,填补所述缺失值。

本发明中,用elasticnet回归拟合的方法来填补对于天气数据中的缺失值。

(1)elasticnet原理

elasticnet算法是一种线性回归算法。

设hθ为线性回归函数:

hθ(xi)=θ0+θ1x1+θ2x2+…+θixi+…+θnxn,

hθ(xi)为对xi的预测值,yi为实际观测值。

普通线性回归损失函数为:

而elasticnet损失函数定义为:

它同时引入了l1正则项和l2正则项给它们赋予一定的权重α1和α2,既能用到l1正则项的优势来去除部分特征,同时用到l2正则项来缩减系数,整体保持了稳定。

在引入正则项后,利用梯度下降法对参数进行调整的表达式如下:

α1和α2系数可以调节,来分配l1正则项和l2正则项的权重,当α1为0时弹性网络回归就变成了ridge线性回归,当α2为0时弹性网络回归就变成了lasso线性回归;当α1和α2同时为0时就成了普通线性回归。elasticnet弹性网络回归是线性回归的拓展版。

(2)缺失值的填补

缺失值的填补是通过对缺失的值进行预测来完成的。由于天气数据存在时序上的联系,每个时刻都和邻近的历史时刻联系紧密,所以可以利用邻近的历史数据来对缺失的当前时刻数据进行预测,用预测值来填补缺失值。

假设t+1时刻的数据xt+1发生缺失,则所述利用elasticnet算法进行回归拟合,填补所述缺失值包括:

选取t+1时刻之前的24个时刻t-i,i=0,1,2,…,23,选取时间窗大小w。时间窗为给定时刻之前邻近的一段时间。例如,设给定时刻为t=10,时间窗大小w取4,时间窗就是t=6到t=9这段时间。对于所述24个时刻中的每一个时刻t-i,得到一组数据集[xt-i-w,xt-i-w+1,…,xt-i-1](例如,对于时刻t,可以得到t-w到t-1时间内的一组数据集[xt-w,xt-w+1,…,xt-1]),即得到24组数据集:

[xt-w,xt-w+1,…,xt-1],

[xt-w-1,xt-w,…,xt-2],

[xt-w-2,xt-w-1,…,xt-3],

[xt-w-23,x1,…,xt-24]。

以上述得到的24组数据集作为训练数据,对训练数据进行划分,每一组最后一个数组成集合y,每一组最后一个数以外的其他数组成集合x。根据上述划分可以得到数据集train,如下所示:

[[xt-w,xt-w+1,…,xt-2],[xt-1]],

[[xt-w-1,xt-w,…,xt-3],[xt-2]],

[[xt-w-2,xt-w-1,…,xt-4],[xt-3]],

[[xt-w-23,x1,…,xt-25],[xt-24]]。

则集合x为:

[[xt-w,xt-w+1,…,xt-2],

[xt-w-1,xt-w,…,xt-3],

[xt-w-2,xt-w-1,…,xt-4],

[xt-w-23,x1,…,xt-25]]。

集合y为:

[[xt-1],[xt-2],[xt-3],…,[xt-24]]。

x的每一组值都和y的每一组值一一对应。

将训练数据的x和y输入elasticnet模型中,用每一组的x值去拟合y值,训练出elasticnet模型。

以[xt-w+1,xt-w+1,…,xt]作为输入数据输入到训练好的elasticnet模型中,elasticnet模型会输出一个值,将这个值作为缺失的xt+1值。

举例说明:

有时间序列数据[3,3,4,5,7,9,10,10,11,14,13,none],最后一个值出现了缺失。

取时间窗大小w=4,可以得到数据集x和数据集y组成的训练数据,其中,数据集x为:

[3,3,4,5],[3,4,5,7],[4,5,7,9],[5,7,9,10],[7,9,10,10],[9,10,10,11],[10,10,11,14];

数据集y为:

[7,9,10,10,11,14,13]。

将数据集x和数据集y输入elasticnet模型,对elasticnet模型进行训练。训练完成后,以[10,11,14,13]作为输入数据输入到训练好的elasticnet模型中,得到输出值,以该值填补[3,3,4,5,7,9,10,10,11,14,13,none]中的缺失值(即none)。

步骤204,利用moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值。

天气数据中的异常值为不符合天气数据变化规律的数据,异常值明显偏离其他数据。

moving-zscore算法也用到了时间窗。时间窗的定义同前,即为给定时刻之前邻近的一段时间。

设天气数据为x=[x0,x1,x2,…,xt′],利用moving-zscore算法检测所述天气数据中的异常值包括如下步骤:

(1)选取时间窗大小w′,针对时间点w′至时间点t′中的每个时间点i′,i′=w′,w′+1,…,t′,计算所述时间点i′对应的时间窗内天气数据的均值μi′和标准差σi′,所述时间点i′对应的时间窗的长度为w′;

(2)根据每个时间点i′对应的时间窗内天气数据的均值μi′和标准差σi′,计算所述时间点i′对应的天气数据xi′的mz值mzi′,得到mz列表:

[mzw′,mzw′+1,mzw′+2,…,mzt′],

其中:

(3)求mz列表的第α分位数作为阈值,得到mzα_percentage,α为预设值;

(4)如果mzi,大于mzα_percentage,则对应第i′时刻的天气数据xi′为异常值。

例如,29个连续时刻的气温为:

[3,3,4,5,4,6,7,6,7,8,9,8,17,8,7,9,10,11,12,12,13,12,14,14,15,16,16,17,16]。

取时间窗大小w′=4,也就是从第5个数“4”开始计算mz值,对于第5个数,其时间窗内的数为[3,3,4,5],均值为3.75,标准差为0.829,则mz值为(4-3.75)/0.829=0.302(四舍五入保留小数点后三位)。

按照同样的方法,依次计算出第5个数后面所有的mz值,得到mz列表:

[0.302,2.828,2.713,0.447,1.147,3.0,2.828,0.447,12.728,0.662,0.927,0.246,0.063,2.236,1.859,1.342,2.110,0.0,4.041,1.508,2.110,2.065,1.508,2.111,0.0]。

再取mz列表的0.995分位数作为阈值,得到11.685。

可以发现,列表中只有12.728是大于这个阈值的,所以12.728是异常mz值,同时12.728对应原数据列表中的17,所以17就是异常值,需要将其剔除掉。

步骤205,利用elasticnet算法进行回归拟合,填补剔除的所述异常值。

剔除的异常值即所述天气数据中新的缺失值。对于天气数据中剔除的异常值,可以用elasticnet回归拟合的方法来填补。具体方法参见步骤103。

本发明天气数据获取方法从网页中抓取天气数据;解析所述天气数据中的缺失值;利用elasticnet算法进行回归拟合,填补所述缺失值;利用moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;利用elasticnet算法进行回归拟合,填补剔除的所述异常值。通过本发明天气数据获取方法可以获得高可靠性、高准确率的天气数据。

图4为本发明天气数据获取装置较佳实施例的结构图。

参阅图4所示,所述天气数据获取装置10可以包括:抓取单元401、解析单元402、第一填补单元403、检测单元404、第二填补单元405。

抓取单元401,用于从网页中抓取天气数据。

所述天气数据为时间序列数据。所述天气数据可以包括实时的天气数据、预报的天气数据和历史的天气数据。

所述天气数据可以包括湿度、气温、气压、降水量、水汽压、风速、风向、日照时数。在一具体实施例中,所述天气数据可以包括每日的平均气温、平均气压、最高气温、最低气温、平均相对湿度、最小相对湿度、降水量、平均风速、日照时数、平均水汽压。

可以从天气信息网站(例如中国天气网、新浪天气、搜狐天气等)抓取所述天气数据,以提高天气数据的可靠性。可以理解,可以从任意网页中抓取所述天气数据。

可以抓取预定区域的天气数据。所述预定区域可以包括省、市、地区等。例如,抓取深圳市的天气数据。

可以抓取预定时间的天气数据。所述预定时间可以包括年、月、日等。例如,抓取2018年1-2月每日的天气数据。

可以通过网络爬虫抓取所述天气数据。网络爬虫是一个可以自动提取网页数据信息内容的应用程序。网络爬虫通常是从一个或者是若干个初始网页的url(也称种子url)开始,获取初始网页的url,依照特定的算法和策略(例如深度优先搜索策略),在对网页进行抓取的过程中,不断地从当前的网页中抽取新的url放入到相应的队列中,直到满足停止条件为止。url为uniformresourcelocator的缩写,即统一资源定位符。

可以利用天气信息网站开放的api接口(例如中国天气网开放的api接口)抓取所述天气数据。api是应用程序接口(applicationinterface)的缩写,通过api接口可以实现计算机软件之间的相互通信。天气信息网站开放的api接口可以返回json格式或者xml格式的数据。

在一具体实施例中,可以利用天气信息网站开放的api接口,通过网络爬虫抓取所述天气数据。利用天气信息网站开放的api接口,通过网络爬虫抓取所述天气数据的具体过程参见图3。

解析单元402,用于解析所述天气数据中的缺失值。

在从网页中抓取天气数据的过程中,可能会因为发生异常,使部分天气数据没有抓取,导致抓取的天气数据存在缺失值。例如,在抓取天气数据的过程中,由于异常使某一预设时间段应抓取的天气数据没有抓取,导致该对应时间段的天气数据缺失。

或者,网页中的数据内容可能本身就有缺失,造成抓取到的天气数据存在缺失值。

具体地,可以将所述天气数据处理成行标签为时间信息、列标签为天气信息的矩阵。判断所述矩阵中是否存在列信息字段为空的数据,若所述矩阵中存在列信息字段为空的数据,则该列信息字段为空的数据为所述天气数据中的缺失值。

第一填补单元403,用于利用elasticnet算法进行回归拟合,填补所述缺失值。

本发明中,用elasticnet回归拟合的方法来填补对于天气数据中的缺失值。

(1)elasticnet原理

elasticnet算法是一种线性回归算法。

设hθ为线性回归函数:

hθ(xi)=θ0+θ1x1+θ2x2+…+θixi+…+θnxn,

hθ(xi)为对xi的预测值,yi为实际观测值。

普通线性回归损失函数为:

而elasticnet损失函数定义为:

它同时引入了l1正则项和l2正则项给它们赋予一定的权重α1和α2,既能用到l1正则项的优势来去除部分特征,同时用到l2正则项来缩减系数,整体保持了稳定。

在引入正则项后,利用梯度下降法对参数进行调整的表达式如下:

α1和α2系数可以调节,来分配l1正则项和l2正则项的权重,当α1为0时弹性网络回归就变成了ridge线性回归,当α2为0时弹性网络回归就变成了lasso线性回归;当α1和α2同时为0时就成了普通线性回归。elasticnet弹性网络回归是线性回归的拓展版。

(2)缺失值的填补

缺失值的填补是通过对缺失的值进行预测来完成的。由于天气数据存在时序上的联系,每个时刻都和邻近的历史时刻联系紧密,所以可以利用邻近的历史数据来对缺失的当前时刻数据进行预测,用预测值来填补缺失值。

假设t+1时刻的数据xt+1发生缺失,则所述利用elasticnet算法进行回归拟合,填补所述缺失值包括:

选取t+1时刻之前的24个时刻t-i,i=0,1,2,…,23,选取时间窗大小w。时间窗为给定时刻之前邻近的一段时间。例如,设给定时刻为t=10,时间窗大小w取4,时间窗就是t=6到t=9这段时间。对于所述24个时刻中的每一个时刻t-i,得到一组数据集[xt-i-w,xt-i-w+1,…,xt-i-1](例如,对于时刻t,可以得到t-w到t-1时间内的一组数据集[xt-w,xt-w+1,…,xt-1]),即得到24组数据集:

[xt-w,xt-w+1,…,xt-1],

[xt-w-1,xt-w,…,xt-2],

[xt-w-2,xt-w-1,…,xt-3],

[xt-w-23,x1,…,xt-24]。

以上述得到的24组数据集作为训练数据,对训练数据进行划分,每一组最后一个数组成集合y,每一组最后一个数以外的其他数组成集合x。根据上述划分可以得到数据集train,如下所示:

[[xt-w,xt-w+1,…,xt-2],[xt-1]],

[[xt-w-1,xt-w,…,xt-3],[xt-2]],

[[xt-w-2,xt-w-1,…,xt-4],[xt-3]],

[[xt-w-23,x1,…,xt-25],[xt-24]]。

则集合x为:

[[xt-w,xt-w+1,…,xt-2],

[xt-w-1,xt-w,…,xt-3],

[xt-w-2,xt-w-1,…,xt-4],

[xt-w-23,x1,…,xt-25]]。

集合y为:

[[xt-1],[xt-2],[xt-3],…,[xt-24]]。

x的每一组值都和y的每一组值一一对应。

将训练数据的x和y输入elasticnet模型中,用每一组的x值去拟合y值,训练出elasticnet模型。

以[xt-w+1,xt-w+1,…,xt]作为输入数据输入到训练好的elasticnet模型中,elasticnet模型会输出一个值,将这个值作为缺失的xt+1值。

举例说明:

有时间序列数据[3,3,4,5,7,9,10,10,11,14,13,none],最后一个值出现了缺失。

取时间窗大小w=4,可以得到数据集x和数据集y组成的训练数据,其中,数据集x为:

[3,3,4,5],[3,4,5,7],[4,5,7,9],[5,7,9,10],[7,9,10,10],[9,10,10,11],[10,10,11,14];

数据集y为:

[7,9,10,10,11,14,13]。

将数据集x和数据集y输入elasticnet模型,对elasticnet模型进行训练。训练完成后,以[10,11,14,13]作为输入数据输入到训练好的elasticnet模型中,得到输出值,以该值填补[3,3,4,5,7,9,10,10,11,14,13,none]中的缺失值(即none)。

检测单元404,用于利用moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值。

天气数据中的异常值为不符合天气数据变化规律的数据,异常值明显偏离其他数据。

moving-zscore算法也用到了时间窗。时间窗的定义同前,即为给定时刻之前邻近的一段时间。

设天气数据为x=[x0,x1,x2,…,xt′],利用moving-zscore算法检测所述天气数据中的异常值包括如下步骤:

(1)选取时间窗大小w′,针对时间点w′至时间点t′中的每个时间点i′,i′=w′,w′+1,…,t′,计算所述时间点i′对应的时间窗内天气数据的均值μi′和标准差σi′,所述时间点i′对应的时间窗的长度为w′;

(2)根据每个时间点i′对应的时间窗内天气数据的均值μi,和标准差σi′,计算所述时间点i′对应的天气数据xi′的mz值mzi′,得到mz列表:

[mzw′,mzw′+1,mzw′+2,…,mzt′],

其中:

(3)求mz列表的第α分位数作为阈值,得到mzα_percentage,α为预设值;

(4)如果mzi′大于mzα_percentage,则对应第i′时刻的天气数据xi′为异常值。

例如,29个连续时刻的气温为:

[3,3,4,5,4,6,7,6,7,8,9,8,17,8,7,9,10,11,12,12,13,12,14,14,15,16,16,17,16]。

取时间窗大小w′=4,也就是从第5个数“4”开始计算mz值,对于第5个数,其时间窗内的数为[3,3,4,5],均值为3.75,标准差为0.829,则mz值为(4-3.75)/0.829=0.302(四舍五入保留小数点后三位)。

按照同样的方法,依次计算出第5个数后面所有的mz值,得到mz列表:

[0.302,2.828,2.713,0.447,1.147,3.0,2.828,0.447,12.728,0.662,0.927,0.246,0.063,2.236,1.859,1.342,2.110,0.0,4.041,1.508,2.110,2.065,1.508,2.111,0.0]。

再取mz列表的0.995分位数作为阈值,得到11.685。

可以发现,列表中只有12.728是大于这个阈值的,所以12.728是异常mz值,同时12.728对应原数据列表中的17,所以17就是异常值,需要将其剔除掉。

第二填补单元405,用于利用elasticnet算法进行回归拟合,填补剔除的所述异常值。

剔除的异常值即所述天气数据中新的缺失值。第二填补单元405利用elasticnet算法进行回归拟合,填补剔除的所述异常值的具体方法参考第一填补单元403,此处不再赘述。

本发明天气数据获取方法装置从网页中抓取天气数据;解析所述天气数据中的缺失值;利用elasticnet算法进行回归拟合,填补所述缺失值;利用moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;利用elasticnet算法进行回归拟合,填补剔除的所述异常值。通过本发明天气数据获取装置可以获得高可靠性、高准确率的天气数据。

本发明天气数据获取方法从网页中抓取天气数据;解析所述天气数据中的缺失值;利用elasticnet算法进行回归拟合,填补所述缺失值;利用moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;利用elasticnet算法进行回归拟合,填补剔除的所述异常值。通过本发明天气数据获取方法可以获得高可靠性、高准确率的天气数据。

图5是图4中抓取单元401的细化结构图。

抓取单元401可以利用天气信息网站开放的api接口,通过网络爬虫抓取所述天气数据。参阅图5所示,抓取单元401可以包括:生成子单元4011、请求子单元4012、分析子单元4013、判断子单元4014、抓取子单元4015、存储子单元4016。

生成子单元4011,用于生成面向所述天气信息网站的api接口的种子url以及后续的url。

种子url是网络爬虫进行一切工作的基础和前提。种子url可以是一个也可以是多个。

可以对天气信息网站的url的结构特点进行分析,根据url的结构特点得到后续的url。例如,在对不同区域的天气数据进行抓取时,分析得到不同区域所对应的url的位置信息不同,修改url中的位置信息,即可得到后续的url(即另一区域所对应的url)。

请求子单元4012,用于向所述天气信息网站的api接口发送http请求,请求访问所述api接口。

可以以get方式向所述天气信息网站的api接口发送http请求。当天气信息网站同意获取其提供的天气数据时,返回http响应,以告知可以进行获取天气数据的操作。

分析子单元4013,用于对所述天气信息网站提供的数据内容进行分析和识别,以查看所述数据内容。

天气信息网站提供特定格式的数据内容,需要对天气信息网站提供的特定格式的数据内容进行分析和识别,来查看所述数据内容。例如,所述天气信息网站的api接口提供的数据格式为json格式。json是一种数据交换格式,使用了类似于c语言的语法习惯。对该json格式的数据内容进行分析和识别,来查看所述数据内容。

判断子单元4014,用于判断所述数据内容是否为预定信息内容。

为了得到特定的天气数据,需要判断所述数据内容是否为预定信息内容。若所述数据内容是否不是预定信息内容,则舍弃该数据内容,否则执行下一步骤。

抓取子单元4015,用于若所述数据内容为预定信息内容,则抓取所述数据内容。

数据抓取的最终目的是将网络数据内容抓取到本地。对于json格式的数据内容,在抓取所述数据内容时可以采用深度优先搜索策略进行状态空间搜索。

存储子单元4016,用于将抓取的数据内容作为所述天气数据保存到本地。

可以在计算设备上创建数据库,将所述天气数据保存到所述数据库中。

传统的网络爬虫都是首先设定一个或者多个入口url,在抓取网页的过程中,按照抓取的策略,从当前网页上提取出新的url放入队列,以便获取url对应的网页内容,将网页内容保存到本地,然后,再提取有效地址作为下一次的入口url,直到爬行完毕。随着网页数量的剧增,传统的网络爬虫会下载大量的无关网页。抓取单元401利用天气信息网站开放的api接口,通过网络爬虫抓取所述天气数据,可以避免下载无关网页,实现高效的天气数据抓取。

图6为本发明计算机装置较佳实施例的示意图。

所述计算机装置1包括存储器20、处理器30以及存储在所述存储器20中并可在所述处理器30上运行的计算机程序40,例如天气数据获取程序。所述处理器30执行所述计算机程序40时实现上述天气数据获取方法实施例中的步骤,例如图2所示的步骤201-205。或者,所述处理器30执行所述计算机程序40时实现上述装置实施例中各模块/单元的功能,例如图4中的单元401-405。

示例性的,所述计算机程序40可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器30执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序40在所述计算机装置1中的执行过程。例如,所述计算机程序40可以被分割成图4中的抓取单元401、解析单元402、第一填补单元403、检测单元404、第二填补单元405,各单元具体功能参见实施例二。

所述计算机装置1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图6仅仅是计算机装置1的示例,并不构成对计算机装置1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机装置1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器30可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器30也可以是任何常规的处理器等,所述处理器30是所述计算机装置1的控制中心,利用各种接口和线路连接整个计算机装置1的各个部分。

所述存储器20可用于存储所述计算机程序40和/或模块/单元,所述处理器30通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元,以及调用存储在存储器20内的数据,实现所述计算机装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机装置1的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中,应该理解到,所揭露的计算机装置和方法,可以通过其它的方式实现。例如,以上所描述的计算机装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。计算机装置权利要求中陈述的多个单元或计算机装置也可以由同一个单元或计算机装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1