一种台风数据的质量评估与修复方法与流程

文档序号:15983188发布日期:2018-11-17 00:34阅读:202来源:国知局

本发明涉及具有多要素的台风数据质量评估与修复技术领域,具体地说,是一种台风数据的质量评估与修复方法。

背景技术

随着信息技术的不断发展,数据呈爆炸式增长,数据质量问题已经引起高度重视。对于社会调查数据,文献(中国残联“动态更新第三方评估”课题组.社会调查及数据质量评估研究进展[j].调查世界,2017(10):60-65)按照社会调查的流程梳理了调查及其数据质量评估;对于周期性普查数据,文献(陶然.周期性普查数据质量评估方法与适用性研究[j].统计研究,2014,31(8):66-72)介绍了其评估方法及其适用性;对于关联数据,文献(姜恩波,王振蒙.关联数据质量评估研究综述[j].情报杂志,2016,35(4):171-176)对其质量评估进行了综述;对于作战数据,文献(刘立军.作战数据质量模型构建与质量评估[j].火炮发射与控制学报,2017,38(03):37-41)构建了质量评估模型对其质量进行评估。上述数据均没有涉及到海洋领域,文献(郑琳,刘艳,崔文林,等.海洋监测数据质量评估研究[j].海洋通报,2014(2):228-234)提出了海洋监测数据质量评估的方法,但是该方法主要针对正态分布的数据,而台风数据一般不满足正态分布。本发明研究台风数据的完整性和一致性评估与修复问题。

目前,在数据完整性方面已经取得了一些研究结果,然而,现有研究结果均无法解决数据完整性评估。文献(biswasj,naumannf,qiuq.assessingthecompletenessofsensordata[c]//databasesystemsforadvancedapplications,internationalconference,dasfaa2006,singapore,april12-15,2006,proceedings.dblp,2006:717-732.)提出了一种在传感器网络环境下信息内容缺失模型,该方法适用于在传感器网络中对缺失数据进行实时监测。然而,在实际应用中,大量数据是历史数据,人们无法再现其获取的实时过程,因此无法用该方法来度量数据的完整性。文献(nakashimah,wellmanm,weissg,etal.completenessofintegratedinformationsources[j].informationsystems,2004,29(7):583-615)研究了在多信息源集成环境下,如何度量集成后的信息相对于所有信息源中信息的完整程度。该方法需要知道信息源的完整性,然后通过定义的集成操作来计算集成后的数据源的完整性。然而,在实际应用中,若没有记录集成数据的世系,则无法使用该方法来度量集成数据的完整性。除此以外,现有方法均没有考虑数据质量其他特性对完整性的影响。为了解决上述问题,文献(刘永楠,邹兆年,李建中,等.数据完整性的评估方法[j].计算机研究与发展,2013,50(s1):230-238)提出了一种具体的关系数据完整性度量,但该方法适合普通的关系数据,对具有时间特性的台风时间序列不适合。

近年来随着数据质量越来越引起人们的重视,越来越多的规则被提出用来描述数据的一致性。主要有以下几种:否定约束、包含依赖、外键约束和函数依赖、聚集约束、元组生成和等值生成依赖.同时有多种修复方式,例如:对称差分修复、子集修复、基数修复、基于更新的修复、投影连接修复等。

对于存在缺失数据的不完备系统,多采用如下几种方法进行处理:(1)丢弃具有缺失数据的记录;(2)进行缺失数据的填补;(3)采用模型对缺失数据进行预测;(4)直接针对不完备数据进行分析。丢弃具有缺失数据的记录是应用中最简单的一种缺失数据处理方法,但总体而言,丢弃具有缺失数据的记录不能充分利用数据资源,而且可能会严重影响到数据的客观性和所研究问题结论的正确性。对缺失数据进行填补,是为了在填补后的数据上完成具体问题的数据分析。简单而又常见的填补方法是全局常量填补法(globalconstant)和属性均值填补法(attributemean)。文献(dondersar,gjvdh,stijnent,etal.review:agentleintroductiontoimputationofmissingvalues.[j].journalofclinicalepidemiology,2006,59(10):1087)研究指出:在大多数情况下,这些方法同丢弃具有缺失数据的记录一样会生成有偏的结果,对于具有时间属性的台风数据更加不适合。热平台填补(hotdeckimputation)和冷平台填补(colddeckimputation)都是典型的单一填补方法。热平台填补是将缺失值填补为与它最相似的一个对象的值,与均值填补法相比,变量的标准差与填补前比较接近,但使用不便,比较耗时。冷平台填补的填补值来自于其它数据源而不能是当前数据源,而本发明的台风数据都是一个数据源,因此不适合。有一些更复杂的填补方法,例如多重填补(multipleimputation),其通过填补多个值以对填补的不确定性做出评价,得到总体参数的估计值,而台风数据具有时间特性,不能用总体来代表某个时刻,该方法不适合于台风数据。采用模型对缺失数据进行预测的方法首先对输入的数据定义一个模型,然后基于该模型对未知参数进行极大似然(maximumlikelihood)估计,而台风数据无法进行似然估计,该方法不适合台风数据。

台风作为影响我国最大的海洋灾害之一,仅2016年,共造成174人死亡、24人失踪,直接经济损失766.5亿元,因此,研究台风对防灾减灾、辅助决策等具有重要意义。台风相似性度量是进行路径预报、灾害预报等重要手段之一,研究其可以减少人员伤亡和经济损失。但是台风数据中普遍存在质量问题,导致分析结果存在偏差,无法提供准确的信息,造成灾害预报错误,带来不必要的财产损失和人员伤亡,因此,评估台风数据质量并对其进行修复是相似性度量的重要一部分。

台风数据质量主要体现在完整性和一致性两个方面。已有文献综述了数据完整性和一致性的研究现状,这些方法主要围绕医学领域,几乎没有涉及海洋领域。已有文献在数据完整性和一致性方面的研究大多针对普通的关系数据,而台风数据是一类特殊的关系数据,具有时间属性,因此这些方法不适用于台风数据。海洋领域,已有文献通过抽样方法来检验海洋数据质量是否合格,并没有提出修复方法,目前,对海洋数据质量评估与修复研究还很少,而海洋数据的质量高低直接影响海洋预报等相关研究。因而,数据的广泛应用对数据质量的保障提出了迫切需求。

中国专利文献cn201710447844.4,申请日20170614,专利名称为一种基于小波分析和半监督学习的车联网油耗数据质量评估方法,开了一种基于小波分析和半监督学习的车联网油耗数据质量评估方法,包括以下步骤:步骤一:对数据进行预处理;步骤二:小波分析;步骤三:随机选取样本,由人工经验初步标注类别标签;步骤四:基于支持向量机的多分类器学习;步骤五:加入无标签的数据样本xul,利用局部搜索策略进行半监督学习,更新分类器。本发明利用了小波分解的信号特点来构建油耗数据的属性特征,具有针对性且能有效地提高分类准确性和结论的可靠性。该发明多层小波分解得到的近似成分可以作为对数据有效的压缩过滤,细节成分能用于异常状况分析,为数据质量的类别划分提供可信的依据。

综上所述,需要一种具有多要素的台风数据质量评估与修复方法,在数据质量上能够完整性和一致性评估,并能够对数据质量进行修复,从而实现相似台风的更加准确判定,为相关部门提供准确、便捷的辅助决策方法。而关于这种方法目前还未见报道。



技术实现要素:

本发明的目的是针对现有技术中的不足,提供一种具有多要素的台风数据质量评估与修复方法,在数据质量上能够完整性和一致性评估,并能够对数据质量进行修复,从而实现相似台风的更加准确判定,为相关部门提供准确、便捷的辅助决策方法。

为实现上述目的,本发明采取的技术方案是:

一种台风数据的质量评估与修复方法,所述方法包括以下步骤:

步骤s1、获取原始台风数据;

步骤s2、分析台风数据特性,对台风数据进行描述;

步骤s3、台风数据质量评估,包括步骤s31:台风数据完整性评估;步骤s32:台风数据一致性评估;

步骤s4、台风数据修复,按照数据完整性修复、一致性修复的顺序对台风数据进行修复的;包括步骤s41:台风数据完整性修复;步骤s42:台风数据一致性修复。

作为一种优选的技术方案,步骤s2中台风数据描述包括以下步骤:

步骤s21:选择多元台风时间序列的表示方法进行描述;

步骤s22:筛选描述台风的要素;

步骤s23:台风数据中移动方向表示,即将其转化成数值表示。

作为一种优选的技术方案,步骤s21中的多元台风时间序列定义如下:

确定利用移动方向md、移动速度mv、压强p、经度lo和纬度la5个要素描述台风,具体表示如下:

台风原始数据中的移动方向是采用十六风向图记录的,为了便于后续计算,需要对其进行数值表示,规定北为0,南为8,从北顺时针到南依次是1—7;从北逆时针到南依次是9—15。

作为一种优选的技术方案,步骤s31中的台风数据完整性评估包括:

步骤s311:台风要素完整性评估;

步骤s312:台风点完整性评估;

步骤s313:台风序列完整性评估。

作为一种优选的技术方案,步骤s311中的台风要素完整性评估是指一个要素在时刻t时的完整程度,台风数据a中任意元组s和要素f,要素值s[f]的完整性记作cfc(s[f]),并表示为s[f]的函数,μ(s[f]),即cfc(s[f])=μ(s[f]),根据不同的应用,μ具有不同的形式,且函数μ定义为:

步骤s312中的台风点完整性评估是指时刻t时台风所有要素的完整程度,对台风数据a中任意时刻t的数据s,s的完整性记作csc(s),s的完整性可以由s中的要素值的完整性来判断。则csc(s)可以定义为:

步骤s313中的台风序列完整性评估是指一条台风数据的完整程度。对于任意一条台风数据a,台风数据a的完整性记作cac(a)。a的完整性可以由台风数据a中时刻t的数据s的完整性来判断,则cac(a)可以定义为

cac(a)=(n1p1+n2p2+...+nnpn)/l

其中,pi是时刻t的数据s的完整度,ni是完整度为pi的数据s的个数。当cac(a)≥qac时,该台风时间序列完整性可修复的;

作为一种优选的技术方案,步骤s32中的台风数据一致性评估包括:

步骤s321:台风点一致性评估;

步骤s322:台风序列一致性评估。

作为一种优选的技术方案,步骤s321中的台风点一致性评估是指时刻t时台风数据中不包含语义错误或相互矛盾的数据。对于a中任意时刻t的数据s,s的一致性记作usu(s),usu(s)可定义为:

步骤s322中的台风序列一致性是指一条台风数据中不包含语义错误或相互矛盾的数据,台风数据a的一致性可以由a中时刻t的数据s的一致性来判断。则uau(a)可以定义为

uau(a)=nu/l

其中,nu是满足一致性的数量,当uau(a)≥qau时,该台风时间序列一致性可修复的。

作为一种优选的技术方案,步骤s22所筛选台风的要素中,任意两个要素f1,f2,如果f1已知,则可以计算出f2,则称f2依赖于f1,记作:f2→f1,并称为要素依赖。

作为一种优选的技术方案,骤s22所筛选台风的要素包括台风等级和风速,台风等级和风速两个要素之间存在依赖关系。

作为一种优选的技术方案,步骤s41中台风数据完整性修复包括:根据经纬度进行修复;根据风压关系进行修复;根据邻近值进行修复;根据要素依赖进行修复;步骤s42中的台风数据一致性修复为根据要素依赖进行修复;在对于台风数据修复时,首先考虑要素依赖进行完整性修复;对于无法使用要素依赖修复法的要素,考虑风速、移向、移速和压强四个要素,利用邻近值之间的关系进行完整性修复;对于无法使用邻近值修复的压强和风速,利用风压关系进行完整性修复;无法使用邻近值修复的移向和移速,根据经纬度、观测值时间间隔进行修复;当台风时间序列的一致性错误仅可能发生在等级与风速之间时,利用要素依赖进行一致性修复。

本发明优点在于:

1、本发明的一种台风数据质量评估与修复方法,本发明一旦投入应用,可以实现以下技术效果:可以判断具有多要素的台风数据质量以及对其进行修复,为台风时间相似性度量奠定基础,使得相似台风的判定更加准确,可以为相关部门提供便捷的辅助决策,做好防护措施,减少其带来的经济损失和人员伤亡。假设已知某条已发生台风的相关数据,现在发生了新的台风,只知道其刚开始发生的一段时间内的数据,需要与已发生台风进行相似性度量,如果不对已发生台风数据进行质量评估及修复,则会无法进行匹配或者匹配的结果会相差很大,无法达到辅助决策的作用。

2、由于台风时间序列的一致性错误仅可能发生在等级与风速之间,本发明利用要素依赖进行一致性修复。

3、选择多元时间序列的表示台风数据描述,能够合理描述数据,满足台风数据的多种属性,便于后续研究。

4、台风原始数据中的移动方向是采用十六风向图记录的,不利于后续计算,为了便于后续计算,本文采用了数值化表示,北为0,南为8,从北顺时针到南依次是1—7;从北逆时针到南依次是9—15。

5、本发明按照数据完整性修复、一致性修复的顺序对台风数据进行修复,能够避免完整性错误修复结果会引起一致性、时效性、精确性的变化的问题。

6、考虑了台风等级和风速两个要素之间存在依赖关系,能够针对不同要素情形,选择相应合适的修复方法。

附图说明

附图1是本发明的一种台风数据质量评估与修复方法的结构框图。

附图2为“201525”号台风部分原始数据图。

附图3修复后台风数据图。

具体实施方式

实施例1

下面结合附图对本发明提供的具体实施方式作详细说明。为了能够全面的了解本发明的技术方案,以下对本发明技术方案中所涉及到的符号和含义进行了阐述:

1符号和定义

1)t:观察数据的时间点,(t=1,2,...,n)

2)j:观察数据的变量个数,(j=1,...,m)

3)md:移动方向

4)mv:移动速度

5)p:压强

6)lo:经度

7)la:纬度

8)g:等级

9)v:风速

10)u:台风要素集合,u={f1,f2,...,fm}

11)μ:一个抽象的度量函数

12)l:台风时间序列长度

13)qac:完整性系数阈值

14)qau:一致性系数阈值

15)vmax:近中心近地面1分钟平均最大风速(单位:节)

16)pc:台风中心最低气压(单位:百帕)。

请参照图1,图1是本发明的一种台风数据质量评估与修复方法的结构框图。一种台风数据质量评估与修复方法,所述方法包括以下步骤:

步骤s1、获取原始台风数据;

步骤s2、分析台风数据特性,对台风数据进行描述;

步骤s3、台风数据质量评估,包括步骤s31:台风数据完整性评估;步骤s32:台风数据一致性评估;

步骤s4、台风数据修复,按照数据完整性修复、一致性修复的顺序对台风数据进行修复的;包括步骤s41:台风数据完整性修复;步骤s42:台风数据一致性修复。

台风数据描述是整个研究的基础,没有合理描述数据,后续研究将会非常困难。台风数据具有多属性,在进行描述时需要选择多元时间序列的表示方法进行描述,多元台风时间序列的定义如下:

定义1:多元台风时间序列。一系列按时间顺序排列的台风各要素观测值st(j)称为多元台风时间序列,即

本发明通过主成分分析法(pca)计算以及专家意见,确定利用md、mv、p、lo和la5个要素描述台风,具体表示如下:

台风原始数据中的移动方向是采用十六风向图记录的,为了便于后续计算,需要对其进行数值表示,规定北为0,南为8,从北顺时针到南依次是1—7;从北逆时针到南依次是9—15。具体表示如下表:

表1移动方向转化

步骤s3、台风数据质量评估,包括步骤s31:台风数据完整性评估;步骤s32:台风数据一致性评估;

2.1台风时间序列质量评估方法

2.1.1台风时间序列完整性评估方法

该台风数据完整性评估方法使用如下3个概念:台风要素完整性、台风点完整性、台风序列完整性。其定义如下:

1)台风要素完整性。台风要素完整性是指一个要素在时刻t时的完整程度。对于a中任意元组s和要素f,要素值s[f]的完整性记作cfc(s[f]),可以表示为s[f]的函数,μ(s[f]),即cfc(s[f])=μ(s[f]),根据不同的应用,μ可以具有不同的形式。本发明中函数μ可定义为

2)台风点完整性。台风点完整性是指时刻t时台风所有要素的完整程度。对于a中任意时刻t的数据s,s的完整性记作csc(s)。s的完整性可以由s中的要素值的完整性来判断。则csc(s)可以定义为

3)台风序列完整性。台风序列完整性是指一条台风数据的完整程度。对于任意一条台风数据a,a的完整性记作cac(a)。a的完整性可以由a中时刻t的数据s的完整性来判断。则cac(a)可以定义为

cac(a)=(n1p1+n2p2+...+nnpn)/l

其中,pi是时刻t的数据s的完整度,ni是完整度为pi的数据s的个数。当cac(a)≥qac时,该台风时间序列完整性可修复的。

2.1.2台风时间序列一致性评估方法

该台风数据一致性度量框架使用如下2个概念:台风点一致性、台风序列一致性。其定义如下:

1)台风点一致性。台风点一致性是指时刻t时台风数据中不包含语义错误或相互矛盾的数据。对于a中任意时刻t的数据s,s的一致性记作usu(s),usu(s)可定义为

2)台风序列一致性。台风序列一致性是指一条台风数据中不包含语义错误或相互矛盾的数据。a的一致性可以由a中时刻t的数据s的一致性来判断。则uau(a)可以定义为

uau(a)=nu/l

其中,nu是满足一致性的数量,当uau(a)≥qau时,该台风时间序列一致性可修复的。

2.2台风时间序列修复方法

其中,完整性错误修复结果会引起一致性、时效性、精确性的变化,因此,本发明按照数据完整性修复、一致性修复的顺序对台风数据进行修复。

台风等级和风速两个要素之间存在依赖关系,本发明考虑要素依赖进行完整性修复;对于无法使用要素依赖修复法的要素,本发明主要考虑风速、移向、移速和压强四个要素,利用邻近值之间的关系进行完整性修复;对于无法使用邻近值修复的压强和风速,利用风压关系[23]进行完整性修复;无法使用邻近值修复的移向和移速,根据经纬度、观测值时间间隔进行修复。由于台风时间序列的一致性错误仅可能发生在等级与风速之间,本发明利用要素依赖进行一致性修复。;

具体算法如下:

输入:存在完整性和一致性错误的台风时间序列a(u)

输出:修复后的台风时间序列

foreacha(u)do

//根据要素依赖进行等级完整性修复

if(g==null&&v!=null)

g=gi//gi为根据台风风速确定的台风等级

//根据邻近值进行风速、移向、移速、压强完整性修复

if(vi==null)

if(mdi==null)

if(mvi==null)

if(pi==null)

//根据风压关系进行压强和风速完整性修复

if(p=null,v≠null)

if(v=null,p≠null)

v=6.7(1010-p)0.644

//根据经纬度进行移向移速完整性修复

if(mv==null)

mv=distance/temp

if(md==null)

lo=lo2-lo1

la=la2-la1

if(lo>0&&δla<0)

angle=(90°-angle')+90°

if(lo≤0&&δla<0)

angle=angle'+180°

if(lo≤0&&δla<0)

angle=(90°-angle')+270°

//根据要素依赖进行一致性修复

if(v=vi&&g≠gi)

g=gi//gi为风速vi对应的等级

endfor

实施例2

本发明选用“201525”号台风数据作为参考台风数据,编号为1;再选用“201526”号台风数据和“201527”号台风数据,编号分别为2,3,1号台风原始数据部分如图2所示:

根据本发明提出的方法,修复过程如下(以“201525”号台风为例):

通过查询,需要进行修复的是移向和移速两个要素。具体方法如下:

(1)移向修复。台风原始数据中的移动方向是采用十六风向图记录的,为了便于后续计算,需要对其进行数值表示,规定北为0,南为8,从北顺时针到南依次是1—7;从北逆时针到南依次是9—15。

根据经纬度计算出角度,对照十六风向图以及数值转化关系补充移向。例如“2015-10-14t14:00:00”时刻,经纬度分别为156.9、15.0,后一时刻的经纬度分别为154.4、15.8,根据本发明方法计算出角度为288.3294336171956,对照十六风向图得出移向是西西北,数值化结果为11。

(2)移速修复。根据经纬度以及时间间隔计算移速。例如“2015-10-14t14:00:00”时刻,经纬度分别为156.9、15.0,后一时刻“2015-10-15t02:00:00”,其经纬度分别为154.4、15.8,计算出移速取整为28。

利用本发明提出的修复方法处理之后的数据如图3所示,其中,每个元素的下标表示该点在整个时间序列中的位置,最后一个下标值表示整个时间序列的长度。

经检验,移向的均方根误差(rootmeansquareerror,rmse)值为0.187867287325544,移速的rmse值为0.264797369811,该修复方法精确性高。

本发明的一种台风数据质量评估与修复方法,本发明一旦投入应用,可以实现以下技术效果:可以判断具有多要素的台风数据质量以及对其进行修复,为台风时间相似性度量奠定基础,使得相似台风的判定更加准确,可以为相关部门提供便捷的辅助决策,做好防护措施,减少其带来的经济损失和人员伤亡。假设已知某条已发生台风的相关数据,现在发生了新的台风,只知道其刚开始发生的一段时间内的数据,需要与已发生台风进行相似性度量,如果不对已发生台风数据进行质量评估及修复,则会无法进行匹配或者匹配的结果会相差很大,无法达到辅助决策的作用。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1