一种海洋大数据智能轻量化处理方法及系统

文档序号:37277180发布日期:2024-03-12 21:12阅读:17来源:国知局
一种海洋大数据智能轻量化处理方法及系统

本发明属于海洋数据处理,尤其涉及一种海洋大数据智能轻量化处理方法及系统。


背景技术:

1、随着观测设备和信息技术的不断发展,海洋数据获取手段日益增多,海洋信息数据已呈现出海量特征。海洋大数据并不仅仅指海量数据,更是指半结构化、非结构化、数据量之大以至无法在一定时间内用传统方法进行获取、管理和处理的数据集合。因此,在大数据上云以后,受限于网络带宽、数据处理时效、存储成本以及模型训练复杂度等多方面,本发明需要对原始数据进行轻量化处理。这意味着在不损失大数据的价值性的前提下,减少原始数据的规模,以实现快速、准确地传递海洋数据的目标。

2、通过传递得到的海洋大数据,是了解海洋状态、发现海洋过程及规律,解决海洋综合业务的基础,其核心能力是预测未来一段时间内的海洋环境、气候及资源的时空变化,为人类的生存和发展提供帮助。因此,对海洋数据进行轻量化处理是十分必要的。

3、大数据轻量化是指在不损失数据价值性的基础上减少网络传输、存储和训练的数据量,是以价值需求为导向去发现数据和提取数据,并不是简单剔除异常数据。目前,大数据轻量化主要采用特征选取和数据压缩两种方法,但在现有技术中,更多倾向于采用数据压缩的方式。数据压缩是一种将文件压缩成小文件的无损压缩方式,通常采用编码方式进行压缩,例如游程编码、字典编码等。无损压缩意味着在解压缩后能够完整还原原始数据,没有对数据进行舍弃和处理。由于保留了所有原始数据,使数据压缩比较高,但压缩时间较长。无损压缩领域中的经典算法之一是(lempel zip)系列算法,它用一种巧妙的方式将字典技术应用于通用数据压缩领域,具有广泛的适用性和高压缩率,而这种方式存在着压缩时间和解压时间较长等缺点。例如,系列算法中的算法(串表压缩算法:lempel-ziv-welch encoding)对于不同的数据类型,有着不同的压缩率,但压缩率大多在10%以上,同时lz系列算法都存在着词典更新问题和词典匹配速度较慢等问题,这导致了压缩的速度比解压明显较慢:每的数据压缩时间在100s左右,解压时间在10s左右。

4、特征提取也是已有的大数据轻量化技术之一,它相较于数据压缩有着很多优势,它能够转换数据为更具解释性的形式,提取最相关、最重要的特征,提高数据质量和可用性,同时加快数据处理速度,节省计算资源。例如,经验正交函数分解方法(empiricalorthogonal function,eof)是一种典型的通过特征选取方式来实现数据轻量化目标的时空分解方法。该方法具有不依赖于固定基函数、能够快速将资料信息集中在几个模态、分解出的空间模态具有实际物理意义等优点,从而迅速成为近年来时空分解的重要方法之一。而这种传统的分解方法分离出的空间模态侧重解释整体时空分布特征,存在取样大小影响分解结果、不全面地描述时空关系等局限性。

5、通过上述分析,现有技术存在的问题及缺陷为:现有技术不能更好地适应不同的数据特征和分析目标。不能更好地实现了海洋大数据轻量化。使得海洋数据分析结果的准确性和可靠性差。


技术实现思路

1、为克服相关技术中存在的问题,本发明公开实施例提供了一种海洋大数据智能轻量化处理方法及系统。

2、本发明是这样实现的,海洋大数据智能轻量化处理方法,该方法将海洋原始数据利用周期自主选择进行先升维的操作,再根据周期和周期数自动进行降维,然后进行经验正交模态分解,再将自适应方法融入分解的经验正交模态中,捕捉海洋观测或监测数据的时空变异性,自动调整参数,完成海洋观测或监测数据不同数据轻量化;具体包括:

3、s1,数据分解:通过自主选择周期数将原始二维数据矩阵变成三维数据矩阵进行数据升维,再对数据升维的三维数据矩阵自动选择降维后的二维矩阵;对自动选择降维后的二维矩阵海洋历史数据分解成时空系数和时空模态;

4、s2,特征提取:对于要被压缩的数据,基于不同的分解方式进行时空模态以及时空模态的逆矩阵进行特征提取;

5、s3,数据重构:基于特征提取的数据,通过自适应方法选择主成分和时空模态的数量,对获得的主成分和时空模态的数量得到不同重构数据,所述重构数据包括含有时序信息的海洋或气候数据在空间和时间维度变化的时空特征。

6、在步骤s1中,原始二维数据矩阵为历史海洋数据的二维数据矩阵,表达式为:

7、;

8、其中,代表空间数据点,代表时间长度,为空间数据点在时间点的观测值或测量值。

9、所述通过自主选择周期数将原始二维数据矩阵变成三维数据矩阵进行数据升维包括:

10、按压缩率自主将时间长度分解为周期和周期数,利用功率谱分析估计海洋数据的主要周期;根据,其中[]表示取整符号,确定的取值,得到相对应的周期数;

11、当处理海洋大数据时,确立适切的压缩率ω,筛选出满足条件的周期t:,其中表示确定的压缩率,表示利用功率谱分析估计的海洋数据的主要周期,对于满足上述条件的集合为,对应的周期数为,其中表示周期数的合集,在满足条件的基础上,对于满足上述条件的集合为,对应的周期为,自主选择周期和相对应的周期;弃时间长度中超过的部分,并将海洋数据转化为三维矩阵,其中,代表空间数据点,代表一个周期的时间点,代表周期数;

12、选择的所有周期中第个周期下的全部时间和空间点对应的数据,一共有k个矩阵,k是由功率谱分析和自主选择确定;将原始数据从二维变成三维,利用周期数k和时间t进行降维计算;一个周期的数据为:

13、;

14、表示在第个周期下的全部时间和空间点,为在第个周期下空间数据点m在时间点的观测值或测量值。

15、在步骤s1中,对数据升维的三维数据矩阵自动选择降维后的二维矩阵包括:

16、对数据进行降维操作,按照和的大小自动选择降维后的二维矩阵大小,包括:

17、(1)当,周期小于等于周期数,将数据降维成,记,降维后的数据为,表达式为:

18、;

19、式中,和表示降维后的数据,表示数据点i在时间点的观测值或测量值。

20、(2)当,周期大于周期数,将数据降维成,记,降维后的数据为,表达式为:

21、;

22、式中,和表示降维后的数据,表示数据点h在周期的观测值或测量值。

23、在步骤s1中,通过不同的选取方式分解成时空系数和时空模态包括:

24、(i);计算协方差矩阵,再通过矩阵变换获得矩阵的特征向量,矩阵的特征向量计算为:

25、;

26、式中,时空模态表示的特征向量,表示特征值的对角矩阵;

27、将时空模态投影到矩阵x上得到对应的主成分,即:

28、;

29、同时,计算历史数据时空模态的逆矩阵,通过逆矩阵的计算公式求出时空模态的逆矩阵,和计算出的pc相乘,计算出原始数据x,进行特征提取;表达式为:

30、;

31、其中,为的行列式,为的伴随矩阵,逆矩阵的计算用来进行数据的反演或反向推导,通过计算时空模态的逆矩阵,从已知的时空模态信息中推导出原始的数据;

32、海洋历史数据分解成时空系数和时空模态,即:;

33、其中,表示,其中代表空间数据点,代表一个周期的时间点,代表周期数;

34、(ii);

35、计算协方差矩阵,再通过矩阵变换获得矩阵的特征向量,矩阵的特征向量计算为:

36、;

37、同时计算历史数据时空模态的逆矩阵,表示如下:

38、;

39、其中,为的行列式,为的伴随矩阵;将时空模态投影到矩阵x上得到对应的主成分,即:

40、;

41、海洋历史数据分解成时空系数和时空模态,表示如下:

42、;

43、其中,表示,其中代表空间数据点,代表一个周期的时间点,代表周期数。

44、在步骤s2中,对于要被压缩的数据,基于不同的分解方式进行特征提取:

45、(a);

46、将得到的和做乘积得:

47、;

48、(b);

49、首先将对数据进行降维,重构为:,再将得到的和被处理后的sla数据做乘积得:

50、。

51、在步骤s3中,通过自适应方法选择主成分和时空模态的数量包括:

52、为选择适当数量的主成分和时空模态,引入自适应机制,设定目标,代表累计方差贡献率;累计方差贡献率:

53、;

54、式中,代表特征根,表示设定的衡量指标,在选择和的数量中满足停止。

55、进一步,所述自适应方法具体包括:

56、步骤i:初始化累计方差贡献率;

57、步骤ii:对每个特征根执行以下操作:计算每个对应的方差贡献率;

58、步骤iii:遍历循环每个,在此过程中逐步递增累计方差贡献率至,同时每完成一次循环;

59、在迭代过程中,不断检查累计方差贡献率是否达到了预设的目标阈值;

60、一旦累计方差贡献率超过或等于目标阈值,立即终止循环,并且选取前个特征向量作为数据的新表示,为选择的和数量。

61、在步骤s3对获得的主成分和时空模态的数量利用不同特征提取方式得到不同重构数据中,时,从以下特征提取方式得到数据重构:

62、第一步:由自适应机制可以得到前个个时空模态与时空系数的q个元素。将得到的和即可得到重构数据,提出:

63、;

64、第二步:进行模型评估,将得到的与原始数据进行比较,若得到的相关系数,则返回上一步,令,重新进行数据重构,直到。

65、在步骤s3对获得的主成分和时空模态的数量利用不同特征提取方式得到不同重构数据中,时,从以下特征提取方式得到数据重构:

66、第1步:由自适应机制可以得到前q个sla时空模态与时空系数的q个元素。将得到的和即可得到重构sla数据:

67、;

68、第2步:进行模型评估,将得到的与原始数据进行比较,若得到的相关系数,则返回上一步,令,重新进行数据重构,直到。若得到的相关系数,将升维为,即得到重构数据。

69、本发明的另一目的在于提供一种海洋大数据智能轻量化处理系统,该系统通过所述的海洋大数据智能轻量化处理方法实现,该系统包括:

70、数据分解模块,用于通过自主选择周期数将原始二维数据矩阵变成三维数据矩阵进行数据升维,再对数据升维的三维数据矩阵自动选择降维后的二维矩阵;对所述自动选择降维后的二维矩阵海洋历史数据通过不同的选取方式分解成时空系数和时空模态;

71、特征提取模块,用于对于要被压缩的数据,基于不同的分解方式进行时空模态以及时空模态的逆矩阵进行特征提取;

72、数据重构模块,用于基于特征提取的数据,通过自适应方法选择主成分和时空模态的数量,对获得的主成分和时空模态的数量利用不同特征提取方式得到不同重构数据,所述重构数据包括含有时序信息的海洋或气候数据在空间和时间维度变化的时空特征。

73、结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明在现有的特征提取轻量化技术基础上进行改进,使其在原有基础上增添了自主选择和自适应能力,提出了一种新型的海洋大数据智能轻量化处理方法(intelligent lightweightprocessing method,ilpm)。该方法可以更好地适应不同的数据特征和分析目标。同时,克服了前期算法的缺陷和不足,更好地实现了海洋大数据轻量化。

74、本发明ilpm不仅有着压缩率低、压缩时间和解压时间短、提供更紧凑的表示和数据压缩的优点。此外,加入自适应机制有效提升了方法的适应性、灵活性和鲁棒性,同时可简化参数调整过程,使模型更具有适应不同数据和分析需求的能力,从而提高分析结果的准确性和可靠性。

75、本发明是对传统的经验正交函数分解方法进行的一次大的升级改造,使其在原有基础上增添了自主选择和自适应能力,从而实现了海洋大数据智能轻量化的目的。具体而言,为使传统的方法在处理具有明显时序性或周期性变化的数据集时表现更加优异,可将原始数据转换成按周期自主选择的数据,对其进行先升维后降维的操作,然后对其进行经验正交模态分解,最后将自适应方法融入分解出来的模态中,本发明称该改进方法为。该方法不仅可以捕捉数据的时空变异性,自动调整参数,适应不同数据,符合大数据轻量化标准。

76、本发明可能带来大幅度的成本节约,提高数据传输效率,能够大幅度减少数据存储和处理的成本。在该领域的前期研究和现有技术中,存在着一定的技术局限性和问题,不能够大幅度的减少数据存储,本发明的技术方案通过引入创新的思路和方法,克服了现有技术的限制,实现了海洋大数据智能轻量化。本发明的技术方案成功解决了海洋大数据轻量化的技术难题,通过深入的研究和创新思维,本发明的技术方案提供了一种全新的解决方案,成功实现了海洋大数据智能轻量化。在过去的研究和实践中,由于某些技术偏见或先入之见,人们对于经验正交分解进行海洋大数据降维存在一定的限制。然而,本发明的技术方案通过创新性的思考和独特的方法,打破了传统的技术思维模式,超越了技术偏见的限制,提供了一种全新的解决方案,实现了海洋大数据智能轻量化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1