本发明属于数据管理与分析领域,涉及一种基于opengauss的时序数据管理方法及系统。
背景技术:
1、数据库作为系统基础软件,主要承担高效管理大规模数据的功能。在诸如电力、交通以及工业制造等技术领域中存在大量具有重要意义的时序数据,对这些时序数据的处理和存储需要高性能、高可靠的工业级时序数据管理系统。在时序数据管理系统方面:
2、国外已有的典型系统包括timescaledb、influxdb、opentsdb。其中,timescaledb是基于postgresql开发的,基于模式数据管理框架。influxdb是基于key-value数据,主要针对区间、窗口、数值统计查询。opentsdb基于hbase开发,针对多维度查询。
3、国内腾讯和阿里均已经设计研发相关的时序数据库系统,腾讯时序数据库ctsd具有较好的数据清洗和修复功能,阿里云时序数据库hitsdb具有多个数据模型、学习索引等。
4、然而,无论是国外还是国内时序数据管理系统,其时序数据研究工作主要集中在时序数据清洗和查询处理,功能不完善。具体体现在以下方面:
5、在时序数据查询方面,现有的时序数据管理系统缺乏时序数据相似性查询等对时序数据具有针对性分析作用的功能。
6、而时序数据查询功能用于比较和找到与给定查询序列相似的时序数据,以发现趋势、模式或异常行为,从而支持数据分析和预测建模等应用领域。
7、在时序数据处理方面,现有的时序数据管理系统缺乏时序数据清洗与质量评估、时序数据降维等处理功能。
8、时序数据清洗与质量评估的作用是通过预处理和过滤,消除时序数据中的噪声、异常和缺失值,并评估数据的准确性、完整性和一致性,以确保数据质量符合分析和应用的需求。
9、时序数据降维的作用是通过聚合、压缩或采样等技术,将高维的时序数据转化为低维表示,以减少存储和计算成本,并提高数据处理和分析的效率。
10、可见,时序数据查询、时序数据清洗与质量评估以及时序数据降维等在时序数据管理与分析方面有着重要意义,现有的时序数据管理系统并不具备上述功能。
技术实现思路
1、针对现有的时序数据库管理系统功能不完善的问题,本发明提出了一种基于opengauss的时序数据管理方法,该方法包括时序清洗和质量评估、时序数据降维与分列、时序数据相似性查询等高效查询处理和分析等,利于拓展opengauss数据管理能力。
2、本发明为了实现上述目的,采用如下技术方案:
3、一种基于opengauss的时序数据管理方法,包括如下步骤:
4、时序数据清洗步骤;
5、通过预处理清洗重复值和错误数据、基于lstm的时间序列预测方法填充缺失值,并利用正态分布统计的方法给漂移数据的可信度进行分级,得到漂移数据可信度提示;
6、时序数据质量评估步骤;
7、通过对数据异常数量和频率在行与列两种划分方式下进行统计和计算,并以表格的方式输出,表达数据随时间的异常状况的变化和每列数据的不同异常类型的发生数量和频率;
8、时序数据降维步骤;
9、针对时序数据中出现的维度数值类型不同的情况,利用将z-order降维方法,根据具体的时序数据特征选择合适的精度和数据类型进行降维处理;
10、时序数据分列步骤;
11、将每个非时间列属性单独提取出来,分别与时间列组成一张新表;
12、以及时序数据相似性查询步骤;
13、通过将时序数据分段、走势表示、建立kd-tree索引结构,实现快速相似性查询与剪枝。
14、此外,本发明还提出了一种与上述基于opengauss的时序数据管理方法对应的基于opengauss的时序数据管理系统,该系统采用如下技术方案:
15、一种基于opengauss的时序数据管理系统,包括:
16、时序数据清洗模块;
17、通过预处理清洗重复值和错误数据、基于lstm的时间序列预测方法填充缺失值,并利用正态分布统计的方法给漂移数据的可信度进行分级,得到漂移数据可信度提示;
18、时序数据质量评估模块;
19、通过对数据异常数量和频率在行与列两种划分方式下进行统计和计算,并以表格的方式输出,表达数据随时间的异常状况的变化和每列数据的不同异常类型的发生数量和频率;
20、时序数据降维模块;
21、针对时序数据中出现的维度数值类型不同的情况,利用将z-order降维方法,根据具体的时序数据特征选择合适的精度和数据类型进行降维处理;
22、时序数据分列模块;
23、将每个非时间列属性单独提取出来,分别与时间列组成一张新表;
24、以及时序数据相似性查询模块;
25、通过将时序数据分段、走势表示、建立kd-tree索引结构,实现快速相似性查询与剪枝。
26、本发明具有如下优点:
27、如上所述,本发明述及了一种基于opengauss的时序数据管理方法及系统。本发明基于国产开源数据库系统,因而能够更好地适应国内的业务环境,且面向的时序应用场景广泛,并不局限于物联网、工业等场景。本发明具备现有时序数据管理系统所不具备的时序数据相似性查询、时序数据降维、时序数据质量评估等功能,以帮助用户进行数据挖掘以及趋势分析等操作,更好地理解数据、做出决策并发现潜在的数据意义。此外,本发明确保系统能够高效地处理大规模时序数据,并在面对高负载情况下保持稳定性和可靠性,使用户能够处理更多、更复杂的数据。
1.一种基于opengauss的时序数据管理方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于opengauss的时序数据管理方法,其特征在于,
3.根据权利要求2所述的基于opengauss的时序数据管理方法,其特征在于,
4.根据权利要求1所述的基于opengauss的时序数据管理方法,其特征在于,
5.根据权利要求1所述的基于opengauss的时序数据管理方法,其特征在于,
6.根据权利要求5所述的基于opengauss的时序数据管理方法,其特征在于,
7.根据权利要求5所述的基于opengauss的时序数据管理方法,其特征在于,
8.根据权利要求1所述的基于opengauss的时序数据管理方法,其特征在于,
9.根据权利要求8所述的基于opengauss的时序数据管理方法,其特征在于,
10.一种基于opengauss的时序数据管理系统,其特征在于,包括: