一种基于关联分析模型的数据融合分析方法及系统与流程

文档序号:35788430发布日期:2023-10-21 19:40阅读:33来源:国知局
一种基于关联分析模型的数据融合分析方法及系统与流程

本发明涉及工业互联网行业密码应用,具体为一种基于关联分析模型的数据融合分析方法及系统。


背景技术:

1、大数据是it行业术语,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。工业互联网密码应用数据的采集规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

2、传统数据库软件工具无法在采集数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构,难以发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。为了能够准确掌握庞大的数据信息,需要对这些含有意义的数据进行专业化处理,提高对数据的“加工能力”,通过“加工”实现数据的“增值”。


技术实现思路

1、本发明提供的发明目的在于提供一种基于关联分析模型的数据融合分析方法及系统,其能够将工业互联网密码应用采集的大量数据进行清洗规整,形成格式化数据,支持相关存储、计算资源按需分配、调用和释放,能够将密码应用数据进行过滤筛选、聚合分析,从而具备对密码应用数据快速分析、实时处理、数据挖掘、统计关联分析的能力。

2、为实现以上目的,本发明通过以下技术方案予以实现:

3、本申请第一方面提供了一种基于关联分析模型的数据融合分析方法,包括:

4、s1、数据源管理,进入数据源页面点击新增,开始数据源的配置。选择数据源类型,数据源类型主要包括三大类关系型数据库(mysql、oracle等)、时序数据库(elasticsearch等)、api接口,其中关系型数据库和时序数据库按配置项填写数据库的ip、端口、访问库名、用户名、密码项即可,可以通过测试按钮测试是否能够成功连接数据库;api接口添加请求路径、请求方式及请求参数,并点击测试按钮测试接口是否可用;

5、s2、数据集构建,构建数据引擎,通过数据库系统中提供的各属性(项),使用关联规则进行分析,找出交易事务中频繁发生的项或属性的所有子集,以及项目之间的相互关联性;

6、s3、数据集采集,依托步骤s2数据集构建,开启数据采集,配置采集定时任务的cron表达式,并选择采集方式,采集方式分为全量覆盖、增量去重、增量不去重;

7、s4、数据集调用,提供数据引擎调用的统一接口,必要参数为数据引擎编号,动态参数为资产标识、采集指标、采集条数、时间起止等。

8、进一步的,所述步骤s2中先选择步骤s1数据源和数据引擎的分类,根据选择的数据源区分是时序数据还是关系数据;时序数据根据输入的查询sql、查询参数、配置的数据转换进行测试预览,测试预览成功再判断是否需要进行数据采集,若不需采集直接结束数据引擎的构建流程;若需进行数据采集,则进入采集流程,将数据缓存成关系数据。关系数据根据输入的查询sql、查询参数、配置的数据转换进行测试预览操作,测试预览成功则可以完成数据引擎的构建。

9、进一步的,所述步骤s3中全量覆盖以最新的缓存数据为主,历史数据均清除;增量去重每次保存缓存数据时做判断是否存在重复数据,重复数据不处理,非重复数据保存入库;增量不去重每次保存缓存数据不做任何判断,均保存入库。当开启容错处理,配置了重试次数和重试间隔时间,在采集定时任务报错时会重新执行定时任务。

10、进一步的,所述步骤s2数据集构建中,数据集构建的目的是从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性,主要的目的就是通过关联规则进行关联分析。

11、进一步的,所述步骤s4中调用接口会先判断数据引擎编号是否能对应出可用的数据引擎,然后根据数据引擎配置的查询参数动态拼接查询sql,最后连接数据源执行sql获取查询结果,通过数据转换生成对应的数据格式。

12、本申请第二方面提供了一种基于关联分析模型的数据融合分析系统,用于完成数据集的创建及调用,该数据融合分析包:

13、数据源管理,用于进行多数据源的信息配置;

14、数据集构建,基于数据源依赖,通过依据不同数据源支持的sql语法和api请求实现数据的关联分析;

15、数据集采集,是数据集的扩展,将数据分析结果进行缓存、容错处理及历史数据的清理;

16、数据集调用,是数据融合分析结果的应用,系统提供统一的数据集引擎调用接口,通过参数输入、数据转换等实现特定条件融合数据的输出,参数输入用于进行数据融合信息的过滤,数据转换用于进行特定数据格式要求的输出。

17、进一步的,所述数据源管理与各个数据来源建立数据链接,其连接的数据包括结构化数据、非结构化数据和api接口数据,系统内置mysql、elasticsearch、kudu等多种驱动和http接口配置,能够进行动态扩展,确保多源数据的高效接入。

18、进一步的,所述数据集构建的通用jdbc数据源采用标准sql语法,elasticsearch数据源采用x-pack sql语法,系统通过接收到数据操作指令进行解析,对数据操作指令进行语法转换,得到可被数据源识别的操作语句,从而得到数据操作指令要求的数据。通过对数据结果集的关联缓存能够实现多类型数据的关联分析。

19、进一步的,所述数据集采集通过cron表达式进行采集定时任务的配置,可选择采集方式分为全量覆盖、增量去重、增量不去重,利用容错处理配置了采集重试次数和重试间隔时间,在采集任务执行异常时根据配置进行采集任务的重新执行,历史数据清理用于清除无效数据,避免缓存数据过大产生的执行效率问题。

20、本发明提供了一种基于关联分析模型的数据融合分析方法及系统。具备以下有益效果:

21、通过关联规则进行关联分析的技术,解决多类型数据综合关联分析、数据分析单一的问题,能够灵活的进行不同规则数据集的创建,以满足特定数据模型及引擎的要求;通过数据融合技术进行数据的高效采集和转换,提供满足特定格式要求的数据,满足用于可视化图表、报表展示问题,解决数据处理过程中多形态数据的要求。



技术特征:

1.一种基于关联分析模型的数据融合分析方法,其特征在于,包括:

2.根据权利要求1所述的一种基于关联分析模型的数据融合分析方法,其特征在于:所述步骤s2中先选择步骤s1数据源和数据引擎的分类,根据选择的数据源区分是时序数据还是关系数据;时序数据根据输入的查询sql、查询参数、配置的数据转换进行测试预览,测试预览成功再判断是否需要进行数据采集,若不需采集直接结束数据引擎的构建流程;若需进行数据采集,则进入采集流程,将数据缓存成关系数据。关系数据根据输入的查询sql、查询参数、配置的数据转换进行测试预览操作,测试预览成功则可以完成数据引擎的构建。

3.根据权利要求1所述的一种基于关联分析模型的数据融合分析方法,其特征在于:所述步骤s3中全量覆盖以最新的缓存数据为主,历史数据均清除;增量去重每次保存缓存数据时做判断是否存在重复数据,重复数据不处理,非重复数据保存入库;增量不去重每次保存缓存数据不做任何判断,均保存入库。当开启容错处理,配置了重试次数和重试间隔时间,在采集定时任务报错时会重新执行定时任务。

4.根据权利要求1所述的一种基于关联分析模型的数据融合分析方法,其特征在于:所述步骤s2数据集构建中,数据集构建的目的是从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性,主要的目的就是通过关联规则进行关联分析。

5.根据权利要求1所述的一种基于关联分析模型的数据融合分析方法,其特征在于:所述步骤s4中调用接口会先判断数据引擎编号是否能对应出可用的数据引擎,然后根据数据引擎配置的查询参数动态拼接查询sql,最后连接数据源执行sql获取查询结果,通过数据转换生成对应的数据格式。

6.一种基于关联分析模型的数据融合分析系统,用于完成数据集的创建及调用,其特征在于,包括;

7.根据权利要求6所述的一种基于关联分析模型的数据融合分析系统,其特征在于:所述数据源管理与各个数据来源建立数据链接,其连接的数据包括结构化数据、非结构化数据和api接口数据,系统内置mysql、elasticsearch、kudu等多种驱动和http接口配置,能够进行动态扩展,确保多源数据的高效接入。

8.根据权利要求6所述的一种基于关联分析模型的数据融合分析系统,其特征在于:所述数据集构建的通用jdbc数据源采用标准sql语法,elasticsearch数据源采用x-packsql语法,系统通过接收到数据操作指令进行解析,对数据操作指令进行语法转换,得到可被数据源识别的操作语句,从而得到数据操作指令要求的数据。通过对数据结果集的关联缓存能够实现多类型数据的关联分析。

9.根据权利要求6所述的一种基于关联分析模型的数据融合分析系统,其特征在于:所述数据集采集通过cron表达式进行采集定时任务的配置,可选择采集方式分为全量覆盖、增量去重、增量不去重,利用容错处理配置了采集重试次数和重试间隔时间,在采集任务执行异常时根据配置进行采集任务的重新执行,历史数据清理用于清除无效数据,避免缓存数据过大产生的执行效率问题。


技术总结
本发明公开了一种基于关联分析模型的数据融合分析方法及系统,涉及工业互联网行业密码应用技术领域,包括:数据源管理,用于进行多数据源的信息配置;数据集构建,基于数据源依赖,通过依据不同数据源支持的SQL语法和API请求实现数据的关联分析;数据集采集,是数据集的扩展,将数据分析结果进行缓存、容错处理及历史数据的清理;数据集调用,是数据融合分析结果的应用,系统提供统一的数据集引擎调用接口,通过参数输入、数据转换等实现特定条件融合数据的输出,参数输入用于进行数据融合信息的过滤,数据转换用于进行特定数据格式要求的输出。本方案通过提供关联分析模型和数据融合分析技术进行系统的技术实现。

技术研发人员:王聪,王伟忠,查奇文,唐明环,彭浩楠,闫瑞泽,闫飞,钮艳,刘权,殷荣超,于成丽,岳洋,马莉雅
受保护的技术使用者:中国工业互联网研究院
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1