本申请整体上涉及一种面对天基数据基于一体化etl的大数据融合系统及方法。
背景技术:
1、etl(extract-transform-load,抽取-转换-加载)任务是一种用于实现对数据进行处理的任务,常用在数据库系统和数据仓库中,成为联机分析处理、数据挖掘的基础。
2、信息融合最早应用于军事领域,是组合多源信息和数据完成目标检测、关联、状态评估的多层次、多方面的过程。数据融合技术能够辅助人们进行态势和环境的判定、规划、探测、验证、诊断。目前,数据融合技术迫切需要在理论和实现技术上进行开拓性研究。其中,随着我国航天事业的发展,天基数据的类型和质量在极具增加,从多源天基数据中获取信息以及进行融合已经成为重点发展方向,在军事和民用上都已经成为制约其发展的一个因素。天基数据的清洗转换及融合,对下则为整合多源数据的手段,对上则为各卫星情报处理系统的基础。
3、大数据普遍存在数据量大、离散性、数据噪声多、类型复杂、数据来源多元化等特点,因此大数据在前期处理方面存在问题,会直接导致数据的利用效率和数据价值等方面的问题。目前的大数据融合数据处理过程较为麻烦,且操作也不方便,数据处理的运维成本较高,不利于推广使用范围;并且,由于卫星情报的特殊性、独立性以及作为军事领域情报来源的时效性,传统etl流程存在一些问题。
4、在专利号为cn201810189318.7的发明专利申请文件中有提到:当前对大数据的利用主要是基于其非结构化的属性使用的,因此无法充分发挥大数据的价值和利用效率;在专利cn202110366843.3的发明专利申请文件中,说明了一种基于web-etl大数据融合方法进行etl,解决传统etl 过程中操作麻烦、运维成本大的问题。但该方式对于天基数据的处理和时效性有明显的不足之处,并且此基于etl的过程没有说明对非结构化数据的处理过程,但由于天基数据包括遥感卫星侦察图像,点位判情信息等,并且非结构化图像数据为天基数据的一个大类,对非结构化数据的简单处理方式,会极大影响非结构化数据在整个etl流程中的处理效率,并且会极大影响数据应用层的利用数据的效率,势必会影响用户的使用与维护。
技术实现思路
1、为了解决现有技术中大数据融合过程较为麻烦,且操作不方便,数据处理运维成本较高的问题,并且解决面对天基数据解决多源天基数据时的时效性、格式、噪声等问题,并且解决传统方式对非结构化数据的处理时效性问题,本申请提供了一种面对天基数据的基于etl的大数据融合系统及方法。
2、本发明提供了一种面对天基数据的基于etl的大数据融合方法,包括:
3、s1:根据数据来源判断采集方式,进行数据采集,并将采集的数据存入数据库;
4、s2:对数据库中的数据进行etl处理;
5、其中,步骤s1中,将采集的数据划分为结构化数据、半结构化数据、非结构化数据,将采集的数据存入数据库的过程包括:
6、对采集的数据进行预处理,该预处理包括将半结构化数据和非结构化数据转换为结构化数据;
7、对预处理后的数据,抽取元数据,形成元数据列表。
8、根据本发明提供的方法,其中,对于结构化数据,直接存入数据库。
9、根据本发明提供的方法,其中,对于半结构化数据,在预处理过程中进行内容字段对应和抽取。
10、根据本发明提供的方法,其中,对于非结构化数据,基于天基侦察情报数据的类型,采用不同的方式进行预处理。
11、根据本发明提供的方法,其中,若天基侦察情报数据的类型为图像数据,则预处理过程包括:
12、抽取图像数据的元信息;
13、使用深度学习的方法进行地物分类或进行目标识别后产生相应的情报数据再次入库。
14、根据本发明提供的方法,其中,若天基侦察情报数据的类型为文本数据,则预处理过程包括:进行文字语义识别,以将非结构化数据转换为结构化数据。
15、根据本发明提供的方法,其中预处理过程中,优先提取非结构化的文本数据中的点位情报、地理情报、目标情报。
16、本发明还提供了一种其上存储有软件指令的计算机可读存储介质,所述软件指令在被执行时实施上述方法。
17、本发明还提供了一种面对天基数据的基于etl的大数据融合系统,用于执行上述方法,所述系统包括;
18、数据采集模块;
19、etl处理模块。
20、根据本发明提供的系统,其中,数据采集模块将采集的数据划分为结构化数据、半结构化数据、非结构化数据,并对采集的数据进行预处理,该预处理包括将半结构化数据和非结构化数据转换为结构化数据。
21、本申请提供的系统和方法中,首先将天基数据按照结构化数据、非结构化数据、半结构化数据这三种类型进行分类,并在预处理阶段对半结构化数据和非结构化数据进行处理,提高了处理效率以及在后续数据应用层对数据的有效利用。
1.一种面对天基数据的基于etl的大数据融合方法,包括:
2.根据权利要求1所述的方法,其中,对于结构化数据,直接存入数据库。
3.根据权利要求1所述的方法,其中,对于半结构化数据,在预处理过程中进行内容字段对应和抽取。
4.根据权利要求1所述的方法,其中,对于非结构化数据,基于天基侦察情报数据的类型,采用不同的方式进行预处理。
5.根据权利要求4所述的方法,其中,若天基侦察情报数据的类型为图像数据,则预处理过程包括:
6.根据权利要求4所述的方法,其中,若天基侦察情报数据的类型为文本数据,则预处理过程包括:进行文字语义识别,以将非结构化数据转换为结构化数据。
7.根据权利要求6所述的方法,其中,预处理过程中,优先提取非结构化的文本数据中的点位情报、地理情报、目标情报。
8.一种其上存储有软件指令的计算机可读存储介质,所述软件指令在被执行时实施根据权利要求1-7中任一项所述的方法。
9.一种面对天基数据的基于etl的大数据融合系统,用于执行根据权利要求1-7中任一项所述的方法,所述系统包括;
10.根据权利要求9所述的系统,其中,数据采集模块将采集的数据划分为结构化数据、半结构化数据、非结构化数据,并对采集的数据进行预处理,该预处理包括将半结构化数据和非结构化数据转换为结构化数据。