数据处理方法、装置和系统与流程

文档序号:12063663阅读:202来源:国知局
数据处理方法、装置和系统与流程

本发明涉及计算机信息处理领域,尤其涉及一种数据处理方法、装置和系统。



背景技术:

数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,大数据时代已经降临。大数据的爆炸式增长在大容量、多样性和高增速方面,考验着现代企业的数据处理和分析能力,同时,也为企业带来了获取更丰富、更深入和更准确地洞察市场行为的大量机会。当前,最重要的现实是对大数据进行处理分析,只有通过处理分析才能获取很多智能的、深入的、有价值的信息。

相比于传统的数据,大数据呈现了4V+1O特征,表现为数据量大(Volume)、种类繁多(Variety)、时效性高(Velocity)、价值密度低(Value)和数据在线(Online)。目前常规的大数据处理工具有两类:传统的ETL(Extract-Transform-Load,抽取、转换、加载)工具和基于Hadoop(Hadoop Distributed File System,分布式文件系统)的大数据采集工具。

目前,用户对于大数据处理的高效性和融合的集成度要求越来越高。然而目前常规的大数据处理工具对于大数据这种多源、异构、海量的数据,在处理方面存在欠缺,数据处理过程人工参与度高,数据处理不精细、效率低,而且对不同的数据也没有进行统一的融合,集成度不高,导致获取的最终数据可利用价值和实用性不高。



技术实现要素:

本发明的主要目的在于解决大数据处理效率低、融合度低的技术问题。

为实现上述目的,本发明提供一种数据处理方法,所述数据处理方法包括以下步骤:

获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采 集模式、数据处理模型和集群中各节点采集任务;

根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据;

将所述处理后的数据进行统一融合,获取统一融合后的数据。

优选的,所述获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务,包括:

控制所述集群中各节点读取待采集数据,获取待采集数据样本和集群中各节点负载情况;

评估所述待采集数据样本,获取质量评估报告,所述质量评估报告包括:数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度;

根据所述质量评估报告和所述集群中各节点负载情况,适配数据采集模式和数据处理模型,分配所述集群中各节点的采集任务。

优选的,所述根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据,包括:

控制所述集群中各节点根据对应的集群中各节点采集任务,以所述采集模式进行数据采集;

控制所述集群中各节点根据所述数据处理模型处理采集到的数据,获取处理后的数据。

优选的,所述将所述处理后的数据进行统一融合,获取统一融合后的数据,包括:

根据预设的数据规整模型,对处理后的数据进行数据规整;和/或,根据预设的数据集成模型,对处理后的数据进行数据集成;和/或,根据预设的数据建模模型,对处理后的数据进行数据建模;得到统一融合后的数据。

优选的,所述将所述处理后的数据进行统一融合,获取统一融合后的数据之后,还包括:

分类存储所述统一融合后的数据。

优选的,所述获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务之前,还包括:

配置数据采集接口;

所述获取待采集数据样本,对所述待采集数据样本进行预处理的步骤包括:

通过所述数据采集接口获取待采集数据样本,对所述待采集数据样本进行预处理;

所述控制集群中各节点进行数据采集和数据处理的步骤包括:

控制集群中各节点通过所述数据采集接口进行数据采集,控制集群中各节点对采集到的数据进行数据处理。

优选的,所述配置数据采集接口,包括:

获取数据采集接口配置参数;

根据所述配置参数进行所述数据采集接口的连接测试;

若所述连接测试成功,则将包含有所述配置参数的数据采集接口配置文件向集群中的其他节点进行分发,配置所述集群中的各节点,并控制所述集群中的各节点连接所述数据采集接口;

若所述连接测试不成功,则转入步骤:获取数据采集接口配置参数。

此外,为实现上述目的,本发明还提供一种数据处理装置,所述数据处理装置包括:

适配模块,用于获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务;

数据处理模块,用于根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据;

统一融合模块,用于将所述处理后的数据进行统一融合,获取统一融合后的数据。

优选的,所述适配模块包括:

样本采集单元,用于控制所述集群中各节点读取待采集数据,获取待采集数据样本和集群中各节点负载情况;

数据评估单元,用于评估待采集数据样本,获取质量评估报告,所述质量评估报告包括:数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度;

适配单元,用于根据所述质量评估报告和所述集群中各节点负载情况,适配数据采集模式和数据处理模型,分配所述集群中各节点的采集任务。

优选的,所述数据处理模块包括:

数据采集单元,用于控制所述集群中各节点根据对应的集群中各节点采集任务,以所述采集模式进行数据采集;

数据处理单元,用于控制所述集群中各节点根据所述数据处理模型处理所述采集到的数据,获取处理后的数据。

优选的,所述统一融合模块包括:

数据规整单元,用于根据预设的数据规整模型,对处理后的数据进行数据规整;

数据集成单元,用于根据预设的数据集成模型,对处理后的数据进行数据集成;

数据建模单元,用于根据预设的数据建模模型,对处理后的数据进行数据建模;

数据获取单元,用于获取统一融合后的数据。

优选的,所述数据处理装置还包括分类存储模块,用于,

分类存储所述统一融合后的数据。

优选的,所述数据处理装置还包括接口配置模块,用于,

配置数据采集接口;

所述适配模块还用于,通过所述数据采集接口获取待采集数据样本,对所述待采集数据样本进行预处理;

所述数据处理模块还用于,控制集群中各节点通过所述数据采集接口进行数据采集,控制集群中各节点对采集到的数据进行数据处理。

优选的,所述接口配置模块包括:

参数获取单元,用于获取数据采集接口配置参数;

连接测试单元,用于根据所述配置参数进行所述数据采集接口的连接测试;

文件分发单元,用于若所述连接测试成功,则将包含有所述配置参数的数据采集接口配置文件向集群中的其他节点进行分发,配置所述集群中的各节点,并控制所述集群中的各节点连接所述数据采集接口;

所述参数获取单元还用于,若所述连接测试不成功,则获取所述数据采集接口配置参数。

此外,为实现上述目的,本发明还提供一种数据处理系统,包括数据采集接口适配器、数据预读处理器、数据处理器、数据统一融合处理器和数据分类存储器,其中:

适配处理器,用于获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务;

数据处理器,用于根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据;

数据统一融合处理器,用于将所述处理后的数据进行统一融合,获取统一融合后的数据。

优选的,所述数据处理系统还包括:

数据采集接口适配器,用于配置数据采集接口;

数据分类存储器,用于分类存储所述统一融合后的数据;

系统管理器,所述系统管理器包括:

数据管理模块,用于管理所述数据采集接口配置文件、数据采集接口的连接测试结果、待采集数据样本、质量评估报告和集群中各节点负载情况;

资源管理模块,用于管理所述待采集数据样本、数据采集、数据处理、数据统一融合和数据存储,及集群资源消耗情况,控制所述集群中各节点负载均衡;

模型管理模块,用于管理数据采集接口配置模板、数据评估模板、数据采集模板、数据处理模型、数据规整模型、数据集成模型和数据建模模型;

过程监控模块,用于监控数据采集接口配置、读取待采集数据样本、数据评估、数据处理、数据统一融合和数据存储过程,并记录、处理数据采集接口配置、读取待采集数据样本、数据评估、数据处理、数据统一融合和数据存储过程中的完成状态、中间错误和异常。

本发明通过对异构数据根据样本进行分析,自动适配数据采集模式和数据处理模型,采集数据并进行处理数据,调整集群中各节点负载均衡,并对有内在关联性的各种异构数据进行统一融合,有效解决了现有技术中大数据处理效率低、融合度低的问题,提高了数据处理效率和数据融合度,提升了最终数据的可利用价值和实用性,为大数据分析和价值挖掘提供了数据质量保障。

附图说明

图1为本发明数据处理方法第一实施例的流程示意图;

图2为本发明数据处理方法第二实施例的流程示意图;

图3为本发明数据处理方法第三实施例的流程示意图;

图4为本发明数据处理方法第四实施例的流程示意图;

图5为本发明数据处理方法第五实施例的流程示意图;

图6为本发明数据处理方法第六实施例的流程示意图;

图7为本发明数据处理方法第七实施例的流程示意图;

图8为本发明数据处理装置第一实施例的功能模块示意图;

图9为本发明数据处理装置第二实施例的功能模块示意图;

图10为本发明数据处理装置第三实施例的功能模块示意图;

图11为本发明数据处理装置第四实施例的功能模块示意图;

图12为本发明数据处理装置第五实施例的功能模块示意图;

图13为本发明数据处理装置第六实施例的功能模块示意图;

图14为本发明数据处理装置第七实施例的功能模块示意图;

图15为本发明数据处理系统第一实施例的结构示意图;

图16为本发明数据处理系统第二实施例的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例的主要解决方案是:通过数据采集接口获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务;根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据;将所述处理后的数据进行统一融合,获取统一融合后的数据。

由于现有技术数据处理过程人工参与度高,数据处理不精细、效率低,而且对分散的、有内在关联的数据也没有进行统一的融合,融合度不高,导致获取的最终数据可利用价值和实用性不高。

本发明提供一种解决方案,能够自动适配数据采集模式和处理类型,对多源异构海量数据进行统一融合,从而提高数据处理效率和数据融合度,提升了最终数据的可利用价值和实用性,为大数据分析和价值挖掘提供了数据质量保障。

参照图1,本发明数据处理方法第一实施例提供一种数据处理方法,所述数据处理方法包括以下步骤:

步骤S10,获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务。

控制集群中各节点采集待采集数据,获取待采集数据样本和集群中各节点负载情况,待采集数据样本包括预设数量的待采集数据,集群中各节点负 载情况包括数据采集过程中各节点的数据采集速率、性能、响应情况、负载能力,用于了解待采集数据样本采集过程中各节点的资源负载情况。

对待采集数据样本进行预处理,检测与判定待采集数据基本质量属性,获取质量评估报告。

根据质量评估报告和集群中各节点负载情况,决定数据采集模式、适配数据处理模型、分配集群中各节点的采集任务。

根据不同的数据类型适配不同的数据采集模式,不同的数据采集模式包括全量、增量、非实时、实时,例如:动态流式数据适配增量实时采集模式,结构化数据适配全量非实时采集模式,半结构化数据及非结构化数据适配全量非实时采集模式,数据采集模式也可以是其他采集模式,可根据实际需要灵活设置。

根据不同的数据类型适配数据处理模型,不同的数据类型如流式数据、批量数据、结构化数据、半结构化数据和非结构化数据进行不同的数据处理,预置数据处理模型用于流式数据、非结构化图片数据、非结构化音视频数据、非结构化文本数据、半结构化数据、结构化数据的处理,可直接适配调用,支持模型复用和修订。

数据处理模型包括:动态流式数据为数据抽取、数据过滤、数据关联、数据转换、数据分类的顺次处理步骤;结构化数据为数据抽取、异常清洗的顺次处理步骤;半结构化数据及非结构化数据为数据抽取、数据解析、异常清洗、数据分割、特征提取的顺次处理步骤。需要说明的是,可以直接适配数据处理模型,也可以对数据处理模型进行微调使用,也可以根据具体处理需求对数据处理步骤和模型进行灵活设置。

集群中各节点的采集任务的分配,实现了对集群中各节点负载情况的动态调整,消除或减少系统中各节点负载不均衡的现象,提高数据采集和数据处理效率。

步骤S20,根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据。

控制集群中各节点根据已分配的对应的集群中各节点采集任务,以适配的采集模式进行数据采集,例如:动态流式数据以增量实时采集模式进行数 据采集,结构化数据以全量非实时采集模式进行数据采集,半结构化数据及非结构化数据以全量非实时采集模式进行数据采集,获取采集到的数据。

控制集群中各节点以适配的数据处理模型对各节点采集到的数据分别进行数据处理,例如:根据数据处理模型对动态流式数据顺次进行数据抽取、数据过滤、数据关联、数据转换、数据分类的处理步骤;根据数据处理模型对结构化数据顺次进行数据抽取、异常清洗的处理步骤;根据数据处理模型对半结构化数据及非结构化数据顺次进行数据抽取、数据解析、异常清洗、数据分割、特征提取的处理步骤,实现对各种不同的异构数据按照自身数据特性进行对应的采集和处理,获取处理后的数据。

步骤S30,将所述处理后的数据进行统一融合,获取统一融合后的数据。

对采集及处理后的数据进行数据规整、数据集成、数据建模,数据规整和数据集成针对有内在关联性的数据进行,数据建模提供数据模型设计、数据索引构建功能,将分散的、有内在联系的各种数据进行关联,获取统一融合后的数据。

在本实施例中,通过对异构数据根据样本进行分析,自动适配数据采集模式和数据处理模型,采集数据并处理数据,调整集群中各节点负载均衡,并对有内在关联性的各种异构数据进行统一融合,有效解决了现有技术中大数据处理效率低、融合度低的问题,提高了数据处理效率和数据融合度,提升了最终数据的可利用价值和实用性,为大数据分析和价值挖掘提供了数据质量保障。

进一步的,参照图2,本发明数据处理方法第二实施例提供一种数据处理方法,基于上述图1所示的实施例,步骤S10包括:

步骤S11、控制所述集群中各节点读取待采集数据,获取待采集数据样本和集群中各节点负载情况。

控制集群中各节点采集预设数量的待采集数据,获取待采集数据样本,和数据采集过程中集群中各节点负载情况,待采集数据样本包括预设数量的待采集数据,集群中各节点负载情况包括数据采集过程中各节点的数据采集 速率、性能、响应情况、负载能力。

步骤S12、评估所述待采集数据样本,获取质量评估报告,所述质量评估报告包括:数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度。

控制集群中各节点对各自采集到的待采集数据样本进行数据质量评估,包括集群中各节点采集到的待采集数据样本的数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度;然后将集群中各节点数据质量评估的数据汇总、整理成为最终的质量评估报告,最终的质量评估报告是最终的待采集数据样本的数据基本质量属性的检测与判定,包括最终的待采集数据样本的数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度。或,

获取集群中各节点采集到的待采集数据样本,汇总采集到的待采集数据样本,对汇总后的待采集数据样本进行数据基本质量属性的检测与判定,包括数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度,获取质量评估报告。

步骤S13、根据所述质量评估报告和所述集群中各节点负载情况,适配数据采集模式和数据处理模型,分配所述集群中各节点的采集任务。

根据质量评估报告中的数据类型和数据传输速率适配数据采集模式,根据质量评估报告中的数据编码、数据冗余率、数据稀疏性适配数据处理模型,根据质量评估报告中的数据传输速度和集群中各节点负载情况分配集群中各节点采集任务。

在本实施例中,获取待采集数据样本,通过对待采集数据样本的预处理,得到质量评估报告和集群中各节点负载情况,并根据质量评估报告和集群中各节点负载情况,自动适配数据采集模式和数据处理模型,实现了各种异构数据包括各种动态的流式数据、静态的结构化数据、半结构化数据和非结构化数据按照其自身的数据特性进行更加合理有效的数据采集及数据处理;合理分配采集任务,使集群中各节点按照相应的采集任务进行数据采集,实现了集群中各节点负载平衡,提升了集群处理能力。

进一步的,参照图3,本发明数据处理方法第三实施例提供一种数据处理方法,基于上述图1所示的实施例,步骤S20包括:

步骤S21、控制所述集群中各节点根据对应的集群中各节点采集任务,以所述采集模式进行数据采集。

控制集群中各节点根据已分配的对应的集群中各节点采集任务,以适配的采集模式进行数据采集,例如:动态流式数据以增量实时采集模式进行数据采集并缓存,结构化数据以全量非实时采集模式进行数据采集,半结构化数据及非结构化数据以全量非实时采集模式进行数据采集,非结构化数据会进一步细分为文本数据、音频数据、视频数据、图片数据,不同类型的非结构化数据的采集方法不同,例如文本数据会进行文本数据采集、音频数据会进行音频数据采集、视频数据会进行视频数据采集、图片数据会进行图片数据采集,获取采集到的数据。

步骤S22、控制所述集群中各节点根据所述数据处理模型处理采集到的数据,获取处理后的数据。

控制集群中各节点根据适配的数据处理模型对各节点采集到的数据分别进行数据处理,例如:根据数据处理模型对动态流式数据顺次进行数据抽取、数据过滤、数据关联、数据转换、数据分类的处理步骤;根据数据处理模型对结构化数据根据数据处理模型顺次进行数据抽取、异常清洗的处理步骤;根据数据处理模型对半结构化数据及非结构化数据根据数据处理模型顺次进行数据抽取、数据解析、异常清洗、数据分割、特征提取的处理步骤,完成数据处理,获取处理后的数据。非结构化数据进一步细分为文本数据、音频数据、视频数据、图片数据,不同类型非结构化数据处理方法不同,如根据数据处理模型对文本数据会进行文本数据采集、文本结构及编码解析、重复及逻辑异常清洗、中文分词、特征提取的处理步骤。

数据处理过程中的产生的中间数据、元数据和进行数据处理后的结果数据,根据采集模式的不同选择合适的存储介质进行数据存储或缓存,即待采集数据的原始数据经过数据抽取、数据解析及异常清洗之后的结果数据、经过数据分割后的结果数据、经过特征提取后的结果数据都会存入分布式文件系统或分布式数据库;增量流式数据的中间数据采用内存数据库进行缓存, 结果数据采用先进行文件缓存再存入分布式数据库。获取处理后的数据。

在本实施例中,自动根据不同的数据类型,使用合适的数据采集模式进行数据采集,根据适配的数据处理模型对不同类型的数据进行特定的数据处理,实现了根据各种异构数据自身数据特性自动进行合适、有针对性的数据采集和处理,提升了数据处理效率和处理后的数据质量,使处理前的数据经过处理成为可操作的统一的数据,便于数据融合。

进一步的,参照图4,本发明数据处理方法第四实施例提供一种数据处理方法,基于上述图1所示的实施例,步骤S30包括:

步骤S31、根据预设的数据规整模型,对处理后的数据进行数据规整。

根据预设的数据规整模型,对处理后的不同数据进行统一的数据规整,包括:统一的格式转换、统一编码、数据修正和缺失填充,获取统一规整的数据。

步骤S32、和/或,根据预设的数据集成模型,对处理后的数据进行数据集成。

根据预设的数据集成模型,对处理后的不同数据或数据规整后的数据进行数据集成,包括:数据关联、数据合并、数据分组、数据汇总,形成统一的常用的基础的数据集合。

步骤S33、和/或,根据预设的数据建模模型,对处理后的数据进行数据建模。

根据预设的数据建模模型,对处理后的不同数据、或数据规整后的数据、或数据集成后的数据进行模型设计、索引构建,以形成后续更高级别数据分析、数据挖掘的基础数据支撑。

步骤S34、得到统一融合后的数据。

对处理后的数据,根据数据处理后的情况,进行数据规整的统一融合操作,和/或数据集成的统一融合操作,和/或数据建模的统一融合操作,可按顺 次进行数据规整、数据集成和数据建模完成统一融合,也可按顺次进行数据规整、数据集成完成统一融合,或其他统一融合操作完成统一融合,可根据实际统一融合的需要进行数据规整、数据集成或数据建模的统一融合操作。获取统一融合后的数据。

在本实施例中,对处理后的数据进行数据规整、数据集成、数据建模的统一融合操作,实现了自动对分散的、有内在关联性的各异构数据的关联,提高了数据融合度,提升了最终数据的可利用价值和实用性,为后续的大数据分析、数据价值挖掘提供基础数据支撑和数据质量保证。

进一步的,参照图5,本发明数据处理方法第五实施例提供一种数据处理方法,基于上述图1至图4中所示任一实施例(本实施例以图1为例),步骤S30之后还包括:

步骤S40、分类存储所述统一融合后的数据。

对不同类型的数据分类存储,将统一融合后的数据存储于分布式数据仓库,将特定数据存储于专用数据库,例如:将交通、气象等时空数据存储于时空数据库,将社交网络等图数据存储于图数据库。而将采集到的半结构化数据、非结构化数据的原始数据存储于分布式文件系统;将采集到的结构化数据的原始数据存储于分布式数据库;将半结构化数据及非结构化数据处理后的数据存储于分布式数据库;将流式数据处理在实时数据库进行。

在本实施例中,自动适配数据采集模式和数据处理模型,根据数据处理模型处理采集到的数据,对处理后的数据进行统一融合,分类存储统一融合后的数据,便于后续数据的大数据的分类查询和进一步分析处理,提升了最终数据的实用性和调取便捷性。

进一步的,参照图6,本发明数据处理方法第六实施例提供一种数据处理方法,基于上述图1所示实施例,步骤S10之前还包括:

步骤S50、配置数据采集接口。

对不同数据源的数据采集接口进行统一配置,并对配置进行连接测试, 连接成功后再进行配置文件的统一分发,控制集群中各节点连接不同数据源的数据采集接口,通过配置成功的数据采集接口进行数据采集;若连接测试失败,重新进行数据采集接口配置。

步骤S10中获取待采集数据样本,对所述待采集数据样本进行预处理包括,通过所述数据采集接口获取待采集数据样本,对所述待采集数据样本进行预处理。

控制集群中各节点通过数据采集接口采集待采集数据,获取待采集数据样本和集群中各节点负载情况,待采集数据样本包括预设数量的待采集数据,集群中各节点负载情况包括数据采集过程中各节点的数据采集速率、性能、响应情况、负载能力,用于了解待采集数据样本采集过程中各节点的资源负载情况。

对待采集数据样本进行预处理,检测与判定待采集数据基本质量属性,获取质量评估报告。

步骤S20中控制集群中各节点进行数据采集和数据处理包括,控制集群中各节点通过所述数据采集接口进行数据采集,控制集群中各节点对采集到的数据进行数据处理。

控制集群中各节点根据已分配的对应的集群中各节点采集任务,以适配的采集模式通过数据采集接口进行数据采集,例如:动态流式数据通过数据采集接口以增量实时采集模式进行数据采集,结构化数据通过数据采集接口以全量非实时采集模式进行数据采集,半结构化数据及非结构化数据通过数据采集接口以全量非实时采集模式进行数据采集,获取采集到的数据。

控制集群中各节点以适配的数据处理模型对各节点采集到的数据分别进行数据处理,例如:根据数据处理模型对动态流式数据顺次进行数据抽取、数据过滤、数据关联、数据转换、数据分类的处理步骤;根据数据处理模型对结构化数据顺次进行数据抽取、异常清洗的处理步骤;根据数据处理模型对半结构化数据及非结构化数据顺次进行数据抽取、数据解析、异常清洗、数据分割、特征提取的处理步骤,实现对各种不同的异构数据按照自身数据特性进行对应的采集和处理。

在本实施例中,统一配置数据采集接口,兼顾静态的、动态的,结构化的、半结构化的、非结构化的异构数据采集接口配置,实现了多源数据采集时,数据采集接口的统一配置,为多源异构数据采集做好了准备,从而可以控制集群中各节点通过数据采集接口采集多源异构数据,提升了数据采集速率。

进一步的,参照图7,本发明数据处理方法第七实施例提供一种数据处理方法,基于上述图6所示实施例,步骤S50包括:

步骤S51、获取数据采集接口配置参数。

向用户给出预置的接口配置模板,包括:文件系统接口配置模板、数据库接口配置模板和网络接口配置模板,供用户选择,根据用户选定的接口配置模板获取模板中的配置参数;或,

向用户给出预置的接口配置模板,包括:文件系统接口配置模板、数据库接口配置模板和网络接口配置模板,用户选择接口配置模板后,可根据实际情况对模板中的配置参数进行修改;或,

用户自定义设置数据采集接口配置参数,可根据实际需要灵活设置。

数据采集接口配置参数包括数据采集接口的关键接口参数,例如:网络地址、端口号和路径。

步骤S52、根据所述配置参数进行所述数据采集接口的连接测试。

根据获取的数据采集接口配置参数控制集群中主节点对数据采集接口进行连接,测试根据获取的配置参数,是否能成功连接数据采集接口。若根据获取的配置参数,成功连接数据采集接口,则连接测试成功;若根据获取的配置参数,未成功连接数据采集接口,则连接测试不成功。

步骤S53、若所述连接测试成功,则将包含有所述配置参数的数据采集接口配置文件向集群中的其他节点进行分发,配置所述集群中的各节点,并控制所述集群中的各节点连接所述数据采集接口;若所述连接测试不成功,则转入步骤S51。

若连接测试成功,则将获取的数据采集接口配置参数固化为数据采集接口的配置文件,将配置文件向集群中的其他节点进行分发,并控制集群中各节点根据获取的数据采集接口配置参数连接数据采集接口。

若连接测试不成功,则通知用户未成功连接数据采集接口,由用户更换接口配置模板,或修改对模板中的数据采集接口配置参数,或自定义设置数据采集接口配置参数,重新获取数据采集接口配置参数。

在本实施例中,通过获取数据采集接口配置参数,连接测试获取正确可用的数据采集接口配置参数,用以连接数据采集接口,完成了数据采集接口的配置,实现了对多源数据采集接口的统一自动化配置及连接,为数据采集做好了准备和支持,提升了数据采集和处理效率。

参照图8,本发明数据处理装置第一实施例提供一种数据处理装置,所述数据处理装置包括:

适配模块100,用于获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务。

适配模块100控制集群中各节点采集待采集数据,获取待采集数据样本和集群中各节点负载情况,待采集数据样本包括预设数量的待采集数据,集群中各节点负载情况包括数据采集过程中各节点的数据采集速率、性能、响应情况、负载能力,用于了解待采集数据样本采集过程中各节点的资源负载情况。

适配模块100对待采集数据样本进行预处理,检测与判定待采集数据基本质量属性,获取质量评估报告。

根据质量评估报告和集群中各节点负载情况,适配模块100决定数据采集模式、适配数据处理模型、分配集群中各节点的采集任务。

根据不同的数据类型适配不同的数据采集模式,不同的数据采集模式包括全量、增量、非实时、实时,例如:动态流式数据适配增量实时采集模式,结构化数据适配全量非实时采集模式,半结构化数据及非结构化数据适配全量非实时采集模式,数据采集模式也可以是其他采集模式,可根据实际需要灵活设置。

根据不同的数据类型适配数据处理模型,不同的数据类型如流式数据、批量数据、结构化数据、半结构化数据和非结构化数据进行不同的数据处理,预置数据处理模型用于流式数据、非结构化图片数据、非结构化音视频数据、非结构化文本数据、半结构化数据、结构化数据的处理,可直接适配调用,支持模型复用和修订。

数据处理模型包括:动态流式数据为数据抽取、数据过滤、数据关联、数据转换、数据分类的顺次处理步骤;结构化数据为数据抽取、异常清洗的顺次处理步骤;半结构化数据及非结构化数据为数据抽取、数据解析、异常清洗、数据分割、特征提取的顺次处理步骤。需要说明的是,可以直接适配数据处理模型,也可以对数据处理模型进行微调使用,也可以根据具体处理需求对数据处理步骤和模型进行灵活设置。

集群中各节点的采集任务的分配,实现了对集群中各节点负载情况的动态调整,消除或减少系统中各节点负载不均衡的现象,提高数据采集和数据处理效率。

数据处理模块200,用于根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据。

数据处理模块200控制集群中各节点根据已分配的对应的集群中各节点采集任务,以适配的采集模式进行数据采集,例如:动态流式数据以增量实时采集模式进行数据采集,结构化数据以全量非实时采集模式进行数据采集,半结构化数据及非结构化数据以全量非实时采集模式进行数据采集,获取采集到的数据。

数据处理模块200控制集群中各节点以适配的数据处理模型对各节点采集到的数据分别进行数据处理,例如:根据数据处理模型对动态流式数据顺次进行数据抽取、数据过滤、数据关联、数据转换、数据分类的处理步骤;根据数据处理模型对结构化数据顺次进行数据抽取、异常清洗的处理步骤;根据数据处理模型对半结构化数据及非结构化数据顺次进行数据抽取、数据解析、异常清洗、数据分割、特征提取的处理步骤,实现对各种不同的异构数据按照自身数据特性进行对应的采集和处理,获取处理后的数据。

统一融合模块300,用于将所述处理后的数据进行统一融合,获取统一融合后的数据。

统一融合模块300对采集及处理后的数据进行数据规整、数据集成、数据建模,数据规整和数据集成针对有内在关联性的数据进行,数据建模提供数据模型设计、数据索引构建功能,将分散的、有内在联系的各种数据进行关联,获取统一融合后的数据。

在本实施例中,适配模块100通过对异构数据根据样本进行分析,自动适配数据采集模式和数据处理模型,数据处理模块200采集数据并处理数据,调整集群中各节点负载均衡,统一融合模块300对有内在关联性的各种异构数据进行统一融合,有效解决了现有技术中大数据处理效率低、融合度低的问题,提高了数据处理效率和数据融合度,提升了最终数据的可利用价值和实用性,为大数据分析和价值挖掘提供了数据质量保障。

进一步的,参照图9,本发明数据处理装置第二实施例提供一种数据处理装置,基于上述图8所示的实施例,适配模块100包括:

样本采集单元110,用于控制所述集群中各节点读取待采集数据,获取待采集数据样本和集群中各节点负载情况。

样本采集单元110控制集群中各节点采集预设数量的待采集数据,获取待采集数据样本,和数据采集过程中集群中各节点负载情况,待采集数据样本包括预设数量的待采集数据,集群中各节点负载情况包括数据采集过程中各节点的数据采集速率、性能、响应情况、负载能力。

数据评估单元120,用于评估待采集数据样本,获取质量评估报告,所述质量评估报告包括:数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度。

数据评估单元120控制集群中各节点对各自采集到的待采集数据样本进行数据质量评估,包括集群中各节点采集到的待采集数据样本的数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度;然后数据评估单元120 将集群中各节点的数据质量评估的数据汇总、整理成为最终的质量评估报告,最终的质量评估报告是最终的待采集数据样本的数据基本质量属性的检测与判定,包括最终的待采集数据样本的数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度。或,

数据评估单元120获取集群中各节点采集到的待采集数据样本,汇总采集到的待采集数据样本,对汇总后的待采集数据样本进行数据基本质量属性的检测与判定,包括数据类型、数据编码、数据冗余率、数据稀疏性和数据传输速度,获取质量评估报告。

适配单元130,用于根据所述质量评估报告和所述集群中各节点负载情况,适配数据采集模式和数据处理模型,分配所述集群中各节点的采集任务。

适配单元130根据质量评估报告中的数据类型和数据传输速率适配数据采集模式,根据质量评估报告中的数据编码、数据冗余率、数据稀疏性适配数据处理模型,根据质量评估报告中的数据传输速度和集群中各节点负载情况分配集群中各节点采集任务。

在本实施例中,样本采集单元110获取待采集数据样本,数据评估单元120通过对待采集数据样本的预处理,得到质量评估报告和集群中各节点负载情况,适配单元130根据质量评估报告和集群中各节点负载情况,自动适配数据采集模式和数据处理模型,实现了各种异构数据包括各种动态的流式数据、静态的结构化数据、半结构化数据和非结构化数据按照其自身的数据特性进行更加合理有效的数据采集及数据处理;合理分配采集任务,使集群中各节点按照相应的采集任务进行数据采集,实现了集群中各节点负载平衡,提升了集群处理能力。

进一步的,参照图10,本发明数据处理装置第三实施例提供一种数据处理装置,基于上述图8所示的实施例,数据处理模块200包括:

数据采集单元210,用于控制所述集群中各节点根据对应的集群中各节点采集任务,以所述采集模式进行数据采集。

数据采集单元210控制集群中各节点根据已分配的对应的集群中各节点 采集任务,以适配的采集模式进行数据采集,例如:动态流式数据以增量实时采集模式进行数据采集并缓存,结构化数据以全量非实时采集模式进行数据采集,半结构化数据及非结构化数据以全量非实时采集模式进行数据采集,非结构化数据会进一步细分为文本数据、音频数据、视频数据、图片数据,不同类型的非结构化数据的采集方法不同,例如文本数据会进行文本数据采集、音频数据会进行音频数据采集、视频数据会进行视频数据采集、图片数据会进行图片数据采集,获取采集到的数据。

数据处理单元220,用于控制所述集群中各节点根据所述数据处理模型处理所述采集到的数据,获取处理后的数据。

数据处理单元220控制集群中各节点根据适配的数据处理模型对各节点采集到的数据分别进行数据处理,例如:根据数据处理模型对动态流式数据顺次进行数据抽取、数据过滤、数据关联、数据转换、数据分类的处理步骤;根据数据处理模型对结构化数据根据数据处理模型顺次进行数据抽取、异常清洗的处理步骤;根据数据处理模型对半结构化数据及非结构化数据根据数据处理模型顺次进行数据抽取、数据解析、异常清洗、数据分割、特征提取的处理步骤,完成数据处理,获取处理后的数据。非结构化数据进一步细分为文本数据、音频数据、视频数据、图片数据,不同类型非结构化数据处理方法不同,如根据数据处理模型对文本数据会进行文本数据采集、文本结构及编码解析、重复及逻辑异常清洗、中文分词、特征提取的处理步骤。

数据处理过程中的产生的中间数据、元数据和进行数据处理后的结果数据,数据处理单元220根据采集模式的不同选择合适的存储介质进行数据存储或缓存,即待采集数据的原始数据经过数据抽取、数据解析及异常清洗之后的结果数据、经过数据分割后的结果数据、经过特征提取后的结果数据存入分布式文件系统或分布式数据库;增量流式数据的中间数据采用内存数据库进行缓存,结果数据采用先进行文件缓存再存入分布式数据库。获取处理后的数据。

在本实施例中,数据采集单元210自动根据不同的数据类型,使用合适的数据采集模式进行数据采集,数据处理单元220根据适配的数据处理模型 对不同类型的数据进行特定的数据处理,实现了根据各种异构数据自身数据特性自动进行合适、有针对性的数据采集和处理,提升了数据处理效率和处理后的数据质量,使处理前的数据经过处理成为可操作的统一的数据,便于数据融合。

进一步的,参照图11,本发明数据处理装置第四实施例提供一种数据处理装置,基于上述图8所示的实施例,统一融合模块300包括:

数据规整单元310,用于根据预设的数据规整模型,对处理后的数据进行数据规整。

根据预设的数据规整模型,数据规整单元310对处理后的不同数据进行统一的数据规整,包括:统一的格式转换、统一编码、数据修正和缺失填充,获取统一规整的数据。

数据集成单元320,用于根据预设的数据集成模型,对处理后的数据进行数据集成。

根据预设的数据集成模型,数据集成单元320对处理后的不同数据或数据规整后的数据进行数据集成,包括:数据关联、数据合并、数据分组、数据汇总,形成统一的常用的基础的数据集合。

数据建模单元330,用于根据预设的数据建模模型,对处理后的数据进行数据建模。

根据预设的数据建模模型,数据建模单元330对处理后的不同数据、或数据规整后的数据、或数据集成后的数据进行模型设计、索引构建,以形成后续更高级别数据分析、数据挖掘的基础数据支撑。

数据获取单元340,用于获取统一融合后的数据。

对处理后的数据,根据数据处理后的情况,数据获取单元340控制数据规整单元310进行数据规整的统一融合操作,数据集成单元320进行数据集成的统一融合操作,数据建模单元330进行数据建模的统一融合操作,可按顺次进行数据规整、数据集成和数据建模完成统一融合,也可按顺次进行数 据规整、数据集成完成统一融合,或其他统一融合操作完成统一融合,可根据实际统一融合的需要进行数据规整、数据集成或数据建模的统一融合操作。数据获取单元340获取统一融合后的数据。

在本实施例中,数据获取单元340控制数据规整单元310、数据集成单元320和数据建模单元330,对处理后的数据进行统一融合,实现了自动对分散的、有内在关联性的各异构数据的关联,提高了数据融合度,提升了最终数据的可利用价值和实用性,为后续的大数据分析、数据价值挖掘提供基础数据支撑和数据质量保证。

进一步的,参照图12,本发明数据处理装置第五实施例提供一种数据处理装置,基于上述图8至图11中所示任一实施例(本实施例以图8为例),所述数据处理装置还包括分类存储模块400:

分类存储模块400,用于分类存储所述统一融合后的数据。

分类存储模块400对不同类型的数据分类存储,将统一融合后的数据存储于分布式数据仓库,将特定数据存储于专用数据库,例如:分类存储模块400将交通、气象等时空数据存储于时空数据库;分类存储模块400将社交网络等图数据存储于图数据库。分类存储模块400将采集到的半结构化数据、非结构化数据的原始数据存储于分布式文件系统;分类存储模块400将采集到的结构化数据的原始数据存储于分布式数据库;分类存储模块400将半结构化数据及非结构化数据进行处理后的数据存储于分布式数据库;分类存储模块400将流式数据处理在实时数据库进行。

在本实施例中,适配模块100自动适配数据采集模式和数据处理模型,数据处理模块200根据数据处理模型处理采集到的数据,统一融合模块300对处理后的数据进行统一融合,分类存储模块400分类存储统一融合后的数据,便于后续数据的大数据的分类查询和进一步分析处理,提升了最终数据的实用性和调取便捷性。

进一步的,参照图13,本发明数据处理装置第六实施例提供一种数据处 理装置,基于上述图8所示实施例,所述数据处理装置还包括接口配置模块500:

接口配置模块500,用于配置数据采集接口。

接口配置模块500对不同数据源的数据采集接口进行统一配置,并对配置进行连接测试,连接成功后接口配置模块500再进行配置文件的统一分发,控制集群中各节点连接不同数据源的数据采集接口;若连接测试失败,接口配置模块500重新进行数据采集接口配置。

所述适配模块100还用于,通过所述数据采集接口获取待采集数据样本,对所述待采集数据样本进行预处理。

适配模块100控制集群中各节点通过数据采集接口采集待采集数据,获取待采集数据样本和集群中各节点负载情况,待采集数据样本包括预设数量的待采集数据,集群中各节点负载情况包括数据采集过程中各节点的数据采集速率、性能、响应情况、负载能力,用于了解待采集数据样本采集过程中各节点的资源负载情况。

适配模块100对待采集数据样本进行预处理,检测与判定待采集数据基本质量属性,获取质量评估报告。

所述数据处理模块200还用于,控制集群中各节点通过所述数据采集接口进行数据采集,控制集群中各节点对采集到的数据进行数据处理。

数据处理模块200控制集群中各节点根据已分配的对应的集群中各节点采集任务,以适配的采集模式通过数据采集接口进行数据采集,例如:动态流式数据通过数据采集接口以增量实时采集模式进行数据采集,结构化数据通过数据采集接口以全量非实时采集模式进行数据采集,半结构化数据及非结构化数据通过数据采集接口以全量非实时采集模式进行数据采集,获取采集到的数据。

数据处理模块200控制集群中各节点以适配的数据处理模型对各节点采集到的数据分别进行数据处理,例如:根据数据处理模型对动态流式数据顺次进行数据抽取、数据过滤、数据关联、数据转换、数据分类的处理步骤;根据数据处理模型对结构化数据顺次进行数据抽取、异常清洗的处理步骤; 根据数据处理模型对半结构化数据及非结构化数据顺次进行数据抽取、数据解析、异常清洗、数据分割、特征提取的处理步骤,实现对各种不同的异构数据按照自身数据特性进行对应的采集和处理。

在本实施例中,接口配置模块500统一配置数据采集接口,兼顾静态的、动态的,结构化的、半结构化的、非结构化的异构数据采集接口配置,实现了多源数据采集时,数据采集接口的统一配置,为多源异构数据采集做好了准备,从而适配模块100和数据处理模块200可以控制集群中各节点通过数据采集接口采集多源异构数据,提升了数据采集速率。

进一步的,参照图14,本发明数据处理装置第七实施例提供一种数据处理装置,基于上述图13所示实施例,接口配置模块500包括:

参数获取单元510,用于获取数据采集接口配置参数。

参数获取单元510向用户给出预置的接口配置模板,包括:文件系统接口配置模板、数据库接口配置模板和网络接口配置模板,供用户选择,根据用户选定的接口配置模板获取模板中的配置参数;或,

参数获取单元510向用户给出预置的接口配置模板,包括:文件系统接口配置模板、数据库接口配置模板和网络接口配置模板,用户选择接口配置模板后,可根据实际情况对模板中的配置参数进行修改;或,

用户自定义设置数据采集接口配置参数,参数获取单元510获取用户自定义设置的数据采集接口配置参数。

数据采集接口配置参数包括数据采集接口的关键接口参数,例如:网络地址、端口号和路径。

连接测试单元520,用于根据所述配置参数进行所述数据采集接口的连接测试。

连接测试单元520根据获取的数据采集接口配置参数控制集群中主节点对数据采集接口进行连接,测试根据获取的配置参数,是否能成功连接数据采集接口。若根据获取的配置参数,成功连接数据采集接口,则连接测试单元520确认连接测试成功;若根据获取的配置参数,未成功连接数据采集接 口,则连接测试单元520确认连接测试不成功。

文件分发单元530,用于若所述连接测试成功,则将包含有所述配置参数的数据采集接口配置文件向集群中的其他节点进行分发,配置所述集群中的各节点,并控制所述集群中的各节点连接所述数据采集接口。

若连接测试成功,则文件分发单元530将获取的数据采集接口配置参数固化为数据采集接口的配置文件,将配置文件向集群中的其他节点进行分发,并控制集群中各节点根据获取的数据采集接口配置参数连接数据采集接口。

所述参数获取单元510还用于,若所述连接测试不成功,则获取所述数据采集接口配置参数。

若连接测试不成功,则参数获取单元510通知用户未成功连接数据采集接口,由用户更换接口配置模板,或由用户修改对模板中的数据采集接口配置参数,或由用户自定义设置数据采集接口配置参数,参数获取单元510重新获取数据采集接口配置参数。

在本实施例中,通过参数获取单元510获取数据采集接口配置参数,连接测试单元520连接测试获取正确可用的数据采集接口配置参数,文件分发单元530连接数据采集接口,完成了数据采集接口的配置,实现了对多源数据采集接口的统一自动化配置及连接,为数据采集做好了准备和支持,提升了数据采集和处理效率。

参照图15,本发明数据处理系统第一实施例提供一种数据处理系统,包括:

适配处理器A,用于获取待采集数据样本,对所述待采集数据样本进行预处理,得到数据采集模式、数据处理模型和集群中各节点采集任务。

适配处理器A包括样本采集模块A1,数据评估模块A2和适配模块A3。

样本采集模块A1用于获取待采集数据样本,数据评估模块A2用于对所述待采集数据样本进行预处理,适配模块A3用于适配数据采集模式和数据处理模型,分配集群中各节点采集任务。

数据处理器B,用于根据所述数据采集模式、数据处理模型和集群中各节点采集任务,控制集群中各节点进行数据采集和数据处理,获取处理后的数据。

数据处理器B包括数据采集模块B1和数据处理模块B2。

数据采集模块B1用于根据适配的数据采集模式和集群中各节点采集任务采集数据,数据处理模块B2用于根据适配的数据处理模型对采集到的数据进行数据处理,获取处理后的数据。

数据统一融合处理器C,用于将所述处理后的数据进行统一融合,获取统一融合后的数据。

数据统一融合处理器C包括数据规整模块C1、数据集成模块C2、数据建模模块C3和数据获取模块C4。

数据规整模块C1用于根据预设的数据规整模型,对处理后的数据进行数据规整;数据集成模块C2用于根据预设的数据集成模型,对处理后的数据进行数据集成;数据建模模块C3用于根据预设的数据建模模型,对处理后的数据进行数据建模;数据获取模块C4用于控制据规整模块C1、数据集成模块C2和数据建模模块C3进行数据统一融合,获取统一融合后的数据。

在本实施例中,适配处理器A通过对异构数据根据样本进行分析,自动适配数据采集模式和数据处理模型,数据处理器B采集数据并处理数据,调整集群中各节点负载均衡,数据统一融合处理器C对有内在关联性的各种异构数据进行统一融合,有效解决了现有技术中大数据处理效率低、融合度低的问题,提高了数据处理效率和数据融合度,提升了最终数据的可利用价值和实用性,为大数据分析和价值挖掘提供了数据质量保障。

进一步的,参照图16,本发明数据处理系统第二实施例提供一种数据处理系统,基于上述图15所示的实施例,还包括数据采集接口适配器D、数据分类存储器E和系统管理器F:

数据采集接口适配器D,用于配置数据采集接口。

数据采集接口适配器D包括参数获取模块D1、连接测试模块D2和文件分发模块D3。

参数获取模块D1用于获取数据采集接口配置参数;连接测试模块D2用于测试获取的数据采集接口配置参数是否能够对对数据采集接口进行连接;文件分发模块D3用于若连接测试成功,将包含有所述配置参数的数据采集接口配置文件向集群中的其他节点进行分发,配置所述集群中的各节点,并控制所述集群中的各节点连接数据采集接口。

数据分类存储器E,用于分类存储所述统一融合后的数据。

数据分类存储器E包括分布式文件系统E1、分布式数据库E2、分布式数据仓库E3和专用数据库E4。

数据分类存储器E将统一融合后的数据存储于分布式数据仓库E3,将特定数据存储于专用数据库E4,例如:将交通、气象等时空数据存储于专用数据库E4,将社交网络等图数据存储于专用数据库E4。

数据分类存储器E将采集到的半结构化数据、非结构化数据的原始数据存储于分布式文件系统E1;将采集到的结构化数据的原始数据存储于分布式数据库E2;将半结构化数据及非结构化数据进行处理后的数据存储于分布式数据库E2;将流式数据处理在专用数据库E4进行。

系统管理器F,所述系统管理器F包括:

数据管理模块F1,用于管理所述数据采集接口配置文件、数据采集接口的连接测试结果、待采集数据样本、质量评估报告和集群中各节点负载情况。

数据管理模块F1存储并分发数据采集接口配置文件;存储并向用户反馈数据采集接口的连接测试结果;存储或缓存待采集数据样本;评估待采集数据样本,获取并存储质量评估报告;获取并存储集群中各节点负载情况,便于其他模块查询或调取。

资源管理模块F2,用于管理所述待采集数据样本、数据采集、数据处理、数据统一融合和数据存储,及集群资源消耗情况,控制所述集群中各节点负载均衡。

资源管理模块F2用于根据待采集数据样本的采集过程、数据质量的评估过程、数据采集过程、数据处理过程、数据统一融合过程和数据存储过程中集群资源消耗情况,控制集群中各节点负载均衡。

模型管理模块F3,用于管理数据采集接口配置模板、数据评估模板、数据采集模板、数据处理模型、数据规整模型、数据集成模型和数据建模模型。

模型管理模块F3用于数据采集接口配置模板的存储和修改;数据评估模板的管理;数据采集模板的存储、适配、调用和修改;数据处理模型的存储、适配、调用和修改;数据规整模型的存储和调用;数据集成模型的存储和调用;数据建模模型的构建、存储和调用。

过程监控模块F4,用于监控数据采集接口配置、读取待采集数据样本、数据评估、数据处理、数据统一融合和数据存储过程,并记录、处理数据采集接口配置、读取待采集数据样本、数据评估、数据处理、数据统一融合和数据存储过程中的完成状态、中间错误和异常。

过程监控模块F4用于监控数据处理系统各模块的运行状态、资源使用情况,记录并处理数据处理系统各模块运行时错误、异常。

在本实施例中,系统管理器F监控适配处理器A、数据处理器B、数据统一融合处理器C、数据采集接口适配器D和数据分类存储器E的运行状态、数据处理情况和负载情况,对各模块运行进行过程控制,集中管理数据处理系统中各类数据,实现了多源数据接口的统一配置,异构数据采集方式和处理模型的自动适配,对异构数据的统一融合和分类存储,提高了数据处理效率和融合度,提升了最终数据的可利用价值和实用性,为大数据分析和价值挖掘提供了数据质量保障。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1