数据智能融合分析系统及方法与流程

文档序号:37647171发布日期:2024-04-18 18:15阅读:14来源:国知局
数据智能融合分析系统及方法与流程

本发明涉及数据分析,具体为数据智能融合分析系统及方法。


背景技术:

1、多源数据融合是一个涉及多个领域和技术的概念,它主要是指将来自不同数据源的数据进行综合、整合和分析,以提取出更丰富、更准确的信息。多源数据融合的目的是将不同来源、不同格式、不同特征的数据进行整合,从而形成一个统一的、完整的数据分析基础,提高数据分析和应用的效率和准确性。

2、多源数据融合先需要确定多源数据融合的策略,包括数据整合的方式、融合的时间窗口、数据匹配的规则等。确定分析目标:明确需要分析的问题和目标,这有助于确定所需的数据源和分析方法。收集数据源:找到并收集相关的数据源。数据源可以包括结构化数据(如数据库、表格)和非结构化数据(如文本、图像、音频等)。数据清洗和预处理:对收集的数据进行清洗和预处理,包括去除噪声、处理缺失值、处理异常值、标准化数据格式等。数据整合:将不同数据源中的数据进行整合,使其能够在同一个分析环境中进行处理。这可以通过数据集成、数据匹配、数据转换等技术来实现。

3、在申请公布号为cn113961649a的中国发明专利中,公开了一种多源数据融合方法和系统,包括:获取历史多源数据;根据所述多源数据的数据含义对所述多源数据进行分类,对分类结果中的每一类数据设置一个数据项,将第 i类数据中的子数据构建关联关系,并将对应的关联关系映射到对应的第 i数据项中,根据所有数据项构建数据融合结构,获取输入的多源数据,根据所述数据融合结构将所述输入的多源数据存入对应的数据项类别中,通过获取输入的当前多源数据,根据数据融合结构将当前多源存入对应的数据项类别中。

4、以上申请中记载的技术方案中,可以实现实时对当前输入的业务数据进行数据分类融合处理,有序管理实时多业务数据,但是结合现有技术和以上申请,在获取到多源数据并对其做融合前,需要预先选择对应的融合策略,而由于各个数据源之间的数据差别较大,数据质量不高,若不能依据数据的实际使用场景对其进行快速匹配,会导致在对多源数据做融合时,预先构建或选择的融合策略和实际数据之间对应性难以达到预期,使多源数据融合的效果难以达到预期。

5、为此,本发明提供了数据智能融合分析系统及方法。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明提供了数据智能融合分析系统及方法,分析获取数据列的数据质量系数,若数据列的数据质量低于预期,则筛选出数据列中的异常值,对异常值做出替换以实现对数据列的优化;由数据列间的相似度及数据质量系数,预先构建各个数据列的融合优先级,以融合优先级对相应的数据列进行标记;依据数据特征与融合策略的对应性,从预先搭建的数据融合知识图谱内匹配出相应的融合策略;以优化系数最高的融合策略作为目标策略。在对各个数据列内的数据进行融合时,能够快速地给出相应融合策略,提高数据融合的效率,从而解决了背景技术记载的技术问题。

3、(二)技术方案

4、为实现以上目的,本发明通过以下技术方案予以实现:

5、数据智能融合分析方法,包括,接收多源数据并构建对应的数据列,计算数据列间的相似度,并以任意两个数据列间的相似度作为目标距离,进而构建若干个数据列间的密集度;其中,以所述两个数据列间的相似度作为目标距离,计算若干个目标距离间的密集度,其具体方式如下:

6、

7、其中,, n为目标距离的个数,为目标距离均值,为第 i个目标距离;若所述密集度不超过密集阈值,发出预警指令;

8、对数据列内的数据预处理后,分析获取数据列的数据质量系数,若数据列的数据质量低于预期,则筛选出数据列中的异常值,对异常值做出替换以实现对数据列的优化;

9、由数据列间的相似度及数据质量系数,预先构建各个数据列的融合优先级,以融合优先级对相应的数据列进行标记;

10、依据融合优先级依次对各个数据列做特征识别后,依据数据特征与融合策略的对应性,从预先搭建的数据融合知识图谱内匹配出相应的融合策略;

11、使用训练后的策略测试模型对匹配出的融合策略进行测试,以测试数据构建各个融合策略的优化系数,以优化系数最高的融合策略作为目标策略。

12、进一步的,预先设置接收周期且使接收周期内分布有若干个等间隔的接收节点,于各个接收节点处接收各个数据源的数据;沿着时间轴的延伸方向,将接收到的数据沿着时间轴沿着做有序排列,以获取若干个数据列,对数据列内数据做归一化处理后,做相似性分析,以任意两个数据列之间的欧氏距离作为相似度。

13、进一步的,在接收到预警指令后,对与数据源相对应的数据列做预处理,计算完成预处理后的各个数据列的数据质量,获取数据质量系数,若数据质量系数低于质量阈值时,则将对应的数据列确定为低质量数据列。

14、进一步的,数据质量系数的获取方式为:通过数据分析获取当前数据列内的峰态系数 k及偏态系数 s,对两者做线性归一化处理,并将相应的数据值映射至区间内,再依照如下方式构建数据质量系数:

15、

16、其中, i为数据列的序号,, n为数据列的个数;权重系数:,;所述为 n个数据列峰态系数的均值,所述为 n个数据列偏态系数的均值,为第 i个数据列的峰态系数,为第 i个数据列的偏态系数。

17、进一步的,依据低质量数据列内的数据构建异常阈值,若数据列内的对应数据不在异常阈值内,则将其作为异常值,并将异常值在数据列上标记;在确定出异常值后,对数据列内的数据进行函数拟合,

18、在确定出异常值在数据列内的位置后,由拟合函数对所述位置上的值进行拟合,以拟合值作为替代值;以替代值对异常值进行替换,获取优化后的数据列,并再次获取相应的数据质量系数。

19、进一步的,在获取优化后数据列的基础上,以任意两个数据列之间的目标距离计算出各个数据列的中心度,为各个数据列分析获取相应的融合优先级,方式如下:

20、

21、权重系数:,, i为数据列序号,;为个中心度的均值,为个数据质量系数的均值;为第个数据列的中心度,为第个数据列的数据质量系数。

22、进一步的,在获取到各个数据列的融合优先级后,依据融合优先级依次对数据列内的数据做出特征识别,将识别获取的若干个数据特征汇总,构建数据特征集合;依据训练获取网络表示学习模型,以多源数据融合及其相关词作为目标词,采用深度优先搜索从公开渠道检索并采集数据,汇总后生成图谱数据集;

23、使用训练后的基于机器学习的语义网络模型从图谱数据集中选择数据进行融合处理,预先构建数据融合知识图谱;以各个数据列的数据特征作为输入,从数据融合知识图谱内为各个数据列的融合匹配出若干个融合策略。

24、进一步的,采集对多源数据融合过程进行采集数据,从采集的数据内抽取部分数据作为样本数据,由样本数据训练获取策略测试模型;

25、使用训练后的策略测试策略模型对融合策略进行预测分析,并对优化策略连续经过若干次预测分析后,从预测数据内获取融合策略在执行时的数据融合速度 sv及数据完整率 dv,将以上数据汇总后构建策略测试数据集合。

26、进一步的,由策略测试数据集生成优化系数,以其中优化系数最高的融合策略作为目标策略,使用目标策略对来自于多个数据源的数据列做数据融合;

27、优化系数的获取方式如下:将数据融合速度及数据完整率做线性归一化处理,并将相应的数据值映射至区间内,再依照如下公式:

28、

29、其中,为数据融合速度的均值,为数据完整率的均值,, n, n为预测次数; , ,且,为第 i次测试的数据融合速度,为第 i次测试的数据完整率。

30、数据智能融合分析系统,包括:

31、分析单元,接收多源数据并构建对应的数据列,计算数据列间的相似度,并以任意两个数据列间的相似度作为目标距离,进而构建若干个数据列间的密集度;

32、优化单元,对数据列内的数据预处理后,分析获取数据列的数据质量系数,若数据列的数据质量低于预期,则筛选出数据列中的异常值,对异常值做出替换以实现对数据列的优化;

33、规划单元,由数据列间的相似度及数据质量系数,预先构建各个数据列的融合优先级,以融合优先级对相应的数据列进行标记;

34、输出单元,依据融合优先级依次对各个数据列做特征识别后,依据数据特征与融合策略的对应性,从预先搭建的数据融合知识图谱内匹配出相应的融合策略;

35、筛选单元,使用训练后的策略测试模型对匹配出的融合策略进行测试,以测试数据构建各个融合策略的优化系数,以优化系数最高的融合策略作为目标策略。

36、(三)有益效果

37、本发明提供了数据智能融合分析系统及方法,具备以下有益效果:

38、1、在对各个数据源间的数据相似度进行分析之后,计算获取密集度,以密集度对数据列间相似性的分布状态进行表征,若密集度的值较低,各个数据源间的数据相似性较高,在数据融合的整体性难度较高时,则需要对数据融合策略进行筛选,提高融合策略的可靠性和匹配性。

39、2、在筛选出其中的异常值后,分析获取对应位置的替代值,以替代值对异常值做出替换,在已经对数据列做出预处理的基础上,再次对相应的数据列做出针对性的优化,进一步地提高了部分低质量数据列的数据质量,在将其用于数据融合时,也能够降低融合的难度。

40、3、构建融合优先级,在将多个数据源的数据做融合时,以此作为融合顺序,使融合过程能够有序地进行,从而能够避免无序融合带来的混乱,提高数据融合的效率,在获取到数据融合的顺序时,在确定具体的融合策略时,也可以更具有针对性。

41、4、在完成数据融合知识图谱的基础上,在对各个数据列内的数据进行融合时,能够快速地给出相应融合策略,减少设计融合策略时间,提高数据融合的效率,通过数据融合知识图谱给出融合策略,可靠性也相对较高,产生错误的风险也较低。

42、5、在当前融合策略具有若干个时,依据优化系数对融合策略进行筛选,筛选出其中融合效果最佳或较佳的,在以目标策略对多源数据进行融合时,能够达到更好的融合效果,以其对预先设定的融合策略进行替代,在完成对数据做出二次优化,并确定出相应的融合顺序的基础上,能够使多源数据融合效率更高,融合后的数据可靠性也更高,通过由知识图谱给出融合策略再对其进行筛选,也能使该融合策略与实际使用场景更加匹配,减少人工的错误干预,使融合效果达到预期。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1