多源外部数据整合方法、装置、设备及存储介质与流程

文档序号:36232022发布日期:2023-12-01 05:03阅读:63来源:国知局
多源外部数据整合方法与流程

本技术涉及数据处理,尤其涉及一种多源外部数据整合方法、装置、设备及存储介质。


背景技术:

1、在数字社会,数据要素作为基础性战略资源和关键性生产要素,在企业经营管理、战略决策中的价值愈发突显。近年来,数据服务商竞相发布各类优质数据产品,由于各家服务商在数据加工的逻辑、顺序和资源配置等方面的差异较大,导致各家服务商的同类数据产品在覆盖率、时效性、字段饱和度等方面各有优劣,进而使得数据使用方较难从多家服务商中选出能够同时满足多项应用需求的最佳数据源。因此,如何对多种来源的数据进行筛选整合成为数据处理领域研究的重要方向。

2、目前针对同类数据的多源整合,多采用以单一数据源为主、其余数据源为辅的行级粒度整合模型,即以记录为整合单位。这种方法在一定程度上可以提升数据的覆盖率、时效性。

3、但是,在以单一数据源为主、其余数据源为辅的整合模型中,整合后仅其余数据源可提供的字段空值率较高,整合后仅其余数据源可提供的字段空值率较高,且以单一来源为主的方式对共同字段的选源灵活度较低,较难充分挖掘和利用其余数据源的优势。


技术实现思路

1、本技术的主要目的在于提供一种多源外部数据整合方法、装置、设备及存储介质,旨在解决整合模型中字段有值率和各数据源利用率低的技术问题。

2、为实现上述目的,本技术提供一种多源外部数据整合方法,所述多源外部数据整合方法包括:

3、实时获取各数据源的源字段集和所述源字段集中各源字段各自的源字段值;

4、根据所述源字段集的并集确定各所述数据源各自对应的标准化模型的标准字段集,和,整合模型的整合字段集;

5、对各所述源字段值进行标准化处理以获得各所述标准字段集中各标准字段各自的标准值;

6、基于各所述源字段集中共有的标识性字段生成所述整合模型和各所述标准化模型的唯一标识;

7、基于所述唯一标识和所述整合字段集中各整合字段预设的选源配置,在各所述标准值中选择各所述整合字段各自的整合字段值,以将各所述数据源整合为所述整合模型。

8、可选地,在一些可行的实施例中,所述选源配置包括:事前约定模型,所述事前约定模型包括:权重选源;

9、所述在各所述标准值中选择各所述整合字段各自的整合字段值的步骤包括:

10、若各所述整合字段中存在选源配置为权重选源的第一字段,则获取所述第一字段对应的各所述标准化模型各自的权重参数;

11、若各所述权重参数中存在大于预设的权重阈值的目标权重,则确定所述目标权重对应的第一标准化模型;

12、将所述第一标准化模型中所述第一字段对应的第一标准字段的标准值,作为所述第一字段的整合字段值。

13、可选地,在一些可行的实施例中,所述事前约定模型还包括:辅助选源,所述辅助选源包括:先到先入;

14、所述在各所述标准值中选择各所述整合字段各自的整合字段值的步骤还包括:

15、若各所述整合字段中存在选源配置为先到先入的第二字段,则根据各所述标准化模型的最后更新时间确定第二标准化模型;

16、将所述第二标准化模型中所述第二字段对应的第二标准字段的标准值,作为所述第二字段的整合字段值。

17、可选地,在一些可行的实施例中,所述辅助选源包括:首个非空源;

18、所述在各所述标准值中选择各所述整合字段各自的整合字段值的步骤还包括:

19、若各所述整合字段中存在选源配置为首个非空源的第三字段,则确定各所述标准化模型中所述第三字段对应的第三标准字段;

20、确定各所述标准化模型中所述第三标准字段的标准值不为空的各非空标准化模型;

21、根据各所述非空标准化模型的最后更新时间确定第三标准化模型;

22、将所述第三标准化模型中所述第三标准字段的标准值,作为所述第三字段的整合字段值。

23、可选地,在一些可行的实施例中,所述辅助选源包括:指定数据源;

24、所述在各所述标准值中选择各所述整合字段各自的整合字段值的步骤还包括:

25、若各所述整合字段中存在选源配置为指定数据源的第四字段,则根据所述选源配置确定指定的数据源对应的第四标准化模型;

26、将所述第四标准化模型中所述第四字段对应的第四标准字段的标准值,作为所述第四字段的整合字段值。

27、可选地,在一些可行的实施例中,所述选源配置还包括:事后监控模型,所述事后监控模型包括:投票选源;

28、在所述在各所述标准值中选择各所述整合字段各自的整合字段值的步骤之后,所述方法还包括:

29、在针对三个及以上的数据源进行整合时,若各所述整合字段中存在选源配置为投票选源的第五字段,且所述第五字段的整合字段值在预设的时间阈值内未进行更新,则确定所述第五字段在各所述标准化模型中对应的第五标准字段;

30、确定各所述第五标准字段的标准值中的众数,并基于所述众数更新所述第五字段的整合字段值。

31、可选地,在一些可行的实施例中,在基于各所述源字段集中共有的标识性字段生成所述整合模型和各所述标准化模型的唯一标识的步骤之后,所述方法还包括:

32、基于所述唯一标识确定所述整合模型与各所述标准化模型之间的映射关系。

33、此外,为实现上述目的,本技术还提供一种多源外部数据整合装置,所述多源外部数据整合装置为虚拟装置,所述多源外部数据整合装置包括:

34、源数据准备模块,用于实时获取各数据源的源字段集和所述源字段集中各源字段各自的源字段值;

35、字段标准化模块,用于根据所述源字段集的并集确定各所述数据源各自对应的标准化模型的标准字段集,和,整合模型的整合字段集;

36、字段值标准化模块,用于对各所述源字段值进行标准化处理以获得各所述标准字段集中各标准字段各自的标准值;

37、唯一标识模块,用于基于各所述源字段集中共有的标识性字段生成所述整合模型和各所述标准化模型的唯一标识;

38、选源整合模块,用于基于所述唯一标识和所述整合字段集中各整合字段预设的选源配置,在各所述标准值中选择各所述整合字段各自的整合字段值,以将各所述数据源整合为所述整合模型。

39、此外,为实现上述目的,本技术还提供一种多源外部数据整合设备,所述多源外部数据整合设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多源外部数据整合程序,所述多源外部数据整合程序被所述处理器执行时实现如上述的多源外部数据整合方法的步骤。

40、本技术还提供一种存储介质,所述存储介质上存储有多源外部数据整合程序,所述多源外部数据整合程序被处理器执行时实现如上述的多源外部数据整合方法的步骤。

41、本技术提供一种多源外部数据整合方法、装置、设备及存储介质,多源外部数据整合方法包括:实时获取各数据源的源字段集和所述源字段集中各源字段各自的源字段值;根据所述源字段集的并集确定各所述数据源各自对应的标准化模型的标准字段集,和,整合模型的整合字段集;对各所述源字段值进行标准化处理以获得各所述标准字段集中各标准字段各自的标准值;基于各所述源字段集中共有的标识性字段生成所述整合模型和各所述标准化模型的唯一标识;基于所述唯一标识和所述整合字段集中各整合字段预设的选源配置,在各所述标准值中选择各所述整合字段各自的整合字段值,以将各所述数据源整合为所述整合模型。

42、相比于现技术以单一数据源为主,其余数据源为辅来进行多源数据整合的技术手段,本技术多源外部数据整合方法提出一种基于统一数据模型的多源外部数据整合方法,先获取各个数据源的源字段集和源字段集的源字段值,然后将各数据源的源字段和源数据进行标准化处理以得到各个数据源对应的标准化模型,并且通过各个源字段集中共有的标识性字段生成唯一标识,避免了在整合模型选源的过程中被其他不同类的数据源干扰,再在各标准化模型中根据技术人员设置的各个字段的选源配置选择整合模型中各整合字段的整合字段值,以将各数据源的数据整合至整合模型中。

43、如此,本技术基于上述对多元数据进行标准化处理再在各标准化模型中对各字段进行选源的方法,与传统以单一数据源为主,其余数据源为辅来进行多源数据整合的方式相比,本技术多源外部数据整合方法不进行主辅区分,且以字段为单位进行选源,一方面可做字段级的最佳数据源选择,从而提升整合模型的字段有值率;另一方面根据各数据源的数据真实表现及应用偏好进行字段级动态选源,从而充分挖掘和利用各数据源的优势。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1