一种多源数据融合方法和系统与流程

文档序号:28592555发布日期:2022-01-22 09:08阅读:236来源:国知局
一种多源数据融合方法和系统与流程

1.本发明涉及数据统计领域,尤其涉及一种多源数据融合方法和系统。


背景技术:

2.统计数据资源整合是以实现一体化、更全面、更高效的数据资源管理为目标,打破制度、任务、专业、软件等方面的限制,将多统计数据资源进行融合处理,为统计大数据应用做好数据资源准备。
3.统计部门有来自多部门多专业的不同报表,多部门间不同应用系统的不同数据具有格式不同、结构不同、类型不同、标准不一的特征,如何整合这些数据,使之快速准确展现城市经济社会与发展的现状,分析与预测未来趋势,成为面临的挑战之一。


技术实现要素:

4.本发明所要解决的技术问题是针对现有技术的不足,提供一种多源数据融合方法和系统。
5.本发明解决上述技术问题的技术方案如下:
6.一种多源数据融合方法,包括:
7.s1,得出数据融合结构;
8.s2,获取输入的多源数据;
9.s3,根据所述数据融合结构将所述输入的多源数据存入对应的数据项类别中。
10.本发明的有益效果是:本方案通过获取输入的当前多源数据,根据数据融合结构将当前多源存入对应的数据项类别中,实现实时对当前输入的业务数据进行数据分类融合处理,有序管理实时多业务数据。
11.进一步地,还包括:获取历史多源数据;
12.根据所述多源数据的数据含义对所述多源数据进行分类;
13.对分类结果中的每一类数据设置一个数据项;
14.将第i类数据中的子数据构建关联关系,并将对应的关联关系映射到对应的第i数据项中;其中,i=1、2、3,

n,n为所述多源数据的类别总数;
15.根据所有数据项构建数据融合结构。
16.进一步地,还包括:
17.根据所述数据融合结构对所述历史多源数据进行融合,获取目标源数据。
18.采用上述进一步方案的有益效果是:本方案通过对多源数据进行分类,将分类后的数据设置数据项,将设置数据项的多源数据构建关联关系,并将对应的关联关系映射到对应的数据项中,通过数据项构建融合结构,根据融合结构对多源数据进行融合,获得目标源数据,实现多源数据资源整合,从而实现一体化、更全面、更高效的数据资源管理;达到对不同用户不同来源渠道产生的、具有多种不同的呈现形式的数据进行整合处理,有序管理多源数据的效果。
19.进一步地,还包括:获取基于业务分析需求的分析类型;
20.根据所述分析类型选择对应类型的数据项;
21.在所述目标源数据中获取所述数据项对应的数据建立分析数据源;
22.获取不同业务需求的分析数据源构建分析数据集,以使业务根据所述分析数据集进行业务分析。
23.采用上述进一步方案的有益效果是:本方案基于业务分析需求的分析类型,根据分析类型选择对应类型的数据项,在目标源数据中获取数据项对应的数据建立分析数据源,获取不同业务需求的分析数据源构建分析数据集,根据分析数据集以便行业分析,为行业分析提供分类清晰的原始数据,提高分析效率和分析准确性。
24.进一步地,所述预设数据包括:指标数据、分组数据或目录数据。
25.本发明解决上述技术问题的另一种技术方案如下:
26.一种多源数据融合系统,包括:融合结构构建模块、多源数据获取模块和多源数据管理模块;
27.所述融合结构构建模块用于得出数据融合结构;
28.所述多源数据获取模块用于获取输入的多源数据;
29.所述多源数据管理模块用于根据所述数据融合结构将所述输入的多源数据存入对应的数据项类别中。
30.本发明的有益效果是:本方案通过获取输入的当前多源数据,根据数据融合结构将当前多源存入对应的数据项类别中,实现实时对当前输入的业务数据进行数据分类融合处理,有序管理实时多业务数据。
31.进一步地,所述融合结构构建模块还用于获取历史多源数据;
32.根据所述多源数据的数据含义对所述多源数据进行分类;
33.对分类结果中的每一类数据设置一个数据项;
34.将第i类数据中的子数据构建关联关系,并将对应的关联关系映射到对应的第i数据项中;其中,i=1、2、3,

n,n为所述多源数据的类别总数;
35.根据所有数据项构建数据融合结构。
36.进一步地,所述融合结构构建模块还用于根据所述数据融合结构对所述历史多源数据进行融合,获取目标源数据。
37.采用上述进一步方案的有益效果是:本方案通过对多源数据进行分类,将分类后的数据设置数据项,将设置数据项的多源数据构建关联关系,并将对应的关联关系映射到对应的数据项中,通过数据项构建融合结构,根据融合结构对多源数据进行融合,获得目标源数据,实现多源数据资源整合,从而实现一体化、更全面、更高效的数据资源管理;达到对不同用户不同来源渠道产生的、具有多种不同的呈现形式的数据进行整合处理,有序管理多源数据的效果。
38.进一步地,还包括:业务分析模块,用于获取基于业务分析需求的分析类型;
39.根据所述分析类型选择对应类型的数据项;
40.在目标源数据中获取所述数据项对应的数据建立分析数据源;
41.获取不同业务需求的分析数据源构建分析数据集,以使业务根据所述分析数据集进行业务分析。
42.采用上述进一步方案的有益效果是:本方案基于业务分析需求的分析类型,根据分析类型选择对应类型的数据项,在目标源数据中获取数据项对应的数据建立分析数据源,获取不同业务需求的分析数据源构建分析数据集,根据分析数据集以便行业分析,为行业分析提供分类清晰的原始数据,提高分析效率和分析准确性。
43.进一步地,所述预设数据包括:指标数据、分组数据或目录数据。
44.本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
45.图1为本发明的实施例提供的一种多源数据融合方法的流程示意图;
46.图2为本发明的实施例提供的一种多源数据融合系统的结构框图;
47.图3为本发明的其他实施例提供的财务指标元数据的示意图;
48.图4为本发明的其他实施例提供的指标元数据构建关联关系的示意图。
具体实施方式
49.以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释本发明,并非用于限定本发明的范围。
50.如图1所示,为本发明实施例提供的一种多源数据融合方法,包括:
51.s1,得出数据融合结构;
52.s2,获取输入的多源数据;
53.s3,根据所述数据融合结构将所述输入的多源数据存入对应的数据项类别中。
54.在某一实施例中,还可以包括:
55.获取多源数据;
56.根据所述多源数据的数据含义对所述多源数据进行分类;在某一实施例中,可以具体包括:根据所述多源数据的数据含义对所述多源数据进行分类;将分类结果进行划分,根据划分结果的不同类别设置不同的元数据;在某一实施例中,可以通过业务系统线上收集、外部系统接口调用、外部数据库或文件共享等形式,获取不同来源不同存储结构的数据。其中元数据可以理解为用于代表一类具有某一相似属性的数据,元数据之间可以具有包含关系或并列关系。
57.对分类结果中的每一类数据设置一个数据项;需要说明的是,s3可以包括:将所述元数据中的预设数据的每一个类别设置一个数据项。其中,所述预设数据可以包括:指标数据、分组数据或目录数据。
58.在某一实施例中,可以具体包括:元数据可以包括:制度、报表、指标、分组、目录、计量单位、属性、代码集。报表包括指标、分组、目录、计量单位、属性。对指标元数据按照类别设置一个数据项,用数据项表示该类指标元数据,其中财务指标的元数据如图3所示,其中数据项包括:数据项名称、数据项代码、数据类型、数据长度、计量单位、对应代码集等属性,数据项表1所示:
[0059][0060]
将第i类数据中的子数据构建关联关系,并将对应的关联关系映射到对应的第i数据项中;
[0061]
在某一实施例中,可以将同类指标元数据构建关联关系,并将该同类指标元数据映射到对应数据项中,例如:如图4所示,指标名称中每一项指标都在建立的中间表中设置对应的数据项和数据代码,通过数据项中间表中“流动资产合计”和“current_assets”将表示流动资产合计相同含义的指标进行关联,具体的当与流动资产合计具有相同含义的指标名称有:“流动资产资产总数”,“流动合计”合“动态资产合计”,分别来自不同数据源表,“current_assets”数据项,就可以将这个不同表中表示相同含义的指标都构建起关联,只要知道“current_assets”数据项,就能获得“流动资产资产总数”,“流动合计”和“动态资产合计”的指标。在某一实施例中,可以通过指标数据的唯一id识别是否属于相同含义的指标,唯一id在指标数据源表中都能提取到。
[0062]
根据多个所述第i数据项构建数据融合结构;其中,i=1、2、3,

n,n为所述多源数据的类别总数;
[0063]
在某一实施例中,通过所有指标数据构建的关联关系,将关联关系对应的数据项都整合起来,形成数据融合结构,该数据融合结构,包括全部类别数据的关联关系,也就是多个数据项,以及每个数据项下的指标关联关系。除了指标信息,还可以包括:分组数据或目录数据的数据项来构建数据融合结构。
[0064]
根据所述数据融合结构对所述多源数据进行融合,获取目标源数据。
[0065]
在某一实施例中,根据数据项与指标的映射关系,以及融合数据表结构,我们可以将统计调查的采集数据,以全量或批量形式,同步存储至融合数据库中。
[0066]
根据统计调查数据特点,可以采用按报告期同步、按调查项目同步、按融合数据子集同步、按采集时间段增量同步等多种方式进行融合。
[0067]
在某一实施例中,数据融合结构对所述多源数据进行融合可以包括:将“current_assets”数据项下的“流动资产资产总数”,“流动合计”和“动态资产合计”指标项,对应的数据内容进行融合,数据内容即xxx千万元等具体的内容,融合的具体的数据信息。
[0068]
根据统计调查数据特点,可以采用按报告期同步、按调查项目同步、按融合数据子集同步、按采集时间段增量同步等多种方式进行融合。
[0069]
按报告期同步,指批量同步一个报告期下的所有采集数据。例如,一套表统计调查制度中,企业每月填报的月报表格式相同,各月报采集数据可以存储至一张融合数据表中,那么在2021年3月月报采集工作结束后,可以按报告期批量同步所有3月上报的企业采集数据。
[0070]
按调查项目同步,指批量同步一个调查项目下所有报表、所有报告期的采集数据。针对一次性调查如某问卷调查、人口普查、经济普查等调查,适用于批量同步整个调查项目数据。
[0071]
我们可以根据业务需求的不同构建多个融合数据表,如企业财务数据融合数据表、产品数据融合数据表等等,以支持数据查询、分析工作;按融合数据子集同步,指按需求同步一个或某几个融合数据子集,而不是全量同步所有调查制度下的采集数据。
[0072]
按采集时间段增量同步,适用于一些准实时应用融合数据的场景。例如,某企业调查年报的采集周期较长,持续2-3个月,在采集阶段企业陆续上报数据;而业务分析人员想比较快速及时地查询融合数据表中的采集数据,需要定时每10分钟增量同步新增的采集数据,以保证融合数据库中数据与采集数据达到准实时同步效果。
[0073]
融合数据集可以配置上年同期、本年上期等时间属性,配置时间属性的作用,是可以把时间属性对应的指标值写入融合数据集,融合数据可以做同比、环比等计算,以支持业务分析,文中增加了文字描述。例如,配置上年同期后,在生成融合数据库表时,每个指标会多生成一列该指标对应的上年同期值,比如指标“主营业务收入”会新增一列“主营业务收入_上年同期值”,在数据融合时,会把主营业务收入上年同期的数值存储至融合数据集内,融合数据集内的指标数据,就可以做同比计算,以支持业务分析时需要同比计算的情况。
[0074]
本方案通过对多源数据进行分类,将分类后的数据设置数据项,将设置数据项的多源数据构建关联关系,并将对应的关联关系映射到对应的数据项中,通过数据项构建融合结构,根据融合结构对多源数据进行融合,获得目标源数据,实现多源数据资源整合,从而实现一体化、更全面、更高效的数据资源管理;达到对不同用户不同来源渠道产生的、具有多种不同的呈现形式的数据进行整合处理,有序管理多源数据的效果。
[0075]
优选地,在上述任意实施例中,还包括:获取历史多源数据;
[0076]
根据所述多源数据的数据含义对所述多源数据进行分类;
[0077]
对分类结果中的每一类数据设置一个数据项;
[0078]
将第i类数据中的子数据构建关联关系,并将对应的关联关系映射到对应的第i数据项中;其中,i=1、2、3,

n,n为所述多源数据的类别总数;
[0079]
根据所有数据项构建数据融合结构。
[0080]
优选地,在上述任意实施例中,还包括:根据所述数据融合结构对所述历史多源数据进行融合,获取目标源数据。
[0081]
优选地,在上述任意实施例中,还包括:
[0082]
获取基于业务分析需求的分析类型;
[0083]
根据所述分析类型选择对应类型的数据项;
[0084]
在目标源数据中获取所述数据项对应的数据建立分析数据源;
[0085]
获取不同业务需求的分析数据源构建分析数据集;
[0086]
根据所述分析数据集进行业务分析。
[0087]
在某一实施例中,从不同层面分析统计调查制度数据,可以形成多种分析数据集,在融合数据集基础上的查询和汇总结果,都可以作为分析数据集;只要是对分析查询工作有支持的内容,都可以叫做分析数据集。例如:在行业维度上,按行业字段筛选查询各个指标数据,可建立国民经济行业各门类的基础数据集,基础数据集,就是按存储的行业信息,用sql查询融合数据表;汇总数据集,就是用sql按行业汇总数据。;按行业字段汇总各个指标数据,可以建立各行业的汇总数据集;在时间维度上,如按年份、按月份汇总指标数据,可形成时间序列的年报数据集、定报数据集;在区域维度上,如按中部、东部、西部这个区域字段查询、汇总数据,可形成中东西部分析数据集,按各省市县查询、汇总数据,可以形成各省市县的分析数据集。
[0088]
本方案基于业务分析需求的分析类型,根据分析类型选择对应类型的数据项,在目标源数据中获取数据项对应的数据建立分析数据源,获取不同业务需求的分析数据源构建分析数据集,根据分析数据集以便行业分析,为行业分析提供分类清晰的原始数据,提高分析效率和分析准确性。
[0089]
优选地,在上述任意实施例中,所述s2具体包括:
[0090]
根据所述多源数据的数据含义对所述多源数据进行分类;
[0091]
将分类结果进行划分,根据划分结果的不同类别设置不同的元数据;
[0092]
所述s3具体包括:
[0093]
将所述元数据中的预设数据的每一个类别设置一个数据项。
[0094]
本方案通过多源数据的数据含义对多源数据进行分类,将分类结果进行划分,根据划分结果的不同类别设置不同的元数据,将所述元数据中的预设数据的每一个类别设置一个数据项,根据数据项构建的数据融合结构实现多元数据的分类融合。
[0095]
优选地,在上述任意实施例中,所述预设数据包括:指标数据、分组数据或目录数据。
[0096]
需要说明的是,理解统计数据的核心,是理解并提取统计制度中的元数据。元数据,即描述数据的数据。统计元数据帮助用户理解统计数据的意义,并在统计数据管理过程
中提供支持。
[0097]
在某一实施例中,如图2所示,一种多源数据融合系统,包括:融合结构构建模块、多源数据获取模块和多源数据管理模块;
[0098]
所述融合结构构建模块用于得出数据融合结构;
[0099]
所述多源数据获取模块用于获取输入的多源数据;
[0100]
所述多源数据管理模块用于根据所述数据融合结构将所述输入的多源数据存入对应的数据项类别中。
[0101]
本方案通过获取输入的当前多源数据,根据数据融合结构将当前多源存入对应的数据项类别中,实现实时对当前输入的业务数据进行数据分类融合处理,有序管理实时多业务数据。
[0102]
统计业务元数据包括:制度、报表、指标、分组、目录、计量单位、属性、代码集等,是统计工作各阶段都离不开的基本要素。制度可以包括:报表;报表可以包括指标、分组、目录、计量单位和属性等,代码集可以包括:细化分组和目录等。
[0103]
统计制度,包括国家统计调查制度、部门统计调查制度、地方统计调查制度,如《一套表统计调查制度》《工业生产者价格统计报表制度》《电力行业统计调查制度》《软件和信息技术服务业统计调查制度》等。
[0104]
统计报表,指统计制度中规定调查对象需要填报的调查表,根据调查内容和调查对象的不同,可以采用表格形式或问卷形式,目前的统计工作中以表格形式为主。统计调查表按报告期限可分为年报和定期报表,定期报表又分为半年报、季报、月报、旬报、周报、日报及一次性调查表等;按调查内容可分为经营业务表、财务状况表、劳动情况表等。例如一套表调查制度中有年报基层表《调查单位基本情况》《从业人员及工资总额》《财务状况》《主要工业产品生产能力》等。
[0105]
统计指标,指反映总体和数量特征的概念或名词,如国内生产总值、人口数、营业利润、主营业务收入等;同时,统计指标也指反映总体数量特征的概念在一定时间、空间条件下的具体数值,如2020年中国国内生产总值xx亿元、2020年末全国人口总数xx万人、2021年3月xx公司主营业务收入xx万元等。
[0106]
统计分组,是根据统计研究任务的要求和统计总体内在的特点,按照一定的标志将总体所有单位划分为若干个性质不同又有联系的组成部分的方法。例如,在统计调查某年某地区社会劳动者人数时,可以定义产业类别分组,按第一产业、第二产业、第三产业分别统计各产业类别的劳动者人数;可以定义经济类型分组,按国有、集体等类别分别统计劳动者人数;统计分组还包括行政区划分类标准分组、国民经济行业分类标准分组等。
[0107]
统计目录,是统计资料采集和分类整理的依据,由国家统一制定,不同行业有不同的分类目录,如《郊区统计报表制度》中有《蔬菜及特种作物生产情况目录》;《工业统计报表制度中》有《主要工业产品产量及销售与库存目录》等。
[0108]
计量单位,描述指标数值采用的标量,例如营业收入、主营业务收入等金额指标的计量单位“元”“千元”“万元”等,产品重量的计量单位“千克”“吨”等。
[0109]
属性,指“当期值”、“累计值”、“上月=100”、“上年同月=100”等描述指标值含义的术语,当期值是统计指标在报告期期间内的数值;累计值是指统计指标自当年1月至报告期的累计数值。例如,2013年6月份社会消费品零售总额18827亿元,1-6月份社会消费品零
售总额110764亿元。18827亿元就是社会消费品零售总额这一指标6月份当期值,110764亿元是1-6月份的累计值。
[0110]
代码集,指描述统计分组和统计目录中对应的分类项和目录项集合,例如行政区划分组,按照国家对行政区划的划分,赋予每个行政区域12位特定的唯一代码,以方便统计工作使用,这些行政区划代码的集合,即代码集。每个统计分组和统计目录,都有对应的代码集进行描述。
[0111]
本方案通过对多源数据进行分类,将分类后的数据设置数据项,将设置数据项的多源数据构建关联关系,并将对应的关联关系映射到对应的数据项中,通过数据项构建融合结构,根据融合结构对多源数据进行融合,获得目标源数据,实现多源数据资源整合,从而实现一体化、更全面、更高效的数据资源管理;达到对不同用户不同来源渠道产生的、具有多种不同的呈现形式的数据进行整合处理,有序管理多源数据的效果。
[0112]
优选地,在上述任意实施例中,所述融合结构构建模块还用于获取历史多源数据;
[0113]
根据所述多源数据的数据含义对所述多源数据进行分类;
[0114]
对分类结果中的每一类数据设置一个数据项;
[0115]
将第i类数据中的子数据构建关联关系,并将对应的关联关系映射到对应的第i数据项中;其中,i=1、2、3,

n,n为所述多源数据的类别总数;
[0116]
根据所有数据项构建数据融合结构。
[0117]
优选地,在上述任意实施例中,所述融合结构构建模块还用于根据所述数据融合结构对所述历史多源数据进行融合,获取目标源数据。
[0118]
本方案通过对多源数据进行分类,将分类后的数据设置数据项,将设置数据项的多源数据构建关联关系,并将对应的关联关系映射到对应的数据项中,通过数据项构建融合结构,根据融合结构对多源数据进行融合,获得目标源数据,实现多源数据资源整合,从而实现一体化、更全面、更高效的数据资源管理;达到对不同用户不同来源渠道产生的、具有多种不同的呈现形式的数据进行整合处理,有序管理多源数据的效果。
[0119]
优选地,在上述任意实施例中,还包括:业务分析模块,用于获取基于业务分析需求的分析类型;
[0120]
根据所述分析类型选择对应类型的数据项;
[0121]
在目标源数据中获取所述数据项对应的数据建立分析数据源;
[0122]
获取不同业务需求的分析数据源构建分析数据集,以使业务根据所述分析数据集进行业务分析。
[0123]
本方案基于业务分析需求的分析类型,根据分析类型选择对应类型的数据项,在目标源数据中获取数据项对应的数据建立分析数据源,获取不同业务需求的分析数据源构建分析数据集,根据分析数据集以便行业分析,为行业分析提供分类清晰的原始数据,提高分析效率和分析准确性。
[0124]
优选地,在上述任意实施例中,所述预设数据包括:指标数据、分组数据或目录数据。
[0125]
可以理解,在一些实施例中,可以包含如上述各实施例中的部分或全部可选实施方式。
[0126]
需要说明的是,上述各实施例是与在先方法实施例对应的产品实施例,对于产品
实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明,在此不再赘述。
[0127]
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0128]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
[0129]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0130]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0131]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0132]
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1