一种多源多库企业创新监测大数据标准数据库构建方法与流程

文档序号:13332299阅读:302来源:国知局

本发明涉及数据库技术领域,特别是涉及一种多源多库企业创新监测大数据标准数据库构建方法。



背景技术:

对于企业信息数据库,不同政府部门有不同统计口径,同一个部门也有多个数据信息源,一个高新技术企业信息存在于多个部门、多个信息系统、多个信息表中,为了建立高新技术企业信息大数据信息数据库,开展运行信息监测,需要提取多个表单数据信息,现有的方法是建立包含所有信息系统数据库的所有表单的所有指标的大数据信息库。

这种方法需要在数据库中建立包含数量众多的交叉重复的指标数据,数据库指标字典庞大,在此基础上根据监测需求提取对应指标的数据信息进行计算监测,数据库监测计算模块设计多个提取表格指标信息,提取指标信息所在表单动态变化、同一个指标内涵但名称不完全一致,而且指标监测计算功能跨越多个表单模块固化,为了一个年度表单数据就需要开发一个指标计算监测模块,指标计算监测功能模块庞杂,也不能适应未来随时可能出现表单结构、表单指标调整。



技术实现要素:

基于此,本发明实施例的目的在于提供一种多源多库企业创新监测大数据标准数据库构建方法,简单、灵活、适应性强。

为达到上述目的,本发明实施例采用以下技术方案:

一种多源多库企业创新监测大数据标准数据库构建方法,包括步骤:

进行多源多库指标筛选;

根据多源多库指标内涵和表征内容,建立标准化综合性指标字典,以使标准化指标字典覆盖多源多库所有指标;

构建多源多库指标与标准指标字典的一一对应关系;

依据标准化综合性指标字典、以及构建的多源多库指标与标准指标字典的一一对应关系,采集并导入多源多库数据信息,建立完整的大数据信息指标数据库。

优选地,依据如下方法进行多源多库指标筛选:在综合监测需求,汇总分析多年度多源多库的信息库指标基础上,梳理建立涵盖不同特征信息的指标,保留重复交叉指标,去除完整度和可信度都低于预定标准的指标。

优选地,根据多源多库指标内涵和表征内容,建立标准化综合性指标字典的步骤包括:汇总分析多年度多源多库的信息库指标,构建涵盖不同数据源、指标信息各不相同的指标集;对于不同数据源中指标信息重复的指标,根据其与检测需求的吻合度、科学性、完整性、来源准确性、可信度,给与不同来源的指标相应的优先系数;依据优先系数,构建来自不同数据源、指标信息各不相同的指标集,形成标准化综合性指标字典。

优选地,通过编码实现标准化指标字典与多库多源所有指标的一一对应关系。

利用本发明方案,进行多源多库指标筛选;根据多源多库指标内涵和表征内容,建立标准化综合性指标字典,以使标准化指标字典覆盖多源多库所有指标;构建多源多库指标与标准指标字典的一一对应关系;依据标准化综合性指标字典,采集并导入多库多源数据信息,建立完整的大数据信息指标数据库;构建方法简单、灵活,并且适应性强。

附图说明

附图是用来提供对本发明的进一步理解,并构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但不应构成对本发明的限制。在附图中,

图1是本发明提出的一种多源多库企业创新监测大数据标准数据库构建方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。

图1示出了一种多源多库企业创新监测大数据标准数据库构建方法的流程图,包括步骤:

s1、进行多源多库指标筛选;

其中,进行指标筛选时,依据如下方法进行筛选:

在综合监测需求,汇总分析多年度多源多库的信息库指标基础上,梳理建立涵盖不同特征信息的指标,保留重复交叉指标,去除完整度和可信度都低于预定标准的指标。

由于建立多源多库指标目的是对高企开展全方面的运行信息监测,基于上述目的,筛选了涵盖高企申报数据库、高企运行数据库、省统计局、省知识产权局、省科技统计等多源多库指标。对高企开展全方面的运行监测,不仅包含对高企群体自身的统计、诊断及预测分析,还包含了对高企与全省经济社会发展相互作用的统计分析。高企申报数据库、高企运行数据库中有较为完整、可信度较高的高企相关数据,省统计局、省知识产权局、省科技统计局拥有可靠、完整、时效的宏观数据。也就是说,根据综合监测需求,结合可选取数据源的可信度、完整度等,选取了高企申报数据库、高企运行数据库中涉及高企整体情况、创新投入、创新产出等方面的全部指标,同时选取了省统计局、省知识产权局、省科技统计局等多个数据源中与高企投入产出相匹配的各类宏观数据指标。

s2、根据多源多库指标内涵和表征内容,建立标准化综合性指标字典,以使标准化指标字典覆盖多源多库所有指标;

具体的,包括如下步骤:汇总分析多年度多源多库的信息库指标,构建涵盖不同数据源、指标信息各不相同的指标集;对于不同数据源中指标信息重复的指标,根据其与检测需求的吻合度、科学性、完整性、来源准确性、可信度,给与不同来源的指标相应的优先系数;依据优先系数,构建来自不同数据源、指标信息各不相同的指标集,形成标准化综合性指标字典。

例如,在我们所选取的所有数据库与数据源中,高企申报数据库中的数据信息更加完整、可信度更高,当高企申报数据库中的指标与高企运行数据库中的指标信息重复时,我们将选用高企申报数据库的这一指标来代表所有数据源中与该指标信息重复的指标。依据此方法,构建来自不同数据源、指标信息各不相同的指标集,形成指标结构简化、指标完整系统、基础指标差异化、标准化的企业监测指标字典体系。

s3、构建多源多库指标与标准指标字典的一一对应关系;由此建立涵盖多源多库企业信息数据指标的一套完整的差异化的标准化大数据信息数据库指标字典,实现多表多源指标信息数据整合导入;

具体的,在建立好覆盖多源多库的标准化综合性指标字典后,将通过编码来实现标准化指标字典与多库多源所有指标的一一对应关系。简单来说,假设我们将来自省统计局的“国内生产总值”这一指标编码为x,那么在标准化指标字典中,就需要使用同样的编码x来表示“国内生产总值”,即在标准化指标字典中的x就代表来自省统计局的“国内生产总值”这一指标。

s4、依据标准化综合性指标字典、以及构建的多源多库指标与标准指标字典的一一对应关系,采集并导入多库多源数据信息,建立完整的大数据信息指标数据库。

利用本发明方案,进行多源多库指标筛选;根据多源多库指标内涵和表征内容,建立标准化综合性指标字典,以使标准化指标字典覆盖多源多库所有指标;构建多源多库指标与标准指标字典的一一对应关系;依据标准化综合性指标字典,采集并导入多库多源数据信息,建立完整的大数据信息指标数据库;构建方法简单、灵活,并且适应性强。

只要不违背本发明创造的思想,对本发明的各种不同实施例进行任意组合,均应当视为本发明公开的内容;在本发明的技术构思范围内,对技术方案进行多种简单的变型及不同实施例进行的不违背本发明创造的思想的任意组合,均应在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1