一种评估数据信息的方法和装置与流程

文档序号:12666443阅读:210来源:国知局
一种评估数据信息的方法和装置与流程
本发明涉及数据最小时效性
技术领域
,更具体地说,涉及一种评估数据信息的方法和装置,以得到数据的最小时效性、字段使用信息等相关参数。
背景技术
:在目前的数据最小时效性
技术领域
中,现有评估数据信息的方法是,以人为的业务经验或高层领导决策针对数据中心中各类数据库或平台(DB2、Oracle、MPP、TERADATA、HADOOP等)的数据建立一套参数配置体系,参数配置例如包括数据的清理日期、存储周期等,进而通过定期提醒告知数据中心的运维人员依据参数配置对数据进行管理。数据中心存储有大量的数据,每个数据均以表的形式进行存储。那么针对每个数据具体应该存储多久,数据冗余如何优化都是通过人为主观经验或决策进行定义的。而显然这种人为定义的方式并不能科学地评估出数据最合理的存储周期、数据中的冗余字段等信息。技术实现要素:有鉴于此,本发明提供一种评估数据信息的方法和装置,以解决现有评估数据信息的方法不能科学地评估出数据最合理的存储周期、数据中的冗余字段等信息的问题。技术方案如下:基于本发明的一方面,本发明提供一种评估数据信息的方法,包括多个模板表,每个模板表对应一种类别属性的类表,每种类表包括多个不同信息的逻辑表;所述方法包括:采集数据的日志;解析所述日志,得到所述数据的关键字;依据所述数据的关键字,查找出与所述数据的类别属性相同的模板表,并从所述模板表对应的类表中,查找出与所述数据的信息相同的多个逻辑表;依据所述多个逻辑表中各数据的使用信息,对所述数据的信息进行评估。优选地,所述日志包括:任务运行日志和数据库实时访问日志。优选地,所述解析所述日志包括:采用结构查询语言SQL解析引擎解析所述日志。优选地,不同类别属性的类表至少包括以下一种:日表、月表、年表。优选地,所述依据所述多个逻辑表中各数据的使用信息,对所述数据的信息进行评估包括:依据所述多个逻辑表中各数据的使用情况评估所述数据的使用周期;依据所述多个逻辑表中各数据字段的使用情况评估所述数据的引用字段和非引用字段。基于本发明的另一方面,本发明提供一种评估数据信息的装置,包括多个模板表,每个模板表对应一种类别属性的类表,每种类表包括多个不同信息的逻辑表;所述装置包括:采集单元,用于采集数据的日志;解析单元,用于解析所述日志,得到所述数据的关键字;查找单元,用于依据所述数据的关键字,查找出与所述数据的类别属性相同的模板表,并从所述模板表对应的类表中,查找出与所述数据的信息相同的多个逻辑表;评估单元,用于依据所述多个逻辑表中各数据的使用信息,对所述数据的信息进行评估。优选地,所述日志包括:任务运行日志和数据库实时访问日志。优选地,所述解析单元具体用于,采用结构查询语言SQL解析引擎解析所述日志。优选地,不同类别属性的类表至少包括以下一种:日表、月表、年表。优选地,所述评估单元包括:第一评估子单元,用于依据所述多个逻辑表中各数据的使用情况评估所述数据的使用周期;第二评估子单元,用于依据所述多个逻辑表中各数据字段的使用情况评估所述数据的引用字段和非引用字段。本发明提供的评估数据信息的方法,包括多个模板表,且每个模板表对应一种类别属性的类表,每种类别属性的类表又包括多个不同信息的逻辑表。本发明在对数据进行评估时,首先采集并解析数据的日志,并依据解析得到的数据的关键字查找出与所述数据的类别属性相同的模板表,并从所述模板表对应的类表中,查找出与所述数据的信息相同的多个逻辑表,进而依据该多个逻辑表中各数据的使用信息,对所述数据的信息进行评估。本发明从数据应用过程中产生的日志入手,分析与其信息相同的多个逻辑表中各数据的使用情况,从而对当前采集到的数据的信息,例如数据的存储周期(即最小时效性)、数据中的冗余字段进行评估,能够科学地评估出数据最合理的存储周期、数据中的冗余字段等信息。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本发明提供的一种评估数据信息的方法的流程图;图2为本发明中各节点间的逻辑关系示意图;图3为本发明提供的一种评估数据信息的装置的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。请参阅图1,其示出了本发明提供的一种评估数据信息的方法的流程图。在本发明实施例中,数据中心存储有多个模板表,其每一个模板表对应一种类别属性的类表,具体如下表1所示,本发明中不同类别属性的类表至少包括以下一种:日表、月表、年表、月累计表、其他表等。其中,每种类别属性的类表包括多个不同信息的逻辑表。以日表为例来说,模板表1对应日表,该日表下又包括多个日通话清单表,如日通话清单表20160901、日通话清单表20160902、日通话清单表20160903等,以及多个日流量清单表,如日流量清单表20160901、日流量清单表20160902、日流量清单表20160903等。表1关于本申请中类表与模板表间映射关系的设置可以采用如下方法,如对于日表ODS_USER_20150102,本申请将其可变的日期信息部分20150102替换为YYYYMMDD字段,由此可以将前缀+YYYYMMDD的日表与“前缀+YYYYMMDD”的模板表建立映射关系,并同时实现了数据分类。作为本发明优选的,本发明可以将每个模板表与每种类别属性的类表间的对应关系也以表的形式存储。具体的,本发明提供的评估数据信息的方法包括:步骤101,采集数据的日志。本发明中数据中心中的数据存储在关系数据库和hadoop平台中。日志包括任务运行日志和数据库实时访问日志。其中任务运行日志主要是数据中心中的程序在运行过程中记录的日志;数据库实时访问日志是程序连接数据库进行计算时生成的数据库实时SQL访问记录,即数据库SQL日志。步骤102,解析所述日志,得到所述数据的关键字。本发明中采用SQL(StructureQueryLanguage,结构查询语言)解析引擎解析所述日志。其中,关键字可以包括delete、insert、update、select、from、where、orderby、groupby等。本发明实施例主要关注insert和select语句。本发明中,SQL语句可以被切分成了多个根节点,如图2所示,包括select、from、where、ColumnList。各根节点下又连接至少一个子节点,因此各根节点和与其连接的至少一个子节点之间形成逻辑上的依赖关系。根据图2所示的各节点间的逻辑关系,将其整理得到表2。逻辑表名字段引用引用条件ODS_USER_20150102USER_ID、AREA、AGEUSER_IDODS_USER_20150103USER_IDUSER_ID表2步骤103,依据所述数据的关键字,查找出与所述数据的类别属性相同的模板表,并从所述模板表对应的类表中,查找出与所述数据的信息相同的多个逻辑表。以日表ODS_USER_20150102为例来说,其关键字中包括20150102,即其描述形式为YYYYMMDD,由此将该YYYYMMDD与各模板表中记载的描述形式进行一一匹配。当模板表1中记载有+YYYYMMDD的描述形式,便可确定日表ODS_USER_20150102与模板表1匹配,确定出模板表1。进而在从模板表1对应的类表中,查找出与所述数据的信息相同的多个逻辑表。其中,所述数据的信息可以包括逻辑表的表头名称,例如ODS_USER等。步骤104,依据所述多个逻辑表中各数据的使用信息,对所述数据的信息进行评估。具体的,本发明可以依据多个逻辑表中各数据的使用情况评估所述数据的使用周期;依据多个逻辑表中各数据字段的使用情况评估所述数据的引用字段和非引用字段。参考下表3所示,表3即本发明对于ODS_USER_YYYYMMDD的逻辑表,建议存储2个周期,即数据的使用周期为2周,数据的引用字段包括USER_ID、AREA、AGE、非引用字段包括name、remakr、bak。因此应用本发明提供的评估数据信息的方法,包括多个模板表,且每个模板表对应一种类别属性的类表,每种类别属性的类表又包括多个不同信息的逻辑表。本发明在对数据进行评估时,首先采集并解析数据的日志,并依据解析得到的数据的关键字查找出与所述数据的类别属性相同的模板表,并从所述模板表对应的类表中,查找出与所述数据的信息相同的多个逻辑表,进而依据该多个逻辑表中各数据的使用信息,对所述数据的信息进行评估。本发明从数据应用过程中产生的日志入手,分析与其信息相同的多个逻辑表中各数据的使用情况,从而对当前采集到的数据的信息,例如数据的存储周期(即最小时效性)、数据中的冗余字段进行评估,能够科学地评估出数据最合理的存储周期、数据中的冗余字段等信息。基于前文本发明提供的一种评估数据信息的方法,本发明还提供一种评估数据信息的装置,该装置包括多个模板表,每个模板表对应一种类别属性的类表,每种类表包括多个不同信息的逻辑表;其中,不同类别属性的类表至少包括以下一种:日表、月表、年表。具体的,所述装置的结构如图3所示,包括:采集单元100,用于采集数据的日志;其中,所述日志可以包括:任务运行日志和数据库实时访问日志;解析单元200,用于解析所述日志,得到所述数据的关键字;其中,解析单元200可以具体用于,采用SQL解析引擎解析所述日志;查找单元300,用于依据所述数据的关键字,查找出与所述数据的类别属性相同的模板表,并从所述模板表对应的类表中,查找出与所述数据的信息相同的多个逻辑表;评估单元400,用于依据所述多个逻辑表中各数据的使用信息,对所述数据的信息进行评估。其中所述评估单元400包括:第一评估子单元401,用于依据所述多个逻辑表中各数据的使用情况评估所述数据的使用周期;第二评估子单元402,用于依据所述多个逻辑表中各数据字段的使用情况评估所述数据的引用字段和非引用字段。需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上对本申请所提供的一种评估数据信息的方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1