一种管理企业业务元数据和技术元数据的方法及系统与流程

文档序号:32307454发布日期:2022-11-23 10:28阅读:49来源:国知局
1.本发明涉及计算机及企业元数据管理领域,尤其涉及一种管理企业业务元数据和技术元数据的方法及系统。
背景技术
::2.随着企业对数据建设应用的不断重视,包括需要数据对决策的支持,数据分析及对未来的预测等,不同企业可能使用不同展示工具,将业务想要知道的数据通过数仓加工处理后在前端进行展示。由此就产生了业务元数据和技术元数据两个概念,业务元数据即对业务想知道(业务需求)的一个描述,技术元数据即数仓加工处理产生的技术信息,具体定义如下:业务元数据:业务元数据描述数据的业务含义、业务规则等。明确业务元数据可以让人们更容易理解和使用业务元数据。业务元数据消除了数据二义性,让人们对数据有一致的认知,避免“自说自话”,进而为数据分析和应用提供支撑。常见的业务元数据有:业务定义、业务术语解释等;业务指标名称、计算口径、衍生指标等;业务引擎的规则、数据质量检测规则、数据挖掘算法等;数据的安全或敏感级别等。3.技术元数据:技术元数据是结构化处理后的数据,方便计算机或数据库对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员更加明确数据的存储、结构,从而为应用开发和系统集成奠定基础。技术元数据也可服务于业务人员,通过元数据厘清数据关系,让业务人员更快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。常见的技术元数据有:物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;数据存储类型、位置、数据存储文件格式或数据压缩类型等;字段级血缘关系、sql脚本信息、etl信息、接口程序等;调度依赖关系、进度和数据更新频率等。4.当前企业关于元数据的管理主要是:业务人员或领导向业务分析师提业务需求,可能是一句话或者一个想法,业务分析师经过调研将场景进行拆解形成一个个业务指标或标签,产出对应的业务口径,即业务元数据,业务分析师将业务指标或标签业务逻辑对技术人员进行讲解,技术开发实现指标标签,产出数仓表清单及数据字典,即技术元数据。5.不同元数据管理在不同的文档库中,逻辑变更或代码修改也是通过口头告知或单独维护在各自的文档库中;不同部门维护自己的元数据文档库,也会导致相同指标或标签在不同部门出现多种名称的情况;高层领导或业务人员在查看报表指标时也会出现歧义,认为某一指标是包含所有渠道数据,实际指标只取到部分数据,最终导致高层困惑或作出错误决策。6.这种管理元数据方式也是有着明显不足,具体缺陷如下:业务分析师和技术开发存在口口相传指标或标签变更情况,如一方为及时更新文档库,导致后续双方逻辑口径不一致,需要重新梳理原有逻辑,增加额外工作量。7.不同部门对指标名称命名个不一致,没有统一的管理和版本控制,会产生定义歧义的现象。8.报表使用人员看到看板上的指标,不了解业务口径,即技术数据来源渠道,需要多次培训不断沟通,后期如果指标定义修改了,之前沟通内容就不起作用了,增加了报表推广使用的难度。技术实现要素:9.针对现有技术存在的问题,本发明的目的在于对企业的业务元数据和技术元数据协同管理,解决指标口径不一致及前端数据使用者不清楚指标定义等问题。10.为实现上述目的,本发明提供一种管理企业业务元数据和技术元数据的方法,所述方法的具体步骤如下:s1.业务方提出业务需求;s2.将业务需求进行拆解成对应指标,将相同业务逻辑但名称不同的指标定义相同的名称;s3.将定义相同名称的指标与技术一起评审,确认指标技术实现方式,确认完成后将指标词典转成在线文档的方式,同步到元数据文档库中,并产出不同指标对应的url链接地址附在文档中;s4.通过梳理业务表,确认不同指标的来源表和来源字段,根据梳理的指标、来源表及来源字段,调用工具包生成事实表和维度表模型清单;输出模型清单信息及指标技术口径信息;s5.经测试完成满足上线条件时,将指标技术口径信息同步到元数据文档库中,并配置业务元数据及技术元数据之间的超链接访问。11.进一步,所述指标包括原子指标和派生指标;原子指标是对指标统计口径计算逻辑和具体算法的一个抽象,原子指标=业务过程+度量;派生指标为统计指标,基于四部分生成:原子指标+统计周期+统计粒度+业务限定。12.进一步,业务限定是在构建派生指标具体化过程中对原子指标特定的说明限定,这些限定是一个逻辑表达式去限定指标统计的业务范围,用于筛选出符合业务规则的记录;统计粒度是维度或维度组合,用于派生指标的构建,是汇总表的唯一性识别方式。13.进一步,步骤s3中,将确认的指标与技术一起评审,确认指标技术实现方式,确认完成后将指标词典内容按照标准格式填写在前端可视化页面上,可视化页面开发一个前端页面,页面可独立部署不依赖其他产品,通过封装成一个组件,可实现跨公司的复用;页面包括用户登录页、业务及技术元数据展示页,底层使用的是关系型数据库用于存储数据。14.进一步,步骤s5中,通过梳理业务表,确认不同指标的来源表和来源字段,包括原子指标销售金额、计算逻辑sum求和、统计维度日期、商品、公司及部门;则通过维度建模方式生成事实表、维度表、商品信息维表、组织信息维表和汇总表;将以上表的信息填入技术元数据页面,通过导出功能可以自动导出指标测试模版,按照导出的测试模版sql内容执行,及时定位指标的来源表信息;测试sql的来源表、来源字段、维度及业务先定均来自技术元数据信息;指标名称业务口径来源于业务元数据信息,具体sql如下:selectorder_date,sum(amount)fromdwd_trd_order_detail_diwhereorder_type《》'退单'groupbyorder_date。15.进一步,需求作出调整或在开发过程中对原有指标逻辑进行修改的情况下,还包括以下步骤:s100.业务提交变更需求申请,确认需求变更涉及到的指标,并于业务确认修改后的指标逻辑;s200.将修改后的指标业务逻辑更新到指标词典,同步修改前及修改后的内容,技术确认后,修改数仓模型实现方式,通过测试验证通过,在发布前更新技术口径元数据文档,并将指标词典信息及技术口径更新到在线元数据管理库中,记录变更内容版本信息,提交发布任务。16.进一步,当业务提出新需求时,将通过技术评审确认的指标词典上传到指标文档库中,将通过测试验证的指标的技术口径更新到技术文档库中。17.另一方面,本发明提供一种管理企业业务元数据和技术元数据的系统,所述系统用于实现根据本发明所述的管理企业业务元数据和技术元数据的方法。18.本发明的有益效果如下:与现有技术相比,本发明规范了业务分析师和技术开发对接指标逻辑流程,减少因沟通不畅或未更新文档,引起的业务文档上描述的逻辑与报表指标口径不一致的现象;本发明通过设置不同部门认可的指标名称,使得不同部门产出的报表有了统一的命名,业务人员或领导在查看报表时可以直接对比指标数据,以此判断不同部门的业绩;本发明通过形成本地文档在线话,报表指标与在线文档打通的方式,解决业务人员如果没有参与需求评审,而对指标口径不清晰的现象,同时也大大减小报表推广使用的难度。附图说明19.图1示出了本发明实施例一种管理企业业务元数据和技术元数据的方法及系统中构建业务元数据和技术元数据管理流程图;图2示出了根据本发明实施例一种管理企业业务元数据和技术元数据的方法及系统中业务元数据的示意图;图3示出了根据本发明实施例一种管理企业业务元数据和技术元数据的方法及系统中技术元数据的示意图;图4示出了根据本发明实施例一种管理企业业务元数据和技术元数据的方法及系统中技术架构的示意图;图5示出了根据本发明实施例一种管理企业业务元数据和技术元数据的方法及系统中自动生成的测试用例模版示意图。具体实施方式20.下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。21.在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。22.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。23.以下结合图1-图5对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。24.根据本发明的一种管理企业业务元数据和技术元数据的方法及系统,通过建立标准流程及构建线上文档环境,拉通报表或看板与线上文档之间的一一对应关系,通过版本控制更新指标或标签的业务口径及技术表清单;图1是构建业务元数据和技术元数据管理流程图,如图1所示,图1中展示了业务需求人员、业务分析师及技术开发人员之间的信息流向,三种角色都会对元数据文档库访问或更新,其中业务分析师对业务元数据文档库做新增、修改,技术开发人员对技术元数据文档库做新增、修改,业务需求人员会查询业务和技术元数据文档库。本发明提出管理企业业务元数据和技术元数据的方案的具体步骤如下:s1.业务方提出业务需求,或短期公司规划目标,如实现公司销售业绩分析、会员生命周期分析等。25.s2.将业务需求进行拆解成对应指标,对于定义相同业务逻辑但名称不同的指标,统一指标名称。如公司销售业绩分析,可拆解为销售目标、销售额等原子指标;目标完成率及到不同维度的派生指标。会员生命周期分析可拆解为新增会员人数、不同会员等级人数及注销会员人数等指标,将拆解的指标形成指标词典(即业务元数据)与业务人员确认如图2所示,图2中记录业务元数据详情信息,当业务人员对指标提出需求变更时,业务分析师会更新对应的指标定义或统计维度列。关于原子指标、派生指标的定义如下:原子指标:原子指标是对指标统计口径计算逻辑、具体算法的一个抽象。26.原子指标=业务过程+度量,例如:支付金额=支付业务过程+金额。是针对业务过程的一个度量,用来衡量最细的业务动作的程度。27.业务限定:业务限定是在构建派生指标具体化过程中对原子指标特定的说明限定,这些限定通常是一个逻辑表达式去限定指标统计的业务范围,用于筛选出符合业务规则的记录(类似于sql中where后的条件,不包括时间区间)。原子指标是计算逻辑的标准化定义,业务限定则是条件限制的标准化定义。28.统计粒度:统计分析的对象或视角,定义数据需要汇总的程度,可以理解为聚合运算时的分组条件(类似于sql中groupby的对象)。粒度是维度的一个组合,指明您的统计范围。例如,某个指标是某个卖家在某个省份的成交额,则粒度就是卖家、省份这两个维度的组合。如果需要统计全表的数据,则粒度为全表。在指定粒度时,需要充分考虑到业务和维度的关系。统计粒度也被称为粒度,是维度或维度组合,一般用于派生指标构建,是汇总表的唯一性识别方式。29.派生指标:派生指标即常见的统计指标,为保证统计指标标准、规范、无二义性地生成,基于四部分生成:原子指标+统计周期(统计的时间范围,比如最近7天,最近30天等)+统计粒度(统计角度)+业务限定,例如:最近7天天河区各产品购买金额=最近7天(统计周期)北京市(业务限定)各产品(统计粒度)购买金额(原子指标)。30.s3.将沟通确认的指标与技术一起评审,确认指标技术实现方式,确认完成后将指标词典内容按照标准格式填写在前端可视化页面上,表明提出部门、提出人、提出时间及可查看部门,用于指标查看的权限控制。可视化页面个性化开发一个前端页面,页面包括用户登录页,业务及技术元数据展示页,底层使用的是关系型数据库用于存储数据,支持一键导出excel文本及页面跳转功能。技术架构图如图4所示,图4中展示了该方案的技术架构,业务需求人员通过用户端访问元数据,通过应用层做到了数据隔离,也提升了对存储层的适配性,且开发出的页面可独立部署不依赖其他产品,通过封装成一个组件,可实现跨公司的复用。业务分析师更新完成后告知技术人员,技术人员只用登录即可查看指标的业务口径。31.s4.通过梳理业务表,确认不同指标的来源表和来源字段,如图3所示,根据指标定义内容确认指标数据范围,图3中记录技术元数据详情信息,其中包含原子指标销售金额(来源字段amount),计算逻辑sum求和,统计维度日期(来源字段order_date)、商品(来源字段prod_code)、公司(来源字段corp_code)及部门(来源字段dept_code)。根据梳理的指标、来源表及来源字段,调用工具包生成事实表和维度表模型清单,具体步骤如下:s4.1任务开始,通过调用getsourceinfo()方法,获取技术元数据,技术元数据包含指标名称、指标分类、统计维度、来源表、来源系统和来源字段信息。其中词素词根表如下表所示,为减少字段名称的长度,使用缩写列进行字段命名,字段连接使用下划线,如异常账户字段名:abn_acct。32.如目录下没有对应文档,则报获取源信息失败,请检查对应目录文档是否存在信息,如获取文档成功进入下一步;s4.2通过调用isstandard()方法,判断技术元数据是否符合规范要求,接口主要作用是判断元数据是否有未填写内容、来源系统是否可以连接和来源表是否可以查询到,满足规范要求进入下一步。33.s4.3将原子指标根据来源系统分类,获取指标的来源表来源字段,其中销售数量和销售金额来源pos_order_detail,统计维度包括:日期、商品、用户和公司,则调用gettableinfo(stringsourceinfo,stringtablename),返回来源表+来源字段列表信息,进入下一步生成事实表和维度表模型清单。34.s4.4调用prodetailtablelist(list《string》sourcetableinfolist,stringrootword),结合词素词根表字段命名规范生成原子指标对应事实表模型清单。35.调用prodimtablelist(list《string》sourcetableinfolist),生成维度表模型清单,维度表模型清单为指标对应统计粒度。36.生成如下表:事实表dwd_trd_order_detail_di(订单明细增量表),包含维度字段及原子指标字段;维度表dim_calendar(日历维表);dim_prod_info(商品信息维表);dim_org_info(组织信息维表);汇总表dws_trd_org_prod_order_1d(组织商品销售汇总1d表);将以上模型信息填入技术元数据页面,通过导出功能可以自动导出指标测试模版,如图5所示,图5中记录了模版详情信息,测试代码中表对应技术元数据的来源表,groupby分组字段对应统计维度信息。可以按照导出的测试模版sql内容执行,由此大大减少技术人员测试过程的时间,及时定位指标的来源表信息。测试sql的来源表、来源字段、维度及业务先定均来自技术元数据信息,指标名称业务口径来源与业务元数据信息,具体sql如下:selectorder_date,sum(amount)fromdwd_trd_order_detail_diwhereorder_type《》'退单'groupbyorder_date。37.s5.经测试完成满足上线条件时,将指标技术口径信息(即技术元数据)同步到元数据文档库中,并配置业务元数据及技术元数据之间的超链接访问。通过可视化的方式,能够看到具体的数字,以此来判断部门业绩是否达成或公司下一步决策等,所以需按照业务线的方式,将指标展示在看板报表上。根据报表页面布局设计对应的接口,最后在对应的指标页面嵌套业务指标元数据库的超链接地址,当使用报表时,对某个指标有疑问,可以之前点击超链接跳转到对应指标的业务元文档页面。38.以上流程即是当业务初次提交需求到创建管理元数据文档库的流程,但是实际过程中业务人员会对之前提的需求作出调整,或在开发过程中对原有指标逻辑进行修改,本发明也能够支持这种情况的发生。具体流程变化如下:s100.业务提交变更需求申请,确认需求变更涉及到的指标,并于业务确认修改后的指标逻辑。39.s200.将修改后的指标业务逻辑更新到指标词典,同步修改前及修改后的内容,技术确认后,修改数仓模型实现方式,通过测试验证通过,在发布前更新技术口径元数据文档,并将指标词典信息及技术口径更新到在线元数据管理库中,记录变更内容版本信息,提交发布任务。40.另一方面,本发明提供一种管理企业业务元数据和技术元数据的系统,所述系统用于实现根据本发明所述的管理企业业务元数据和技术元数据的方法。41.与现有技术相比,本发明规范了业务分析师和技术开发对接指标逻辑流程,减少因沟通不畅或未更新文档,引起的业务文档上描述的逻辑与报表指标口径不一致的现象;本发明通过设置不同部门认可的指标名称,使得不同部门产出的报表有了统一的命名,业务人员或领导在查看报表时可以直接对比指标数据,以此判断不同部门的业绩;本发明通过形成本地文档在线话,报表指标与在线文档打通的方式,解决业务人员如果没有参与需求评审,而对指标口径不清晰的现象,同时也大大减小报表推广使用的难度。42.本发明结合公司处理需求流程,采用在线文档化的方式控制需求或技术变更过程,同时业务人员如果对指标逻辑有疑问,只需要轻轻点击一下即可跳转到对应的指标元数据文档页面,大大提高了业务人员的工作效率,同时也减少决策错误出现的可能,本发明的在流程控制的关键点主要是,当业务提的是新需求时,只有通过技术评审确认的指标词典才能上传到指标文档库中,只有通过测试验证的指标,才能将其技术口径更新到技术文档库中;如果是业务提交的需求变更请求,只有通过测试验证的指标,才能更新文档库中的业务和技术元数据。43.在本说明书的描述中,参考术语“实施例”、“示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,本领域的技术人员可以在不产生矛盾的情况下,将本说明书中描述的不同实施例或示例以及其中的特征进行结合或组合。44.上述内容虽然已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型等更新操作。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1