基于数据中台的数据标签管理方法、系统、介质及设备与流程

文档序号:32004691发布日期:2022-11-02 12:38阅读:33来源:国知局
1.本公开涉及数据标签管理
技术领域
:,更为具体来说,本公开涉及基于数据中台的数据标签管理方法、系统、介质及设备。
背景技术
::2.数据标签作为数据仓库系统中价值密度最高的一种数据存在形式,它的高效管理和使用直接影响着公司的经营决策和收益;所以对数据标签的管理至关重要。目前市面上,企业的数据管理系统中一般涵盖了调度管理、表管理等,即但并没有专门针对这些标签进行全面系统化闭环管理,以下是目前业内现有的管理方法:3.对于标签字段的管理,现有的数据管理系统可以在表管理模块上看到所有的标签字段,或者查找标签,能查到标签所在的表:比如有标签字段a,在表table1和table2都存在,即输入表a,就能检索到table1的表名以及a字段和table2的表名a字段;然后在数据监控系统中也可以针对某个表的某个标签字段的生成时间、波动性、数据量设置告警监控。4.但是目前的这些标签系统以及标签的管理措施,没有形成体系,且过于简单,无法解决日常生产使用中的一些问题:5.如:存在标签重复开发上线的问题;以及部分标签在上线后使用率低,造成资源浪费的问题。技术实现要素:6.为解决现有技术的标签系统以及标签的管理措施容易造成资源浪费的技术问题。7.为实现上述技术目的,本公开提供了一种基于数据中台的数据标签管理方法,包括:8.利用数据标签扫描工具对数据中台中的第一数据标签进行扫描并提取得到第一数据标签;9.对提取后的多个所述第一数据标签进行血缘分析处理,得到处理后的第二数据标签;10.将处理后的第二数据标签部署到测试环境中与存量标签进行比对判断是否一致,若一致,则不上线该第二数据标签;若不一致,则上线并配置该第二数据标签。11.进一步,所述对提取后的多个所述第一数据标签进行血缘分析处理得到处理后的第二数据标签具体包括:12.对提取后的多个所述第一数据标签根据标签数据类型进行血缘分析处理;13.判断多个所述第一数据标签是否一致,若一致则将多个所述第一数据标签归为同一第一数据标签;若不一致则不作处理;14.根据血缘分析处理的后第一数据标签配置一个id并生成一个新的第二数据标签。15.进一步,所述标签数据类型具体包括:16.标签生成逻辑、标签字段类型和/或数据标签结果分布。17.进一步,所述对提取后的多个所述第一数据标签进行血缘分析处理,得到处理后的第二数据标签之后,所述方法还包括:18.对所述第二数据标签进行标注,配置标签的有效期、业务用途和/或应用系统。19.进一步,所述将处理后的第二数据标签部署到测试环境中与存量标签进行比对判断是否一致具体包括:20.将将处理后的第二数据标签部署到测试环境中与存量标签进行比对,判断标签的来源表、标签生成方式、标签数据结果和标签数据分布是否一致。21.进一步,所述将处理后的第二数据标签部署到测试环境中与存量标签进行比对判断是否一致之后还包括:22.根据当前业务状况对所述第二数据标签进行变更处理或下线处理。23.进一步,所述变更处理具体包括:24.对所述第二数据标签中的标签数据类型进行变更;25.所述下线处理具体包括:26.对业务方不续期的所述第二数据标签在预设时间阈值到期后进行下线。27.为实现上述技术目的,本公开还能够提供一种基于数据中台的数据标签管理系统,包括:28.标签提取模块,用于利用数据标签扫描工具对数据中台中的第一数据标签进行扫描并提取得到第一数据标签;29.标签处理模块,用于对提取后的多个所述第一数据标签进行血缘分析处理,得到处理后的第二数据标签;30.标签上线模块,用于将处理后的第二数据标签部署到测试环境中与存量标签进行比对判断是否一致,若一致,则不上线该第二数据标签;若不一致,则上线并配置该第二数据标签。31.为实现上述技术目的,本公开还能够提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的基于数据中台的数据标签管理方法的步骤。32.为实现上述技术目的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的基于数据中台的数据标签管理方法的步骤。33.本公开的有益效果为:34.相比改进前,本公开提出的全域标签扫描方案,解决了标签梳理中,手工记录标签资产,容易混淆出错的问题,实现所有标签资产管理规范化、自动化;35.相比改进前,本公开提供的方案中标签注册唯一id的方法,解决了标签实际管理和使用中,标签查找难、标签含义模糊不清、含义相近标签难区分的问题,减少了复杂度;36.相比改进前,本公开提供的标签上线校验方案,会对比先上线标签和存量标签是否重复,解决了标签重复开发和上线的问题,减少了复杂度和系统冗余;37.相比改进前,本公开提供的标签应用分析模块,对标签的使用全场景进行了监控,使企业更加全面的了解标签在各系统的使用和应用情况,使标签价值最大化,提升了用户体验;38.相比改进前,本公开提供的标签有效期以及标签下线方法,解决了标签数据的冗余,无效数据长期占用系统资源的问题,减少存储空间占用;39.相比改进前,本公开提供的方案全面、系统、可靠,使用简单便捷,是一种切实有效且可复制推广的方法。附图说明40.图1示出了本公开的实施例1的方法的流程示意图;41.图2示出了本公开的实施例1的方法的流程示意图;42.图3示出了本公开的实施例1的方法的流程示意图;43.图4示出了本公开的实施例2的系统的结构示意图;44.图5示出了本公开的实施例2的系统的结构示意图;45.图6示出了本公开的实施例4的结构示意图。具体实施方式46.以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。47.在附图中示出了根据本公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。48.伴随着云计算、大数据、人工智能等it技术迅速发展及与传统行业实现快速融合,一场由数字化和智能化转型带来的产业变革正在孕育。49.随着企业规模不断扩大、业务多元化——中台服务架构的应运而生。阿里在今年发布“双中台+et”数字化转型方法论,“双中台”指的是数字中台和业务中台。50.数据中台是什么:51.数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在。52.广义的数据中台包括了数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合,今天谈到的数据中台包括数据模型,算法服务,数据产品,数据管理等等,和企业的业务有较强的关联性,是企业独有的且能复用的,比如企业自建的2000个基础模型,300个融合模型,5万个标签。它是企业业务和数据的沉淀,其不仅能降低重复建设,减少烟囱式协作的成本,也是差异化竞争优势所在。53.建立数据中台的原因:54.数据中台和业务中台相比,面临的情况可能会更加复杂一点。建立数据中台的原因:55.大数据可以告诉决策者一些潜在的规律,以数据来证明或判断决策。以往我们会用数据来证明我们的决策对错,现在我们用数据来引导我们做出对的决策。在大数据时代,样本就是全体,大数据可以防止伪造和偏差。56.数据催生人工智能。数据是人工智能的根基,并且可以进行融合形成新的数据。数据给我们无限的创新,让我们不停去尝试。57.数据是机器人的指令,我们形成数据服务思维。数据是不断变化的,让机器智能成为决策环节,运营就可以智能化。58.中台的目标是提升效能、数据化运营、更好支持业务发展和创新,是多领域、多bu、多系统的负责协同。中台是平台化的自然演进,这种演进带来“去中心化“的组织模式,突出对能力复用、协调控制的能力,以及业务创新的差异化构建能力。59.实施例一:60.如图1所示:61.一种基于数据中台的数据标签管理方法,包括:62.s101:利用数据标签扫描工具对数据中台中的第一数据标签进行扫描并提取得到第一数据标签;63.s102:对提取后的多个所述第一数据标签进行血缘分析处理,得到处理后的第二数据标签;64.s103:将处理后的第二数据标签部署到测试环境中与存量标签进行比对判断是否一致,若一致,则不上线该第二数据标签;若不一致,则上线并配置该第二数据标签。65.进一步,所述对s102具体包括:66.对提取后的多个所述第一数据标签根据标签数据类型进行血缘分析处理;67.判断多个所述第一数据标签是否一致,若一致则将多个所述第一数据标签归为同一第一数据标签;若不一致则不作处理;68.根据血缘分析处理的后第一数据标签配置一个id并生成一个新的第二数据标签。69.在步骤s101中,首先使用java语言,开发标签扫描程序(自定义工具包)对数据中台(数据仓库)内所有的标签统一扫描并提取得到第一数据标签。70.在步骤s102中,通过血缘分析对第一数据标签的上游依赖以及生成逻辑、标签字段类型、数据结果分布进行校验,若一致,则为相同标签;系统自动为每一个唯一的标签自动注册一个标签,并生成该该标签的上述信息和唯一一个id号。71.这样系统的每一个标签都在系统里面能够能查找到,不需要手工查询和记录。72.进一步,所述标签数据类型具体包括:73.标签生成逻辑、标签字段类型和/或数据标签结果分布。74.进一步,所述s102之后,所述方法还包括:75.s104:对所述第二数据标签进行标注,配置标签的有效期、业务用途和/或应用系统。76.在步骤s104中,标签开发人员会对注册好的标签,配置必要的中文解释和详细含义,以及根据业务需要配置标签的有效期,业务用途、应用系统等,实现所有标签线上化管理;77.进一步,所述将处理后的第二数据标签部署到测试环境中与存量标签进行比对判断是否一致具体包括:78.将将处理后的第二数据标签部署到测试环境中与存量标签进行比对,判断标签的来源表、标签生成方式、标签数据结果和标签数据分布是否一致。79.在步骤s103中,针对新开发上线标签,中台开发人员将新标签代码部署到测试环境中,校验程序会自动扫描新标签代码,并将标签信息与存量的比对,若来源表、生成代码、标签数据结果以及数据分布完全一致,则该标签在系统中已经存在,不需要新上线,若不一致,则上线新标签。80.新标签上示线后会在标签查询和展子系统中可以查到,且新上线标签会在标签管理系统首页展示并邮件通知所属业务人员和中台开发人员,并且上线后的标签在开发平台、调度系统中使用频次以及在应用系统中的应用效果均在标签展示系统中可以展示。81.如图3所示,82.进一步,所述s103之后还包括:83.s105:根据当前业务状况对所述第二数据标签进行变更处理或下线处理。84.进一步,所述变更处理具体包括:85.对所述第二数据标签中的标签数据类型进行变更;86.所述下线处理具体包括:87.对业务方不续期的所述第二数据标签在预设时间阈值到期后进行下线。88.在步骤s105中,主要是对上线后的标签在使用过程中进行维护,主要有标签变更处理和标签下线处理。89.当业务需求调整后,相应的标签业务逻辑也可能需要随着更改,这时候标签逻辑更改,标签id不变,只是相应的来源表、字段解释、具体含义等配置信息等会改变;上线后的标签通过标签查询和分析子系统分析标签使用情况,对有效期即将到期的标签系统会自动推送开发人员和业务方,开发人员和业务方确认续期后,标签自动续期,对开发和业务方确认不续期的标签,可设置的在一段时间间隔后(比如1个月)进行下线,系统会自动删除该标签字段;从而实现所有标签资产的闭环管理。90.实施例二:91.如图4所示,为实现上述技术目的,本公开还能够提供一种基于数据中台的数据标签管理系统200,包括:92.标签提取模块201,用于利用数据标签扫描工具对数据中台中的第一数据标签进行扫描并提取得到第一数据标签;93.标签处理模块202,用于对提取后的多个所述第一数据标签进行血缘分析处理,得到处理后的第二数据标签;94.标签上线模块203,用于将处理后的第二数据标签部署到测试环境中与存量标签进行比对判断是否一致,若一致,则不上线该第二数据标签;若不一致,则上线并配置该第二数据标签。95.所述标签处理模块202具体用于:96.对提取后的多个所述第一数据标签根据标签数据类型进行血缘分析处理;97.判断多个所述第一数据标签是否一致,若一致则将多个所述第一数据标签归为同一第一数据标签;若不一致则不作处理;98.根据血缘分析处理的后第一数据标签配置一个id并生成一个新的第二数据标签。99.如图5所示,本公开所述的基于数据中台的数据标签管理系统200还包括:100.标签标注模块204,用于对所述第二数据标签进行标注,配置标签的有效期、业务用途和/或应用系统。101.标签变更处理模块205,用于根据当前业务状况对所述第二数据标签进行变更处理或下线处理。102.本公开的系统及方法,相比改进前,本公开提出的全域标签扫描方案,解决了标签梳理中,手工记录标签资产,容易混淆出错的问题,实现所有标签资产管理规范化、自动化;103.本公开的系统及方法,相比改进前,本公开提供的方案中标签注册唯一id的方法,解决了标签实际管理和使用中,标签查找难、标签含义模糊不清、含义相近标签难区分的问题,减少了复杂度;104.本公开的系统及方法,相比改进前,本公开提供的标签上线校验方案,会对比先上线标签和存量标签是否重复,解决了标签重复开发和上线的问题,减少了复杂度和系统冗余;105.本公开的系统及方法,相比改进前,本公开提供的标签应用分析模块,对标签的使用全场景进行了监控,使企业更加全面的了解标签在各系统的使用和应用情况,使标签价值最大化,提升了用户体验;106.本公开的系统及方法,相比改进前,本公开提供的标签有效期以及标签下线方法,解决了标签数据的冗余,无效数据长期占用系统资源的问题,减少存储空间占用;107.本公开的系统及方法,相比改进前,本公开提供的方案全面、系统、可靠,使用简单便捷,是一种切实有效且可复制推广的方法。108.实施例三:109.本公开还能够提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的基于数据中台的数据标签管理方法的步骤。110.本公开的计算机存储介质可以采用半导体存储器、磁芯存储器、磁鼓存储器或磁盘存储器实现。111.半导体存储器,主要用于计算机的半导体存储元件主要有mos和双极型两种。mos元件集成度高、工艺简单但速度较慢。双极型元件工艺复杂、功耗大、集成度低但速度快。nmos和cmos问世后,使mos存储器在半导体存储器中开始占主要地位。nmos速度快,如英特尔公司的1k位静态随机存储器的存取时间为45ns。而cmos耗电省,4k位的cmos静态存储器存取时间为300ns。上述半导体存储器都是随机存取存储器(ram),即在工作过程中可随机进行读出和写入新内容。而半导体只读存储器(rom)在工作过程中可随机读出但不能写入,它用来存放已固化好的程序和数据。rom又分为不可改写的熔断丝式只读存储器──prom和可改写的只读存储器eprom两种。112.磁芯存储器,具有成本低,可靠性高的特点,且有20多年的实际使用经验。70年代中期以前广泛使用磁芯存储器作为主存储器。其存储容量可达10位以上,存取时间最快为300ns。国际上典型的磁芯存储器容量为4ms~8mb,存取周期为1.0~1.5μs。在半导体存储快速发展取代磁芯存储器作为主存储器的位置之后,磁芯存储器仍然可以作为大容量扩充存储器而得到应用。113.磁鼓存储器,一种磁记录的外存储器。由于其信息存取速度快,工作稳定可靠,虽然其容量较小,正逐渐被磁盘存储器所取代,但仍被用作实时过程控制计算机和中、大型计算机的外存储器。为了适应小型和微型计算机的需要,出现了超小型磁鼓,其体积小、重量轻、可靠性高、使用方便。114.磁盘存储器,一种磁记录的外存储器。它兼有磁鼓和磁带存储器的优点,即其存储容量较磁鼓容量大,而存取速度则较磁带存储器快,又可脱机贮存,因此在各种计算机系统中磁盘被广泛用作大容量的外存储器。磁盘一般分为硬磁盘和软磁盘存储器两大类。115.硬磁盘存储器的品种很多。从结构上,分可换式和固定式两种。可换式磁盘盘片可调换,固定式磁盘盘片是固定的。可换式和固定式磁盘都有多片组合和单片结构两种,又都可分为固定磁头型和活动磁头型。固定磁头型磁盘的容量较小,记录密度低存取速度高,但造价高。活动磁头型磁盘记录密度高(可达1000~6250位/英寸),因而容量大,但存取速度相对固定磁头磁盘低。磁盘产品的存储容量可达几百兆字节,位密度为每英寸6250位,道密度为每英寸475道。其中多片可换磁盘存储器由于盘组可以更换,具有很大的脱体容量,而且容量大,速度高,可存储大容量情报资料,在联机情报检索系统、数据库管理系统中得到广泛应用。116.实施例四:117.本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的基于数据中台的数据标签管理方法的步骤。118.图6为一个实施例中电子设备的内部结构示意图。如图6所示,该电子设备包括通过系统总线连接的处理器、存储介质、存储器和网络接口。其中,该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种基于数据中台的数据标签管理方法。该电设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种基于数据中台的数据标签管理方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。119.该电子设备包括但不限于智能电话、计算机、平板电脑、可穿戴智能设备、人工智能设备、移动电源等。120.所述处理器在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(centralprocessingunit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(controlunit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器内的程序或者模块(例如执行远端数据读写程序等),以及调用存储在所述存储器内的数据,以执行电子设备的各种功能和处理数据。121.所述总线可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。122.图6仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图6示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。123.例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。124.进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。125.可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。126.进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。127.在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。128.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。129.另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。130.以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。本公开的范围由所附权利要求及其等价物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1