校验处理的方法、装置、电子设备和存储介质与流程

文档序号:14871029发布日期:2018-07-06 23:50阅读:119来源:国知局
本发明实施例涉及数据库
技术领域
,特别是一种校验处理的方法、装置、电子设备和存储介质。
背景技术
:为了更好的做出决策,需创建数据仓库,由数据仓库为决策制定提供数据支持。数据仓库包括大量的数据,其中的数据是对原有分散的多个数据库的数据进行抽取、清理,并在此基础上经过系统加工、汇总和整理得到的。由于数据仓库的数据具有多个数据源(数据库),且对于一个相同的字段,各个数据源的命名有可能是不同的,若整理到一个数据仓库中,一个相同的字段存在多种不一致的命名,导致数据仓库的质量不高,后续在存入数据和读取数据时,导致使用混乱。现有技术中主要采用人工校验的方式,使各个数据的命名规范、一致。由于每个人的经验、能力不同,会出现遗漏,判别错误的情况发生,导致无法实现数据仓库中数据命名一致。技术实现要素:针对现有技术的缺陷,本发明实施例提供一种校验处理的方法、装置、电子设备和存储介质。一方面,本发明实施例提供一种校验处理的方法,所述方法包括:获取待校验的数据仓库的模型,每一模型包括多个字段信息,所述字段信息包括字段定义和字段类型;根据预先存储的数据字典,对所述字段信息进行校验,所述数据字典包括多个标准用语,每一标准用语包括标准定义和标准类型;若所述字段定义与标准定义匹配且所述字段类型与标准类型不匹配,则将所述字段类型修改为与标准类型一致。另一方面,本发明实施例提供一种校验处理的装置,所述装置包括:获取模块,用于获取待校验的数据仓库的模型,每一模型包括多个字段信息,所述字段信息包括字段定义和字段类型;校验模块,用于根据预先存储的数据字典,对所述字段信息进行校验,所述数据字典包括多个标准用语,每一标准用语包括标准定义和标准类型;修改模块,用于若所述字段定义与标准定义匹配且所述字段类型与标准类型不匹配,则将所述字段类型修改为与标准类型一致。另一方面,本发明实施例还提供一种电子设备,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上方法的步骤。另一方面,本发明实施例还提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上方法的步骤。由上述技术方案可知,本发明实施例提供的校验处理的方法、装置、电子设备和存储介质,所述方法根据标准用语对数据仓库的模型进行校验,在字段定义与标准定义匹配且字段类型与标准类型不匹配时,有针对性的将字段类型修改为与标准类型一致,从而得到标准的一致化的模型。附图说明图1为本发明实施例提供的一种校验处理的方法的流程示意图;图2为本发明又一实施例提供的校验处理的装置的整体结构示意图;图3为本发明又一实施例提供的校验处理的方法的流程示意图;图4为本发明又一实施例提供的初始化阶段操作流程图;图5为本发明又一实施例提供的校验操作的部分实例图;图6为本发明又一实施例提供的校验操作的部分实例图;图7为本发明又一实施例提供的校验操作的流程示意图;图8为本发明又一实施例提供的一种校验处理的装置的结构示意图;图9为本发明又一实施例提供的一种电子设备的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明实施例一部分实施例,而不是全部的实施例。图1示出了本发明实施例提供的一种校验处理的方法的流程示意图。如图1所示,本发明实施例提供的方法具体包括以下步骤:步骤11、获取待校验的数据仓库的模型,每一模型包括多个字段信息,所述字段信息包括字段定义和字段类型;可选地,一个数据仓库的构建可分为两步:首先,设计数据仓库的模型,其次将数据写入对应的模型(数据表)。在模型设计完成后,应用本发明实施例提供的方法,对该模型进行校验。可选地,将至少一个设计完成的模型上传至校验处理的装置,一个模型可理解为一张数据表,数据表包括多行数据,每一行数据包括对应的字段信息。可选地,所述字段信息包括字段定义和字段类型,字段定义是对字段的意义的描述,可包括字段名和字段描述。字段类型是对字段的类型的描述,例如字段为double或int,其中,double是双精度浮点数,也就是字段可以是有小数点的数,int表示整型,也就是字段是整数。步骤12、根据预先存储的数据字典,对所述字段信息进行校验,所述数据字典包括多个标准用语,每一标准用语包括标准定义和标准类型;可选地,预先创建数据字典,数据字典包括多个标准用语,每一标准用语是得到一致认可的,可以作为统一标准的规范用语。可选地,标准用语是从行业专业用语词典,历史的数据仓库的数据,wiki(维基百科),各种专业书籍,资料中收集得到的。可选地,标准用语包括标准定义和标准类型,所述标准定义是对一个字段的标准描述,标准类型是表示该字段可以使用的一个类型。例如标准定义为金额,预先创建的金额的标准类型double,确定标准类型是double后,金额则不使用int作为标准类型。可选地,针对模型的字段定义,查询数据字典的标准用语中是否存在与模型的字段定义匹配的标准定义。如果字段定义与标准用语的标准定义匹配成功,则针对模型的字段类型,查询标准用语中与模型的字段定义匹配的标准定义所对应的标准类型。如果字段定义与标准用语的标准定义匹配不成功,则输出校验结果为失败。步骤13、若所述字段定义与标准定义匹配且所述字段类型与标准类型不匹配,则将所述字段类型修改为与标准类型一致。如果模型的字段定义与标准定义一致,且字段类型与标准类型不一致,则对模型进行备注,备注的内容为:字段类型与标准类型不一致,输出校验结果,校验结果包括所述备注。本发明实施例进行校验的过程中添加备注以提供修改建议,以供后续根据校验结果,执行修改,将字段类型修改为与标准类型一致。如果模型的字段定义与标准定义一致,且字段类型与标准类型一致,则说明该模型已符合规范,该字段信息的校验结果为成功。可以理解的是,若每一个数据仓库在建模的时候,都执行本发明实施例的方法,根据数据字典进行校验,得到一致的、标准的数据表,那么后续在填充数据的时候,则可以直接填充至标准的数据表中。本实施例提供的校验处理的方法,根据标准用语对数据仓库的模型进行校验,在字段定义与标准定义匹配且字段类型与标准类型不匹配时,有针对性的将字段类型修改为与标准类型一致,从而得到标准的一致化的模型。在上述实施例的基础上,本发明又一实施例提供的校验处理的方法,所述字段定义包括字段名和字段描述,所述标准定义包括标准名和标准描述,相应地,根据预先存储的数据字典,对字段信息进行校验的步骤具体为:若所述字段名与标准名匹配,则校验所述字段描述是否与标准描述一致,并校验字段类型是否与标准类型一致;或者;若所述字段描述与标准描述匹配,则校验所述字段名是否与标准名一致,并校验字段类型是否与标准类型一致。可选地,一个模型的内容包括如表1所示:表1字段名字段描述字段类型paidup_perf_amount实收业绩double………………可选地,若所述字段名与标准名匹配成功,则针对该字段信息的其他字段(字段描述和字段类型)进行校验,是否与匹配成功的标准名所对应的标准描述和标准类型一致。若一致,则表示该字段信息与标准用语完全一致,校验结果为成功。若不一致,则备注的内容为:所述字段描述和所述字段类型与标准用语不一致,以供后续将所述字段描述和所述字段类型修改为与标准用语一致。同样地,若所述字段描述与标准描述匹配,则针对该字段信息的其他字段(字段名和字段类型)进行校验,是否与匹配成功的标准字段所对应的标准名和标准类型一致。本实施例其他步骤与前述实施例步骤相似,本实施例不再赘述。本实施例提供的校验处理的方法,通过分别针对字段名和字段描述进行校验,可准确的得到校验结果。在上述实施例的基础上,本发明又一实施例提供的校验处理的方法,若字段定义与标准定义匹配且字段类型与标准类型不匹配,则将字段类型修改为与标准类型一致的步骤之后,所述方法包括:如果字段定义与标准定义不匹配,则对每一字段信息进行数据预处理,得到多个词素;获取预先存储的规则管理库,所述规则管理库包括多个替换规则,每一替换规则包括修饰词和分类词;如果词素与修饰词匹配,则判断是否存在所述词素的分类词;如果不存在,则将所述词素替换为所述词素和对应的分类词。可选地,如果字段定义与标准用语的标准定义匹配不成功,表示使用数据字典进行校验失败,执行本发明实施例,使用规则管理库继续进行校验。可选地,词素是具有特定含义的最小单词,不可再拆分,比如:日,月,收入,城市等。例如,将序列“客源端业绩”拆分成“客源”、“端”以及“业绩”这三个词素。可选地,可根据现有技术的方式对字段信息进行分词处理,得到词素,开始采用规则管理库对每一词素进行校验。可选地,所述规则管理库包括多个替换规则,每一替换规则包括修饰词和分类词,修饰词和分类词之间是定语和中心语的关系,也就是修饰和被修饰的关系,修饰词是作为定语的用于形容分类词的词素,分类词是作为修饰词的中心语的词素。例如,“业绩金额”这两个词素,“金额”是中心语,表示“业绩金额”属于金钱这一类别,是一个金钱的数值,而“业绩”表示这个数值是业绩的数值,而不是其他的数值。可选地,替换规则的作用是在确定一个字段信息拆分的词素中包括修饰词且不包括分类词时,将修饰词替换为修饰词和分类词,相当于在字段信息中只有修饰词没有分类词时,为修饰词增加分类词。针对字段信息的每一词素,查找替换规则的修饰词,若一个词素与替换规则中的修饰词匹配一致,判断该词素在这一字段信息中是否存在该词素的分类词。如果这一字段信息中不存在该修饰词的分类词,则添加备注,将模型中的该词素替换为两个词素,也就是将修饰词替换为修饰词以及修饰词对应的分类词。例如当模型中包括“业绩”这一词素且不包括“金额”时,根据替换规则将“业绩”转换为“业绩金额”。可以理解的是,设计模型时可能使用了简写,只有修饰词,省略了分类词,对于这种不规范的写法,通过替换规则为修饰词添加预先设置的分类词。如果这一字段信息中存在该修饰词的分类词,则表示这一字段信息规范,校验结果为成功。本实施例其他步骤与前述实施例步骤相似,本实施例不再赘述。本实施例提供的校验处理的方法,若字段定义与标准定义不匹配,则采用规则管理库进行校验,若词素与修饰词匹配且不存在分类词时,将所述词素替换为所述词素和对应的分类词,使得不规范的简写修改为规范。在上述实施例的基础上,本发明又一实施例提供的校验处理的方法,如果字段定义与标准定义不匹配,则对每一字段信息进行数据预处理,得到多个词素的步骤具体为:对每一字段信息进行解析,生成对应的json字符串;针对每一json字符串,进行分词处理,得到多个词素。可选地,采用解析器对对每一字段信息进行解析。可选地,将一个json字符串视为一个序列,调用分词组件对该序列进行单词拆分,得到词素。可选地,分词组件是一个功能函数,其作用是将一个序列切分成单独的词,即词素,得到词素后,采用规则管理库进行校验。本实施例其他步骤与前述实施例步骤相似,本实施例不再赘述。本实施例提供的校验处理的方法,对字段信息进行解析,生成对应的json字符串,并针对每一json字符串,进行分词处理,得到词素,以供后续实现词素级别的校验。在上述实施例的基础上,本发明又一实施例提供的校验处理的方法,所述词素包括中文词素和/或英文词素,相应地,若词素与修饰词匹配,则判断是否存在所述词素的分类词的步骤之后,所述方法包括:如果词素与修饰词不匹配,则获取预先存储的业务字典,所述业务字典包括多个业务用语,每一业务用语包括中文用语和英文用语;如果中文词素与中文用语匹配且所述词素中不存在对应的英文用语,则备注所述中文词素,以供增加所述中文词素的英文用语;如果英文词素与英文用语匹配且所述词素中不存在英文用语对应的中文用语,则备注所述英文词素,以供增加所述英文词素的中文用语。如果词素与修饰词不匹配,表示规则管理库校验失败,则继续采用业务字典进行校验。可选地,每一业务用语中包括两个词素,中文用语和英文用语。例如(业绩,perf),(经纪人,agent)等。例如,所述词素中包括业绩这一词素,与业务用语(业绩,perf)中的中文用语匹配,且不包括英文用语perf,则添加备注:添加英文用语perf。同理,若模型中包括perf,且不包括业绩,则添加备注:添加业绩。可以理解的是,设计模型时可能使用了简写,只有中文没有英文,或者只有英文没有中文,对于这种不规范的写法,通过业务用语进行补全,使得后续的数据无论是中文或是英文,均可以正确的识别填充。可选地,如果所述词素只包括中文词素,则进行中文词素的匹配,如果词素只包括英文词素,则进行英文词素的匹配,如果所述词素包括中文词素和英文词素,则匹配的顺序不进行限制,可以先进行中文词素的匹配,也可以先进行英文词素的匹配。如果中文词素与中文用语匹配,但英文词素与英文用语不匹配,则添加备注说明这种情况,输出校验结果。同样地,如果英文词素与英文用语匹配,但中文词素与中文用语不匹配,需添加备注说明。本实施例其他步骤与前述实施例步骤相似,本实施例不再赘述。本实施例提供的校验处理的方法,如果词素与修饰词不匹配,继续采用中文用语和英文用语进行校验,可以补全中文词素和英文词素。在上述实施例的基础上,本发明又一实施例提供的校验处理的方法,所述词素包括中文词素和/或英文词素,相应地,将所述词素替换为所述词素和对应的分类词的步骤之后,所述方法包括:获取预先存储的业务字典,所述业务字典包括多个业务用语,每一业务用语包括中文用语和英文用语;如果中文词素与中文用语匹配且所述词素中不存在对应的英文用语,则备注所述中文词素,以供增加所述中文词素的英文用语;如果英文词素与英文用语匹配且所述词素中不存在英文用语对应的中文用语,则备注所述英文词素,以供增加所述英文词素的中文用语。在使用规则管理库校验,对简写的词素进行替换后,继续采用业务字典进行校验。可选地,每一业务用语中包括两个词素,中文用语和英文用语。例如(业绩,perf),(经纪人,agent)等。例如,原始的词素包括业绩这一词素,使用规则管理库校验后,替换为业绩金额,在本发明实施例中,业绩与业务用语(业绩,perf)中的中文用语匹配,且不包括英文用语perf,则添加备注:添加英文用语perf,同时金额与业务用语(金额,amount)中的中文用语匹配,且不包括英文用语amount,则添加备注:添加英文用语amount。如果遍历业务用语后,均没有匹配的词素,添加相应的备注,输出校验结果。可以理解的是,设计模型时可能使用了简写,只有中文没有英文,或者只有英文没有中文,对于这种不规范的写法,通过业务用语进行补全,使得后续的数据无论是中文或是英文,均可以正确的识别填充。可选地,如果中文词素与中文用语匹配,但英文词素与英文用语不匹配,则添加备注说明这种情况,输出校验结果。同样地,如果英文词素与英文用语匹配,但中文词素与中文用语不匹配,则添加备注。本实施例其他步骤与前述实施例步骤相似,本实施例不再赘述。本实施例提供的校验处理的方法,在使用规则管理库校验后,继续采用中文用语和英文用语进行校验,可以补全中文词素和英文词素。在上述实施例的基础上,本发明又一实施例提供的校验处理的方法,若字段定义与标准定义匹配且字段类型与标准类型不匹配,则将字段类型修改为与标准类型一致的步骤之后,所述方法包括:如果字段定义与标准定义不匹配,则对所述字段定义进行训练;若满足预设的条件,则将所述字段定义作为标准定义。可选地,如果字段定义与标准定义不匹配,可能存在两种情况:一种是该字段定义的不标准,另一种情况是统一标准的规范用语,但数据字典没有将该字段定义写入标准定义。可选地,对所述字段定义进行训练是指有针对性的对所述字段定义进行重新匹配,确定是否可以作为标准定义。可选地,根据最新的资料,与所述字段定义进行匹配,若存在与所述字段定义匹配的统一标准的规范用语,则将所述字段定义作为标准定义,并将所述字段定义的字段类型作为标准类型,得到新的标准用语。可以理解的是,将新增的标准用语分类放入数据字典中,最终形成一个闭环校验管理,来逐步扩展校验的范围,减少误判。本实施例其他步骤与前述实施例步骤相似,本实施例不再赘述。本实施例提供的校验处理的方法,如果字段定义与标准定义不匹配,则对所述字段定义进行训练,在确定所述字段定义可以作为标准定义后,存入数据字典中,以扩展校验的范围。为了更充分理解本发明的技术内容,在上述实施例的基础上,详细说明本实施例提供的校验处理的方法。本发明实施例的方法主要是针对目前数据仓库面临的数据标准难以落地实施的问题,提出了以下的解决方案:通过采用分词技术+经验匹配的方式,从历史资料以及数据模型中获取学习资料,进行经验学习,对常用的标准词汇和业务术语进行提取与修正,根据不同类别的标准用语或规范分别存入到相应的字典管理器中。在之后的建模开发中,使用已经归纳出来的标准用语(规范)作为“经验与标准”去检测和校正后面的模型,以此来解决模型数据命名标准化的问题,并通过模型校验+数据字典积累+模型校验的闭环管理方式来不断调整优化,使不断完善,达到自动化维护数据标准管理的目的,提高数据仓库的数据质量,减小运营成本。本发明实施例可用于统一数据命名,数据定义,数据类型的标准化约束,用于解决在建模过程中用语混乱或不知如何命名的情况。本发明实施例所述的标准化对象是指工程项目范围内使用的数据,可以理解为需要进行数据标准化的目标对象。图2为本发明又一实施例提供的校验处理的装置的整体结构示意图。如图2所示,校验处理的装置的整体结构分为三部分:数据存储层,用于存储数据标准规范字典,包含规则管理库,数据字典,业务字典;标准校验层:用于执行标准对象校验,以及生成标准用语词典,由词汇训练系统,分词组件,标准校验器三个组件构成;数据接口层:用于接收并解析标准对象模型文档,对外提供校验报告,分别由模型解析器,校验报告生成器组成。主要从以下几个方面进行标准化校验:1.词素:具有某种特定含义的最小单位单词,一般可以理解为使用分词组件对标准化对象进行分词拆分后的单词,在执行标准化工作时,第一步就是需要将现行用语分解成最小单位意义,然后进行标准单词确认,比如:日,月,收入,城市等,属于业务字典范畴。2.标准单词:标准单词是具有词典意义上的最小单位单词,是业务用语的基本组成元素。标准单词由中文名称和英文简写标识一起构成,每一个标准单词会有一个英文简写与之匹配,比如(业绩,perf),(经纪人,agent)等,属于业务字典范畴。3.分类词:分类词标识实体或实体属性类型的标准单词,可以从中推测出内部数据值类型的标准单词。比如金额,数量,pv,uv等,属于业务字典范畴。4.标准域:将数据分为编码域,编号域,组域等,定义标准的数据类型(字符串,数据,日期等)和长度,以明确数据范围。比如(金额,amount,double),(数量,num,int)等,属于业务字典范畴。5.标准用语:指使用标准单词按照命名规则(修饰词+分类词)生成的所有标准项目名,包括实体名,实体的属性名,表名,列名,域名等,比如(pt,时间分区,string),(house_id,房源id,int)等,属于数据字典范畴。6.规则转化:指对标准单词,分类词,标准域的一些合并转换操作,使用修饰词+分类词的方式对一些使用频率较高的词汇用语进行拼接,当标准目标对象中出现名称简写时,会根据转换规则进行全名转换,并附带与之对应的英文标识等信息,比如:(业绩金额,perf_amount,double),当标准对象中出现“业绩”单词时,规则管理器会根据转化规则将“业绩”转换为“业绩金额”,属于规则管理库范畴。本发明实施例涉及到两大部分:第一部分:初始化阶段。为了确保数据标准化的正确判断校验准确率,需要进行数据标准初始化,主要包含收集数据源,确定数据字典、规则管理库和业务字典等工作。此部分工作由软件自动实施和人工干预共同组成。第二部分:数据标准化校验阶段。在进行数据标准初始化工作之后,开始进行数据标准的校验,并生成检测报告,以供在模型上线前进行标准化修改;并在模型上线之后,对新增加的模型进行词汇解析,追加新的标准用语,形成标准对象校验->增加标准用语->标准对象校验的闭环管理。图3为本发明又一实施例提供的校验处理的方法的流程示意图。如图3所示,本发明实施例具体包括多个步骤:模型解析、分词处理、模型校验、输出校验报告、模型修改、提交和解析模型、模型训练以及模型上线。可理解为包括3个步骤:初始化、校验以及后续步骤。图4为本发明又一实施例提供的初始化阶段操作流程图。如图4所示,步骤1:选定标准化对象范围,一般是从行业专业用语词典,现有的数据仓库数据,wiki,各种专业书籍,资料中收集。收集到材料之后,会通过两种方式进行处理:对文本类资料直接进行分词查分,词频统计排序,然后根据词频顺序从高到低进过滤;对于现有的数据库数据信息,按照字段英文名和中文名拆分递归组合,排序,然后根据配对出现频次,现有的命名规范进行依次过滤修改。最后根据人工过滤之后对不同的词放入不同的数据字典、规则管理库和业务字典。其中,在对现有模型元数据信息进行经验匹配过程中,如图3所示,是获取所有模型的字段属性信息,进行单词拆分为一个个词素;然后递归对每个英文code和中文name和当前字段的字段类型三个部分拼接成一个字符串,并对所有拼接成的字符串作词频统计,统计出每组对应关系出现次数较多的数据作为经验配对标准;最后在经过人工检查后录入三个存储信息库(数据字典、规则管理库和业务字典)中。步骤2:完成初始化步骤后,可以上线运行标准校验程序。图5为本发明又一实施例提供的校验操作的部分实例图。图6为本发明又一实施例提供的校验操作的部分实例图。如图5和图6所示,当对一个新设计模型进行数据标准校验时,首先上传它的模型信息,包含表名,字段名,字段类型,字段描述等信息。然后【模型解析器】会对上传的模型进行解析,把每行数据解析成{origincode(字段名),name(字段描述),type(字段类型)}结构的json串结构;当模型全部解析完成后,会把json信息以及原生信息发送给【标准校验器】进行校验;当【标准校验器】接收到json串后,会逐行调用【分词组件】进行单词词素拆分,拆分之后,开始对每行数据进行校验工作。图7为本发明又一实施例提供的校验操作的流程示意图。如图7所示,整个校验过程会分经过三次判断:1.首先调用【数据字典】中的数据对原生信息做字段code/name匹配,查询是否有字段名或字段描述能够匹配,如果某一方匹配成功,则获取条信息对当前所要校验的其他数据做标准校验,如果不符合规范,则使用【数据字典】中的字段做备注标识;如果都没有匹配成功,则进入下一个判断。2.在经过【数据字典】后,第二个判断为查询json串中的词素是否在【规则管理库】中有元素能够对应,则取出本条规则对待校验json数据进行判断填充,如果没有找到元素对应,则进入下一个判断。3.在经过【规则管理库】判断后,会进入到【业务字典】中对json串中的词素进行查找匹配,如果存在匹配单词,则获取匹配单词对json数据中元素进行规范校验,对不满足的地方做标准填充备注,如果没有,则结束次轮校验,对本行数据校验结果暂存。当被校验模型所有字段都校验完毕时,获取所有暂存校验数据结果发送给【校验报告生成器】生成备注校验报告以及修改意见,返回给提交人。本轮模型校验结束。步骤3:完成线上模型校验后,根据校验报告对模型命名,结构做修改之后,可以进行再一次提交,点击“模型提交”,当前模型会进入词汇训练,单词提取,最终存储库维护人员可以把新增提取的标准用语词汇分类放入三个不同的字典库中,最终形成一个闭环校验管理,来逐步完成覆盖范围。本专利申请中有如下几项创新点:1.通过较少人工操作+软件程序实现了较高自动化程度的数据标准校验流程和方法。在启动之初采用多数据源,多种初始化方式进行标准对象范围的认定;并在系统上线后形成模型校验+标准用语词汇追加+模型校验的闭环工作方式不断对标准字典库进行扩展,使得该校验方法及校验系统的匹配覆盖度和校验程度不断提高。2.本发明的数据标准校验方式具有全面性,全面覆盖了数据仓库中实体名,实体属性名,表名,列名,指标名称等数据命名,数据定义,数据类型的校验。分别对标准化对象从词素,标准单词,标准用语,分类词,标准域,转换规则多方面,使用多个层次粒度的标准条件进行校验,以满足最大匹配程度以及校验准确率。3.本发明的数据标准校验方式具有较强的灵活性,根据数据标准化的不同情况,抽象为3种类别:数据字典,规则管理库,业务字典库。数据字典用于校验固定字段名的标准域校验,严格定义数据字段的名称,类型,描述以及数据范围;规则管理库用于对标准用语词汇的转换,对存在匹配成功,并且描述不规范的词汇直接转换成标准用语;业务字典用于对经过分词拆分的词素提供标准化命名参考意见。使用方可以根据不同的标准规范构建到不同的字典中,具有较大的独立性和灵活性。本实施例提供的校验处理的方法,为企业的数据仓库的建设的标准化实施提供了科学的方法、流程和实施方案;提高了数据仓库的建设质量,确保数据的正确性,维持企业模型的一贯性;并提高数据仓库开发生产性和管理效率,减少了重复无效劳动带来的资源,人力的浪费;降低企业数据仓库维护的运营成本。图8为本发明又一实施例提供的一种校验处理的装置的结构示意图。参照图8,在上述实施例的基础上,本实施例提供的校验处理的装置,所述装置包括获取模块81、校验模块82和修改模块83,其中:获取模块81用于获取待校验的数据仓库的模型,每一模型包括多个字段信息,所述字段信息包括字段定义和字段类型;校验模块82用于根据预先存储的数据字典,对所述字段信息进行校验,所述数据字典包括多个标准用语,每一标准用语包括标准定义和标准类型;修改模块83用于若所述字段定义与标准定义匹配且所述字段类型与标准类型不匹配,则将所述字段类型修改为与标准类型一致。可选地,一个数据仓库的构建可分为两步:首先,设计数据仓库的模型,其次将数据写入对应的模型(数据表)。在模型设计完成后,应用本发明实施例提供的装置,对该模型进行校验。校验处理的装置为搭载ibatis架构的计算机。ibatis是基于java的开放源代码项目,可自动化实现对象关系映射。可选地,获取模块81将至少一个设计完成的模型上传至校验处理的装置,每一模型包括多行数据。可选地,一个模型可理解为一张携带表头的数据表,数据表包括多行数据,每一行数据包括对应的字段信息。可选地,所述字段信息包括字段定义和字段类型,字段定义是对字段的意义的描述,可包括字段名和字段描述。字段类型是对字段的类型的描述,例如字段为double或int,其中,double是双精度浮点数,也就是字段可以是有小数点的数,int表示整型,也就是字段是整数。校验模块82根据预先存储的数据字典,对所述字段信息进行校验。可选地,预先创建数据字典,数据字典包括多个标准用语,每一标准用语是得到一致认可的,可以作为统一标准的规范用语。可选地,标准用语是从行业专业用语词典,历史的数据仓库的数据,wiki(维基百科),各种专业书籍,资料中收集得到的。可选地,标准用语包括标准定义和标准类型,所述标准定义是对一个字段的标准描述,标准类型是表示该字段可以使用的一个类型。例如标准定义为金额,预先创建的金额的标准类型double,确定标准类型是double后,金额则不使用int作为标准类型。可选地,针对模型的字段定义,查询数据字典的标准用语中是否存在与模型的字段定义匹配的标准定义。如果字段定义与标准用语的标准定义匹配成功,则针对模型的字段类型,查询标准用语中与模型的字段定义匹配的标准定义所对应的标准类型。如果模型的字段定义与标准定义一致,且字段类型与标准类型不一致,则修改模块83对模型进行备注,备注的内容为:字段类型与标准类型不一致,输出校验结果,校验结果包括所述备注。本发明实施例进行校验的过程中添加备注以提供修改建议,以供后续根据校验结果,执行修改,将字段类型修改为与标准类型一致。如果模型的字段定义与标准定义一致,且字段类型与标准类型一致,则说明该模型已符合规范,直接输出该字段信息的校验结果为成功。如果字段定义与标准用语的标准定义匹配不成功,则输出校验结果为失败。可以理解的是,通过预先创建数据字典,若每一个数据仓库在建模的时候,都应用本发明实施例的装置,根据数据字典进行校验,得到一致的、标准的数据表,那么后续在填充数据的时候,则可以直接填充至标准的数据表中。本实施例提供的校验处理的装置,可用于执行上述方法实施例的方法,本实施不再赘述。本实施例提供的校验处理的装置,校验模块根据标准用语对数据仓库的模型进行校验,在字段定义与标准定义匹配且字段类型与标准类型不匹配时,修改模块有针对性的将字段类型修改为与标准类型一致,从而得到标准的一致化的模型。图9示出了本发明又一实施例提供的一种电子设备的结构示意图。参阅图9,本发明实施例提供的电子设备,所述电子设备包括存储器(memory)91、处理器(processor)92、总线93以及存储在存储器91上并可在处理器上运行的计算机程序。其中,所述存储器91、处理器92通过所述总线93完成相互间的通信。所述处理器92用于调用所述存储器91中的程序指令,以执行所述程序时实现如图1的方法。在另一种实施方式中,所述处理器执行所述程序时实现如下方法:所述字段定义包括字段名和字段描述,所述标准定义包括标准名和标准描述,相应地,根据预先存储的数据字典,对字段信息进行校验的步骤具体为:若所述字段名与标准名匹配,则校验所述字段描述是否与标准描述一致,并校验字段类型是否与标准类型一致;或者;若所述字段描述与标准描述匹配,则校验所述字段名是否与标准名一致,并校验字段类型是否与标准类型一致。在另一种实施方式中,所述处理器执行所述程序时实现如下方法:若字段定义与标准定义匹配且字段类型与标准类型不匹配,则将字段类型修改为与标准类型一致的步骤之后,所述方法包括:如果字段定义与标准定义不匹配,则对每一字段信息进行数据预处理,得到多个词素;获取预先存储的规则管理库,所述规则管理库包括多个替换规则,每一替换规则包括修饰词和分类词;如果词素与修饰词匹配,则判断是否存在所述词素的分类词;如果不存在,则将所述词素替换为所述词素和对应的分类词。在另一种实施方式中,所述处理器执行所述程序时实现如下方法:如果字段定义与标准定义不匹配,则对每一字段信息进行数据预处理,得到多个词素的步骤具体为:对每一字段信息进行解析,生成对应的json字符串;针对每一json字符串,进行分词处理,得到多个词素。在另一种实施方式中,所述处理器执行所述程序时实现如下方法:所述词素包括中文词素和/或英文词素,相应地,若词素与修饰词匹配,则判断是否存在所述词素的分类词的步骤之后,所述方法包括:如果词素与修饰词不匹配,则获取预先存储的业务字典,所述业务字典包括多个业务用语,每一业务用语包括中文用语和英文用语;如果中文词素与中文用语匹配且所述词素中不存在对应的英文用语,则备注所述中文词素,以供增加所述中文词素的英文用语;如果英文词素与英文用语匹配且所述词素中不存在英文用语对应的中文用语,则备注所述英文词素,以供增加所述英文词素的中文用语。在另一种实施方式中,所述处理器执行所述程序时实现如下方法:所述词素包括中文词素和/或英文词素,相应地,将所述词素替换为所述词素和对应的分类词的步骤之后,所述方法包括:获取预先存储的业务字典,所述业务字典包括多个业务用语,每一业务用语包括中文用语和英文用语;如果中文词素与中文用语匹配且所述词素中不存在对应的英文用语,则备注所述中文词素,以供增加所述中文词素的英文用语;如果英文词素与英文用语匹配且所述词素中不存在英文用语对应的中文用语,则备注所述英文词素,以供增加所述英文词素的中文用语。在另一种实施方式中,所述处理器执行所述程序时实现如下方法:若字段定义与标准定义匹配且字段类型与标准类型不匹配,则将字段类型修改为与标准类型一致的步骤之后,所述方法包括:如果字段定义与标准定义不匹配,则对所述字段定义进行训练;若满足预设的条件,则将所述字段定义作为标准定义。本实施例提供的电子设备,可用于执行上述方法实施例的方法对应的程序,本实施不再赘述。本实施例提供的电子设备,通过所述处理器执行所述程序时实现根据标准用语对数据仓库的模型进行校验,在字段定义与标准定义匹配且字段类型与标准类型不匹配时,有针对性的将字段类型修改为与标准类型一致,从而得到标准的一致化的模型。本发明又一实施例提供的一种存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现如图1的步骤。在另一种实施方式中,所述程序被处理器执行时实现如下方法:所述字段定义包括字段名和字段描述,所述标准定义包括标准名和标准描述,相应地,根据预先存储的数据字典,对字段信息进行校验的步骤具体为:若所述字段名与标准名匹配,则校验所述字段描述是否与标准描述一致,并校验字段类型是否与标准类型一致;或者;若所述字段描述与标准描述匹配,则校验所述字段名是否与标准名一致,并校验字段类型是否与标准类型一致。在另一种实施方式中,所述程序被处理器执行时实现如下方法:若字段定义与标准定义匹配且字段类型与标准类型不匹配,则将字段类型修改为与标准类型一致的步骤之后,所述方法包括:如果字段定义与标准定义不匹配,则对每一字段信息进行数据预处理,得到多个词素;获取预先存储的规则管理库,所述规则管理库包括多个替换规则,每一替换规则包括修饰词和分类词;如果词素与修饰词匹配,则判断是否存在所述词素的分类词;如果不存在,则将所述词素替换为所述词素和对应的分类词。在另一种实施方式中,所述程序被处理器执行时实现如下方法:如果字段定义与标准定义不匹配,则对每一字段信息进行数据预处理,得到多个词素的步骤具体为:对每一字段信息进行解析,生成对应的json字符串;针对每一json字符串,进行分词处理,得到多个词素。在另一种实施方式中,所述程序被处理器执行时实现如下方法:所述词素包括中文词素和/或英文词素,相应地,若词素与修饰词匹配,则判断是否存在所述词素的分类词的步骤之后,所述方法包括:如果词素与修饰词不匹配,则获取预先存储的业务字典,所述业务字典包括多个业务用语,每一业务用语包括中文用语和英文用语;如果中文词素与中文用语匹配且所述词素中不存在对应的英文用语,则备注所述中文词素,以供增加所述中文词素的英文用语;如果英文词素与英文用语匹配且所述词素中不存在英文用语对应的中文用语,则备注所述英文词素,以供增加所述英文词素的中文用语。在另一种实施方式中,所述程序被处理器执行时实现如下方法:所述词素包括中文词素和/或英文词素,相应地,将所述词素替换为所述词素和对应的分类词的步骤之后,所述方法包括:获取预先存储的业务字典,所述业务字典包括多个业务用语,每一业务用语包括中文用语和英文用语;如果中文词素与中文用语匹配且所述词素中不存在对应的英文用语,则备注所述中文词素,以供增加所述中文词素的英文用语;如果英文词素与英文用语匹配且所述词素中不存在英文用语对应的中文用语,则备注所述英文词素,以供增加所述英文词素的中文用语。在另一种实施方式中,所述程序被处理器执行时实现如下方法:若字段定义与标准定义匹配且字段类型与标准类型不匹配,则将字段类型修改为与标准类型一致的步骤之后,所述方法包括:如果字段定义与标准定义不匹配,则对所述字段定义进行训练;若满足预设的条件,则将所述字段定义作为标准定义。本实施例提供的存储介质,所述程序被处理器执行时实现上述方法实施例的方法,本实施不再赘述。本实施例提供的存储介质,根据标准用语对数据仓库的模型进行校验,在字段定义与标准定义匹配且字段类型与标准类型不匹配时,有针对性的将字段类型修改为与标准类型一致,从而得到标准的一致化的模型。本发明又一实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取待校验的数据仓库的模型,每一模型包括多个字段信息,所述字段信息包括字段定义和字段类型;根据预先存储的数据字典,对所述字段信息进行校验,所述数据字典包括多个标准用语,每一标准用语包括标准定义和标准类型;若所述字段定义与标准定义匹配且所述字段类型与标准类型不匹配,则将所述字段类型修改为与标准类型一致。本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。本领域技术人员可以理解,实施例中的各步骤可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1