一种基于数据校验技术的数据质量测评系统及方法_3

文档序号:9787640阅读:来源:国知局
!、SC^±f陣、暖、SC?p生、SC赂猶生、SC删|生、SC纖f生。
[0094] S(l__=(医疗机构实际上传业务项数目/医疗机构应上传业务项数目)X 100
[0095] 考虑到每家医疗机构的类型、规模、等级等因素,可以上传的业务数据范围也是不 同的,例如三甲医院应该上传的业务要比二甲医院、社区服务中心等范围广,不能要求这些 医疗机构都按照三甲医院的业务数据范围上传数据,因此需要为每个医疗机构配置本医疗 机构应该上传的业务数据范围,计算得分时,也需要根据该业务数据范围进行计算。
[0096] 勝5=实际上报数据量/应上报数据量X 100
[0097] SG|?j:_t= (XX文档1饱和度+XX文档2饱和度+……)/文档个数
[0098] XX数据饱和度=(XX数据物理表1饱和度+XX数据物理表2饱和度)/XX数据物理表 个数,其中,一个文档为一条数据,物理表是存储各数据的数据表。
[0099]物理表饱和度=(A字段填写数+B字段填写数+……)+ (必填字段1填写数+必填字 段2填写数)/(所有字段*数据量+必填字段总数*数据量)
[0100]考虑到必填字段的重要性,在计算物理表饱和度时,按照上述计算公式,必填字段 相当于被计算两遍。也就说,必填字段没填,则扣分多。这样防止机构接入时只将非必填字 段上传,影响后面的展现和综合统计。
[0101] SQ?tt=(XX文档1规范性+XX文档2规范性+……)/文档个数
[0102] XX数据规范性=(XX数据物理表1规范性+XX数据物理表2规范性)/XX数据物理表 个数
[0103] 物理表规范性=(A字段A1规则正确数据量+A字段A2规则正确数据量+B字段B1规 则正确数据量+……+X字段非"其他"值域数据量+Y字段非"其他"值域数据量)/(规则总数 X数据量),其中的A1规则、A2规则、B1规则等为数据规范性校验规则。
[0104] S C业#^联性=(业务关联指标1得分+业务关联指标2得分+业务关联指标3得分 +……)/业务关联指标总数
[0105 ]业务关联指标1得分=(能关联数据量/总数据量)* 100
[0106] SQa?= (XX文档1及时性+XX文档2及时性+……)/文档个数
[0107] XX文档1及时性=(XX文档物理表1及时性+XX文档物理表2及时性)/xx文档物理表 个数
[0108] XX文档物理表1及时性(平均差异天数)= ((第一条业务数据的上传日期-业务日 期)+(第二条业务数据的上传日期-业务日期)+……)/总数据条数
[0109] SC连续性= (XX文档1连续性+XX文档2连续性+……)/文档个数
[0110] XX文档1连续性=xx文档1指定的物理表的连续性
[0111] 数据质量指标SCi与评价指标运算项匕间存在映射的关联关系,多个Ci彼此逻辑计 算值对应某一 SCi。
[0112] 在本实施例中,以SC*?质量监控指标为例,其指标中包括"XX文档1规范性"和"文 档个数"两类指标项:
[0114]而二者与数据校验数据QG间又存在关联关系:
[0117] 对两类数据指标的定义,以及两类数据指标关联关系的定义。校验指标QG可定义 为一级指标,质量评价指标SQ可定义为二级指标。一级指标用于定义医疗业务数据中某数 据区域中数据的特征,通过校验指标映射医疗业务数据;二级指标用于定义医疗业务数据 质量关键指标,通过质量评价指标映射校验指标。其映射结构如图9所示。
[0118] 上述质量评价指标SQ与校验指标QG的定义将以XML结构的形式存储在文件中校 验规则、校验指标和权重表文件中。校验规则文件结构与校验指标文件结构、校验规则结 构、指标权重彼此关联,共同定义并描述了校验指标向数据质量评价利用过程。彼此关联结 构如图10所示。
[0119] 校验规则文件内部结构使用XML树形元素结构,对表级校验及字段级校验的两类 校验规则进行定义。其中,表级校验包括数据重复校验和数据关联校验,用于校验数据表间 业务逻辑的正确性;字段级校验包括非空校验、正则校验和值域校验,用于校验数据字段内 数据内容的正确性。
[0120] 校验指标文件内部结构使用XML树形元素结构,其内部定义了一系列校验指标 QQ,这些校验指标是对校验规则的组合和封装,是在实际业务中关注的关键业务指标项。 校验指标(^^彼此间存在的关联关系,使用指标关联逻辑部分进行描述。同时,在校验指标 文件结构内部也定义了其与校验规则结构文件中定义校验规则的映射关系,其映射关系描 述了数据校验指标对实际数据校验规则的定义和利用情况。
[0121] 质量评价指标文件结构内部使用XML树形元素结构,其内部定义了一系列质量评 价指标SG,这些质量评价指标是对校验指标的组合和封装,是在实际业务中关注的业务数 据质量关键指标项。3(^彼此间存在的关联关系,使用指标关联逻辑部分进行描述。在质量 评价指标文件内部结构也定义了其与校验指标文件中定义校验指标的映射关系,其映射关 系描述了校验指标对实际校验指标的定义和利用情况。同时,在定义质量评价指标权重的 过程中,通过在质量评价指标中引用权重表来定义该指标在不用分析背景下的综合质量评 价指标。
[0122] 步骤3-2、质量评价引擎模块载入数据质量评价规则文件,根据定义的质量评价规 贝1J,对某一类业务数据中某一质量评价指标计算其质量评价值;
[0123] 步骤3-2-1、数据质量评价引擎载入数据质量权重规则文件,加载各质量评价指标 的权重值;
[0124] 步骤3-2-2、数据质量评价引擎载入步骤3-1映射后的某一类数据质量评价指标集 合;
[0125] 步骤3-2-3:给该类业务数据各质量评价指标分派权重值,并计算质量评价值;
[0126] 步骤3-3、根据各质量评价指标的权重对该类业务数据的质量评价指标进行综合 评分得到质量评价结果;
[0127] 在本实施方式中,数据质量评价单元的质量评价结果是基于数据质量评价算法得 到的,其计算的过程依赖于质量评价指标与校验指标间的映射匹配关系。
[0128] 对类业务数据的质量评价指标进行综合评分得到质量评价结果,过程如下:
[0129]首先,根据数据质量属性将质量评价指标分成η元组,即S= {SQi,SQ2,SQ3"_SQn}, 其中SQiX可分成m元组评价指标运算项集合:{Cn,C12,…,Clm},同理,可以将SQ 2,SQ3…SQn 进行分组,使用这些分组后的二级评价指标对数据质量进行评价决策,其中对表1的评价指 标运算项与数据校验项进行匹配,对校验结果进行分项评分,并将分项评分的结果根据二 级评价指标规则定义进行综合评判。
[0130]表1质量评价指标与评价指标运算项的映射关系
[0132]接下来确定评价用词集。对于用户反馈信息相关的质量评价指标,主要通过对数 据结果的满意程度来形容数据质量的优劣。最常见的方式是用户对各个影响因素打分,将 满意程度分为若干等级,用户选择对某项质量评价指标的满意程度的等级。将满意程度等 级分为[A]非常满意、[B]满意、[C]一般、[D]差、[E]很差五个等级。如表2所示,这些评价标 准等级称为评语集。
[0133]表2数据质量评语集
[0136] 最后,确定模糊矩阵M。
[0137] 评价矩阵Ai表示用户对一级评价指标i的满意度,它由五元组构成:Ai = (λη,λ?2, λ?3,λ?4,λ?5) 〇
[0138] 评价矩阵表示用户对一级评价指标i对应的二级评价指标j的满意度,它由五元 会且构成:Bij - (α」ι,α」2,α」3,α」4,α」5) 〇
[0139] 其中,下标k = 1,2,3,4,5分别对应评语集中的A、B、C、D、E五个等级,Aik是对一级评 价指标i选择各满意程度等级的用户所占的比例;是对一级评价指标i对应的二级评价指 标j选择各满意程度等级的用户所占的比例。
[0140]数据质量评价算法具体步骤:
[0141] (1)经过对数据特征进行分析后,基于一级评价指标得到其所属二级评价矩阵
[0142] Βιι=(αιι,α?2,α?3,α?4,
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1