基于上下文对数据集进行数据质量评估的设备及方法

文档序号:10687747阅读:690来源:国知局
基于上下文对数据集进行数据质量评估的设备及方法
【专利摘要】本发明提供了一种基于上下文对数据集进行数据质量评估的设备及方法。该方法包括:获取待评估的数据集以及与之对应的领域上下文;根据数据集和领域上下文,选择用于评估数据质量的评估度量;抽样数据集,确定待评估数据子集;根据待评估数据子集、评估度量和领域上下文,计算基于评估度量所得到的评估结果;以及对评估结果进行聚合和排序,以获得数据集的评估结果。相比于现有技术,本发明根据所获得的领域上下文和用户所选择的评估度量,对数据集抽样得到的数据子集进行评估,充分反映了用户需求,能够全面客观对数据集进行评估,并且获得直观且可对比的评估结果。
【专利说明】
基于上下文对数据集进行数据质量评估的设备及方法
技术领域
[0001]本发明涉及一种数据质量评估技术,尤其涉及一种基于上下文对数据集进行数据质量评估的设备及方法。【背景技术】
[0002]随着大数据技术的成熟和发展,大数据在在商业上的应用越来越广泛,有关大数据的交互、整合、交换甚至交易也日益增多。尽管当前大数据存储和挖掘技术已经逐步成熟,但“数据孤岛”的大量存在,制约了数据的流通和变现。唯有对数据的质量进行评估,对数据进行合理定价,实现大数据交易,才能打破行业信息壁皇,优化和提高生产效率,深度推进产业创新。
[0003]在数据交易领域中,数据作为商品进行买卖。数据是一种逻辑实体,具有抽象性, 必须通过运行、观察、分析、思考、判断才能够了解数据的功能、性能及其他特性。此外,数据具有明显的非可视特征。因此,数据交易领域对数据进行评价的最重要指标是对数据质量的评估。现有数据质量评估的研究通常分为三类:(1)面向特定领域或特定来源的数据,质量评估针对某个企业或是某个组织机构,例如,中国专利申请号为201310714474.8、发明名称为电动汽车充换电站火灾风险数据评估方法揭示了一种针对电动汽车充换电站的特定来源数据进行数据质量评估的技术内容;(2)针对通用领域的特定问题的研究,专注于发现某个新的度量,如与数据复杂度相关的度量,或是集中于某个度量的自动计算方法,如错误率等;(3)面向通用的数据质量框架的研究,例如:IS08000的数据质量标准。现有的研究中无法解决面向大数据交易平台中的数据来源复杂,涉及领域广泛的数据质量的评估问题。
[0004]此外,数据质量评估与应用场景的相关程度高,脱离于应用场景的质量评估,无法满足交易平台未来数据买方的需要。但是,完全依赖于特定需求与用户喜好的质量评估,又具有过强的主观性,丧失了质量的客观性。从质量定义角度,ISO 8000引用了IS09000:2005 的定义“多大程度满足需求的内部特征集合(Degree to which a set ofinherent characteristic fulfills requirements)”。学界也普遍认可了“高质量的数据应该是能充分满足用户使用要求的数据”这一观点。现有技术中,在《计算机技术与发展》2011年第1 期上发表的论文《面向企业信息化的数据质量评估研究》中,通过引入S0A上下文的可重用服务思想,设计了一种数据质量评估的服务框架,基于该框架对输入输出、流程管理、自动化评估等服务进行了阐述,并使用Web Services服务组件的形式实现了所有的功能需求。 此外,在《计算机科学》2014年11期的论文《基于事实抽取的Web文档内容数据质量评估》中, 提出了基于事实的质量评估方法(Fact-based Quality Assessment,FQA),在Web上构建目标文档上下文,并抽取Web文档内容的事实;然后分别采用投票和图迭代策略,构建准确性和完整性维度的参照;最后,比对目标文档和维度参照的事实,量化准确性和完整性。但是, 现有的上述数据质量评估技术仍然有待进一步提高和改善。
【发明内容】

[0005]针对现有技术中的数据质量评估设备所存在的上述缺陷,本发明提供了一种基于上下文对数据集进行数据质量评估的设备及方法。
[0006]依据本发明的一个方面,提供了一种计算机实现的基于上下文对数据集进行数据质量评估的方法,包括以下步骤:
[0007]获取待评估的数据集以及与所述数据集相对应的领域上下文;
[0008]根据所述数据集和所述领域上下文,选择用于评估数据质量的评估度量;
[0009]抽样所述数据集,确定待评估数据子集;
[0010]根据所述待评估数据子集、所述评估度量和所述领域上下文,计算基于所述评估度量所得到的评估结果;以及
[0011]对所述评估结果进行聚合和排序,以获得所述数据集的评估结果。
[0012]在其中的一实施例,于抽样所述数据集的步骤与计算评估结果的步骤之间,该方法还包括步骤:采用模式对齐库对所述待评估数据子集和所述领域上下文进行模式对齐。
[0013]在其中的一实施例,采用层次抽样法、系统抽样法或随机抽样法对所述数据集进行抽样以确定所述待评估数据子集。
[0014]在其中的一实施例,根据所述待评估数据子集、所述评估度量和所述领域上下文计算所述评估结果采用以下至少一种方式:
[0015]-根据所述评估度量的定义直接计算;
[0016]-根据所述评估度量的度量公式进行自动检测;
[0017]-人工评估。
[0018]在其中的一实施例,根据所述评估度量的度量公式进行自动检测包括:定义所述待评估数据子集的字段约束或字段之间约束的模板;根据所述待评估数据子集的具体数据对所定义的模板进行实例化,生成用于在所述待评估数据子集进行查询的测试用例;执行所述测试用例得到查询结果,所述查询结果返回错误数据;以及根据所述错误数据和所述评估度量的度量公式,计算所述评估结果。
[0019]在其中的一实施例,采用人工评估方式计算所述评估结果包括:根据所述待评估数据子集和所述评估度量,将评估任务随机分配给N名评估人员,N为大于或等于3的奇数; 根据所述待评估数据子集的大小设置一评估期间,获取所述评估人员在所述评估期间内的各自评估结果;根据所述各自评估结果校正评估结果中的偏差,得到经校正后的评估结果; 以及根据校正后的所述评估结果,计算平均值从而获得基于所述评估度量的评估结果。
[0020]依据本发明的另一个方面,提供了一种基于上下文对数据集进行数据质量评估的设备,包括:
[0021]展示模块,用于获取待评估的数据集以及与所述数据集相对应的领域上下文;
[0022]选择模块,用于根据所述数据集和所述领域上下文,选择用于评估数据质量的评估度量;[〇〇23]抽样模块,用于抽样所述数据集,确定待评估数据子集;
[0024]计算模块,用于根据所述待评估数据子集、所述评估度量和所述领域上下文,计算基于所述评估度量得到的评估结果;以及
[0025]聚合排序模块,用于对所述评估结果进行聚合和排序,以获得所述数据集的评估结果。
[0026]在其中的一实施例,所述设备还包括模式对齐模块,用于根据模式对齐库对所述待评估数据子集和所述领域上下文进行模式对齐,得到对齐后的待评估数据子集。
[0027]在其中的一实施例,所述计算模块采用以下至少一种方式计算所述评估结果:
[0028]-根据所述评估度量的定义直接计算;[〇〇29]-根据所述评估度量的度量公式进行自动检测;
[0030]-人工评估。
[0031]在其中的一实施例,所述领域上下文包括上下文名称、参考模式、参考数据集、字典数据集、用例集和度量聚合库。
[0032]相比于现有技术,本发明的基于上下文的数据质量评估设备和方法根据所获得的领域上下文和用户所选择的评估度量,对数据集抽样得到的数据子集进行评估,充分反映了用户需求,能够全面客观对数据集进行评估,并且获得直观且可对比的评估结果。
[0033]根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。【附图说明】
[0034]读者在参照附图阅读了本发明的【具体实施方式】以后,将会更清楚地了解本发明的各个方面。其中,
[0035]图1示出依据本发明的一实施方式,基于上下文对数据集进行数据质量评估的方法的流程框图;
[0036]图2示出采用图1的数据质量评估方法的一较佳实施例;[〇〇37]图3A示出图1的数据质量评估方法中,根据待评估数据子集、评估度量和领域上下文计算评估结果的第一实施例;[〇〇38]图3B示出图1的数据质量评估方法中,根据待评估数据子集、评估度量和领域上下文计算评估结果的第二实施例;以及
[0039]图4示出依据本发明的另一实施方式,基于上下文对数据集进行数据质量评估的设备的结构框图。【具体实施方式】
[0040]为了使本申请所揭示的技术内容更加详尽与完备,可参照附图以及本发明的下述各种具体实施例,附图中相同的标记代表相同或相似的组件。然而,本领域的普通技术人员应当理解,下文中所提供的实施例并非用来限制本发明所涵盖的范围。此外,附图仅仅用于示意性地加以说明,并未依照其原尺寸进行绘制。
[0041]下面参照附图,对本发明各个方面的【具体实施方式】作进一步的详细描述。[〇〇42]图1示出依据本发明的一实施方式,基于上下文对数据集进行数据质量评估的方法的流程框图。
[0043]参照图1,在该实施方式中,本发明的基于上下文对数据集进行数据质量评估的方法透过步骤S110?步骤S150予以实现。
[0044]详细而言,首先执行步骤S110和S120,获取待评估的数据集以及与数据集相对应的领域上下文,然后根据数据集和领域上下文来选择用于评估数据质量的评估度量。例如,在获得相应的领域上下文/应用上下文时,如果系统缺乏与评估者需求相一致的上下文,则自定义该上下文;如果系统与评估者需求基本一致,则在已有的上下文基础上根据用户需求进行客户化。之后,根据领域上下文和待评估的数据集选择评估度量。
[0045]在本发明实施例中,数据集是指待评估的数据集,包括但不只局限于关系数据库。例如,待评估的数据集还可以是知识库等。评估度量是用户拟评估数据集的数据质量的度量指标。评估度量包括各质量维度的具体度量指标。例如,评估维度可以是丰富度、准确性、完整性、一致性、及时性、可用性、数据服务访问性能、可查询性、信息性等。进一步,丰富度又可分为数据大小、模式大小或是类层次的深度等子维度,而数据大小子维度的度量指标包括表的数量、实例数量、主实体记录数量、事实数量等。领域上下文包括上下文名称、参考模式、参考数据集、字典数据集、用例的集合和度量聚合库。上下文的名称说明上下文所属的领域;参考模式包括该领域的数据的标准模式,对数据应该包括哪些字段并且这些字段有哪些约束进行说明;参考数据集包括该领域的样例数据集,是一组质量较好的示例集合;数据字典包括该领域的标准字典库;用例集包括用于计算使用质量的测试用例;度量聚合库包括用于度量的权重,说明各度量的重要程度,即度量之间的权重值。
[0046]接着,执行步骤S130,抽样数据集以确定待评估数据子集。即,利用数据抽样方法将大数据集抽样构造出一个适合评估的数据子集,后续在这个数据子集上进行度量计算。较佳地,采用层次抽样法、系统抽样法或随机抽样法对数据集进行抽样。其中,层次抽样法是将数据集按照某种特征分成若干层,确定各层的总体数据容量,从每一层内抽取一定数量的观察数据,然后将每层抽取的观察数据组合形成样本。系统抽样法是将数据等分成η个部分(η为总体数据量/样本量),然后从第一部分随机抽第k号观察单位,依次用相等间隔,机械地从每一部分各抽取一个观察单位组成样本。随机抽样法是遵循随机的原则,采用不放回抽取方法,从总体中随机抽取所需数量的观察单位组成样本。
[0047]然后,执行步骤S140,根据待评估数据子集,评估度量和领域上下文计算基于评估度量得到的评估结果。在本发明的不同实施例中,计算得到评估结果可以根据评估度量的定义直接计算;或者根据评估度量的度量公式进行自动检测;或者采用人工评估方法。在下文中,将结合图3A和图3B进行详细说明。
[0048]最后,执行步骤S150,根据每个评估度量的评估结果聚合和排序,获得数据集的评估结果。例如,当所有已选择的评估度量计算完成之后,数据子集在每个评估度量上都有一个百分制的评分,然后将所有的评分聚合成一个最终的数据质量评分,并将数据集按照评分进行排序。较佳地,聚合排序包括三种方式,其一是按照领域上下文中由领域专家设定的评分标准;其二是由数据评估者自己设定各个评估度量的权重;其三是使用机器学习的方法,基于上下文中各个维度的重要程度学习出权重。
[0049]图2示出采用图1的数据质量评估方法的一较佳实施例。将图2与图1进行比较,在该实施例中,其主要区别是在于,在步骤S130与步骤S140之间增加了步骤S160,采用模式对齐库对待评估数据子集和领域上下文进行模式对齐。即,模式对齐待评估数据子集和领域上下文,根据模式对齐库中的字段映射关系,查找待评估数据子集和领域上下文,将存在映射关系的字段设置为同一字段。
[0050]在此,模式对齐库的构建过程如下:构建同义词库,其包括中文同义词库、英文同义词库、中英文对照库。当数据供应商提供的数据模式包含拼音或者拼音首字母时,还需要数据供应商提供对应的中文全称并添加到同义词库中;利用同义词库,将两个数据集模式中的字段都用统一的中文表示,然后计算两个模式中字段的字符相似度和字段对应的约束的相似度(如值域的相似度,数据类型的相似度等);根据计算的相似度,找出两个模式的字段之间相似度高的字段对,构建出两个模式字段之间的映射;由领域专家对构建的映射进行审核和补充,剔除错误的映射关系,获得模式对齐库。
[0051]由上述可知,根据已经构建的模式对齐库将待评估数据子集和领域上下文对齐,可获得更准确的数据集和领域上下文,以确保相同含义不同名称的字段对应的数据有效且准确地进行评估。
[0052]图3A示出图1的数据质量评估方法中,根据待评估数据子集、评估度量和领域上下文计算评估结果的第一实施例;
[0053]参照图3A,根据评估度量的度量公式,利用错误数据进行自动检测时,统计待评估数据子集中不满足度量要求的数据,计算待评估数据子集的评估结果。该自动检测方法通过步骤S210?步骤S240实现,主要包括模板定义、模板实例化、执行查询得到错误数据与计算评估结果。具体地,
[0054]在步骤S210中,定义模板一一定义待评估数据子集的字段约束或者字段之间约束的模板,如值域模板、比较模板、正则模板等。其中,值域模板说明某一字段的值应该在某一个范围内,比如人的性别是男或女;比较模板说明一条记录中的某一个字段值和另外一个字段值的大小关系,比如人的死亡日期要晚于其出生日期);
[0055]在步骤S220中,模板实例化一一根据待评估数据子集中的具体数据对所定义的模板进行实例化,生成可在待评估数据子集上进行查询的测试用例(SQL查询)。在此,对模板进行实例化生成测试用例有多种方式,包括:利用数据集中的模式来自动生成测试用例;或者,由领域专家选择相应的模板,然后依据对数据集的了解对模板实例化,生成测试用例;或者,由领域专家书写出模板,然后对模板实例化,得到测试用例;
[0056]在步骤S230中,执行查询得到错误数据一一根据待评估数据子集执行测试用例得到查询结果,该查询结果返回错误数据。例如,执行每一个测试用例有两种不同的结果:没有结果返回(正确),如果有返回结果说明存在错误的数据,并得到错误数据;
[0057]在步骤S240中,计算评估结果一一根据错误数据和评估度量的度量公式,计算基于该评估度量的评估结果。
[0058]图3B示出图1的数据质量评估方法中,根据待评估数据子集、评估度量和领域上下文计算评估结果的第二实施例。
[0059]参照图3B,人工评估处理是根据评估度量和待评估数据子集,进行人工评估处理,根据人工评估的评估结果,计算基于评估度量的评估结果。采用人工评估方式可通过步骤S310?步骤S340实现,主要包括任务分配、获取人工评估结果、校正评估结果偏差和计算评估结果。具体地,
[0060]在步骤S310中,任务分配一一根据待评估数据子集和评估度量,将评估任务随机分配给多名评估人员。例如,评估人员的数量大于或等于3名,且评估人员数为奇数;
[0061]在步骤S320中,获取人工评估结果一一根据待评估数据子集的大小设置评估期间,诸如限定时间期间为4小时、8小时、24小时或48小时,在该时间内获取评估人员各自的评估结果。若超出时间范围,该评估人员的评估任务取消;
[0062]在步骤S330中,校正评估结果偏差一一根据评估结果校正评估结果中的偏差,得到校正后的评估结果。如果评估结果中出现不一致的情况,即各评估结果的偏差大于或等于0.15时,则返回步骤S310重新进行任务分配;
[0063]在步骤S340中,计算评估结果一一根据校正后的评估结果,计算平均值从而获得基于评估度量的评估结果。
[0064]本领域的技术人员应当理解,在一些实施例中,还可采用图3A和图3B之外的其他计算评估结果的方式,例如直接计算方式一一根据待评估数据子集和评估度量的定义直接计算获得该度量的评估结果。在度量的计算过程中,有些度量可以直接进行计算,例如表的数量、实体的数量都直接通过计算机进行统计即可。此外还可将直接计算方式、自动检测方式和人工评估方式综合运用。
[0065]图4示出依据本发明的另一实施方式,基于上下文对数据集进行数据质量评估的设备的结构框图。
[0066]参照图4,在该实施方式中,基于上下文对数据集进行数据质量评估的设备包括展示模块、选择模块、抽样模块、计算模块和聚合排序模块。
[0067]其中,展示模块和选择模块既可独立设置,也可集成于同一功能模块,用于获取待评估的数据集以及与之对应的领域上下文,然后根据数据集和领域上下文选择用于评估数据质量的评估度量。此外,如图4所示,展示模块还可提供输入待评估数据集、评估度量和用户配置参数的界面,并显示接收到的评估结果及分析图表,以及提供领域上下文的输入和显示界面。这里,领域上下文包括上下文名称、参考模式、参考数据集、数据字典、度量聚合库和用例库。
[0068]抽样模块针对展示模块获得的待评估数据集进行抽样处理,从而得到待评估数据子集。计算模块与抽样模块相连,用于根据待评估数据子集、评估度量和领域上下文,计算基于评估度量得到的评估结果。聚合排序模块用于对评估结果进行聚合和排序,以获得数据集的评估结果。
[0069]相比于现有技术,本发明的基于上下文的数据质量评估设备和方法根据所获得的领域上下文和用户所选择的评估度量,对数据集抽样得到的数据子集进行评估,充分反映了用户需求,能够全面客观对数据集进行评估,并且获得直观且可对比的评估结果。
[0070]上文中,参照附图描述了本发明的【具体实施方式】。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的【具体实施方式】作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。
【主权项】
1.一种计算机实现的基于上下文对数据集进行数据质量评估的方法,其特征在于,该 方法包括以下步骤:获取待评估的数据集以及与所述数据集相对应的领域上下文;根据所述数据集和所述领域上下文,选择用于评估数据质量的评估度量;抽样所述数据集,确定待评估数据子集;根据所述待评估数据子集、所述评估度量和所述领域上下文,计算基于所述评估度量 所得到的评估结果;以及对所述评估结果进行聚合和排序,以获得所述数据集的评估结果。2.如权利要求1所述的方法,其特征在于,在抽样所述数据集的步骤与计算评估结果的 步骤之间,该方法还包括步骤:采用模式对齐库对所述待评估数据子集和所述领域上下文进行模式对齐。3.如权利要求1所述的方法,其特征在于,采用层次抽样法、系统抽样法或随机抽样法 对所述数据集进行抽样以确定所述待评估数据子集。4.如权利要求1所述的方法,其特征在于,根据所述待评估数据子集、所述评估度量和 所述领域上下文计算所述评估结果采用以下至少一种方式:-根据所述评估度量的定义直接计算;-根据所述评估度量的度量公式进行自动检测;-人工评估。5.如权利要求4所述的方法,其特征在于,根据所述评估度量的度量公式进行自动检测 包括:定义所述待评估数据子集的字段约束或字段之间约束的模板;根据所述待评估数据子集的具体数据对所定义的模板进行实例化,生成用于在所述待 评估数据子集进行查询的测试用例;执行所述测试用例得到查询结果,所述查询结果返回错误数据;以及 根据所述错误数据和所述评估度量的度量公式,计算所述评估结果。6.如权利要求4所述的方法,其特征在于,采用人工评估方式计算所述评估结果包括: 根据所述待评估数据子集和所述评估度量,将评估任务随机分配给N名评估人员,N为大于或等于3的奇数;根据所述待评估数据子集的大小设置一评估期间,获取所述评估人员在所述评估期间 内的各自评估结果;根据所述各自评估结果校正评估结果中的偏差,得到经校正后的评估结果;以及 根据校正后的所述评估结果,计算平均值从而获得基于所述评估度量的评估结果。7.—种基于上下文对数据集进行数据质量评估的设备,其特征在于,所述设备包括:展示模块,用于获取待评估的数据集以及与所述数据集相对应的领域上下文;选择模块,用于根据所述数据集和所述领域上下文,选择用于评估数据质量的评估度 量;抽样模块,用于抽样所述数据集,确定待评估数据子集;计算模块,用于根据所述待评估数据子集、所述评估度量和所述领域上下文,计算基于 所述评估度量得到的评估结果;以及聚合排序模块,用于对所述评估结果进行聚合和排序,以获得所述数据集的评估结果。8.如权利要求7所述的设备,其特征在于,所述设备还包括模式对齐模块,用于根据模 式对齐库对所述待评估数据子集和所述领域上下文进行模式对齐,得到对齐后的待评估数 据子集。9.如权利要求7或8所述的设备,其特征在于,所述计算模块采用以下至少一种方式计 算所述评估结果:-根据所述评估度量的定义直接计算;-根据所述评估度量的度量公式进行自动检测;-人工评估。10.如权利要求7所述的设备,其特征在于,所述领域上下文包括上下文名称、参考模 式、参考数据集、字典数据集、用例集和度量聚合库。
【文档编号】G06F17/30GK106056287SQ201610388931
【公开日】2016年10月26日
【申请日】2016年6月3日
【发明人】阮彤, 申翔宇, 叶琪, 李阳, 赵亮
【申请人】华东理工大学, 上海数据交易中心有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1