基于总体数据质量的主题数据集过滤与排序方法及系统与流程

文档序号:11918973阅读:237来源:国知局
本发明属于数据集搜索与过滤、Web数据目录与元数据、数据质量管理等
技术领域
:的交叉领域,涉及一种基于总体数据质量的主题数据集过滤技术,尤其是一种基于总体数据质量的主题数据集过滤与排序方法及系统。
背景技术
::数据是当今世界能创造巨大价值的重要资源,而万维网(WorldWideWeb,简称Web)已成为数据发布、使用、消费的主流平台。各种持有大量数据集(dataset)的数据目录(datacatalog/catalogue)在Web上集中发布,形成一个个所谓的数据目录门户(datacatalogportal)或简称为数据门户(dataportal)。有的开放数据(opendata)目录门户中的数据集是供数据消费者(通常称为“用户”)免费使用的,如:包括2009年5月始启用的美国政府开放数据门户DATA.GOV(https://www.data.gov)和2012年12月始启用的欧盟开放数据门户(http://data.europa.eu)在内的全球数十个国家或地区及其所辖省市的数百个开放政府(opengovernment)数据门户;有的数据目录门户已成为基于Web的在线数据交易集市,如:国外的DataShop.biz(http://www.datashop.biz/)和国内的数据堂(http://datatang.com/)。虽然数据目录门户为用户寻找数据资源提供了前所未有的新机会,但是数据目录往往持有大量数据集的事实使用户面临了一种新的信息/选择过载(information/choiceoverload)难题。例如,数据目录门户DATA.GOV截止2016年12月6日在其数据目录中发布了Agriculture(农业)、Business(商务)、Climate(气候)、Consumer(消费者)、Ecosystems(生态系统)、Education(教育)、Energy(能源)、Finance(金融)、Health(卫生保健)、LocalGovernment(地方政府)、Manufacturing(制造业)、Ocean(海洋)、PublicSafety(公共安全)、Science&Research(科学与研究)共14个主题领域的193,050个数据集,用户很难通过浏览某个主题领域寻找到合适的数据集。为解决此类难题,用户只能借助于数据目录门户提供的功能十分有限的数据集主题搜索(topicalsearch)和分面过滤(facetedfiltering)技术。一般来说,用户在数据目录中搜寻满足其特定“数据需求”的数据集的过程通常从该用户的兴趣主题(topicofinterest)出发,首先使用检索关键词(keywords)通过数据目录门户提供的数据集搜索引擎对整个数据目录的或用户选定的某个主题领域的数据集的元数据(metadataaboutdatasets)进行主题搜索,然后在搜索结果数据集即所谓的主题数据集(topicaldatasets)清单中直接浏览选择数据集,或借助数据目录门户提供的对搜索结果数据集的简单的分面过滤手段来进一步筛选“中意的”数据集。当前数据门户,即使是代表最高技术发展水平的数据门户(如:美国政府和欧盟的开放数据门户),仅提供了功能上有限的数据集主题搜索和分面过滤技术手段:无论数据目录门户是否采用最为先进的语义(semantic)元数据,数据集搜索引擎通过简单的关键词匹配或先进的语义匹配后返回的结果数据集(即主题数据集)通常只能按主题相关度(relevance)、数据集名称、数据集发布/更新日期、数据集的用户浏览次数即流行度(popularity)等进行排序;搜索结果数据集的过滤技术手段也仅有按数据集的类型、数据格式、发布机构等的简单分面过滤。总之,现有的数据集主题搜索与分面过滤技术由于忽视了数据质量(dataquality)这个重要的数据特性,不能完整地体现用户的“数据需求”,从而未能帮助用户很好地解决上述信息/选择过载难题。用户的兴趣主题固然对用户搜寻数据资源很重要,但在实际应用中,数据质量是用户选用数据资源时的一个关键考虑因素。正如《ISO/IEC25012数据质量模型》国际标准的技术文档中所言:“dataquality[referstothe]degreetowhichthecharacteristicsofdatasatisfystatedandimpliedneedswhenusedunderspecifiedconditions.(“数据质量是指数据在指定条件下被使用时数据的特性对明确的和隐含的需求的一种满足程度”)...dataqualityisakeycomponentofthequalityandusefulnessofinformationderivedfromthatdata,andmostbusinessprocessesdependonthequalityofdata.Acommonprerequisitetoallinformationtechnologyprojectsisthequalityofthedatawhichareexchanged,processedandusedbetweenthecomputersystemsandusersandamongcomputersystemsthemselves.(数据质量是源于该数据的信息的质量和有用性的一个关键要素,大多数业务流程取决于数据的质量;所有信息技术项目的一个共同先决条件是在计算机系统和用户之间以及计算机系统本身之间交换、处理和使用的数据的质量)”(摘自:ISO/IEC25012:2008,Softwareengineering–SystemsproductQualityRequirementsandEvaluation(SQuaRE)–Dataqualitymodel.InternationalStandardbytheJointTechnicalCommitteeISO/IECJTC1oftheInternationalOrganizationforStandardization(ISO)andtheInternationalElectrotechnicalCommission(IEC),12/01/2008.http://www.iso.org/iso/catalogue_detail.htm?csnumber=35736或http://iso25000.com/index.php/en/iso-25000-standards/iso-25012);专门制定万维网技术标准与规范的万维网联盟(WorldWideWebConsortium,简称W3C)近期颁布的《Web数据最佳实践》规范中也强调:“Thequalityofadatasetcanhaveabigimpactonthequalityofapplicationsthatuseit.Asaconsequence,theinclusionofdataqualityinformationindatapublishingandconsumptionpipelinesisofprimaryimportance.(数据集的质量会对使用数据集的应用的质量产生很大影响,因此,在数据发布和消费管道中包含数据质量信息是最为重要的。)...Dataqualitymightseriouslyaffectthesuitabilityofdataforspecificapplications...Documentingdataqualitysignificantlyeasestheprocessofdatasetselection,increasingthechancesofreuse.(数据质量可严重影响数据对特定应用的适用性...记载数据质量可显著简化用户选用数据集的过程,增加数据被复用的机会。)”(摘自:DataontheWebBestPractices.W3CCandidateRecommendation,30August2016.https://www.w3.org/TR/2016/CR-dwbp-20160830/)。数据质量具有多层次、多维度的特性,因此,很有必要发明一种基于总体数据质量的主题数据集过滤与排序技术解决方案。这样的技术解决方案不仅可克服现有技术的缺陷,而且必将取得预料不到的技术效果。尽管数据质量管理不是一个新课题,数据目录的技术研发和工业实践也已历时多年,但是,现有技术存在以上缺陷是有原因的:前些年,数据目录技术与元数据领域尚未有效引入数据质量管理技术。近年来,由于数据目录技术的长足进步,尤其是由于本体、RDF(ResourceDescriptionFramework,资源描述框架)(参见:RDF1.1ConceptsandAbstractSyntax.W3CRecommendation,25February2014.https://www.w3.org/TR/rdf11-concepts/)及RDF数据的SPARQL查询语言(参见:SPARQL1.1Overview.W3CRecommendation,21March2013.https://www.w3.org/TR/sparql11-overview/)等语义网(SemanticWeb)技术开始成功应用于数据目录与元数据领域,Web数据目录的技术基础设施已今非昔比。这些技术进步为克服上述技术缺陷、解决人们一种渴望解决但始终未能获得成功的经典技术难题——“从数据质量角度来选用数据资源”——提供了基本条件。为了有利于进一步理解本发明技术方案的
背景技术
:,下面对数据目录与元数据领域的最新技术进步进行简介。(1)DCAT——《数据目录词汇》标准(参见:DataCatalogVocabulary(DCAT).W3CRecommendation,16January2014,https://www.w3.org/TR/vocab-dcat/):W3C于2014年颁布的DCAT(数据目录词汇)是一种RDF词汇,用于描述数据目录(使用dcat:Catalog类)、数据集(使用dcat:Dataset类)、数据目录本身和数据集的描述性元数据(descriptivemetadata)的属性(如:dct:title,dct:description,dcat:theme,dcat:keyword,dct:publisher,dct:issued,dct:modified,等)以及数据集的访问元数据(accessmetadata)的属性(如:dct:fromat,dcat:accessURL,dcat:downloadURL,等)。DCAT将数据目录定义为数据集元数据的一个有组织集合;将数据集定义为由单个主体(agent)在数据目录中发布的、可以一种或多种格式来访问或下载的一个数据集合。DCAT并不限定数据集的组织方式,数据集可以是也可以不是关联数据(linkeddata)。DCAT是一种机器可读的(machine-readable)元数据,有利于提高数据目录之间的互操作性,便于应用程序消费来自多个数据目录的元数据;通过使用DCAT来描述数据目录中的数据集,可提高数据集的可发现性。目前DCAT已有许多实现与应用(参见:https://www.w3.org/2011/gld/wiki/DCAT_Implementations),一些最高技术水平的数据门户(包括美国政府和欧盟的开放数据门户)已采用/改用DCAT来描述其数据目录与数据集。(2)DWBP——《Web数据最佳实践》技术标准(参见:DataontheWebBestPractices.W3CCandidateRecommendation,30August2016,https://www.w3.org/TR/2016/CR-dwbp-20160830/或者W3CRecommendation,https://www.w3.org/TR/dwbp/):W3C于2013年底启动的Web数据最佳实践(DWBP)工作组旨在通过制定一系列最佳实践技术规范和标准化词汇来指导数据发布者、促进数据的发现和复用、提升数据发布者和消费者之间的互动,帮助发展Web数据生态系统;该工作组计划于2016年完成技术规范和标准的制订工作。DWBP(Web数据最佳实践)技术标准规定,数据的Web发布必须遵循Web体系结构原理,并使用标准化词汇和国际标准为数据目录和数据集提供机器可读的元数据,包括使用DCAT、数据质量词汇(DataQualityVocabulary,DQV)和数据集使用词汇(DatasetUsageVocabulary,DUV)等。遵循这些最佳实践规范将促进数据发布者和消费者之间的有效沟通与互动,增加双方之间的相互信任。该技术标准尤其规定数据发布者必须以数据质量元数据(dataqualitymetadata)的形式提供关于数据集的数据质量信息。(3)DQV——《数据质量词汇》技术规范(参见:DataontheWebBestPractices:DataQualityVocabulary.W3CWorkingGroupNote,30August2016,https://www.w3.org/TR/2016/NOTE-vocab-dqv-20160830/或者最新版https://www.w3.org/TR/vocab-dqv/):DQV(数据质量词汇)是W3C的Web数据最佳实践(DWBP)工作组制定的关于数据集质量的技术规范。作为DCAT的扩充,DQV是一种RDF词汇,用来建模与表达数据目录中已发布数据集的数据质量。W3C的DWBP工作组认为“qualityliesintheeyeofthebeholder...thereisnoobjective,idealdefinitionofit.(数据质量的好坏是一种观察者的个人看法...没有完全客观的、理想的质量定义)”;DQV将数据质量定义为“‘fitnessforuse’foraspecificapplicationorusecase(数据对特定应用或用例的使用适合度)”,因此,不限于数据发布者,认证机构、数据整合商和数据消费者(即用户)都可以对数据集做出自己的质量评价(qualityassessment),质量评价结果作为数据质量元数据的一部分。DQV引入属性dqv:hasQualityMetadata来描述数据集(作为dcat:Dataset类的实例)的质量元数据(作为dqv:QualityMetadata类的实例);作为对数据集的质量评价结果,DQV引入属性dqv:hasQualityMeasurement(或其逆属性dqv:computedOn)来表达针对某个数据集的具体质量度量(作为dqv:QualityMeasurement类的实例),具体质量度量以质量度量名称-度量值(即名-值对)的形式来表示。进一步地,DQV采用抽象的质量度量层次结构(hierarchicalstructureofqualitymeasurements)来组织对全体数据集的所有质量评价结果,这样的层次结构称为数据质量的层次模型(hierarchicalqualitymodel)。在该层次模型中,用属性dqv:inMeasurementOf来描述一个质量度量使用哪个质量度量指标(作为dqv:Metric类的实例),用属性dqv:inDemension来进一步描述一个质量度量指标属于哪个质量维(作为dqv:Demension类的实例),用属性dqv:inCategory来进一步描述一个质量维属于哪个质量类别(作为dqv:Category类的实例)。由此可见,DQV采用的数据质量模型是一种三层抽象模型(即:质量类别-质量维-质量度量指标)。在数据质量管理领域,三层数据质量层次模型是一种典型的、标准化的数据质量模型。尽管各种标准化组织或专业领域或国民经济行业所定义的通用的(generic/general)或领域特定的(domain-specific)数据质量模型中可能使用不同的层名称(英文),但是,自顶向下地,数据质量模型的三个层的名称和含义依次为:第一层:质量类别(qualitycategory/perspective/characteristic):质量类别是质量模型中的一种抽象实体,用来系统化组织质量维;一个质量类别代表一组质量维,即一个质量类别可包含多个具有相似质量特性的质量维,而一个质量维通常仅属于一个质量类别。第二层:质量维(qualitydimensions/cluster/sub-characteristic):质量维是质量模型中的一种抽象实体,用来系统化组织质量度量指标;一个质量维代表一组质量度量指标,即一个质量维可包含多个具有相似质量子特性的质量度量指标,而一个质量度量指标通常仅属于一个质量维。第三层:质量度量指标(qualitymetric/measurementprocedure/indicator):质量度量指标是质量模型中的一种抽象实体,用来系统化组织具体的质量度量;一个质量度量指标代表一组质量度量,这些质量度量使用同一个质量度量指标来计算质量度量值,而一个具体质量度量仅使用一个质量度量指标。质量度量值可以是数值型(numeric)的,也可以是布尔型(boolean)的。不同的标准化组织或专业领域所定义的通用或领域特定的数据质量模型可能采用稍有不同的层次模型,但它们的共性是数据质量模型的层次结构都是上述三层。举例如下:前文所述的ISO/IEC25012数据质量模型是一个极其通用(verygeneral)的数据质量层次模型,其中定义了15个质量维,这些质量维进一步归属于3个质量类别;由于该国际标准是为所有计算机软件应用所制定的,其数据质量模型中没有为每个质量维定义质量度量指标,特意留待特定领域的软件应用定义自己的质量度量指标。Zaveri等人为关联数据质量评价
技术领域
:提出的数据质量模型(参见:AmrapaliZaveri,AnisaRula,AndreaMaurino,RicardoPietrobon,JensLehmann,Auer.QualityassessmentforLinkedData:ASurvey.SemanticWeb,vol.7,no.1,pp.63-93,2016)中定义了69个质量度量指标,这些质量度量指标进一步归属于18个质量维,这些质量维进一步归属于4个质量类别。Radulovic等人提出的关联数据质量模型(LDQM)(参见:F.Radulovic,N.Mihindukulasooriya,R.García-Castro,andA.Gómez-Pérez.AcomprehensivequalitymodelforLinkedData.AcceptedbySemanticWeb,anIOSPressJournal,2016-11-02,http://www.semantic-web-journal.net/content/comprehensive-quality-model-linked-data-1或者http://www.semantic-web-journal.net/system/files/swj1488.pdf或者网站http://delicias.dia.fi.upm.es/LDQM)以上述通用的ISO/IEC25012数据质量模型和Zaveri等人提出的数据质量模型为基础,定义了124个质量度量指标,这些质量度量指标进一步归属于15个质量维,这些质量维进一步归属于3个质量类别。正如W3C的《数据质量词汇(DQV)》技术规范中所言,所有标准化组织或专业领域或国民经济行业所定义的通用的或领域特定的数据质量模型(包括其子集或改编)都可以用DQV进行落地(grounding)表示,用于特定的数据目录门户。DQV技术规范文档中给出了将上述ISO/IEC25012数据质量模型和Zaveri等人提出的数据质量模型用DQV来表示的例子,其基本方法是将数据质量模型中的质量类别表示为dqv:Category类的实例、将该质量类别所包含的质量维表示为dqv:Demension类的实例、将该质量维所包含的质量度量指标表示为dqv:Metric类的实例。这样表示三层数据质量层次模型后,使用某个质量度量指标对某个数据集进行质量评价后所产生的实际质量度量就可表示为dqv:QualityMeasurement类的实例。虽然上述W3C《数据质量词汇(DQV)》技术规范刚刚制定,数据目录门户工业界目前尚未完全运用DQV,但是,运用DQV必定是数据目录门户的技术发展趋势。综上所述,上述相关
技术领域
:的最新技术进步有助于本发明将数据集Web发布与消费
技术领域
:中的数据目录及其元数据技术与标准、数据质量管理
技术领域
:中的数据质量层次模型技术与标准、Web搜索与信息过滤
技术领域
:中的数据集主题搜索与过滤技术进行有机组合,在功能上彼此相互支持,形成了一种对数据目录门户搜索结果数据集(即主题数据集)进行基于用户规定的质量度量值强制性要求和总体数据质量要求的过滤与排序的全新方法与系统,从而能够方便用户筛选出符合其特定数据质量要求的主题数据集,增加Web上已发布的数据(集)被广泛的用户所消费的机会,促进数据生态系统的健康发展。技术实现要素:本发明所要解决的技术问题是提供一种能对数据目录门户的主题搜索结果数据集(即主题数据集)进行基于用户规定的质量度量值强制性要求和总体数据质量要求的过滤与排序的新方法与系统,从而克服现有的数据集主题搜索与过滤技术忽视数据质量的弊端,方便用户筛选出满足其特定的数据质量要求的主题数据集,解决人们一种渴望解决、但始终未能获得成功的经典技术难题——“从数据质量角度来选用数据资源”;同时,增加Web上已发布的数据(集)被广泛的用户所消费的机会,促进数据生态系统的健康发展,代表新技术发展的必然趋势。为解决上述技术问题,本发明是通过以下技术方案实现的:根据本发明的一个方面,提供了一种基于总体数据质量的主题数据集过滤与排序方法,包括下列步骤:S1:根据用户在数据目录中搜索到的主题数据集和它们的质量元数据,在人机交互界中征询用户对数据集的数据质量要求;S2:根据用户对数据集的数据质量要求中所规定的质量度量值强制性要求,对主题数据集进行过滤;S3:根据用户对数据集的数据质量要求中所选用的质量度量指标及其权重,计算出过滤后的主题数据集的总体数据质量,并据此对主题数据集进行排序;S4:在人机交互界面中输出过滤并排序后的主题数据集信息。在该方法中,所述步骤S1进一步包括:首先,获取用户搜索数据目录所产生的主题数据集列表TDL=(d1,d2,…,dm),其中,数据集个数m≥1,数据集dj,j=1,2,…,m是数据目录中匹配用户搜索主题的数据集;其次,从数据目录中获取主题数据集列表TDL中全部数据集的质量元数据,包括:这些数据集所使用的全部质量度量指标Mi,i=1,2,…,s,s≥2,每个质量度量指标Mi所属的质量维Dimension(Mi)、该质量维所属的质量类别Category(Dimension(Mi)),每个质量度量指标Mi的值域,即允许取的最差质量度量值miw和最佳质量度量值mib,某个数据集dj在某个质量度量指标Mi上所拥有的若干个质量度量值msij;进一步地,所述质量度量指标的值域由数据质量管理领域专家事先确定,并作为一种质量元数据存储于数据目录中的数据集元数据中,具体值域规则如下:若Mi是数值型质量度量指标,则Mi上允许取的最差质量度量值miw为非负实数或infinity即正无穷大,允许取的最佳质量度量值mib为非负实数;若Mi是布尔型质量度量指标,则Mi上允许取的最差质量度量值miw和最佳质量度量值mib均为false或true,即假或真,在事后的数据集总体数据质量计算过程中,布尔型质量度量值false与true总是分别转换成实数值0与1;再次,根据已获取的上述数据集的质量元数据在人机交互界中显示用户对数据集的数据质量要求征询表,包括通过质量度量指标来对应地连接的左、右两部分,分别为质量度量指标信息显示部分、用户的数据质量要求征询部分;进一步地,所述位于左部的质量度量指标信息显示部分以每个质量度量指标为表行,全部表行按质量类别-质量维-质量度量指标的嵌套层次进行组织,其中,每个表行依次包括:质量度量指标Mi的名称,Mi上允许取的最差质量度量值miw和最佳质量度量值mib;所述位于右部的用户的数据质量要求征询部分同样以每个质量度量指标为表行,并与左部的对应表行进行连接,其中,每个表行用于收集用户的数据质量要求信息,依次包括:哪些质量度量指标Mi在数据集总体数据质量计算中被选用而成为已选用的质量度量指标i=1,2,…,t,t≤s,每个已选用的质量度量指标在数据集总体数据质量计算中的权重wi,要求满足wi≥0且数据集在那些已选用的质量度量指标上的实际质量度量值应满足怎样的强制性要求,即:用户为有质量度量值强制性要求的质量度量指标i∈{1,2,…,t}规定一个起码质量度量值thresholdi,要求thresholdi好于上允许取的最差质量度量值miw,其中,布尔型质量度量指标的thresholdi必定是上允许取的最佳质量度量值mib;最后,将从征询表中收集到的上述信息记录于用户的数据质量要求UserQualityNeeds。在该方法中,所述步骤S2进一步包括:首先,对主题数据集列表TDL中的每个数据集dj,j=1,2,…,m,只要dj在用户已选用的且已规定其质量度量值强制性要求的某个质量度量指标i∈{1,2,…,t}上没有质量度量值或有一个质量度量值msij不满足该质量度量值强制性要求,即msij坏于用户已规定的thresholdi,就把数据集dj从TDL中移除,所述“坏于”的具体判定标准如下:对布尔型质量度量指标若msij≠thresholdi,则msij坏于thresholdi;对数值型质量度量指标且miw<mib,若msij<thresholdi,则msij坏于thresholdi;对数值型质量度量指标且miw>mib,若msij>thresholdi,则msij坏于thresholdi;然后,把TDL中剩余的数据集赋值给过滤后主题数据集列表FTDL=(d1,d2,…,dn),其中,数据集个数n满足0≤n≤m,若n=0,则在人机交互界中向用户显示“所有主题数据集均不满足用户规定的质量度量值强制性要求”信息后终止处理。在该方法中,所述步骤S3进一步包括下列步骤:S31:计算过滤后主题数据集列表FTDL中各数据集的总体数据质量,包括:首先,根据数据集质量元数据和用户的数据质量要求UserQualityNeeds中的信息来构建一个最佳数据质量向量qb=(w1m1b,w2m2b,…,wtmtb),其中,wi,i=1,2,…,t是用户规定的已选用的质量度量指标在数据集总体数据质量计算中的权重,mib,i=1,2,…,t是质量度量指标上允许取的最佳质量度量值,其中,布尔型质量度量值false或true分别转换成实数值0或1;其次,根据数据集质量元数据和用户的数据质量要求UserQualityNeeds中的信息来为过滤后主题数据集列表FTDL中每个数据集dj∈FTDL,j=1,2,…,n构建它的数据质量向量qj=(w1m1j,w2m2j,…,wtmtj),其中,wi,i=1,2,…,t是用户规定的已选用的质量度量指标在数据集总体数据质量计算中的权重,mij,i=1,2,…,t按以下分情形公式计算而得:最后,将每个数据集dj∈FTDL,j=1,2,…,n的总体数据质量Qj定义为数据质量向量qj与最佳数据质量向量qb间夹角的余弦值,即按以下公式来计算数据集的总体数据质量:S32:依据上述总体数据质量计算结果对过滤后主题数据集列表FTDL中数据集进行降序排序,形成过滤并排序后主题数据集列表RFTDL,即:对dk∈RFTDL,其中j,k∈{1,2,…,n}且j<k,总满足dj,dk∈FTDL且Qj≥Qk。在该方法中,所述步骤S4进一步包括下列步骤:S41:从数据目录中获取过滤并排序后主题数据集列表RFTDL中所有数据集的部分描述性元数据和部分访问元数据;S42:将已获取的上述元数据按过滤并排序后主题数据集列表RFTDL中的数据集顺序在人机交互界面中依次呈现,同时呈现各数据集的总体数据质量值。根据本发明的另一个方面,还提供了一种基于总体数据质量的主题数据集过滤与排序系统,包括:用户的数据质量要求征询模块、基于质量度量值强制性要求的主题数据集过滤模块、过滤后的主题数据集的总体数据质量计算及排序模块、主题数据集过滤并排序结果的输出模块、人机交互界面,其中:所述用户的数据质量要求征询模块用于实现本发明方法中的步骤S1:根据用户在数据目录中搜索到的主题数据集和它们的质量元数据,在人机交互界中征询用户对数据集的数据质量要求;所述基于质量度量值强制性要求的主题数据集过滤模块用于实现本发明方法中的步骤S2:根据用户对数据集的数据质量要求中所规定的质量度量值强制性要求,对主题数据集进行过滤;所述过滤后的主题数据集的总体数据质量计算及排序模块用于实现本发明方法中的步骤S3:根据用户对数据集的数据质量要求中所选用的质量度量指标及其权重,计算出过滤后的主题数据集的总体数据质量,并据此对主题数据集进行排序;所述主题数据集过滤并排序结果的输出模块用于实现本发明方法中的步骤S4:在人机交互界面中输出过滤并排序后的主题数据集信息;所述人机交互界面用于实现用户与该系统之间的人机交互,包括:用户在该界面中输入数据集搜索主题、系统在该界面中显示用户对数据集的数据质量要求征询表、用户在该征询表中选用质量度量指标及其权重并规定质量度量值应满足的强制性要求、系统在该界面中呈现过滤并排序后的主题数据集信息。本发明的有益效果主要包括四个方面:(1)本发明克服了现有的数据集主题搜索与过滤技术忽视数据质量的弊端;(2)本发明通过将数据集Web发布与消费
技术领域
:中的数据目录及其元数据技术与标准、数据质量管理
技术领域
:中的数据质量层次模型技术与标准、Web搜索与信息过滤
技术领域
:中的数据集主题搜索与过滤技术进行有机组合,在功能上彼此相互支持,形成了一种对数据目录门户搜索结果数据集(即主题数据集)进行基于质量度量值强制性要求和总体数据质量要求的过滤与排序的新方法与系统,从而方便用户筛选出符合其特定数据质量要求的主题数据集,增加已发布的数据(集)被用户消费的机会,促进数据生态系统的健康发展;(3)本发明解决了人们一种渴望解决、但始终未能获得成功的经典技术难题——“从数据质量角度来选用数据资源”;(4)本发明代表了数据目录门户技术的必然发展趋势。下面结合附图对本发明的具体实施方式作进一步的描述。本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明图1是根据本发明技术方案的基于总体数据质量的主题数据集过滤与排序方法的步骤流程图;图2是根据本发明技术方案的基于总体数据质量的主题数据集过滤与排序方法中用户对数据集的数据质量要求征询表的示意;图3是根据本发明技术方案的基于总体数据质量的主题数据集过滤与排序系统的体系结构与处理流程图,图中符号遵循国家标准GB1526-89(等同于国际标准ISO5807-1985);图4是本发明的一个优选的具体实施例中所遵循的数据质量层次模型及相关的主要本体类及其关系;图5是本发明的一个优选的具体实施例中基于总体数据质量的主题数据集过滤与排序系统(原型)显示用户对数据集的数据质量要求征询表的人机交互界面截屏;图6是本发明的一个优选的具体实施例中基于总体数据质量的主题数据集过滤与排序系统(原型)输出主题数据集过滤并排序结果的人机交互界面截屏。具体实施方式下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的概念、对象、要素等或具有相同或类似功能的概念、对象、要素等。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本
技术领域
:技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域及相关领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。为了解决上述技术问题,本发明是通过以下技术方案实现的:根据本发明的一个方面,提供了一种基于总体数据质量的主题数据集过滤与排序方法,如图1所示,包括下列步骤:S1:根据用户在数据目录中搜索到的主题数据集和它们的质量元数据,在人机交互界中征询用户对数据集的数据质量要求,包括:首先,获取用户搜索数据目录所产生的主题数据集列表TDL=(d1,d2,…,dm),其中,数据集个数m≥1,数据集dj,j=1,2,…,m是数据目录中匹配用户搜索主题的数据集;其次,从数据目录中获取主题数据集列表TDL中全部数据集的质量元数据,包括:这些数据集所使用的全部质量度量指标Mi,i=1,2,…,s,s≥2,每个质量度量指标Mi所属的质量维Dimension(Mi)、该质量维所属的质量类别Category(Dimension(Mi)),每个质量度量指标Mi的值域,即允许取的最差质量度量值miw和最佳质量度量值mib,某个数据集dj在某个质量度量指标Mi上所拥有的若干个质量度量值msij;进一步地,所述质量度量指标的值域由数据质量管理领域专家事先确定,并作为一种质量元数据存储于数据目录中的数据集元数据中,具体值域规则如下:若Mi是数值型质量度量指标,则Mi上允许取的最差质量度量值miw为非负实数或infinity即正无穷大,允许取的最佳质量度量值mib为非负实数;若Mi是布尔型质量度量指标,则Mi上允许取的最差质量度量值miw和最佳质量度量值mib均为false或true,即假或真,在事后的数据集总体数据质量计算过程中,布尔型质量度量值false与true总是分别转换成实数值0与1;再次,根据已获取的上述数据集的质量元数据在人机交互界中显示用户对数据集的数据质量要求征询表,如图2所示,包括通过质量度量指标来对应地连接的左、右两部分,分别为质量度量指标信息显示部分、用户的数据质量要求征询部分;进一步地,所述位于左部的质量度量指标信息显示部分以每个质量度量指标为表行,全部表行按质量类别-质量维-质量度量指标的嵌套层次进行组织,其中,每个表行依次包括:质量度量指标Mi的名称,Mi上允许取的最差质量度量值miw和最佳质量度量值mib;所述位于右部的用户的数据质量要求征询部分同样以每个质量度量指标为表行,并与左部的对应表行进行连接,其中,每个表行用于收集用户的数据质量要求信息,依次包括:哪些质量度量指标Mi在数据集总体数据质量计算中被选用而成为已选用的质量度量指标i=1,2,…,t,t≤s,每个已选用的质量度量指标在数据集总体数据质量计算中的权重wi,要求满足wi≥0且数据集在那些已选用的质量度量指标上的实际质量度量值应满足怎样的强制性要求,即:用户为有质量度量值强制性要求的质量度量指标i∈{1,2,…,t}规定一个起码质量度量值thresholdi,要求thresholdi好于上允许取的最差质量度量值miw,其中,布尔型质量度量指标的thresholdi必定是上允许取的最佳质量度量值mib;最后,将从征询表中收集到的上述信息记录于用户的数据质量要求UserQualityNeeds。S2:根据用户对数据集的数据质量要求中所规定的质量度量值强制性要求,对主题数据集进行过滤,包括:首先,对主题数据集列表TDL中的每个数据集dj,j=1,2,…,m,只要dj在用户已选用的且已规定其质量度量值强制性要求的某个质量度量指标i∈{1,2,…,t}上没有质量度量值或有一个质量度量值msij不满足该质量度量值强制性要求,即msij坏于用户已规定的thresholdi,就把数据集dj从TDL中移除,所述“坏于”的具体判定标准如下:对布尔型质量度量指标若msij≠thresholdi,则msij坏于thresholdi;对数值型质量度量指标且miw<mib,若msij<thresholdi,则msij坏于thresholdi;对数值型质量度量指标且miw>mib,若msij>thresholdi,则msij坏于thresholdi;然后,把TDL中剩余的数据集赋值给过滤后主题数据集列表FTDL=(d1,d2,…,dn),其中,数据集个数n满足0≤n≤m,若n=0,则在人机交互界中向用户显示“所有主题数据集均不满足用户规定的质量度量值强制性要求”信息后终止处理。S3:根据用户对数据集的数据质量要求中所选用的质量度量指标及其权重,计算出过滤后的主题数据集的总体数据质量,并据此对主题数据集进行排序,包括下列步骤:S31:计算过滤后主题数据集列表FTDL中各数据集的总体数据质量,包括:首先,根据数据集质量元数据和用户的数据质量要求UserQualityNeeds中的信息来构建一个最佳数据质量向量qb=(w1m1b,w2m2b,…,wtmtb),其中,wi,i=1,2,…,t是用户规定的已选用的质量度量指标在数据集总体数据质量计算中的权重,mib,i=1,2,…,t是质量度量指标上允许取的最佳质量度量值,其中,布尔型质量度量值false或true分别转换成实数值0或1;其次,根据数据集质量元数据和用户的数据质量要求UserQualityNeeds中的信息来为过滤后主题数据集列表FTDL中每个数据集dj∈FTDL,j=1,2,…,n构建它的数据质量向量qj=(w1m1j,w2m2j,…,wtmtj),其中,wi,i=1,2,…,t是用户规定的已选用的质量度量指标在数据集总体数据质量计算中的权重,mij,i=1,2,…,t按以下分情形公式计算而得:最后,将每个数据集dj∈FTDL,j=1,2,…,n的总体数据质量Qj定义为数据质量向量qj与最佳数据质量向量qb间夹角的余弦值,即按以下公式来计算数据集的总体数据质量:S32:依据上述总体数据质量计算结果对过滤后主题数据集列表FTDL中数据集进行降序排序,形成过滤并排序后主题数据集列表RFTDL,即:对dk∈RFTDL,其中j,k∈{1,2,…,n}且j<k,总满足dj,dk∈FTDL且Qj≥Qk。S4:在人机交互界面中输出过滤并排序后的主题数据集信息,包括下列步骤:S41:从数据目录中获取过滤并排序后主题数据集列表RFTDL中所有数据集的部分描述性元数据(如:数据集的标题、描述信息、发布者、发布日期等)和部分访问元数据(如:数据集的数据格式、访问及下载网址等);S42:将已获取的上述元数据按过滤并排序后主题数据集列表RFTDL中的数据集顺序在人机交互界面中依次呈现,同时呈现各数据集的总体数据质量值。根据本发明的另一个方面,还提供了一种基于总体数据质量的主题数据集过滤与排序系统,如图3所示,包括:用户的数据质量要求征询模块、基于质量度量值强制性要求的主题数据集过滤模块、过滤后的主题数据集的总体数据质量计算及排序模块、主题数据集过滤并排序结果的输出模块、人机交互界面,其中:所述用户的数据质量要求征询模块用于实现本发明方法中的步骤S1:根据用户在数据目录中搜索到的主题数据集和它们的质量元数据,在人机交互界中征询用户对数据集的数据质量要求;所述基于质量度量值强制性要求的主题数据集过滤模块用于实现本发明方法中的步骤S2:根据用户对数据集的数据质量要求中所规定的质量度量值强制性要求,对主题数据集进行过滤;所述过滤后的主题数据集的总体数据质量计算及排序模块用于实现本发明方法中的步骤S3:根据用户对数据集的数据质量要求中所选用的质量度量指标及其权重,计算出过滤后的主题数据集的总体数据质量,并据此对主题数据集进行排序;所述主题数据集过滤并排序结果的输出模块用于实现本发明方法中的步骤S4:在人机交互界面中输出过滤并排序后的主题数据集信息;所述人机交互界面用于实现用户与该系统之间的人机交互,包括:用户在该界面中输入数据集搜索主题、系统在该界面中显示用户对数据集的数据质量要求征询表、用户在该征询表中选用质量度量指标及其权重并规定质量度量值应满足的强制性要求、系统在该界面中呈现过滤并排序后的主题数据集信息。上述系统的可选实现方式包括:(1)将该系统集成到现有数据目录门户中,使得现有主题搜索结果数据集(即主题数据集)过滤技术中包含基于质量度量值强制性要求和总体数据质量的主题数据集过滤与排序功能;(2)该系统单独实现,作为现有数据目录门户的一种增值服务,实现对数据目录门户的主题搜索结果数据集(即主题数据集)进行基于质量度量值强制性要求和总体数据质量的主题数据集过滤与排序功能。由本发明的上述技术方案可理解出各处理步骤的技术效果和所解决的技术问题如下:步骤S1所取得的技术效果是:征询到了用户对数据集的数据质量要求,包括:用于对主题数据集过滤的质量度量值强制性要求,以及用于计算过滤后的主题数据集的总体数据质量的特定质量度量指标及其权重;从而解决了技术问题:如何方便地征询用户对数据集的数据质量要求。这样,为本发明总体技术问题的解决创造了不可或缺的必要条件。步骤S2所取得的技术效果是:根据用户对数据集的数据质量要求中所规定的质量度量值强制性要求,对主题数据集进行了第一阶段的过滤,包括:直接过滤掉完全没有质量元数据的所有主题数据集,以及过滤掉在某个质量度量指标上没有质量度量值的或者有一个质量度量值不满足相应强制性要求的所有主题数据集;从而解决了技术问题:如何根据用户规定的质量度量值强制性要求,对主题数据集进行过滤。这样,为本发明总体技术问题的解决创造了不可或缺的必要条件。步骤S3所取得的技术效果是:根据用户对数据集的数据质量要求中所选用的质量度量指标及其权重,计算出了过滤后的主题数据集的总体数据质量,并据此对主题数据集进行了排序,由此使得用户可以对主题数据集进行第二阶段的过滤,即:总体数据质量值不满足用户期望值的主题数据集将被用户弃用;从而解决了技术问题:如何根据用户选用的质量度量指标及其权重,计算出过滤后的主题数据集的总体数据质量,并据此对主题数据集进行排序并再过滤。这样,为本发明总体技术问题的解决创造了不可或缺的必要条件。步骤S4所取得的技术效果是:在人机交互界面中输出了过滤并排序后的主题数据集及其总体数据质量值信息,以便用户在其中选用主题数据集,即对主题数据集进行第二阶段的过滤;从而解决了技术问题:如何向用户呈现过滤并排序后的主题数据集及其总体数据质量值信息。这样,为本发明总体技术问题的解决创造了不可或缺的必要条件。总体来说,由上述技术方案可以理解的是,本发明是基于本说明书的“
背景技术
:”中所述的多个相关
技术领域
:的技术背景和技术发展趋势提出的,提供了一种基于总体数据质量的主题数据集过滤与排序的全新技术方案。由于数据质量模型用于“establishdataqualityrequirements,definedataqualitymeasures,orplanandperformdataqualityevaluations.(建立数据质量需求,定义数据质量度量,或计划和实施数据质量评价)”(摘自:《ISO/IEC25012数据质量模型》国际标准的技术文档),因此,本发明的数据集过滤技术在本质上不同于传统的信息过滤技术,它以数据质量模型为基础。本发明技术方案的最突出的实质性特点在于它克服了现有的数据集主题搜索与过滤技术忽视数据质量的弊端,并以数据质量模型的国际标准和领域最佳实践为基础,方便用户筛选出满足其特定的质量度量值强制性要求和总体数据质量要求的主题数据集,解决了人们一种渴望解决、但始终未能获得成功的经典技术难题——“从数据质量角度来选用数据资源”;本发明技术方案的其他突出的实质性特点还包括:它适用于Web数据目录与元数据、数据质量管理等领域的最新技术标准与规范,促进了数据生态系统的健康发展,代表了数据目录门户技术发展趋势,等等。下面再通过一个优选的具体实施例来进一步描述本发明技术方案的具体实施方式,并进一步具体表明本发明的有益技术效果。不失一般性,本实施例的数据目录门户选用美国政府开放数据门户DATA.GOV(https://www.data.gov),该门户的数据目录及数据集的元数据是用W3C制定的DCAT数据目录词汇标准(参见:本说明书的“
背景技术
:”)来描述的。由于DATA.GOV目前暂未增设数据集的数据质量元数据,因此本实施例用DCAT的扩充——W3C的Web数据最佳实践(DWBP)工作组制定的DQV数据质量词汇技术规范(参见:本说明书的“
背景技术
:”)来建模与描述DATA.GOV中的数据质量元数据。如图4所示,DQV定义了一种三层的数据质量模型:质量类别(dqv:Category类)、质量维(dqv:Dimension类)和质量度量指标(dqv:Metric类);用这些本体类的实例可为DATA.GOV构建一个实际使用的三层数据质量模型。不失一般性,如图4所示以及表1所列,本实施例选用DQV技术规范中推荐的ISO数据质量模型国际标准ISO/IEC25012(参见:本说明书的“
背景技术
:”)中的部分质量类别和部分质量维来构建DATA.GOV数据质量模型的质量类别和质量维,并选用Radulovic等人提出的关联数据质量模型(LDQM)中一些质量度量指标(参见:本说明书的“
背景技术
:”)来构建DATA.GOV数据质量模型的质量度量指标。表1:优先实施例中为数据目录门户DATA.GOV实现的数据质量模型使用质量度量指标所定义的实际质量度量值的数据类型可以是布尔型(xsd:boolean),也可以是数值型,包括整型(xsd:interger)、十进制型(xsd:decimal)、浮点型(xsd:float)、双精度浮点型(xsd:double)等。以上述数据质量层次模型为基础,按表1中质量度量指标上的质量度量之数据类型和值域(即:最差质量度量值、最佳质量度量值)要求,为数据目录门户DATA.GOV中部分数据集(详见后文中表2)定义了若干质量度量(详见后文中表4),假设其名空间为“hhu:”或“ex:”(不同的名空间表明了有不同的机构或个人使用上述数据质量模型对DATA.GOV中部分数据集进行了质量评估)。如本说明书的“
背景技术
:”所述,数据目录的DCAT描述、数据集质量元数据的DQV描述均为RDF描述,是一种RDF数据。按上述方法为数据目录门户DATA.GOV构建的数据集的数据质量元数据(含数据质量模型定义及数据集的质量度量定义)的RDFTurtle语法格式(参见:RDF1.1Turtle:TerseRDFTripleLanguage.W3CRecommendation,25February2014.https://www.w3.org/TR/turtle/)数据示意如下:基于上述DATA.GOV的数据集的数据质量元数据,根据本发明的一个方面,一种基于总体数据质量的主题数据集过滤与排序方法,如图1所示,包括如下步骤:S1:根据用户在数据目录中搜索到的主题数据集和它们的质量元数据,在人机交互界中征询用户对数据集的数据质量要求,包括:首先,获取用户搜索数据目录所产生的主题数据集列表TDL=(d1,d2,…,dm),其中,数据集个数m≥1,数据集dj,j=1,2,…,m是数据目录中匹配用户搜索主题的数据集;本实施例中的具体情况如下:不失一般性,2016年12月5日使用检索主题“unemploymentstatistics”(失业统计)搜索DATA.GOV的数据目录所产生的主题数据集标识符的列表TDL=(d1,d2,…,d29),这些主题数据集列在表2中。表2:优先实施例中数据目录门户DATA.GOV所返回的“unemploymentstatistics”(失业统计)主题上的搜索结果数据集(按主题相关度降序排列)其次,从数据目录中获取主题数据集列表TDL中全部数据集的质量元数据,包括:这些数据集所使用的全部质量度量指标Mi,i=1,2,…,s,s≥2,每个质量度量指标Mi所属的质量维Dimension(Mi)、该质量维所属的质量类别Category(Dimension(Mi)),每个质量度量指标Mi的值域,即允许取的最差质量度量值miw和最佳质量度量值mib,某个数据集dj在某个质量度量指标Mi上所拥有的若干个质量度量值msij;本实施例中的具体情况如下:不失一般性,基于前文所述已由数据质量管理领域专家事先确定好的DATA.GOV中数据集的质量元数据,从DATA.GOV数据目录中获取主题数据集列表TDL中全部数据集的质量元数据,其中,有质量度量值的数据集如表4中所列;这些数据集所使用的质量度量指标及其值域(即允许取的最差质量度量值和最佳质量度量值)、质量度量指标所属的质量维、质量维所属的质量类别已在表1中列出。表4:主题数据集列表TDL中有质量度量值的所有数据集再次,根据已获取的上述数据集的质量元数据在人机交互界中显示用户对数据集的数据质量要求征询表,如图2所示,包括通过质量度量指标来对应地连接的左、右两部分,分别为质量度量指标信息显示部分、用户的数据质量要求征询部分;本实施例中的具体情况如图5所示,说明如下:在图5中,左部的质量度量指标信息显示部分共显示了idqm:vocabularyReuse等11个质量度量指标,它们按质量类别-质量维-质量度量指标的嵌套层次进行组织,其中,每个质量度量指标表行依次包括:质量度量指标的名称、允许取的最差质量度量值和最佳质量度量值;右部的用户的数据质量要求征询部分同样以每个质量度量指标为表行,并与左部的对应表行进行连接,其中,每个表行用于收集用户的数据质量要求信息,所收集到的信息具体为:在数据集总体数据质量计算中被用户选用的8个质量度量指标、它们在数据集总体数据质量计算中的权重、数据集在其中4个质量度量指标上的实际质量度量值应满足的强制性要求(即起码质量度量值)依次为:1)指标ldqm:vocabularyReuse,权重为0.1;2)指标ldqm:multipleSerializationFormats,权重为0.06,起码质量度量值为true;3)指标ldqm:averagePropertyDiscordance,权重为0.16,起码质量度量值为0.3;4)指标ldqm:numberOfInvalidRules,权重为0.25,起码质量度量值为15;5)指标ldqm:datatypeSyntaxError,权重为0.1;6)指标ldqm:propertyCompleteness,权重为0.14,起码质量度量值为0.8;7)指标ldqm:interlinkingDegree,权重为0.15;8)指标ldqm:numberOfStableIRIs,权重为0.04;以上所有权重合计为1,满足要求。最后,将从征询表中收集到的上述信息记录于用户的数据质量要求UserQualityNeeds。S2:根据用户对数据集的数据质量要求中所规定的质量度量值强制性要求,对主题数据集进行过滤,包括:首先,对主题数据集列表TDL中的每个数据集dj,j=1,2,…,m,只要dj在用户已选用的且已规定其质量度量值强制性要求的某个质量度量指标i∈{1,2,…,t}上没有质量度量值或有一个质量度量值msij不满足该质量度量值强制性要求,即msij坏于用户已规定的thresholdi,就把数据集dj从TDL中移除;本实施例中的具体情况如下:由于数据集d5、d6、d8、d15、d18、d24、d26、d27没有任何质量元数据,因此,这8个数据集被直接过滤掉;由于以下数据集的某个或某几个实际质量度量值不满足用户规定的强制性要求(即坏于相应的起码质量度量值),它们也被过滤掉:数据集d2、d3、d4、d7、d13、d17、d20、d23在质量度量指标ldqm:multipleSerializationFormats上的质量度量值hhu:multipleSerializationFormats均为false,其坏于起码质量度量值true;数据集d4在质量度量指标ldqm:averagePropertyDiscordance上的实际质量度量值hhu:averagePropertyDiscordance=0.324,它坏于起码质量度量值0.3;数据集d14和d25在质量度量指标ldqm:numberOfInvalidRules上的实际质量度量值分别为ex:numberOfInvalidRules=18和ex:numberOfInvalidRules=16,它们均坏于起码质量度量值15;数据集d2在质量度量指标ldqm:propertyCompleteness上的实际质量度量值ex:propertyCompleteness=0.796,它坏于起码质量度量值0.8;上述过滤就是对主题数据集进行的第一阶段的过滤。然后,把主题数据集列表TDL中剩余的数据集赋值给过滤后主题数据集列表FTDL=(d1,d9,d10,d11,d12,d16,d19,d21,d22,d28,d29)。S3:根据用户对数据集的数据质量要求中所选用的质量度量指标及其权重,计算出过滤后的主题数据集的总体数据质量,并据此对主题数据集进行排序,包括下列步骤:S31:计算过滤后主题数据集列表FTDL中各数据集的总体数据质量,包括:首先,根据数据集质量元数据和用户的数据质量要求UserQualityNeeds中的信息来构建一个最佳数据质量向量qb=(w1m1b,w2m2b,…,wtmtb),其中,wi,i=1,2,…,t是用户规定的已选用的质量度量指标在数据集总体数据质量计算中的权重,mib,i=1,2,…,t是质量度量指标上允许取的最佳质量度量值,其中,布尔型质量度量值false或true分别转换成实数值0或1;本实施例中的具体情况如下:根据上述用户数据质量要求UserQualityNeeds中信息来构建一个最佳数据质量向量:qb=(w1m1b,w2m2b,…,wtmtb)=(0.1×1,0.06×1,0.16×0.0,0.25×0,0.1×0,0.14×1.0,0.15×1.0,0.04×1000)=(0.1,0.06,0.0,0.0,0.0,0.14,0.15,40.0)其次,根据数据集质量元数据和用户的数据质量要求UserQualityNeeds中的信息来为过滤后主题数据集列表FTDL中每个数据集dj∈FTDL,j=1,2,…,n构建它的数据质量向量qj=(w1m1j,w2m2j,…,wtmtj),其中,wi,i=1,2,…,t是用户规定的已选用的质量度量指标在数据集总体数据质量计算中的权重,mij,i=1,2,…,t按以下分情形公式计算而得:本实施例中的具体情况如下:为了根据数据集质量元数据和用户的数据质量要求UserQualityNeeds中的信息来为过滤后主题数据集列表FTDL=(d1,d9,d10,d11,d12,d16,d19,d21,d22,d28,d29)中每个数据集构建它的数据质量向量qj,按上述分情形公式计算mij的过程中,所得质量度量值的各种典型情形举例如下:数据集d12在ldqm:vocabularyReuse上无质量度量值且为布尔型的质量度量指标,则取允许的最差质量值false,并将其转化为实数值0;数据集d19在ldqm:numberOfStableIRIs上无质量度量值,则取其他数据集在ldqm:numberOfStableIRIs上的全部质量度量值的中位数123;数据集d10在ldqm:propertyCompleteness上只有一个质量度量值0.915,则取该质量度量值;数据集d9在ldqm:propertyCompleteness上有两个质量度量值0.964与0.975,则选用其中最差值0.964作为质量度量值;这样,FTDL=(d1,d9,d10,d11,d12,d16,d19,d21,d22,d28,d29)中每个数据集的数据质量向量qj见表5所列。表5:过滤后主题数据集列表FTDL中数据集的数据质量向量和总体数据质量数据集数据质量向量qj总体数据质量Qjd1(0.1,0.06,0.00672,2.00,0.0,0.13048,0.10980,8.48)0.973d9(0.1,0.06,0.00192,1.75,0.0,0.13496,0.12180,8.44)0.979d10(0.1,0.06,0.00896,2.00,0.0,0.12810,0.09165,4.48)0.913d11(0.1,0.06,0.01312,2.50,0.0,0.11830,0.09180,3.12)0.780d12(0.0,0.06,0.03248,2.00,0.0,0.11984,0.08685,4.04)0.896d16(0.1,0.06,0.01168,3.00,0.0,0.12264,0.12645,15.16)0.981d19(0.1,0.06,0.02768,3.00,0.0,0.11690,0.05670,5.48)0.877d21(0.1,0.06,0.02752,2.25,0.0,0.13048,0.09705,5.52)0.926d22(0.1,0.06,0.03600,3.25,0.0,0.12362,0.07095,2.76)0.647d28(0.1,0.06,0.03424,2.50,0.0,0.12110,0.03810,5.12)0.898d29(0.1,0.06,0.02752,2.25,0.0,0.11886,0.07545,5.44)0.924最后,将每个数据集dj∈FTDL,j=1,2,…,n的总体数据质量Qj定义为数据质量向量qj与最佳数据质量向量qb间夹角的余弦值,即按以下公式来计算数据集的总体数据质量:本实施例中的具体情况如下:按上述公式计算出的FTDL=(d1,d9,d10,d11,d12,d16,d19,d21,d22,d28,d29)中每个数据集的总体数据质量Qj见表5所列。S32:依据上述总体数据质量计算结果对过滤后主题数据集列表FTDL中数据集进行降序排序,形成过滤并排序后主题数据集列表RFTDL,即:对dk∈RFTDL,其中j,k∈{1,2,…,n}且j<k,总满足dj,dk∈FTDL且Qj≥Qk;本实施例中的具体情况如下:依据表5所列的各个总体数据质量Qj值对FTDL中数据集进行降序排序,形成过滤并排序后主题数据集列表RFTDL=(d16,d9,d1,d21,d29,d10,d28,d12,d19,d11,d22)。S4:在人机交互界面中输出过滤并排序后的主题数据集信息,包括下列步骤:S41:从数据目录中获取过滤并排序后主题数据集列表RFTDL中所有数据集的部分描述性元数据(如:数据集的标题、描述信息、发布者、发布日期等)和部分访问元数据(如:数据集的数据格式、访问及下载网址等);S42:将已获取的上述元数据按过滤并排序后主题数据集列表RFTDL中的数据集顺序在人机交互界面中依次呈现,同时呈现各数据集的总体数据质量值;本实施例中的具体情况如图6中所示,说明如下:该截屏图的浏览器窗口中依次显示了过滤并排序后主题数据集列表RFTDL中的数据集d16、d9、d1、d21的部分描述性元数据(数据集的标题、描述、发布者、发布时间)和部分访问元数据(数据格式、访问网址),以及各数据集的总体数据质量值。借助这样的结果显示,用户可以对主题数据集进行第二阶段的过滤,例如:如果用户期望主题数据集的总体数据质量值至少要达到0.975,那么该浏览器窗口中显示的数据集中,只有数据集d16(其总体数据质量值为0.981)和d9(其总体数据质量值为0.979)能够满足该用户的数据质量要求。根据本发明的另一个方面,一种基于总体数据质量的主题数据集过滤与排序系统,如图3所示,包括:用户的数据质量要求征询模块、基于质量度量值强制性要求的主题数据集过滤模块、过滤后的主题数据集的总体数据质量计算及排序模块、主题数据集过滤并排序结果的输出模块、人机交互界面。作为上述优先实施例的延续,我们实现了上述一种基于总体数据质量的主题数据集过滤与排序系统的一个原型。由于将本系统集成到现有数据目录门户中的实现方式比本系统单独实现的方式更为简单,不失一般性,我们采用了“单独实现”方式实现了该系统原型,作为数据目录门户的一种增值服务,实现对数据目录门户的主题搜索结果数据集(即主题数据集)进行基于质量度量值强制性要求和总体数据质量的主题数据集过滤与排序功能。该系统原型的主要实现技术简述如下:该系统原型被设计并实现成一个采用模型–视图–控制器(MVC)软件体系结构模式的Web应用,其软件使用Java平台企业版(JavaEE)8.0(参见:http://www.oracle.com/technetwork/java/javaee/overview/index.html)和开源的语义网应用开发Java框架ApacheJena中的核心RDFAPI(参见:http://jena.apache.org/documentation/rdf/index.html)开发,并部署于ApacheTomcat7.0.55(参见:http://tomcat.apache.org/)Web应用服务器。上述一种基于总体数据质量的主题数据集过滤与排序系统中各个模块的功能及其在系统原型中的实现技术简述如下:用户的数据质量要求征询模块用于实现本发明方法中的步骤S1:根据用户在数据目录中搜索到的主题数据集和它们的质量元数据,在人机交互界中征询用户对数据集的数据质量要求。在系统原型中的实现技术如下:定义一个与数据质量层次模型相对应的质量类别-质量维-质量度量指标的嵌套层次时,每一层都用Java数组表(ArrayList)来实现,下层的数组表作为其直接上层数组表元素中的一个属性,质量类别和质量维层次中每个数组表元素只包含该层质量名称的属性,质量度量指标层中每个数组表元素包含以下几个属性:质量度量指标的名称、最差质量度量值、最佳质量度量值,用户是否选用该质量度量指标、用户所指定的该质量度量指标的权重、用户所指定的该质量度量指标的起码质量度量值,所有主题数据集符合该质量度量指标的度量值的Java数组表(ArrayList),各个主题数据集符合该质量度量指标的度量值的Java集合类(Map)。如果数据目录门户提供数据集元数据的SPARQL端点(如:欧盟开放数据门户的SPARQL端点http://data.europa.eu/euodp/en/linked-data),那么可通过SPARQL查询(参见:本说明书的“
背景技术
:”)获取RDF格式的质量元数据,否则,可通过HTTP请求获取RDF格式的质量元数据(如:数据目录门户DATA.GOV提供数据集元数据的JSON-LD文档,即一种RDF文档);利用ApacheJena中的核心RDFAPI解析已获取的RDF格式的质量元数据,并通过Java程序实现将质量元数据中的质量类别、质量维、质量度量指标的名称和其他信息及相互包含关系相应地赋值至上述数据质量层次,其中,质量度量指标层中用户是否选用某个质量度量指标、用户所指定的该质量度量指标的权重、用户所指定的该质量度量指标的起码质量度量值均置为空;通过在JavaServerPages(JSP)页面中加载Bootstrap前端开发框架(参见:http://getbootstrap.com/)和JavaScriptjQuery库(参见:https://jquery.com/)在人机交互界中将用户对数据集的数据质量要求征询表进行可视化。基于质量度量值强制性要求的主题数据集过滤模块用于实现本发明方法中的步骤S2:根据用户对数据集的数据质量要求中所规定的质量度量值强制性要求,对主题数据集进行过滤。在系统原型中的实现技术为:根据用户在上述可视化的数据质量要求征询表中的操作,使用JavaScript(参见:https://developer.mozilla.org/en-US/docs/Web/JavaScript)的事件驱动编程技术,将用户选用的质量度量指标、用户指定的质量度量指标的权重、用户指定的质量度量指标的起码质量度量值都记录下来。通过Java程序对主题数据集列表TDL中的数据集进行第一阶段的过滤,将TDL中剩余的数据集赋值给过滤后主题数据集列表FTDL。过滤后的主题数据集的总体数据质量计算及排序模块用于实现本发明方法中的步骤S3:根据用户对数据集的数据质量要求中所选用的质量度量指标及其权重,计算出过滤后的主题数据集的总体数据质量,并据此对主题数据集进行排序。在系统原型中的实现技术为:根据征询到的用户对数据集的数据质量要求中所选用的质量度量指标及其权重,通过Java程序构建最佳数据质量向量以及过滤后主题数据集列表FTDL中的每个数据集的数据质量向量,并计算各个数据集的总体数据质量;根据总体数据质量对FTDL中数据集进行降序排序,并将排序结果赋值给过滤并排序后主题数据集列表RFTDL。主题数据集过滤并排序结果的输出模块用于实现本发明方法中的步骤S4:在人机交互界面中输出过滤并排序后的主题数据集信息。在系统原型中的实现技术为:使用与用户的数据质量要求征询模块中相同的方法从数据目录中获取过滤并排序后主题数据集列表RFTDL中所有数据集的标题、描述、发布者、发布日期等描述性元数据和数据集的数据格式、访问网址等访问元数据(均为RDF格式),并利用ApacheJena中的核心RDFAPI进行解析,最后通过Java程序将解析后的上述元数据按数据集排序结果的顺序在人机交互界面中呈现,同时显示各数据集的总体数据质量值。人机交互界面用于实现用户与该系统之间的人机交互,包括:用户在该界面中输入数据集搜索主题、系统在该界面中显示用户对数据集的数据质量要求征询表、用户在该征询表中选用质量度量指标及其权重并规定质量度量值应满足的强制性要求、系统在该界面中呈现过滤并排序后的主题数据集信息。在系统原型中的实现技术为:人机交互界面中的内容来自JSP页面;使用层叠样式表(CascadingStyleSheets,CSS)(参见:http://www.w3.org/TR/CSS2/)来定义JSP页面在浏览器中的显示样式;通过在JSP页面中加载Bootstrap前端开发框架和JavaScriptjQuery库将上述征询表信息在人机交互界面中进行可视化;使用JavaScript的事件驱动编程技术来实现对用户在可视化的征询表上的鼠标点击或键盘输入事件的监听与响应。作为一个具体应用案例,使用上述已实现的系统原型来运行前述的优选实施例,该系统原型实现了预期功能。图5示出了该系统原型显示用户对数据集的数据质量要求征询表的人机交互界面截屏。图6示出了该系统原型输出主题数据集过滤并排序结果的人机交互界面截屏。以图5中用户对数据集的数据质量要求为基础、以图6中输出结果为例,在系统原型运行前述的优选实施例过程中,数据集d5、d6、d8、d15、d18、d24、d26、d27因没有任何质量元数据而被直接过滤掉,数据集d2、d3、d4、d7、d13、d14、d17、d20、d23、d25因某(几)个实际质量度量值不满足用户规定的强制性要求(即坏于相应的起码质量度量值)而被过滤掉,上述过滤是对主题数据集的第一阶段的过滤;图6所示是按总体数据质量值降序排列显示的过滤后的主题数据集(通过窗口滚动条可察看全部11个过滤并排序后的数据集),借助这样的结果显示,用户可以对主题数据集进行第二阶段的过滤,例如:如果用户期望主题数据集的总体数据质量值至少要达到0.97,那么图6浏览器窗口中显示的数据集中,只有数据集d16(其总体数据质量值为0.981)、d9(其总体数据质量值为0.979)、d1(其总体数据质量值为0.973)能够满足该用户的数据质量要求,用户就可以对这些主题数据集进行选用。以上充分表明了本发明技术方案克服了现有的数据集主题搜索与过滤技术忽视数据质量的弊端,是一种对数据目录门户搜索结果数据集(即主题数据集)进行基于质量度量值强制性要求和总体数据质量要求的过滤与排序的全新方法与系统,能够方便用户筛选出符合其特定数据质量要求的主题数据集,增加已发布的数据(集)被用户消费的机会,促进数据生态系统的健康发展;同时,本发明解决了人们一种渴望解决、但始终未能获得成功的“从数据质量角度来选用数据资源”的经典技术难题,代表了数据目录门户技术的必然发展趋势。以上所述仅是本发明的部分实施方式,应当指出,对于本
技术领域
:的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1