一种生成结构化数据的元数据的方法与装置的制造方法_5

文档序号:8528202阅读:来源:国知局
“文本”与degree所属的列数组(数组5)的数据类型“学位”相比较,有差异。通过前述5次对比,其中4组数据类型有差异,数量占比大于差异阈值(如60% ),因此,元数据生成装置13可以确定待检测数组为标题数组,也即,结构化数据具有标题数组。
[0198]其中,每个元素的数据类型同样可以由多个数据类型探测器进行探测来确定。在此,采用多个数据类型探测器探测待检测数组中元素的数据类型的方式,与前述采用多个数据类型探测器探测各数组中元素的数据类型的方式相同或基本相同,因此不再赘述,并以引用的方式包含于此。
[0199]此外,元数据生成装置13还可以根据已确定的每个数组的数据类型,通过调用相应数据类型的数据类型探测器来分别探测待检测数组中与各数组相对应的元素的数据类型,以根据各元素的数据类型与相应数组的数据类型之间的差异,确定该待检测数组是否为标题数组。例如,继前示例A,数组I的数据类型为“文本”,元数据生成装置13可以通过调用用于探测“文本”的数据类型探测器来探测数组I所对应的待检测数组中的元素“name”,并确定“name”属于文本数据类型,也即,“name”的数据类型与数组I的数据类型无差异。数组2的数据类型为“年龄”,元数据生成装置13可以通过调用用于探测“年龄”的数据类型探测器来探测数组2所对应的待检测数组中的元素“age”,并确定“age”不属于“年龄”数据类型,也即,“age”的数据类型与数组2的数据类型有差异。以此类推,通过5次对比,其中4组数据类型有差异,数量占比大于差异阈值,因此,元数据生成装置13可以确定待检测数组为标题数组,也即,结构化数据具有标题数组。
[0200]1.2)结构化数据对应的待检测数组中各元素是否具有标题相关特征。
[0201]在此,标题相关特征包括但不限于各元素均不为空、各元素均不为数值、各元素的长度不超过预定阈值等。
[0202]如果待检测数组中各元素满足前述一项或多项标题相关特征,则该待检测数组为标题数组,从而该结构化数据具有标题数组。
[0203]1.3)元数据生成装置13综合前述1.1)和1.2)两种方式来确定。
[0204]在此,如果待检测数组的数据类型与各数组的数据类型的差异较大,并且待检测数组中各元素具有标题相关特征,元数据生成装置13可以确定结构化数据具有标题数组。
[0205]2)结构化数据所属的应用领域。
[0206]在此,元数据生成装置13可以根据所确定的每个数组各自的数据类型,通过查询应用领域数据库来确定结构化数据所属的应用领域。所述应用领域数据库中保存有数据类型与相应的应用领域的对应关系。
[0207]其中,所述应用领域包括但不限于人力资源、互联网资源、财务数据等。
[0208]例如,继前示例A,所确定的每个数组的各数据类型包括“年龄”、“性别”、“学历”、“学位”,这些数据类型对应的应用领域为人力资源。
[0209]又如,如果所确定的每个数组的各数据类型包括“网站名称”、“网址”等,这些数据类型对应的应用领域为互联网资源。
[0210]还如,如果所确定的每个数组的各数据类型包括“单价”、“数量”、“总价”等,这些数据类型对应的应用领域为财务数据。
[0211]3)结构化数据的至少一个数组中包含与相应数组的数据类型不符的异常元素。
[0212]在此,元数据生成装置13可以根据所确定的各数组的数据类型,对结构化数据相应数组中包含的元素进行探测,以确定其中是否包含与所属数组的数据类型不一致的异常元素。
[0213]例如,结构化数据所对应的一数组的数据类型为学历,并且该数组中包含一元素“20000”。元数据生成装置13可以通过调用“学历”数据类型探测器对该数组所包括的所有元素进行探测,并将该元素“20000”确定为与数据类型“学历”不符的异常元素。
[0214]需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
[0215]对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此夕卜,显然“包括” 一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
【主权项】
1.一种生成结构化数据的元数据的方法,其中,该方法包括: a解析结构化数据,以获得所述结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型; b确定其中至少一个数组的数据类型; c根据所确定的数据类型,生成所述结构化数据的元数据。
2.根据权利要求1所述的方法,其中,所述步骤b中多个数据类型探测器被用来确定所述至少一个数组的数据类型。
3.根据权利要求2所述的方法,其中,所述步骤b具体包括: bl按照所述多个数据类型探测器的排序,逐个将所述数据类型探测器用于探测一个数组的数据类型,直至确定该数组的数据类型; b2对下一数组执行所述步骤bl,直至确定所有数组的数据类型。
4.根据权利要求3所述的方法,其中,所述步骤bl中的排序包括将所述多个数据类型探测器划分为不同层级,按照所属层级对所述多个数据类型探测器进行排序。
5.根据权利要求4所述的方法,其中,所述步骤bl中的排序还包括: -对属于同一层级的数据类型探测器按照运行速度进行二次排序。
6.根据权利要求1至5中任一项所述的方法,其中,在步骤a之前,该方法还包括: -对初始结构化数据进行转化,以使其转化为可被按照预定方式解析的所述结构化数据。
7.根据权利要求1至6中任一项所述的方法,其中,所述元数据包括所述数据类型以及由所述数据类型确定的其他元数据。
8.根据权利要求7所述的方法,其中,所述其他元数据包括以下至少任一项: -所述结构化数据具有标题数组; -所述结构化数据所属的应用领域; -所述结构化数据的至少一个数组中包含与相应数组的数据类型不符的异常元素。
9.根据权利要求8所述的方法,其中,所述其他元数据包括所述结构化数据具有标题数组; 其中,所述结构化数据具有标题数组基于以下至少任一方式来确定: -所述标题数组中每个元素的数据类型与该元素所对应的一个所述数组的数据类型的差异; -所述标题数组中各元素是否具有标题相关特征。
10.根据权利要求9所述的方法,其中,所述标题相关特征包括以下至少任一项: -不为空; -不为数值; -长度不超过预定阈值。
11.一种生成结构化数据的元数据的装置,其中,该装置包括: -用于解析结构化数据,以获得所述结构化数据所对应的一个或多个数组的装置,其中每个数组对应于一个数据类型; -用于确定其中至少一个数组的数据类型的装置; -用于根据所确定的数据类型,生成所述结构化数据的元数据的装置。
12.根据权利要求11所述的装置,其中,所述用于确定其中至少一个数组的数据类型的装置通过调用多个数据类型探测器来确定所述至少一个数组的数据类型。
13.根据权利要求12所述的装置,其中,所述确定所述至少一个数组的数据类型的操作具体包括: -按照所述多个数据类型探测器的排序,逐个将所述数据类型探测器用于探测一个数组的数据类型,直至确定该数组的数据类型,对下一数组重复执行所述前述探测操作,直至确定所有数组的数据类型。
14.根据权利要求13所述的装置,其中,所述排序包括将所述多个数据类型探测器划分为不同层级,按照所属层级对所述多个数据类型探测器进行排序。
15.根据权利要求14所述的装置,其中,所述排序还包括: -对属于同一层级的数据类型探测器按照运行速度进行二次排序。
16.根据权利要求11至15中任一项所述的装置,其中,该装置还包括: -用于对初始结构化数据进行转化,以使其转化为可被按照预定方式解析的所述结构化数据的装置。
17.根据权利要求11至16中任一项所述的装置,其中,所述元数据包括所述数据类型以及由所述数据类型确定的其他元数据。
18.根据权利要求17所述的装置,其中,所述其他元数据包括以下至少任一项: -所述结构化数据具有标题数组; -所述结构化数据所属的应用领域; -所述结构化数据的至少一个数组中包含与相应数组的数据类型不符的异常元素。
19.根据权利要求18所述的装置,其中,所述其他元数据包括所述结构化数据具有标题数组; 其中,所述结构化数据具有标题数组基于以下至少任一方式来确定: -所述标题数组中每个元素的数据类型与该元素所对应的一个所述数组的数据类型的差异; -所述标题数组中各元素是否具有标题相关特征。
20.根据权利要求19所述的装置,其中,所述标题相关特征包括以下至少任一项: -不为空; -不为数值; -长度不超过预定阈值。
【专利摘要】本发明的目的是提供一种生成结构化数据的元数据的方法与装置。其中,本发明解析结构化数据,以获得该结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型,并确定至少一个数组的数据类型,以根据所确定的数据类型,生成该结构化数据的元数据。本发明提出了一种自动创建结构化数据的元数据的方案,结构化数据的元数据可以供进一步的数据质量检测、数据分析和统计使用等用途。本发明至少具有以下有益效果:第一,可以显著地节省人工成本;第二,本发明所生成的元数据更为准确化、标准化,降低了出错率;第三,元数据自动生成的流程可以与后续的数据分析流程无缝连接,进而提高整体数据处理流程的效率。
【IPC分类】G06F17-30
【公开号】CN104850590
【申请号】CN201510202637
【发明人】孔亮, 王丽敏
【申请人】百度在线网络技术(北京)有限公司
【公开日】2015年8月19日
【申请日】2015年4月24日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1