一种生成结构化数据的元数据的方法与装置的制造方法

文档序号:8528202阅读:875来源:国知局
一种生成结构化数据的元数据的方法与装置的制造方法
【技术领域】
[0001]本发明涉及信息技术领域,尤其涉及一种生成结构化数据的元数据的技术。
【背景技术】
[0002]元数据(meta data)意指用于描述数据的数据。例如对于关系型数据库系统中的一个二维表数据来说,诸如描述这个二维表数据有多少列、每一列的数据类型是什么等等的数据,可以被称为这张二维表数据的元数据。
[0003]理想情况下,例如二维表数据等结构化数据应均对应有可供使用的元数据。然而,实际工作中仍存在大量不具有元数据的结构化数据。例如,随着互联网的普及,越来越多的数据来源于非结构化、或半结构化的网页内容。从这些网页内容中分析并提取出的结构化数据往往缺乏相应的元数据。
[0004]现有技术只能通过人工配置的方式来创建结构化数据的元数据。然而,人工配置元数据的方式至少存在以下问题:
[0005]1、人工成本高,并且配置工作枯燥;
[0006]2、人工配置的元数据没有统一的标准格式、难以通用,并且容易出错;
[0007]3、元数据配置工作后续的数据分析流程依赖于人工完成后才能进行、无法自动进行,整体工作流程效率低。

【发明内容】

[0008]本发明的目的是提供一种生成结构化数据的元数据的方法与装置。
[0009]根据本发明的一个方面,提供了一种生成结构化数据的元数据的方法,其中,该方法包括:
[0010]a解析结构化数据,以获得所述结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型;
[0011]b确定其中至少一个数组的数据类型;
[0012]c根据所确定的数据类型,生成所述结构化数据的元数据。
[0013]根据本发明的另一个方面,还提供了一种生成结构化数据的元数据的装置,其中,该装置包括:
[0014]-用于解析结构化数据,以获得所述结构化数据所对应的一个或多个数组的装置,其中每个数组对应于一个数据类型;
[0015]-用于确定其中至少一个数组的数据类型的装置;
[0016]-用于根据所确定的数据类型,生成所述结构化数据的元数据的装置。
[0017]与现有技术相比,本发明解析结构化数据,以获得该结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型,并确定至少一个数组的数据类型,以根据所确定的数据类型,生成该结构化数据的元数据。本发明提出了一种自动创建结构化数据的元数据的方案,结构化数据的元数据可以供进一步的数据质量检测、数据分析和统计使用等用途。本发明至少具有以下有益效果:第一,无需再人工配置元数据,因而可以显著地节省人工成本;第二,与人工配置元数据相比,本发明所生成的元数据更为准确化、标准化,降低了出错率;第三,元数据自动生成的流程可以与后续的数据分析流程无缝连接,进而提高整体数据处理流程的效率。
【附图说明】
[0018]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0019]图1示出根据本发明一个实施例的一种生成结构化数据的元数据的方法流程图;
[0020]图2示出根据本发明一个实施例的一种生成结构化数据的元数据的装置示意图。
[0021]附图中相同或相似的附图标记代表相同或相似的部件。
【具体实施方式】
[0022]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0023]在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的程序指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
[0024]所述计算机设备例如包括用户设备与网络设备。其中,所述用户设备包括但不限于智能手机、PDA、笔记本电脑、台式机等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
[0025]需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
[0026]本文后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
[0027]这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
[0028]应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
[0029]这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
[0030]还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
[0031]下面结合附图对本发明作进一步详细描述。
[0032]本发明可由任何具有所要求的计算处理能力的计算机设备来实现,如网络设备、用户设备等。本文中多以网络设备进行举例。具体地,网络设备解析结构化数据,以获得该结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型;接着,网络设备确定其中至少一个数组的数据类型;随后,网络设备根据所确定的数据类型,生成该结构化数据的元数据。
[0033]其中,所述结构化数据包括但不限于二维表数据、三维表数据、树状数据等具有结构特征的数据。
[0034]非结构化数据包括但不限于文本、图片、音频、视频等不具有结构特征的数据。
[0035]半结构化数据是一种特殊的非结构化数据。半结构化数据介于完全的结构化数据与完全的非结构化数据之间的数据。
[0036]本发明方案用于生成结构化数据的元数据。对于半结构化数据,如果其中部分数据属于结构化数据,则该部分数据也可以被称为结构化数据,并且本发明方案也可以用于生成该部分数据的元数据。
[0037]数据类型意指用于描述数据的类型的信息。在本文中,数据类型包括但不限于文本、数字、整数、浮点数、时间等基本类型,以及性别、URL、城市、电话、医院等级等更具体、更贴近应用领域的应用类型。
[0038]图1示出根据本发明一个实施例的方法流程图,其具体示出一种生成结构化数据的元数据的过程。在步骤Si中,网络设备解析结构化数据,以获得该结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型;在步骤S2中,网络设备确定其中至少一个数组的数据类型;在步骤S3中,网络设备根据所确定的数据类型,生成该结构化数据的元数据。
[0039]具体地,在步骤SI中,网络设备解析结构化数据,以获得该结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型。
[0040]为简单说明起见,本发明多以二维表数据作为结构化数据进行举例。本领域技术人员应能理解,其他现有的或今后可能出现的结构化数据如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0041]在此,网络设备可以分析二维表数据的数据编码方式,例如UTF8、GB18030等数据编码方式。网络设备例如可以将二维表数据转换为文本格式。例如示例A,文本格式的二维表数据如下所示:
[0042]name ;age ;gender ;educat1n ;degree
[0043]张三;25 ;男;大学本科;学士
[0044]李四;24 ;女;大学专科;无
[0045]王五;27 ;男;研宄生;硕士
[0046]接着,网络设备可以分析上述二维表数据中的列分隔符,并确定其中分号“;”为列分隔符。随后,网络设备可以将该二维表数据解析为以下5个数组,每个数组包括4个元素,如下所示:
[0047]数组1: [name,张三,李四,王五];
[0048]数组2: [age,25,24,27];
[0049]数组3: [gender,男,女,男];
[0050]数组4: [educat1n,大学本科,大学专科,研宄生];
[0051]数组5: [degree,学士,无,硕士]。
[0052]其中,网络设备例如可以确定每行中数量相等的字符,并将该每行中数量相等的字符确定为列分隔符。例如,前述二维表数据中每行均包括4个列分隔符。特别地,如果冒号(“:”)出现在URL地址中,该冒号非列分隔符。
[0053]在此,网络设备所获得的每个数组应对应于一个数据类型。对应于一个数据类型的数组意指其所包括的全部或大部分的元素属于同一个数据类型的
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1