一种非结构化数据管理方法及装置与流程

文档序号:11155611阅读:550来源:国知局
一种非结构化数据管理方法及装置与制造工艺

本发明属于数据库技术领域,尤其是涉及一种非结构化数据管理方法及装置。



背景技术:

结构化数据库,又称关系型数据库,是建立在关系模型基础上的数据库。关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成。关系数据结构是对结构化数据的严格约束,如:字段类型、字段长度、精度、默认值等。是当前数据存储与管理应用的主流技术。

结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。

随着网络技术的飞速发展,非结构化数据近些年来增长速度惊人,且以44倍的速度迅猛增长,而这些非结构化数据又不适合存储在关系型数据库中,应运产生了非结构化数据库,非结构化数据库是指其字段长度不等,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库。正是这种特性,成就了非结构数据库在非结构化数据读取方面的高效,但因为其自身设计特点,非结构数据库在回答一些结构化方面的问题时变得非常低效,如:数据库中是否有某某数据,非结构化数据库往往需要遍历整库数据,才能回答类似问题,完全没有结构化数据依靠元数据及结构化查询语言SQL来的高效。



技术实现要素:

有鉴于此,本发明提供了一种非结构化数据管理方法及装置,以解决非结构化数据无法在关系型数据库中应用的技术问题。

一方面,本发明实施例提供了一种非结构化数据的存储方法,包括:

获取非结构化数据文件,并分解所述文件;

根据所述分解结果获取所述文件中的结构化信息,根据所述结构化信息存储所述非结构化数据。

进一步的,在根据所述结构化信息存储所述非结构化数据之前,还包括:

对所述结构化信息进行清洗。

进一步的,所述根据所述分解结果获取所述文件中的结构化信息,包括:

根据所述分解结果获取所述文件中的多个不同类型的结构化信息;

所述根据所述结构化信息存储所述非结构化数据,包括:

按照所述类型将所述非结构化数据存储在多张系统表中。

一方面,本发明实施例提供了一种非结构化数据的查询方法,包括:

采用标准查询语言在系统表中进行查找;

根据所述查找得到的结构化数据确定非结构化数据。

进一步的,所述根据所述查找得到的结构化数据确定非结构化数据,包括:

根据所述结构化数据确定非结构化数据分解与存储情况;

根据非结构化数据分解与存储情况进行重组,实现非结构化数据的重现。

一方面,本发明实施例提供了一种非结构化数据的存储装置,包括:

分解单元,用于获取非结构化数据文件,并分解所述文件;

存储单元,用于根据所述分解结果获取所述文件中的结构化信息,根据所述结构化信息存储所述非结构化数据。

进一步的,所述装置还包括:

清洗单元,用于对所述结构化信息进行清洗。

更进一步的,所述存储单元用于:

根据所述分解结果获取所述文件中的多个不同类型的结构化信息;

按照所述类型将所述非结构化数据存储在多张系统表中。

另一方面,本发明实施例提供了一种非结构化数据的查询装置,包括:

查找单元,用于采用标准查询语言在系统表中进行查找;

确定单元,用于根据所述查找得到的结构化信息确定非结构化数据。

进一步的,所述确定单元用于:

根据所述结构化信息确定非结构化数据分解与存储情况;

根据非结构化数据分解与存储情况进行重组,实现非结构化数据的重现。

本发明实施例提供的非结构化数据管理方法及装置,通过对非结构化数据进行处理,使之分解为包括多个结构化信息。并根据结构化信息进行存储,并可通过结构化信息进行查询。有效的解决了结构化数据与非结构化数据的一体化存储与管理,有效的保障了数据的完整性,极大的方便了关系型数据库的备份与迁移。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的非结构化数据的存储方法的流程示意图;

图2是本发明实施例二提供的非结构化数据的查询方法的流程示意图;

图3是本发明实施例三提供的非结构化数据的存储装置的结构示意图;

图4是本发明实施例四提供的非结构化数据的查询装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

图1是本发明实施例一提供的非结构化数据的存储方法的流程示意图;本方法可适用于将非结构化数据存储至结构化数据库的情况,该方法可以由非结构化数据的存储装置来执行,该装置可由软件/硬件方式实现,并可集成于用于数据库中。

参见图1,所述非结构化数据的存储方法,包括:

S110,获取非结构化数据文件,并分解所述文件。

相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。

对需要存储在结构化数据库中的非结构化数据文件,可以根据其文件类型对文件进行分解。以形成包括对应的实体数据和至少一个的结构化信息。具体的,例如,对于HTML文件,可提取的结构化信息包括:文件类型代码和文件文本内容编码等。

S120,根据所述分解结果获取所述文件中的结构化信息,根据所述结构化信息存储所述非结构化数据。

根据步骤S110的分解结果,获取非结构化数据文件中的结构信息。具体的,根据所述分解结果获取所述文件中的多个不同类型的结构化信息。由于分解结果中通常包括不止一个结构信息,相应的,按照所述类型将所述非结构化数据存储在多张系统表中。所述系统表用于存储元数据,能够用结构化信息描述非结构化数据文件。根据所述结构化信息将所述非结构化数据以二维表方式进行存储。

本实施例通过对非结构化数据进行处理,使之分解为包括多个结构化信息。并根据结构化信息进行存储,并可通过结构化信息进行查询。有效的解决了结构化数据与非结构化数据的一体化存储与管理。

在本实施例的一个优选实施方式中,在根据所述结构化信息存储所述非结构化数据之前,可增加如下步骤:对所述结构化信息进行清洗。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。目的在于删除重复信息、纠正存在的错误,并提供数据一致性。通过对结构化信息进行清洗,可以对分解的结构化信息进行纠错,避免将错误信息存入结构化数据库中,有效的保障了数据的完整性。

实施例二

图2是本发明实施例二提供的非结构化数据的查询方法的流程示意图;本方法可适用于在结构化数据库查询非结构化数据的情况,该方法可以由非结构化数据的查询装置来执行,该装置可由软件/硬件方式实现,并可集成于用于数据库中。

参见图2,所述非结构化数据的查询方法,包括:

S210,采用标准查询语言在系统表中进行查找。

示例性的,可以提供一个相应的应用API接口,用户可以通过该接口进行查询。由于采用的是结构化数据库存储数据,因此,可以采用保准查询语言SQL来执行查询操作,并使用SQL语言在结构化数据库中查找。

S220,根据所述查找得到的结构化信息确定非结构化数据。

示例性的,可以采用如下方式:根据所述结构化数据确定非结构化数据分解与存储情况;根据非结构化数据分解与存储情况进行重组,实现非结构化数据的重现。由于各种结构化数据存储在不同的数据表中,根据系统表确定结构化信息,并通过结构化信息查找对应的非结构数据的实体数据,通过实体数据与所有的结构化信息的重组,确定非结构化数据,并将非结构化数据作为查询结果返回。

本实施例通过根据查找得到的结构化信息确定非结构化数据,可实现在关系型数据库中对非结构化数据的快速组装与重现,此外,使用标准数据查询语言(SQL)进行数据高效检索与查询,无需进行全库遍历,极大提高了非结构化数据检索效率。

实施例三

图3是本发明实施例三提供的非结构化数据的存储装置的结构示意图,如图3所示,所述装置包括:

分解单元310,用于获取非结构化数据文件,并分解所述文件;

存储单元320,用于根据所述分解结果获取所述文件中的结构化信息,根据所述结构化信息存储所述非结构化数据。

本实施例提供的非结构化数据存储装置,通过对非结构化数据进行处理,使之分解为包括多个结构化信息。并根据结构化信息进行存储,并可通过结构化信息进行查询。有效的解决了结构化数据与非结构化数据的一体化存储与管理,有效的保障了数据的完整性,极大的方便了关系型数据库的备份与迁移。

在上述各实施例的基础上,所述装置还包括:

清洗单元,用于对所述结构化信息进行清洗。

在上述各实施例的基础上,所述述存储单元用于:

根据所述分解结果获取所述文件中的多个不同类型的结构化信息;

按照所述类型将所述非结构化数据存储在多张系统表中。

实施例四

图4是本发明实施例是提供的非结构化数据的查询装置的结构示意图,如图4所示,所述装置包括:

查找单元410,用于采用标准查询语言在系统表中进行查找;

确定单元420,用于根据所述查找得到的结构化信息确定非结构化数据。

本实施例提供的非结构化数据的查询装置,可实现在关系型数据库中对非结构化数据的快速组装与重现,此外,使用标准数据查询语言(SQL)进行数据高效检索与查询,无需进行全库遍历,极大提高了非结构化数据检索效率。

在上述各实施例的基础上,所述确定单元用于:

根据所述结构化信息确定非结构化数据分解与存储情况;

根据非结构化数据分解与存储情况进行重组,实现非结构化数据的重现。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1