一种数据管理设备和方法与流程

文档序号:12124534阅读:262来源:国知局
一种数据管理设备和方法与流程

本发明涉及数据处理技术领域,具体而言,涉及一种数据管理设备和方法。



背景技术:

随着社会的发展,数据的类型也越来越多样化,有结构化数据和非结构化数据,最早出现的数据大多是电子商务或通话记录等结构化数据,随着互联网在社会生活中的流行和普及,产生了大量的非结构化数据,比如说交通系统、安防系统等应用系统产生的多媒体数据等等,为了便于对这些数据进行存储和分析,需要有专门的数据管理设备来管理这些数据。

由于,最早出现的数据是电子商务或通话记录等结构化数据,因此,现有技术中的数据管理设备大都是针对结构化数据设计的,主要用来分析和存储结构化数据,一般采用传统硬盘或者分布式文件存储系统存储数据。

但是,对于多媒体数据,数据比较大,现有的数据管理设备如果采用传统硬盘,单块传统硬盘的存储容量有限,没有足够的空间存储多媒体数据,如果采用分布式文件存储系统,所有数据默认存储三份副本,这样容易导致存储空间的浪费,因此,现有技术中的数据管理设备不适合分析和存储多媒体数据。



技术实现要素:

有鉴于此,本发明实施例的目的在于提供一种数据管理设备和方法,以试图解决或者缓解上述问题。

第一方面,本发明实施例提供了一种数据管理设备,其中,所述设备包括:数据湖、数据处理模块和结构化数据存储模块;

所述数据处理模块,用于接收用户终端发送的数据,判断所述数据是否为非结构化数据,当所述数据为非结构化数据时,对所述非结构化数据进行处理,提取所述非结构化数据的关键数据,将所述存非结构化数据发送给所述数据湖,接收所述数据湖发送的所述非结构化数据在所述数据湖中的存储路径,将所述关键数据和所述存储路径发送给所述结构化数据存储模块;

所述数据湖,用于接收所述数据处理模块发送的所述非结构化数据,存储所述非结构化数据,并将所述非结构化数据的存储路径发送给所述数据处理模块;

所述结构化数据存储模块,用于接收所述数据处理模块发送的所述关键数据和所述存储路径,并存储所述关键数据和所述存储路径。

结合第一方面,本发明实施例提供了上述第一方面的第一种可能的实现方式,其中,所述数据处理模块用于,当所述非结构化数据为音频数据时,将所述音频数据转换成文本数据,通过语义分析提取所述文本数据的关键数据。

结合第一方面,本发明实施例提供了上述第一方面的第二种可能的实现方式,其中,所述数据处理模块还用于,当所述非结构化数据为文本数据时,通过语音分析提取所述文本数据的关键数据。

结合第一方面,本发明实施例提供了上述第一方面的第三种可能的实现方式,其中,所述数据处理模块还用于,当所述非结构化数据为视频数据时,通过视频处理提取所述视频数据的关键数据。

结合第一方面,本发明实施例提供了上述第一方面的第四种可能的实现方式,其中,所述数据处理模块还用于,当所述数据为结构化数据时,发送所述结构化数据给所述结构化数据存储模块。

结合第一方面,本发明实施例提供了上述第一方面的第五种可能的实现方式,其中,所述设备还包括与所述数据湖、所述数据处理模块和所述结构化数据存储模块连接的多计算机切换器。

结合第一方面,本发明实施例提供了上述第一方面的第六种可能的实现方式,其中,所述设备还包括与所述数据湖、所述数据处理模块和所述结构化数据存储模块连接的交换机。

第二方面,本发明实施例提供了一种数据管理方法,应用上述第一方面所述的数据管理设备,其中,所述方法包括:

数据处理模块接收用户终端发送的数据,判断所述数据是否为非结构化数据,当所述数据为非结构化数据时,对所述非结构化数据进行处理,提取所述非结构化数据中的关键数据,将所述非结构化数据发送给数据湖;

所述数据湖接收所述数据处理模块发送的所述非结构化数据,存储所述非结构化数据,并将所述非结构化数据的存储路径发送给所述数据处理模块;

所述数据处理模块接所述数据湖发送的所述存储路径,将所述关键数据和所述存储路径发送给所述结构化数据存储模块;

所述结构化数据存储模块接收所述数据处理模块发送的所述关键数据和所述存储路径,并存储所述关键数据和所述存储路径。

结合第二方面,本发明实施例提供了上述第二方面的第一种可能的实现方式,其中,所述方法还包括:

当所述数据为结构化数据时,所述数据处理模块发送所述结构化数据给所述结构化数据存储模块。

结合第二方面,本发明实施例提供了上述第二方面的第二种可能的实现方式,其中,所述数据处理模块将所述音频数据转换成文本数据,通过语义分析提取所述文本数据的关键数据。

本发明实施例提供的数据管理设备和方法,适合分析和存储非结构化数据,能够最低限度使用存储空间,避免存储空间的浪费。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例1所提供的数据管理设备的结构示意图;

图2示出了本发明实施例1所提供的数据管理设备的第二种结构示意图的示意图;

图3示出了本发明实施例1所提供的数据管理设备的具体结构示意图;

图4示出了本发明实施例2所提供的数据管理方法的流程图。

图2附图标记说明:

110,数据湖;120,数据处理模块;130,结构化数据存储模块;

图3附图标记说明:

210,多计算机切换器;

图3附图标记说明:

131,2U服务器;310,交换机;111,4U服务器。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

考虑到相关技术中的数据管理设备大都是针对结构化数据设计的,主要用来分析和存储结构化数据,一般采用传统硬盘或者分布式文件存储系统存储数据,但是,对于多媒体数据,数据比较大,现有的数据管理设备,如果采用传统硬盘,单块传统硬盘的存储容量有限,没有足够的空间存储多媒体数据,如果采用分布式文件存储系统,所有数据默认存储三份副本,这样容易导致存储空间的浪费,因此,现有技术中的数据管理设备不适合分析和存储多媒体数据。基于此,本发明实施例提供了一种数据管理设备和方法,下面通过实施例进行描述。

实施例1

本发明实施例提供了一种数据管理设备,如图1所示,该设备包括数据湖110、数据处理模块120和结构化数据存储模块130;

上述数据处理模块120,用于接收用户终端发送的数据,判断该数据是否为非结构化数据,当该数据为非结构化数据时,对非结构化数据进行处理,提取该非结构化数据的关键数据,将非结构化数据发送给数据湖110,接收数据湖110发送的非结构化数据在数据湖110中的存储路径,将上述关键数据和存储路径发送给结构化数据存储模块130;

上述数据湖110,用于接收数据处理模块120发送的存储路径和非结构化数据,存储上述非结构化数据,并将上述非结构化数据的存储路径发送给数据处理模块120;

上述结构化数据存储模块130,用于接收数据处理模块120发送的关键数据和存储路径,并存储该关键数据和存储路径。

其中,上述用户终端可以是个人计算机、服务器、以及其它支持各种文件传输协议的电子硬件设备等。

上述数据处理模块120可以为数据抽取、转换、加载(Extract-Transform-Load,ETL)服务器,上述数据湖110可以由多个4U服务器构成,上述结构化数据存储模块130可以由多个2U服务器构成。

其中,上述非结构化数据包括视频数据、音频数据和文本数据等等。

上述数据处理模块120会实时监测是否有用户终端发送的数据,用户终端发送的数据还携带有该用户终端的标识,当数据处理模块120监测到有用户终端发来数据后,会对该用户终端的标识进行识别,根据该用户终端是否为授权终端,如果是,则对该用户终端发送的数据进行下一步的处理。

数据处理模块120会对该数据的类型进行判断,确定该数据是结构化数据还是非结构化数据,当确定该数据为非结构化数据时,从该非结构化数据中提取出该数据的关键数据,比如说,该数据的主题信息以及和该数据相关的关键词等,辅助以后对数据的检索,并将提取的关键数据发送给结构化数据存储模块130,由结构化数据存储模块130对其进行存储。

另外,数据处理模块120对接收到的数据处理之后,将接收到的非结构化数据发送给数据湖110,数据湖110将该非结构化数据进行存储,并将给非结构化数据的存储路径发送给数据处理模块120,数据处理模块120将接收到的存储路径发送给结构化数据存储模块130。

其中,上述非结构化数据以文件的形式存储在数据湖110中。

本发明实施例提供的数据管理设备,包括数据湖110、数据处理模块120和结构化数据存储模块130,适合分析和存储非结构化数据,能够最低限度使用存储空间,避免了存储空间的浪费。

由于上述非结构化数据可以是视频数据、音频数据和文本数据等,因此,对于不同种类的非结构化数据,数据处理模块120采用不同的处理方式提取该非结构化数据的关键数据。

因此,上述数据处理模块120还用于,当上述非结构化数据为音频数据时,将该音频数据转换成文本数据,并通过语义分析提取该文本数据的关键数据。

在本发明实施例中,当数据处理模块120判断出接收到用户终端发送的数据为非结构化数据时,对该数据的类型进行进一步的判断,当确定出该非结构化数据为音频数据时,数据处理模块120将该音频数据转换为文本数据,并对该文本数据进行语义分析,提取出该文本数据的关键词和主题信息,上述关键词和主题信息就是该本文数据的关键数据,并将该关键数据发送给结构化数据存储模块130,由结构化数据存储模块130对其进行存储。

上述数据处理模块120可以通过调用语音识别工具将音频数据转换为文本数据,调用语义分析工具从该文本数据中提取出该文本数据的关键数据。

上述数据处理模块120还用于,当上述非结构化数据为文本数据时,采用语义分析工具提取上述文本数据的关键数据。

其中,上述数据处理模块120可以通过调用语音分析工具提取出该文本数据的关键词和主题信息,将该关键词和主题信息确定为该文本数据的关键数据,并将该关键数据发送给结构化数据存储模块130,由结构化数据存储模块130存储该关键数据。

上述数据处理模块120还用于,当上述非结构化数据为视频数据时,通过视频处理提取上述视频数据的关键数据。

其中,上述数据处理模块120可以通过调用视频处理工具提取该视频数据的关键数据,比如说,当该视频数据为车牌号图像时,采用视频处理工具从该图像中提取出该图像中的车牌号,并分析出该车的归属地、型号等信息,将上述信息确定为该图像的关键数据,辅助对该数据进行检索以及后续应用。

在本发明实施例中,数据处理模块120会对接收到的用户终端发送的数据进行判断,确定出该数据是结构化数据还是非结构化数据,针对不同的数据类型做出不同的处理,上述介绍了当数据为非结构化数据时,数据处理模块120对接收到的数据的具体处理过程,下面将介绍数据处理模块120对结构化数据的处理。

因此,上述数据处理模块120还用于,当上述数据为结构化数据时,发送该结构化数据给结构化数据存储模块130。

结构化数据存储模块130根据对该结构化数据进行存储。

在本发明实施例中,将非结构化数据在数据湖110中的存储路径和关键数据存储在结构化数据存储模块130中,当需要进行数据检索时,可以根据存储路径和关键数据进行检索,能够快速的检索到需要检索的数据,为检索节省大量的时间。

在本发明实施例中,当用户需要检索数据时,首先通过用户终端获取用户的检索关键词,并根据该检索关键词生成结构化数据存储模块130的查询语句,通过上述查询语句在结构化数据存储模块130中查询待检索数据的存储路径和/或关键数据,之后根据查询到的存储路径和关键数据在数据湖110中查询上述待查询数据。

其中,通过查询语句在结构化数据存储模块130中可以只查询待检索数据的存储路径,也可以只查询待检索数据的关键数据,还可以既查询待检索数据的存储路径又查询待检索数据的关键数据。

其中,为了便于管理和监控数据处理模块120、数据湖110和结构化数据存储模块130,如图2所示,本发明实施例提供的数据管理设备还包括与数据湖110、数据处理模块120和结构化数据存储模块130连接的多计算机切换器210。

上述多计算机切换器210为键盘、显示器、鼠标(Keyboard Video Mouse,KVM),KVM是一种带键盘、显示器和鼠标的硬件。

其中,上述数据湖110、数据处理模块120和结构化数据存储模块130之间可以组建一个局域网,因此,本发明实施例提供的数据管理设备还包括与数据湖110、数据处理模块120和结构化数据存储模块130连接的交换机。

上述交换机可以是一台具有48个端口、10G带宽的交换机,当然,上述交换机的端口数和带宽就可以根据具体应用场景进行设置,本发明实施例并不对交换机的端口数和带宽进行限定。

为了能够更清楚的介绍本发明实施例提供的数据管理设备,下面将以其中一个具体的数据管理设备结构为例,详细介绍本发明实施例提供的数据管理设备,如图3所示,为数据管理设备的一个具体结构示意图。

在本发明实施例中,结构化数据存储模块130包括多个2U服务器131,数据湖110包括多个4U服务器111,2U服务器131和4U服务器111的个数可以为任意数值,根据具体应用场景进行设置,本发明实施例并不对2U服务器和4U服务器111的具体个数进行限定。

为了避免上述多个服务器在运行过程中过热,每个2U服务器131和2U服务器131之间、每个4U服务器111和4U服务器111之间、2U服务器131和数据处理模块120之间以及数据处理模块120和4U服务器111之间设置有一定的空隙,该空隙的大小可以根据实际应用进行设置,本发明实施例并不限定是上述空隙的具体数值。

上述多个2U服务器131、多个4U服务器111、数据处理模块120、交换机310和多计算机切换器210可以安装在一个机柜中,多个2U服务器131、多个4U服务器111、数据处理模块120、交换机310和多计算机切换器210在机柜中的具体位置可以根据实际应用进行设置,本发明实施例并不对多个2U服务器131、多个4U服务器111、数据处理模块120、交换机310和多计算机切换器210在机柜中的具体位置进行限定。

本发明实施例提供的数据管理设备,包括数据湖、数据处理模块和结构化数据存储模块,适合分析和存储非结构化数据,能够最低限度使用存储空间,避免存储空间的浪费。

实施例2

本发明实施例提供了一种数据管理方法,该方法采用上述实施例1提供的数据管理设备。

采用本发明实施例提供的方法进行数据管理时,如图4所示,包括步骤S410-S440,具体如下。

S410,数据处理模块接收用户终端发送的数据,判断该数据是否为非结构化数据,当上述数据为非结构化数据时,对该非结构化数据进行处理,提取该非结构化数据中的关键数据,将非结构化数据发送给数据湖。

S420,数据湖接收数据处理模块发送的非结构化数据,存储上述非结构化数据,并将所述非结构化数据的存储路径发送给数据处理模块。

S430,数据处理模块接收数据湖发送的存储路径,将上述关键数据和存储路径发送给结构化数据存储模块。

S440,结构化数据存储模块接收数据处理模块发送的关键数据和上述存储路径,并存储该关键数据和存储路径。

其中,上述用户终端可以是个人计算机、服务器以及其它支持各种文件传输协议的电子硬件设备等等。

上述非结构化数据包括视频数据、音频数据和文本数据等等。

当上述非结构化数据为音频数据时,数据处理模块将该音频数据转换成文本数据,通过语义分析提取出该文本数据的关键数据。

在本发明实施例中,上述数据处理模块通过调用语音识别工具将该音频数据转换成文本数据,通过调用语义分析工具提取该文本数据中的关键词和主题信息,将该关键词和主题信息确定为该文本数据的关键数据,并将该关键数据发送给结构化数据存储模块,由结构化数据存储模块存储该关键数据。

当上述非结构化数据为文本数据时,数据处理模块通过语音分析提取该文本数据的关键数据。

在本发明实施例中,上述数据处理模块通过调用语义分析工具提取该文本数据中的关键词和主题信息,将该关键词和主题信息确定为该文本数据的关键数据,并会将该关键数据发送给结构化数据存储模块,由结构化数据存储模块存储该关键数据。

当上述非结构化数据为视频数据时,通过视频处理提取该视频数据的关键数据。

在本发明实施例中,数据处理模块可以调用视频处理工具提取该视频数据的关键数据,比如说,当该视频数据为车牌号图像时,采用视频处理工具从该图像中提取出该图像中的车牌号,并分析出该车的归属地、型号等信息,将上述信息确定为该图像的关键数据,辅助对该数据进行检索以及后续应用,数据处理模块将提取的关键数据发送给结构化数据存储模块,由结构化数据存储模块进行存储。

在本发明实施例中,数据处理模块会对接收的用户终端发送的数据进行判断,当确定上述数据为结构化数据时,数据处理模块发送结构化数据给结构化数据存储模块。

当结构化数据存储模块接收到数据处理模块发送的结构化数据后,存储该结构化数据。

采用本发明实施例提供的数据管理方法分析和存储非结构化数据,能够最低限度使用存储空间,避免了存储空间的浪费。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或对其中部分技术特征进行等同替换;而这些修改、变化或替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1