一种大数据资产管理系统的制作方法

文档序号:11230688阅读:298来源:国知局
一种大数据资产管理系统的制造方法与工艺

本发明涉及大数据技术领域,特别是涉及一种大数据资产管理系统。



背景技术:

互联网的飞速发展催生了信息爆炸时代提前到来,电信行业、政府部门、金融领域、零售业和物流领域等产生的数据浩如烟海。在大数据领域,像hadoop、spark、storm等这些炙手可热的新技术或是各种高级分析算法都是在数据得到有效治的基础上才能发挥其作用。

数据资产管理(dataassetmanagement,dam)是规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。对于一个大数据中心来说,最大的成本浪费并非是昂贵的设备,高精尖的数据人才,而是在错误的数据基础上,做了复杂的数据分析统计等工作。如果连数据前提都是错的,那任何投入都没有价值,成本将会永无上限。现有技术中,偏重与对数据的采集、清洗和分析,缺乏对数据的有效管理,导致结构化、内外部数据混搭,数据的可靠性得不到保证。

可见,如何提升数据资产管理的可靠性,是本领域技术人员亟待解决的问题。



技术实现要素:

本发明实施例的目的是提供一种大数据资产管理系统,可以提升数据资产管理的可靠性。

为解决上述技术问题,本发明实施例提供一种大数据资产管理系统,包括第一交换机、结构化数据处理器、非结构化数据处理器和应用服务器,

所述第一交换机与所述应用服务器连接,用于获取外部数据,对所述外部数据进行处理,并将处理后的外部数据发送至所述应用服务器;所述外部数据包括结构化数据和非结构化数据;

所述应用服务器,用于接收处理后的所述外部数据,并依据用户输入的信息,向所述结构化处理器或所述非结构化处理器发送相关的数据分析指令;

所述结构化处理器,用于依据接收到的所述数据分析指令,对所述结构化数据进行存储、计算,并将计算结果发送至所述应用服务器;

所述非结构化处理器,用于依据接收到的所述数据分析指令,对所述非结构化数据进行存储、计算,并将计算结果发送至所述应用服务器。

可选的,还包括配置库,

所述应用服务器与所述配置库连接,还用于对处理后的所述外部数据进行分析,获取对应的元数据和元数据规则,并将所述元数据以及所述元数据规则发送至所述配置库;

所述配置库,用于接收并存储所述元数据以及所述元数据规则。

可选的,所述应用服务器还用于统计所述元数据的使用频率,当所述元数据的使用频率低于预设阈值,则将所述元数据从所述配置库中删除。

可选的,还包括第二交换机和管理机,

所述第二交换机与所述管理机连接,用于获取内部数据,并将所述内部数据发送至所述管理机;

所述管理机,用于对所述内部数据进行分析,当所述内部数据不符合预设条件时,则进行报警提示。

可选的,所述第一交换机为万兆交换机。

可选的,所述第二交换机为千兆交换机。

可选的,所述结构化数据处理器采用分布式mysql系统。

可选的,所述非结构化数据处理器采用hbase系统。

由上述技术方案可以看出,通过第一交换机可以获取到外部数据,第一交换机与应用服务器连接,可以将处理后的外部数据发送至所述应用服务器,其中,外部数据可以划分为结构化数据和非结构化数据。应用服务器可以依据用户输入的信息,向结构化处理器或非结构化处理器发送相关的数据分析指令;结构化处理器可以依据接收到的所述数据分析指令,对所述结构化数据进行存储、计算,并将计算结果发送至所述应用服务器;非结构化处理器可以依据接收到的所述数据分析指令,对所述非结构化数据进行存储、计算,并将计算结果发送至所述应用服务器。可见,通过该技术方案可以对结构化和非结构化数据分类处理,提升了数据资产管理的可靠性。

附图说明

为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种大数据资产管理系统的结构示意图;

图2为本发明实施例提供的一种大数据资产管理系统的架构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。

接下来,详细介绍本发明实施例所提供的一种大数据资产管理系统。图1为本发明实施例提供的一种大数据资产管理系统的结构示意图,包括第一交换机11、结构化数据处理器12、非结构化数据处理器13和应用服务器14,

所述第一交换机11与所述应用服务器14连接,用于获取外部数据,对所述外部数据进行处理,并将处理后的外部数据发送至所述应用服务器14。

其中,外部数据可以包括结构化数据和非结构化数据。

考虑到外部数据的数据量较大,为了满足大数据传输的需求,在本发明实施例中,第一交换机可以采用万兆交换机。为了防止数据的丢失,可以采取数据冗余的方式,故此,第一交换机的个数可以设置为两台,这两台交换机做trunk保证交换机的高可用性和扩展。

第一交换机获取到的外部数据往往包含有无效数据,重复数据。其中,无效数据可以看做是一些没有分析价值的数据。对于获取的外部数据如果直接进行后续的数据分析,这些无效数据、重复数据会增加数据分析的工作量,甚至会对数据分析造成干扰。因此,在将外部数据提供给应用服务器14之前,可以先对外部数据进行处理,例如,对于外部数据进行有效和无效的整理,删除重复数据等。

第一交换机11分别与结构化数据处理器12以及非结构化数据处理器13连接,第一交换机11在获取到外部数据后,可以依据于结构化数据处理器12以及非结构化数据处理器13对外部数据进行处理,再将处理后的外部数据发送给应用服务器14。

所述应用服务器14,用于接收处理后的所述外部数据,并依据用户输入的信息,向所述结构化处理器12或所述非结构化处理器13发送相关的数据分析指令。

数据分析指令可以用于指示所需分析的数据,以及相应的展现形式。

所述结构化处理器12,用于依据接收到的所述数据分析指令,对所述结构化数据进行存储、计算,并将计算结果发送至所述应用服务器。

其中,结构化处理器12可以采用分布式mysql架构,为了保障数据可靠性,提供数据读取能力,每份数据需要至少2个副本,相应的,mysql架构可以包含至少3个节点。

结构化处理器12与第一交换机连接,可以通过第一交换机将计算结果发送至应用服务器14。

所述非结构化处理器13,用于依据接收到的所述数据分析指令,对所述非结构化数据进行存储、计算,并将计算结果发送至所述应用服务器。

非结构化处理器13可以采用hbase架构,可以包含至少5个节点,其中,2个为hadoop/hbase管理节点,3个为hadoop/hbase计算存储节点。

非结构化处理器13与第一交换机连接,可以通过第一交换机将计算结果发送至应用服务器14。

由上述技术方案可以看出,通过第一交换机可以获取到外部数据,第一交换机与应用服务器连接,可以将处理后的外部数据发送至所述应用服务器,其中,外部数据可以划分为结构化数据和非结构化数据。应用服务器可以依据用户输入的信息,向结构化处理器或非结构化处理器发送相关的数据分析指令;结构化处理器可以依据接收到的所述数据分析指令,对所述结构化数据进行存储、计算,并将计算结果发送至所述应用服务器;非结构化处理器可以依据接收到的所述数据分析指令,对所述非结构化数据进行存储、计算,并将计算结果发送至所述应用服务器。可见,通过该技术方案可以实现对结构化和非结构化数据的分类处理,提升了数据资产管理的可靠性。

对于外部数据,其数据量大、数据类型多样,为了便于对这些外部数据进行查询管理,在本发明实施例中可以以元数据的形式进行存储。元数据主要是描述数据属性的信息,通过元数据可以识别资源、评价资源、追踪资源在使用过程中的变化,实现对数据资产的有效管理。

在本发明实施例中,可以通过应用服务器14对外部数据进行分析,获取对应的元数据。对于元数据的存储,可以设置对应的配置库,该配置库与应用服务器14连接,用于存储元数据。

应用服务器14与配置库之间可以采用master-slave架构,也可以是采用负载均衡的方式,以保证数据应用业务的连续性。

数据之间往往会存在一些关联关系(血缘关系),通过对这些关联关系的分析,可以追溯到数据的来源,以及数据的演化过程。

在本发明实施例中,可以对数据进行血缘式分析,获取到对应的元数据规则,其中,元数据规则可以用于表示元数据之间的关联关系。相应的,可以将元数据规则存储于配置库中。

应用服务器和配置库的协同作用,实现了对大数据的元数据存储以及元数据的组合管理。例如,需要获取到客户消费水平的饼状图,可以获取到与该客户消费有关的多个元数据,依据元数据规则,对这些元数据进行分析处理,得出关于该客户消费水平的饼状图。

通过应用服务器对数据的深度分析,可以充分理解数据间复杂规则,提升了对大数据的利用能力。

随着第一交换机获取的外部数据的增加,相应的元数据占用的存储空间也会增加,为了提高配置库的存储空间利用率,对于一些使用价值较低的元数据,可以进行适当的清理。具体的,可以通过应用服务器14统计元数据的使用频率,当所述元数据的使用频率低于预设阈值,则将所述元数据从所述配置库中删除。

使用频率可以用于反映元数据被调用的次数,使用频率越高说明元数据的使用价值越高。

预设阈值可以用于表示元数据使用频率的下限值,当元数据的使用频率低于该预设阈值时,则说明该元数据已经不具备太大的使用价值,可以将该元数据从配置库中删除。

上述介绍中,针对于数据资产管理系统接收的外部数据的处理过程展开了介绍。除外部数据之外,对于数据资产管理系统的内部也会产生内部数据,该内部数据可以反映系统所有软件、硬件的运行情况。在本发明实施例中可以设置第二交换机和管理机,对于系统的内部数据进行分析处理。

第二交换机可以用于获取内部数据。相比于外部数据而言,内部数据的数量量相对较小,第二交换机可以采用千兆交换机。

第二交换机可以与管理机连接,从而将获取的内部数据发送至所述管理机;所述管理机可以对所述内部数据进行分析,当所述内部数据不符合预设条件时,则进行报警提示。

预设条件可以是用于表示系统正常运行的指标。当内部数据不符合该预设条件时,则说明系统软件或硬件的运行情况出现了问题。

在具体实现中,可以在管理机上连接相应的报警器,当检测到内部数据不符合预设条件时,则触发该报警器进行报警提示。也可以是在管理机上设置相关的报警提示声,当检测到内部数据不符合预设条件时,则播放该报警提示声。

考虑到可能会出现管理员不在管理机前的情况,导致管理员无法及时获知故障情况。针对该种问题,在该管理机中可以预先设置管理员的邮箱地址,当检测出不符合预设条件的内部数据时,则可以向该邮箱地址发送告警邮件,以便于管理员可以及时获知故障情况。

在本发明实施例中,可以采用1-2台服务器作为管理机,通过该管理机可以实现对系统中软硬件运行情况的监控,从而可以有效保证系统的正常运行,降低了由于系统故障带来的损失。

管理机除了可以实现对系统内部数据的检测外,也可以实现与外部网关系统的对接。例如,可以实现与开发者社区、数据资产合作平台。数据交互中心、数据可视化平台等进行数据的交互,实现数据资产的开放管理。

由上述介绍可知,通过第一交换机、应用服务器、配置库、结构化数据处理器、非结构化数据处理器、第二交换机和管理机所构成的一体机结构形式,可以实现对数据资产的可靠管理。

如图2所示,为本发明实施例提供的一种大数据资产管理系统的架构图,配置库与应用服务器可以应用负载均衡的方式,保证数据业务的连续性。配置库的个数可以设置为两个,通过mysql主主同步的方式,实现对两个配置库的管理。万兆交换机、千兆交换机分别与结构化处理器(采用分布式mysql系统)以及非结构化处理器(采用hbase系统)连接,可以实现对结构化数据和非结构化数据的分类处理。管理机与千兆交换机连接,可以通过千兆交换机获取到系统的内部数据。通过图2所示的一体机结构形式,实现了软硬件一体化,使得硬件性能最大化被利用,软件性能达到最优的状态。

以上对本发明实施例所提供的一种大数据资产管理系统进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1