一种数据整合分析方法及平台与流程

文档序号:16263936发布日期:2018-12-14 21:47阅读:435来源:国知局
一种数据整合分析方法及平台与流程

本申请涉及数据处理技术领域,尤其涉及一种数据整合分析方法及平台。

背景技术

数据处理是对数据的采集、存储、检索、加工、变换和传输,同时也是系统工程和自动控制的基本环节,数据处理的目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据,数据处理贯穿于社会生产和社会生活的各个领域,数据处理技术的发展及其应用的广度和深度,极大的影响着人类社会发展的进程。

企业发展到一定的规模都会搭建单独的bi平台来做数据分析,即联机分析处理,一般都是基于数据库技术来构建,基本都是单机产品。除了业务数据的相关分析外,互联网企业还会对用户行为进行分析,进一步挖掘潜在价值,这时数据就会膨胀的厉害,一天的数据量可能会成千万或上亿,对基于数据库的传统数据分析平台的数据存储和分析计算带来了很大的挑战,为了应对随着数据量的增长、数据处理性能的可扩展性,许多企业纷纷转向hadoop、spark、storm等这样的平台来搭建数据分析平台。

传统的平台扩展存储节点和计算节点,解决了数据增长带来的性能瓶颈。但是传统的平台仅擅长非结构化数据的存储和分析,分析方法主要依赖开发,所以简单固定,且切分数据简单粗暴,仅支持olap的业务场景,当用户需求改变时,就需要重新搜集数据,先对数据进行预处理,然后存储,然后再计算,这样在数据准备上花费了很多时间且在数据的处理上没有灵活性,使得花在进一步挖掘出全面、正确的数据价值的时间少,极大的影响了客户做出决策的准确性和对全局的把控。



技术实现要素:

本申请提供了一种数据整合分析方法及平台,以解决当用户需求改变时,需要重新搜集数据,对数据进行预处理,然后存储,然后再计算,在数据处理上时效性和灵活性差,使得花在进一步挖掘出全面、正确的数据价值的时间少,影响客户做出决策的准确性和对全局的把控的问题。

本申请实施例的第一方面提供了一种数据整合分析方法,所述方法包括:

获取用户输入的所需字段;

根据所述字段搜索得到目标数据和与所述目标数据相关的关联数据,所述目标数据与所述关联数据的维度可即时关联增加并可随时进行钻取,无需提前处理;

对所述目标数据和所述关联数据进行计算和分析,得到全局信息;

将所述全局信息可视化,得到多种可视化视图。

可选的,所述方法还包括:对所述目标数据和所述关联数据进行实时监测,与上一时刻的所述目标数据和所述关联数据进行对比,若所述目标数据或者所述关联数据发生变化,即时对所述目标数据或者所述关联数据进行钻取,重新计算和分析。

可选的,在得到全局信息之后,所述方法还包括:选择与所述全局信息相匹配的数据模型,将所述全局信息可视化。

可选的,在得到多种可视化视图之后,所述方法还包括:对所述可视化视图设置访问级,在不同场景下给不同角色呈现不同的所述可视化视图。

可选的,所述方法还包括,根据所述可视化视图挖掘数据的内在价值,完成宏观决策、微观决策以及机器决策。

可选的,所述的数据包括结构化数据、非结构化数据、半结构化数据以及融合的多样性数据。

可选的,所述数据模型包括:平台原有数据模型和在线定制的数据模型。

本申请实施例的第二方面提供了一种数据整合分析平台,所述平台包括:分布式数据库服务器、分布式数据分析服务器和分布式应用服务器,

所述分布式数据库服务器,用于获取用户输入的所需字段,根据所述字段搜索得到目标数据和与所述目标数据相关的关联数据;

所述分布式数据分析服务器,用于对所述目标数据和所述关联数据进行计算和分析,得到全局信息;

所述分布式应用服务器,用于将所述全局信息可视化,得到多种可视化视图。

可选的,所述平台还包括分布式web服务器,用于对接不同终端,给不同终端提供显示服务。

可选的,所述分布式数据分析服务器还包括:数据处理模块、人工智能模块以及数据同步模块,

所述数据处理模块,用于对所述目标数据和所述关联数据进行计算和分析,得到所述全局信息;

所述人工智能模块,用于根据所述全局信息,在线建立数据模型;

所述数据同步模块,用于当所述目标数据和所述关联数据变化后,同步更新可视化视图。本申请提供的技术方案包括以下有益技术效果:

本申请提供了一种数据整合分析平台,所述平台包括:分布式数据库服务器、分布式数据分析服务器、分布式应用服务器和分布式web服务器,当用户需要分析某一项数据时,首先将任意类型的数据库直接接入分布式服务器中生成分布式数据库,根据用户输入的所需字段,从分布式数据库中搜索得到目标数据和与之相关的关联数据,数据可根据实际随时进行钻取,即使数据存在于不同的数据库,甚至不同类型数据库,维度也可即时关联增加,无需提前处理,再运用分布式数据分析服务器对目标数据和关联数据进行任意自由定义维度和时序的计算、叠加、透视、合并、转化等操作,得到全局信息,匹配相对应的数据模型或者根据需求现场建模将全局信息可视化,得到多种可视化视图。并对该可视化视图设置权限,进行分级管理,通过分布式应用服务器将不同的可视化视图呈现到不同场景和不同的用户,方便用户使用不同的终端连接分布式web服务器查看视图,用户根据视图挖掘全面、正确的数据价值,做出宏观决策、微观决策以及机器决策,当用户需求有改动时,只需要从对接的数据库中直接钻取数据,通过所述平台进行实时计算,无需重新处理数据,解决当用户需求改变时,需要重新搜集数据,对数据进行预处理,然后存储,然后再计算,在数据处理上时效性和灵活性差,使得花在进一步挖掘出全面、正确的数据价值的时间少,影响客户做出决策的准确性和对全局的把控的问题。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据整合分析方法流程图。

具体实施方式

本申请实施例的第一方面提供了一种数据整合分析方法,示例性的,如图1所示:该方法包括如下步骤:

s1:获取用户输入的所需字段,通过获取用户输入的所需字段,平台会在分布式数据库中搜索所需字段和与所需字段相关联的关联信息。

示例性的,若本申请所述的数据整合分析平台应用于教育领域,则所需字段可以是某学校教师的男女比例、某学校教师的学历情况、某学校某年的新生数量、某学校学区内学生的数量等所需字段,只要在平台中输入这样的关键字段,平台就会在分布式数据库中搜索出某学校男教师的数量,女教师的数量以及与其相关的教师的名族、户口所在地、年龄等信息,呈现在平台上,供用户分析。

s2:根据字段搜索得到目标数据和与目标数据相关的关联数据,平台会从分布式数据库中找到目标数据呈现给用户,并进一步的将与目标数据相关的所有数据也一并显示给用户,不同数据库来源的数据比如业务数据、机器数据、社交数据等横向关联起来,数据类型可以是结构化、半结构化、非结构化或者融合的多样性数据,因为目标数据与关联数据的维度可即时关联增加并可随时进行钻取,无需提前处理,所以当用户需求有改动时,只需要从对接的多种数据库中直接钻取数据,通过所述平台进行实时计算,无需重新处理数据,极大的节约了数据准备的时间。

示例性的,客户要得到一周展会人流量的数据,在数据整合分析平台中输入人流量这样的关键词,并对数据的时间阶段进行选择,平台会从分布式数据库中找到每一天展会的人流量数据,同时,平台还会给出展会中每一个展台的人数访问数据、同类展台人数访问的数据、到访客户分类的数据等于人流量数据相关联的一切数据,并通过分布式数据分析平台对所有数据进行分析,得到本周展会访问量的所有信息,便于后续对所述信息进行分析,挖掘的大众的喜好趋势、产品的对哪些人群的吸引力等潜在的价值,为后期调整引进哪些产品或者大力发展哪些产品做出正确的决策。

s3:对目标数据和关联数据进行计算和分析,得到全局信息。

运用分布式数据分析服务器,对数据进行比如任意自由定义维度和时序的计算、将不同数据叠加在一起融合成一张图表、将数据进行二次加工或者生成类似于excel的数据透视图表等处理,得到目标数据的全局信息。

示例性的,商场管理人员需要了解一周卖场的人流数据信息,根据平台给出的目标数据和关联数据得到的周一至周日每一天的人数访问量、每个商户人流量的访问数据、回头客户的数据量、商户的销售额数据等数据,通过对这些数据的计算和分析,可以得出热门商户都集中在什么区域、哪些产品是受欢迎的、哪些商户在盈利、那些商户在亏本等一系列的全局信息。

s4:将全局信息可视化,得到多种可视化视图。

传统的平台,在输入关键字后,只会给你呈现一些数据的明细,但是本申请提供的平台在搜索完数据后,完成对数据的分析,并用数据整合分析平台中相对应的数据模型将全局信息可视化,得到多种可视化视图,通过给用户提供时序图、协作图、状态图、部署图、使用案例图、活动图或组件图等多种形态和内容的可视化视图。一份数据多种可视化的效果,可视化可以随意的切换,柱状图可以直观看到对比状态,线形图可以展示数据的变化规律,标签墙可以一眼分辨出哪些数据处于热点,列表则可以具体看到数据的明细,用户根据这些直观、易懂、清晰的可视化视图,更有利于激发探索、发现数据背后的原因,数据的价值更加的凸显,也更容易被人发现。

示例性的,在得到一个卖场周一至周日每一天的人数访问量、每个商户人流量的访问数据、回头客户的数据量、商户的销售额等数据信息后,可以通过环状图来展示热门商户都集中在什么区域、通过柱状图对比展示哪些产品是受欢迎的、通过线形图展示各产品一周内访问量的变化规律等。通过这些视图,商场可以很直观的对各产品的回报率做出准确地判断,便于后期调整产品分布或者制定后期的合作计划,不用再通过很多部门,汇总数据,然后再根据数据去发现问题。

可选的,在获取用户输入的所需字段之前,该方法还包括,将任意类型的数据库接入分布式数据库服务器得到所述分布式数据库。

本申请提供的平台可以直接对接所有主流的sql、nosql、newsql等数据库,还可由第三方定制数据源,不论是业务数据、机器数据、社交数据,都可以直接对接,平台可以处理结构化、半结构化、非结构化或者融合的多样性数据,极大的扩充了数据的来源,数据的整合能力大大的提升,传统的数据得到重视,数据的呈现形式也变的多样化,使得数据内容更加的丰富和全面,并且使得隐形数据获取成为可能,数据的分析更加的全面,便于用户从数据中获取更大、更全面的价值。

从各种数据库、服务器、网络设备、摄像头、微博、论坛、社交媒体、传感器、电商或者点评等多渠道获得数据源,不需要存储,平台直接与现有的数据源进行对接,拿来就可以直接用,拥有可伸缩的数据承载容量,可以承载任何数据类型,接入平台的分布式数据库服务器得到分布式数据库,用户在需要某些数据时,可以直接在平台中搜索。

可选的,分布式数据库根据第三方数据库中数据的更新而更新。

当第三方数据库中的数据发生变化时,因为分布式数据库是由分布式数据库服务器与第三方数据库对接产生的,所以分布式数据库里的数据会随着第三方数据的变化而变化。

可选的,分布式数据库中的数据包括结构化数据、非结构化数据、半结构化数据以及融合的多样性数据。

分布式数据库服务器可以对接多种不同的数据源,所以本申请提供的平台可以处理不同类型的数据,不需要对数据进行前期的转化处理,缩短了数据收集的时间,将有限的时间用在后期挖掘价值上,而传统的平台仅擅长处理非结构化的数据,只能在应用在一些小众的产品上,而本申请适合所有主流业务应用模型,且支持olap和oltp的业务场景。

可选的,该方法还包括:对所述目标数据和所述关联数据进行实时监测,与上一时刻的所述目标数据和所述关联数据进行对比,若所述目标数据或者所述关联数据发生变化,即时对所述目标数据或者所述关联数据进行钻取,重新计算和分析。

数据在根据搜索条件的不同,同种类型的数据会发生变化,当数据发生变化后,因为目标数据与关联数据的维度可即时关联增加并可随时进行钻取,无需提前处理,所以当用户需求有改动时,只需要从对接的多种数据库中直接钻取数据,通过所述平台进行实时计算,无需重新处理数据,极大的节约了数据准备的时间。

可选的,在得到可视化视图之后,该方法还包括:对可视化视图设置访问级,在不同场景下给不同角色呈现不同的所述可视化视图。

因为一种数据会通过不同的角度生成多种可视化的视图,但是每一种视图呈现的数据价值有所不同,一种数据,不同的用户,需要得到的信息是不一样的,所以需要对平台的管理设置权限,不同用户通过用户名和密码登录系统,显示的可视化视图是不一样的,这样就可以很好的保护数据的分析结果,避免信息泄露。

示例性的,一份年度旅游数据分析结果,平台会用饼状图、条形图、柱状图、环状图、扇形图等多种形式呈现出关于今年出游人流量、国内各旅游景点人流量、各月份旅游景点人流量、出国游总人流量和各月份人流量、外国游客到访人流量、各月份人流量和各景点接待外国游客人流量等一系列关于年度旅游数据的分析结果,假如该平台的用户是有出行计划的游客,就需要给游客呈现出每个月的国内外各景点人流量的分布信息,便于游客根据数据选择出行时间和出行地点,更好的规划计划;假如该平台的用户是航空公司,就需要给用户提供哪些地区在什么月份游客的人流量分布情况,便于航空公司调整航班次数或者制定一些打折活动吸引更多的游客和满足游客出行对航班的需求;而如果用户是某个景区,只需要单独的给此用户提供本年度该景区接待游客总量、每个月接待的量等信息,便于景区更好的规划接待计划,配备充足的基础设施、物质以及人员的分配等决策。

可选的,该方法还包括,根据所述可视化视图挖掘数据的内在价值,完成宏观决策、微观决策以及机器决策。

本申请平台提供的数据分析结果以及呈现的多样可视化视图,直接面对懂数据的用户,所以用户在得到直观、易懂、清晰且具有艺术性的视图后,更能激发用户去探索数据背后的原因,发掘数据的潜在价值,假如用户是需要把控全局的决策人员,平台就会通过分布式web服务器将可视化视图接入到可以显示全局信息的大屏幕中,便于用户对现场进行全局的把控,做到现场实时的指挥,监测数据的变化,多单位可以根据全局信息进行联合办公,还可以发布公告,完成宏观决策。

假如用户是某一个企业或者单位不同岗位级别的服务人员,则平台可以通过分布式web服务器将可视化视图接入到各服务人员的电脑屏幕上,不同岗位职责的服务人员根据显示获取只和本岗位有关联的信息,便于对数据的发展做出微观决策。

视图可以通过分布式web服务器将视图呈现在大屏幕、桌面或者移动终端上,满足不同用户查看可视化视图的要求,视图可以随意的切换,真正的做到了和数据面对面的对话,实时更新,随时随地对数据提供决策支持。

可选的,数据模型包括:平台原有数据模型和在线定制的数据模型。

平台可以根据用户擅长的领域,植入与其匹配的数据模型,当用户通过平台完成对数据的分析后,点击需要的数据模型,就可以很快的生成可视化视图,在数据的处理上,节约了时间,把更多的时间留给后期挖掘数据的价值上,操作简单,不需要借助专业的数据分析人员,数据面向所有对数据有需求的用户,当平台类的数据模型不能满足对数据的分析要求时,用户可以设置要求在线生成新的数据模型,将数据分析结果与之匹配,就可以得到新的可视化视图,便于用户全面的分析数据,更好的挖掘数据的潜在价值。

本申请实施例的第二方面提供了一种数据整合分析平台,所述平台包括:分布式数据库服务器、分布式数据分析服务器和分布式应用服务器。

分布式数据库服务器,用于获取用户输入的所需字段,根据所述字段搜索得到目标数据和与所述目标数据相关的关联数据,分布式数据库服务器可以直接对接所有主流的sql、nosql、newsql等数据库,还可由第三方定制数据源,不论是业务数据、机器数据、社交数据,都可以直接对接,极大的扩充了数据的来源,数据的整合能力大大的提升,传统的数据得到重视,数据的呈现形式也变的多样化,使得数据内容更加的丰富和全面,并且使得隐形数据获取成为可能,数据的分析更加的全面,便于用户从数据中获取更大、更全面的价值。

分布式数据分析服务器,用于对所述目标数据和所述关联数据进行计算和分析,得到全局信息。

本申请提供的平台在搜索完数据后,分布式数据分析服务器会对数据进行任意自由定义维度和时序的计算、叠加、透视、合并、转化等操作,得到目标数据的全局信息,并用数据整合分析平台中相对应的数据模型将全局信息可视化,得到多种可视化视图,通过给用户提供时序图、协作图、状态图、部署图、使用案例图、活动图或组件图等多种形态和内容的可视化视图。一份数据多种可视化的效果,可视化可以随意的切换,柱状图可以直观看到对比状态,线形图可以展示数据的变化规律,标签墙可以一眼分辨出哪些数据处于热点,列表则可以具体看到数据的明细,用户根据这些直观、易懂、清晰的可视化视图,更有利于激发探索、发现数据背后的原因,数据的价值更加的凸显,也更容易被人发现。

所述分布式应用服务器,用于将所述全局信息可视化,得到多种可视化视图。

因为一种数据会通过不同的角度生成多种可视化的视图,但是每一种视图呈现的数据价值有所不同,一种数据,不同的用户,需要得到的信息是不一样的,所以分布式应用服务器对平台的管理设置权限,不同用户通过用户名和密码登录系统,显示的可视化视图是不一样的,这样就可以很好的保护数据的分析结果,避免信息泄露。

可选的,可选的,所述平台还包括分布式web服务器,用于对接不同终端,给不同终端提供显示服务。分布式web服务器,用于给不同终端提供显示服务,视图可以通过分布式web服务器将视图呈现在大屏幕、桌面或者移动终端上,满足不同用户查看可视化视图的要求,视图可以随意的切换,真正的做到了和数据面对面的对话,实时更新,随时随地对数据提供决策支持。

可选的,所述分布式数据分析服务器还包括:数据处理模块、人工智能模块以及数据同步模块,

数据处理模块,用于对所述目标数据和所述关联数据进行计算和分析,得到所述全局信息;数据处理模块,在搜索出目标数据和关联数据后,需要对数据进行各种计算,才能得到我们想要的信息,这种计算可以是对数据进行统计学算法,数据与数据叠加,类似于excel数据透视,数据的合并、去重等一系列的方式,直到获得我们想要的信息就停止对数据的计算。

人工智能模块,用于根据所述全局信息,在线建立数据模型,平台可以根据用户擅长的领域不同,植入与其匹配的数据模型,当用户通过平台完成对数据的分析后,点击需要的数据模型,就可以很快的生成可视化视图,在数据的处理上,节约了时间,把更多的时间留给后期挖掘数据的价值上,操作简单,不需要借助专业的数据分析人员,数据面向所有对数据有需求的用户,当平台类的数据模型不能满足对数据的分析要求时,用户可以通过人工智能模块设置要求在线生成新的数据模型,将数据分析结果与之匹配,就可以得到新的可视化视图,便于用户全面的分析数据,更好的挖掘数据的潜在价值。

数据同步模块,用于当分布式数据库中的数据更新后,同步更新可视化视图,当第三方数据库中的数据发生变化时,因为分布式数据库是由分布式数据库服务器与第三方数据库对接产生的,所以数据同步模块会使分布式数据库里的数据随着第三方数据的变化而变化。

本申请提供了一种数据整合分析平台,所述平台包括:分布式数据库服务器、分布式数据分析服务器、分布式应用服务器和分布式web服务器,当用户需要分析某一项数据时,首先将任意类型的数据库直接接入分布式服务器中生成分布式数据库,根据用户输入的所需字段,从分布式数据库中搜索得到目标数据和与之相关的关联数据,数据可根据实际随时进行钻取,即使数据存在于不同的数据库,甚至不同类型数据库,维度也可即时关联增加,无需提前处理,再运用分布式数据分析服务器对目标数据和关联数据进行任意自由定义维度和时序的计算、叠加、透视、合并、转化等操作,得到全局信息,匹配相对应的数据模型或者根据需求现场建模将全局信息可视化,得到多种可视化视图。并对该可视化视图设置权限,进行分级管理,通过分布式应用服务器将不同的可视化视图呈现到不同场景和不同的用户,方便用户使用不同的终端连接分布式web服务器查看视图,用户根据视图挖掘全面、正确的数据价值,做出宏观决策、微观决策以及机器决策,当用户需求有改动时,只需要从对接的数据库中直接钻取数据,通过所述平台进行实时计算,无需重新处理数据,解决当用户需求改变时,需要重新搜集数据,对数据进行预处理,然后存储,然后再计算,在数据处理上时效性和灵活性差,使得花在进一步挖掘出全面、正确的数据价值的时间少,影响客户做出决策的准确性和对全局的把控的问题。

需要说明的是,而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的内容,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1