基于大数据的数据分析方法、装置及终端设备与流程

文档序号:18301701发布日期:2019-07-31 10:13阅读:244来源:国知局
基于大数据的数据分析方法、装置及终端设备与流程

本发明涉及数据分析技术领域,具体而言,本发明涉及一种基于大数据的数据分析方法、装置及终端设备。



背景技术:

随着信息数据时代的来临,政府、企业等机构累积了大量的业务处理和市场变化数据,特别是随着internet技术的高速发展,各行业的数据量呈指数级的爆炸性增长趋势,一些应用能够达到百万级以上,甚至是百万亿级、千万亿级以上的海量数据量,例如商业智能、环境气象、数字城市、生物信息等应用,这些数据蕴含着大量的信息,但是需要合理的处理才能形成有用的可供参考的信息,以便于对未来进行预测和适时地做出决策。

然而,面对如此庞大的数据体系,可搜索、查询的数据量越来越多,从中提取出可供参考的信息的难度也越来越大,给数据分析者针对某一数据的分析带来了极大挑战,采用传统的数据分析手段已难以应付海量数据,其在分析过程中,不仅会浪费较多系统资源,而且耗时过长、效率极低,已无法满足数据分析者针对某一数据的分析需求。



技术实现要素:

本发明的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:

本发明的实施例根据一个方面,提供了一种基于大数据的数据分析方法,包括:

接收用户通过可视化界面发送的数据分析请求;

通过已获取的多个多维数据集对所述数据分析请求进行匹配分析处理,并返回相应的分析结果;

其中,所述多维数据集是预先对大数据样本进行聚合处理后得到的。

优选地,所述预先对大数据样本进行聚合处理,包括:

基于数据仓库中预存储的预定业务类型的大数据样本,构建预设模型类型的多个多维数据模型;

根据所述多个多维数据模型对数据仓库中预存储的预定业务类型的大数据样本进行聚合处理,得到多个多维数据集。

优选地,所述根据所述多个多维数据模型对数据仓库中预存储的预定业务类型的大数据样本进行聚合处理,得到多个多维数据集,包括:

根据所述多个多维数据模型对所述大数据样本进行聚合处理,生成对应于多个维度的多个数据表;

基于所述多个数据表构建多个多维数据集。

优选地,所述通过已获取的多个多维数据集对所述数据分析请求进行匹配分析处理,并返回相应的分析结果,包括:

从所述数据分析请求中提取待分析数据;

分析所述待分析数据是否与所述多个多维数据集中的任一多维数据匹配;

如果分析结果为匹配,则返回响应于所述数据分析请求的分析报告。

优选地,所述预先对大数据样本进行聚合处理,具体包括:

以预定周期在预设时间区间对大数据样本进行聚合处理;

并将聚合处理结果存储至预定类型的数据库中。

优选地,所述预定类型的数据库包括关系数据库。

本发明的实施例根据另一个方面,还提供了一种基于大数据的数据分析装置,包括:

接收模块,用于接收用户通过可视化界面发送的数据分析请求;

处理响应模块,用于通过已获取的多个多维数据集对所述数据分析请求进行匹配分析处理,并返回相应的分析结果;

其中,所述多维数据集是聚合处理模块预先对大数据样本进行聚合处理后得到的。

优选地,所述聚合处理模块具体包括:多维数据模型构建子模块与多维数据集获取子模块;

所述多维数据模型构建子模块,用于基于数据仓库中预存储的预定业务类型的大数据样本,构建预设模型类型的多个多维数据模型;

所述多维数据集获取子模块,用于根据所述多个多维数据模型对数据仓库中预存储的预定业务类型的大数据样本进行聚合处理,得到多个多维数据集。

优选地,所述多维数据集获取子模块具体包括:数据表生成子单元与多维数据集构建子单元;

所述数据表生成子单元,用于根据所述多个多维数据模型对所述大数据样本进行聚合处理,生成对应于多个维度的多个数据表;

所述多维数据集构建子单元,用于基于所述多个数据表构建多个多维数据集。

优选地,所述处理响应模块包括:提取子模块、分析子模块与响应子模块;

所述提取子模块,用于从所述数据分析请求中提取待分析数据;

所述分析子模块,用于分析所述待分析数据是否与所述多个多维数据集中的任一多维数据匹配;

所述响应子模块,用于当分析结果为匹配时,返回响应于所述数据分析请求的分析报告。

优选地,所述聚合处理模块具体用于以预定周期在预设时间区间对大数据样本进行聚合处理,并将聚合处理结果存储至预定类型的数据库中。

优选地,所述预定类型的数据库包括关系数据库。

本发明的实施例根据另一个方面,还提供了一种终端设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述基于大数据的数据分析方法。

本发明的实施例,接收用户通过可视化界面发送的数据分析请求,使得用户在可视化界面进行简单操作,即可针对某一数据进行相应分析,同时,为后续用户通过可视化界面直观查看返回的数据分析结果提供了前提保障;通过已获取的多个多维数据集对数据分析请求进行匹配分析处理,其中,多维数据集是预先对大数据样本进行聚合处理后得到的,从而能够在已有大数据样本的基础上,通过多维数据集快速、灵活地对用户的数据分析请求进行全面地匹配分析处理,有效地进行数据分析;返回相应的分析结果,从而及时响应于用户的数据分析请求,实现用户可以通过可视化界面直观地观察、浏览、研究返回的分析结果。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明第一实施例的基于大数据的数据分析方法的流程图;

图2为本发明第一实施例的星型模型的结构示意图;

图3为本发明第二实施例的基于大数据的数据分析装置的基本结构示意图;

图4为本发明第二实施例的基于大数据的数据分析装置的详细结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;pcs(personalcommunicationsservice,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;pda(personaldigitalassistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(globalpositioningsystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是pda、mid(mobileinternetdevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。

本发明第一实施例提供了一种基于大数据的数据分析方法,具体流程如图1所示。

步骤110:接收用户通过可视化界面发送的数据分析请求。

具体地,用户通过在可视化界面拖拽数据的方式发送数据分析请求,或者通过触摸可视化界面的预设位置、显示框、图形项目、虚拟按键等方式发送数据分析请求,其中,触摸的方式包括但不限于单击、双击、左滑、右滑等常见操作,又或者通过现有技术中的其他可视化界面操作方式发送数据分析请求。

步骤120:通过已获取的多个多维数据集对数据分析请求进行匹配分析处理,并返回相应的分析结果;其中,多维数据集是预先对大数据样本进行聚合处理后得到的。

具体地,在接收到用户通过可视化界面发送的数据分析请求后,通过已获取的多个多维数据集对数据分析请求进行匹配分析处理,并返回相应的分析结果。

本发明实施例提供的基于大数据的用户数据分析方法,接收用户通过可视化界面发送的数据分析请求,使得用户在可视化界面进行简单操作,即可针对某一数据进行相应分析,同时,为后续用户通过可视化界面直观查看返回的数据分析结果提供了前提保障;通过已获取的多个多维数据集对数据分析请求进行匹配分析处理,其中,多维数据集是预先对大数据样本进行聚合处理后得到的,从而能够在已有大数据样本的基础上,通过多维数据集快速、灵活地对用户的数据分析请求进行全面地匹配分析处理,,有效地进行数据分析并返回相应的分析结果,从而及时响应于用户的数据分析请求,实现用户可以通过可视化界面直观地观察、浏览、研究返回的分析结果。

本发明的第二实施例涉及一种基于大数据的用户数据分析方法,第二实施例在第一实施例的基础上,具体给出了步骤120中的预先对大数据样本进行聚合处理的实现过程,下面对预先对大数据样本进行聚合处理的过程进行详细介绍。

优选地,步骤120中的预先对大数据样本进行聚合处理的步骤,包括:基于数据仓库中预存储的预定业务类型的大数据样本,构建预设模型类型的多个多维数据模型;根据多个多维数据模型对数据仓库中预存储的预定业务类型的大数据样本进行聚合处理,得到多个多维数据集。

具体地,数据仓库的基本功能是数据存储,在预先将数据存储于数据仓库的过程中,可以通过etl工具或其它方式将预定业务类型的大数据样本导入数据仓库中,以保证数据仓库中预存储了预定业务类型的大数据样本,其中,etl工具可以是storm、kafka、flume、kettle、sqoop中的一种或几种,预定业务类型的大数据样本包括但不限于广告数据、快递或物流数据、高考招生数据及社保数据等等,大数据样本可以是百万级以上,甚至是百万亿级、千万亿级以上的海量数据。

进一步地,由于大数据的聚合处理是在多维数据模型的基础上进行的,所以需要先构建多维数据模型。目前比较流行的多维模型有星型模型、雪花型模型和事实星座型模型,在构建预设模型类型的多个多维数据模型时,需要根据大数据样本自身的数据特点,构建合适类型的多维数据模型,例如将所有的大数据样本均构建为星型模型的多个多维数据模型,或者将所有的大数据样本均构建为雪花型模型的多个多维数据模型,或者将所有的大数据样本均构建为事实星座型模型的多个多维数据模型。

优选地,根据多个多维数据模型对数据仓库中预存储的预定业务类型的大数据样本进行聚合处理,得到多个多维数据集,包括:根据多个多维数据模型对大数据样本进行聚合处理,生成对应于多个维度的多个数据表;基于多个数据表构建多个多维数据集。

具体地说,在根据多个多维数据模型对大数据样本进行聚合处理的过程中,会将具有相似或相关特性的数据聚集在一起,而数据表是用来存储数据的,而且为了便于数据管理,习惯上将具有相似或相关主题或维度的数据存储于同一张数据表中,于是,在聚合处理的过程中会生成对应于多个维度的多个数据表,例如地域维度的多个数据表,产品维度的多个数据表,时间维度的多个数据表等多个维度的多个数据表,基于多个数据表之间的关联性或关键字等构建多个多维数据集,从而将千亿级的大数据降级至百万级聚合后的业务数据。

优选地,步骤120中的预先对大数据样本进行聚合处理的步骤,包括:以预定周期在预设时间区间对大数据样本进行聚合处理;并将聚合处理结果存储至预定类型的数据库中。

优选地,预定类型的数据库包括关系数据库。

具体地说,为了避免影响用户进行正常的数据分析,通常是在相对空闲的时间段进行大数据样本的聚合处理,例如在凌晨00:00-8:00的时间段进行,又例如在节假日进行,同时随着大数据样本的不断增加或更新,需要预定周期地对大数据样本进行聚合处理,以更新多维数据集,从而能够提供更准确、恰当的分析结果,供用户参考,其中,预定周期根据用户需要进行设定,可以是每天,也可以是每周,也可以是每月等等。

进一步地,聚合处理后的聚合处理结果会被存储至预定类型的数据库中,以便在对数据进行匹配分析处理时,能够通过相应的数据库语言简便快捷地查询数据库,并得到相应的分析结果,其中,数据库可以是关系数据库,例如oracle数据库,sqlserve数据库,mysql数据库等。

更进一步地,下面以目前最常用的星型模型为例,简要介绍多维模型的基本结构,其中,星型模型的结构如图2所示,在星型模型中,数据表主要分为两种,一种是包含大批数据并且不含冗余的中心表(即事实表),中心表是用户最关心的基本实体和匹配分析处理的中心,另一种是小的附属表(维表),多个维表呈辐射状分布于中心表的四周,并与中心表通过关键字连接,其中,图2中的表1是中心表,图2中的除表示表1之外的表2、表3、表4等等是附属表,与中心表通过相应的关键字进行关联,附属表之间也通过相应的关键字进行关联,例如附属表3与附属表4之间通过预定关键字关联、附属表5与附属表6之间通过另一预定关键字关联。

本发明实施例,在对大数据样本进行聚合处理的过程中,预先构建多维数据模型为大数据的聚合处理提供了必要的前提保障,根据多个多维数据模型对大数据样本进行聚合处理,将具有相似或相关特性的数据聚集在一起得到多个多维数据集,从而及时响应于用户的数据分析请求,使得用户可以通过可视化界面直观地观察、浏览、研究返回的分析结果,而且,以预定周期地对大数据样本进行聚合处理,使得所提供的分析结果可以随着大数据样本的不断增加或更新而更加准确、恰当。

本发明的第三实施例涉及一种基于大数据的用户数据分析方法,第三实施例在上述第一实施例或者第二实施例的基础上,具体给出了步骤120的详细实现过程,下面对本发明第三实施例进行详细介绍,具体如下:

通过已获取的多个多维数据集对数据分析请求进行匹配分析处理,并返回相应的分析结果,包括:步骤121,从数据分析请求中提取待分析数据;步骤122,分析待分析数据是否与多个多维数据集中的任一多维数据匹配;步骤123,如果分析结果为匹配,则返回响应于数据分析请求的分析报告。

具体地说,在通过可视化界面接收到用户发送的数据分析请求时,从数据分析请求中提取其携带的待分析数据,以对具体的待分析数据进行相应的匹配分析处理,在匹配分析处理过程中,分析待分析数据是否与多个多维数据中的任一多维数据匹配,如果匹配,则返回响应于数据分析请求的分析报告,其中,用户可通过在可视化页面进行数据拖拽的方式发送数据分析请求,分析待分析数据是否与多个多维数据中的任一多维数据匹配,也即检测待分析数据是否命中聚合的数据,如果命中了聚合的数据,则返回相应的分析报告,如果没有命中聚合的数据,目前采用返回样本数据的策略,并当用户的数据分析请求审核通过后,实时返回全量数据或者部分最相关数据。

本发明实施例,在匹配分析处理过程中,通过分析数据分析请求中的待分析数据是否与多个多维数据中的任一多维数据匹配的方式,对数据分析请求进行匹配分析处理,从而在已有大数据样本的基础上,实现实时、快速的数据分析,并返回可靠的分析结果。

本发明的第四实施例涉及一种基于大数据的用户数据分析装置,如图3所示,具体包括:接收模块s10、处理响应模块s20与聚合处理模块s30。

接收模块s10,用于接收用户通过可视化界面发送的数据分析请求。

处理响应模块s20,用于通过已获取的多个多维数据集对数据分析请求进行匹配分析处理,并返回相应的分析结果;其中,多维数据集是聚合处理模块预先对大数据样本进行聚合处理后得到的。

进一步地,聚合处理模块s30具体包括:多维数据模型构建子模块s31与多维数据集获取子模块s32,如图4所示,其中,多维数据模型构建子模块s31,用于基于数据仓库中预存储的预定业务类型的大数据样本,构建预设模型类型的多个多维数据模型;多维数据集获取子模块s32,用于根据所述多个多维数据模型对数据仓库中预存储的预定业务类型的大数据样本进行聚合处理,得到多个多维数据集。

进一步地,多维数据集获取子模块s32具体包括:数据表生成子单元s321与多维数据集构建子单元s322,如图4所示,其中,数据表生成子单元s321,用于根据多个多维数据模型对所述大数据样本进行聚合处理,生成对应于多个维度的多个数据表;多维数据集构建子单元s322,用于基于多个数据表构建多个多维数据集。

进一步地,处理响应模块包括:提取子模块s21、分析子模块s22与响应子模块s23,如图4所示,其中,提取子模块s21,用于从数据分析请求中提取待分析数据;分析模块s22,用于分析待分析数据是否与多个多维数据集中的任一多维数据匹配;响应子模块s23,用于当分析结果为匹配时,返回响应于数据分析请求的分析报告。

进一步地,聚合处理模块s30具体用于以预定周期在预设时间区间对大数据样本进行聚合处理,并将聚合处理结果存储至预定类型的数据库中。

进一步地,预定类型的数据库包括关系数据库。

本发明实施例提供的基于大数据的用户数据分析方法,接收用户通过可视化界面发送的数据分析请求,使得用户在可视化界面进行简单操作,即可针对某一数据进行相应分析,同时,为后续用户通过可视化界面直观查看返回的数据分析结果提供了前提保障;通过已获取的多个多维数据集对数据分析请求进行匹配分析处理,其中,多维数据集是预先对大数据样本进行聚合处理后得到的,从而能够在已有大数据样本的基础上,通过多维数据集快速、灵活地对用户的数据分析请求进行全面地匹配分析处理,有效地进行数据分析并返回相应的分析结果,从而及时响应于用户的数据分析请求,实现用户可以通过可视化界面直观地观察、浏览、研究返回的分析结果。

本发明的第五实施例提供了一种终端设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例所示的基于大数据的数据分析方法。

本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、rom(read-onlymemory,只读存储器)、ram(randomaccessmemory,随即存储器)、eprom(erasableprogrammableread-onlymemory,可擦写可编程只读存储器)、eeprom(electricallyerasableprogrammableread-onlymemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1