一种可视化大数据分析方法及系统与流程

文档序号:11830572阅读:1067来源:国知局
一种可视化大数据分析方法及系统与流程

本发明涉及大数据分析技术领域,特别涉及一种可视化大数据分析方法及系统。



背景技术:

现如今是大数据飞速发展的时代,大数据已经被上升到国家战略层面,随着时间的推移,大数据会在各种应用邻域发挥极其重要的作用。

但是在现有技术中,大数据的使用成本还是比较高的,除了搜集和存储平台的建立,更多体现在采集的数据上,对采集的数据有效的利用才能够体现大数据时代的价值。而现有的使用方式以及使用的数据中非业务东西太多,并且业务人员无法选择大数据的处理和分析方式,经常性将非业务数据融入到分析系统中导致系统的冗余及分析结果的不准确。因此,对非业务数据屏蔽,尤其是根据业务人员的选择进行大数据分析显得非常重要的。



技术实现要素:

为了保证业务人员可视化分析大数据得到分析结果,有效的屏蔽非业务数据,本发明提供了一种可视化大数据分析方法及系统。

所述技术方案如下:

第一方面,提供了一种可视化大数据分析方法,其特征在于,所述方法包括:

采集原始数据并对所述原始数据进行ETL操作;其中,所述原始数据包括离线数据和/或实时流式数据;

对所述原始数据进行数据清洗得到基础数据;

对所述基础数据进行数据业务处理,生成基本的数据结果;

建立可视化分析模型并根据所述可视化分析模型和所述基本的数据结果得到分析结果,可视化显示所述分析结果。

结合第一方面,在第一种可能的实施方式中,所述对所述原始数据进行数据清洗得到基础数据包括:

根据业务规则对所述原始数据过滤得到业务数据,其中,所述业务规则为用户自定义业务规则或者预设规则;

将所述业务数据进行格式化得到所述基础数据。

结合第一方面,在第二种可能的实施方式中,所述对所述基础数据进行数据业务处理,生成基本的数据结果包括:

对所述基础数据进行数据关联处理、挖掘业务模型和迭代计算;

根据挖掘的所述业务模型对所述基础数据进行迭代计算,得到基本的数据结果;

其中,数据关联处理包括对所述基础数据IP定位、手机号定位或僵木蠕类型定位。

结合第一方面,在第三种可能的实施方式中,所述建立可视化分析模型包括:

根据用户指示生成可视化的初步分析模型;

用户将所述初步分析模型与预期分析模型进行比对,调整所述初步分析模型;

当所述初步分析模型与预期分析模型一致时,判定生成最终的可视化分析模型。

结合第一方面或第一种至第三种任意一种可能的实施方式,在第四种可能的实施方式中,

所述方法还包括:

在所述可视化分析模型配置展示接口、查询接口;

其中,所述展示接口用于实时展示分析结果;

其中,所述查询接口用于将所述分析结果分享到其他系统建立分析模型云平台。

第二方面,提供了一种可视化大数据分析系统,其特征在于,所述系统包括:

数据采集模块,用于采集原始数据并对所述原始数据进行ETL操作;其中,所述原始数据包括离线数据和/或实时流式数据;

数据清洗模块,用于对所述原始数据进行数据清洗得到基础数据;

数据处理模块,用于对所述基础数据进行数据业务处理,生成基本的数据结果;

分析显示模块,用于建立可视化分析模型并根据所述可视化分析模型和所述基本的数据结果得到分析结果,可视化显示所述分析结果。

结合第二方面,在第一种可能的实施方式中,所述数据清洗模块具体用于:

根据业务规则对所述原始数据过滤得到业务数据,其中,所述业务规则为用户自定义业务规则或者预设规则;

将所述业务数据进行格式化得到所述基础数据。

结合第二方面,在第二种可能的实施方式中,所述数据处理模块具体用于:

对所述基础数据进行数据关联处理、挖掘业务模型和迭代计算;

根据挖掘的所述业务模型对所述基础数据进行迭代计算,得到基本的数据结果;

其中,数据关联处理包括对所述基础数据IP定位、手机号定位或僵木蠕类型定位。

结合第二方面,在第三种可能的实施方式中,所述分析显示模块具体用于:

根据用户指示生成可视化的初步分析模型;

用户将所述初步分析模型与预期分析模型进行比对,调整所述初步分析模型;

当所述初步分析模型与预期分析模型一致时,判定生成最终的可视化分析模型。

结合第二方面或第二方面的第一种至第三种任意一种可能的实施方式,在第四种可能的实施方式中,所述系统还包括接口模块,具体用于所述可视化分析模型配置有展示接口、查询接口;

其中,所述展示接口用于实时展示分析结果;

其中,所述查询接口用于将所述分析结果分享到其他系统建立分析模型云平台。

第三方面,提供了一种可视化大数据分析系统,其特征在于,所述系统包括:FTP服务器、数据中心和网安平台,其中,FTP服务器用于采集原始数据,此处的原始数据可以是各个管理局、运营商和其他第三方厂商提供的。网安平台用于提供查询分析结果的入口平台和可视化展示查询结果。数据中心存储有数据分析程序,用于执行以下操作:

对FTP服务器采集的原始数据进行ETL操作;其中,原始数据包括离线数据和/或实时流式数据;

对原始数据进行数据清洗得到基础数据;

对基础数据进行数据业务处理,生成基本的数据结果;

建立可视化分析模型并根据可视化分析模型和基本的数据结果得到分析结果,可视化显示分析结果。

结合第三方面,在第一种可能的实施方式中,数据中心存储的数据分析程序用于执行以下操作:

根据业务规则对原始数据过滤得到业务数据,其中,业务规则为用户自定义业务规则或者预设规则;

将业务数据进行格式化得到基础数据。

格式化后的基础数据形成处理后数据目录,然后根据轮询的方式把数据发送到分布式文件系统(HDFS文件系统)中数据节点的每个服务器上。

结合第三方面,在第二种可能的实施方式中,数据中心存储的数据分析程序用于执行以下操作:

对基础数据进行数据关联处理、挖掘业务模型和迭代计算;

根据挖掘的业务模型对基础数据进行迭代计算,得到基本的数据结果。

对存储于上述Hadoop分布式文件系统中的基础数据通过Spark数据关联定位,该定位包括IP定位、手机号定位或僵木蠕类型定位。

结合第三方面,在第三种可能的实施方式中,数据中心存储的数据分析程序用于执行以下操作:

关联定位后的基本的数据结果上传至Hadoop分布式文件系统(HDFS文件系统中)中,具体地,建立可视化分析模型包括:

根据用户指示生成可视化的初步分析模型;

用户将所述初步分析模型与预期分析模型进行比对,调整所述初步分析模型;

当所述初步分析模型与预期分析模型一致时,判定生成最终的可视化分析模型。

结合第三方面或第三方面的第一种至第三种任意一种可能的实施方式,在第四种可能的实施方式中,数据中心存储的数据分析程序用于执行以下操作:

数据中心配置接口模块,具体包括查询接口和展示接口,其中,查询接口用于提供数据查询服务;展示接口用于实时展示分析结果。该查询接口一端与Impala查询服务和ES查询服务连接,另一端与网安平台连接。数据查询接口服务具体包括:认证访问接口、统计分析任务下发接口、关联查询任务下发接口、结果查询接口、任务删除接口、数据添加接口和数据文件批量导入接口等。

本发明实施例提供了一种可视化大数据分析方法及系统,通过采集不同形式的原始数据并进行ETL操作,完成了对客户提供的各种原始数据的汇总、转化、提取工作,使各种不同格式、不同途径的原始海量数据完成了进入数据仓库中的前期工作,并且ETL通过底层的SOCKET完成,最大化的利用网络资源,最大化提升ETL性能;通过对原始数据的数据清洗,可以滤除非业务数据;通过对基础数据进行数据业务处理,生成基本的数据结果,可以作为可视化分析的基础;通过建立可视化分析模型,用户可以根据已知业务可视化选择建立分析模型并经过不断的调整生成最终的分析模型;可视化显示分析结果有助于业务人员根据自己的兴趣和业务分类去选择结果展示样例。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一优选实施例提供的一种可视化大数据分析方法流程图;

图2是本发明另一优选实施例提供的一种可视化大数据分析系统结构示意图;

图3是本发明另一优选实施例提供的一种可视化大数据分析系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,在一优选的实施例中提供了一种可视化大数据分析方法,包括:

S101、采集原始数据并对原始数据进行ETL操作;其中,原始数据包括离线数据和/或实时流式数据。

其中,客户原始数据既可以包含离线数据(CSV、JSON、各种文本格式原始数据)也可以包含实时的流式数据(通过监听服务器服务端口、通过各种实时采集技术如Flume等各种中间件上报的数据),统一完成了对客户提供的各种原始数据的汇总、转化、提取工作,使各种不同格式、不同途径的原始海量数据完成了进入数据仓库中的前期工作。

在S101中,ETL操作都是通过底层的SOCKET操作完成,最大化利用网络资源,同时最大化提升了ETL性能。

原始数据可以来源于FTP上传的数据,具体有各个管理局、运营商和其他第三方厂商提供。

S102、对原始数据进行数据清洗得到基础数据。

具体地,根据业务规则对原始数据过滤得到业务数据,其中,业务规则为用户自定义业务规则或者预设规则;

将业务数据进行格式化得到基础数据。

对原始数据过滤得到业务数据包括:原始文本数据分割标示的明确、不符合要求数据的过滤和提示、原始数据基本的数据加标记等。

由于原始数据的格式、规范可能不一样,就需要系统对原始数据进行统一个格式化,确保系统中数据的格式统一。具体的处理包含:对运营商提供的僵木蠕、恶意事件、恶意样本等原始数据进行加标记操作,对所有数据日期进行处理,添加年月日数据字段(ever data格式YYYYMMDD),处理完成的数据会根据轮询方式把数据发送到分布式文件系统中数据节点的每个服务器上。

S103、对所述基础数据进行数据业务处理,生成基本的数据结果。

具体地,对基础数据进行数据关联处理、挖掘业务模型和迭代计算;

根据挖掘的业务模型对基础数据进行迭代计算,得到基本的数据结果;

其中,数据关联处理包括对基础数据IP定位、手机号定位或僵木蠕类型定位。

具体地,对原始数据进行IP定位、手机号定位、僵木蠕类型定位等操作。这部分需要数据的支持,包含IP类:IP全球资源库、IP全国IDC机房资源库,手机号码类:全国手机号码段资源库,僵木蠕类:僵木蠕类别库。

其中,挖掘业务模型具体包括:用户根据已知的业务逻辑形成数据基本的计算模型。

根据挖掘的业务模型对基础数据进行迭代计算,得到基本的数据结果可以作为可视化分析的基础。

S104、建立可视化分析模型并根据所述可视化分析模型和所述基本的数据结果得到分析结果,可视化显示所述分析结果。

其中,建立可视化分析模型具体包括:

根据用户指示生成可视化的初步分析模型;

用户将初步分析模型与预期分析模型进行比对,调整初步分析模型;

当初步分析模型与预期分析模型一致时,判定生成最终的可视化分析模型。

在可视化分析模型建立系统中,预先设置有可供用户选择的数据结果模型,并以可视化图形的方式展示给用户;用户根据展示的可视化数据种类选择需要参与模型计算的数据,数据种类的具体模型结构可视化展示给用户;用户选定数据种类后,根据业务类型,拖拽特定的模型并结合进行模型计算的属性建立模型计算关系;系统根据用户的选择返回模型的结果,并不断的可视化调整得到最终的分析模型。此时,可以将该分析模型大规模的在全量数据中使用,为业务决策提供数据支撑,挖掘各种业务数据,提升公司历史数据的价值。

可视化分析模型是建立可以帮助业务人员直接快速的操作数据,进行业务挖掘,模型建立,极大的简化了数据业务的处理,加快了数据处理速度。

在将基本的数据结果输入到可视化分析模型中后会得到分析结果,具体地,可视化分析模型会还原客户的计算模型,一步步按照客户设定的模型进行计算的还原,还原成一个个小的计算单元。

可选的,可视化分析模型配置有展示接口、查询接口;

其中,展示接口用于实时展示分析结果;

其中,查询接口用于将分析结果分享到其他系统建立分析模型云平台。

本发明实施例提供的一种可视化大数据分析方法,提供大数据的可视化处理流程,能更好的为海量数据处理提供技术解决,可以更好的为业务处理人员提供帮助,更好的聚焦于数据实际业务,快速得到模型结果,更好的为业务决策提供数据支撑。

参见图2,在另一优选的实施例中,提供了一种可视化大数据分析系统,该系统包括:

数据采集模块201,用于采集原始数据并对原始数据进行ETL操作;其中,原始数据包括离线数据和/或实时流式数据;

数据清洗模块202,用于对原始数据进行数据清洗得到基础数据;

数据处理模块203,用于对基础数据进行数据业务处理,生成基本的数据结果;

分析显示模块204,用于建立可视化分析模型并根据可视化分析模型和基本的数据结果得到分析结果,可视化显示分析结果。

优选地,数据清洗模块202具体用于:

根据业务规则对原始数据过滤得到业务数据,其中,业务规则为用户自定义业务规则或者预设规则;

将业务数据进行格式化得到基础数据。

优选地,数据处理模块203具体用于:

对基础数据进行数据关联处理、挖掘业务模型和迭代计算;

根据挖掘的业务模型对基础数据进行迭代计算,得到基本的数据结果;

其中,数据关联处理包括对基础数据IP定位、手机号定位或僵木蠕类型定位。

优选地,分析显示模块204具体用于:

根据用户指示生成可视化的初步分析模型;

用户将初步分析模型与预期分析模型进行比对,调整初步分析模型;

当初步分析模型与预期分析模型一致时,判定生成最终的可视化分析模型。

可选的,本实施例中的系统还包括接口模块205,用于将分析结果提供给其他系统或者提供查询服务。

具体地,在可视化分析模型配置有展示接口、查询接口;

其中,展示接口用于实时展示分析结果;

其中,查询接口用于将分析结果分享到其他系统建立分析模型云平台。

本发明实施例提供的一种可视化大数据分析系统,通过数据采模块201,可以采集各种类型的原始数据,并且可以通过ETL操作对原始数据进行汇总、提取等工作,最大化的利用网络资源;通过数据清洗模块202,可以对原始数据进行初步的处理,滤除非业务数据,使得原始数据具有一致性;通过数据处理模块203,对得到的基础数据进行迭代计算,得到可用做可视化分析的结果;通过分析显示模块204,用户可以可视化的选择建立可视化分析模型,并将分析结果可视化显示,使得数据的分析和处理更具有直观性和可控性;通过接口模块205,可以将分析结果与其他系统查询和共享,可视化显示的同时建立数据分析的云平台。本实施例提供的大数据可视化处理系统,能更好的为海量数据处理提供技术解决,可以更好的为业务处理人员提供帮助,更好的聚焦于数据实际业务,快速得到模型结果,更好的为业务决策提供数据支撑。

参见图3,在另一优选的实施例中,提供了一种可视化大数据分析系统,包括:FTP服务器、数据中心和网安平台,其中,FTP服务器用于采集原始数据,此处的原始数据可以是各个管理局、运营商和其他第三方厂商提供的。网安平台用于提供查询分析结果的入口平台和可视化展示查询结果。数据中心存储有数据分析程序,用于执行以下操作:

对FTP服务器采集的原始数据进行ETL操作;其中,原始数据包括离线数据和/或实时流式数据。

ETL操作都是通过底层的SOCKET操作完成,最大化利用网络资源,同时最大化提升了ETL性能。

对原始数据进行数据清洗得到基础数据。

具体地,对所述原始数据进行数据清洗得到基础数据包括:

根据业务规则对原始数据过滤得到业务数据,其中,业务规则为用户自定义业务规则或者预设规则;

将业务数据进行格式化得到基础数据。

对原始数据过滤得到业务数据包括:原始文本数据分割标示的明确、不符合要求数据的过滤和提示、原始数据基本的数据加标记等。

由于原始数据的格式、规范可能不一样,就需要系统对原始数据进行统一个格式化,确保系统中数据的格式统一。具体的处理包含:对运营商提供的僵木蠕、恶意事件、恶意样本等原始数据进行加标记操作,对所有数据日期进行处理,添加年月日数据字段(ever data格式YYYYMMDD),格式化后的基础数据形成处理后数据目录,然后根据轮询的方式把数据发送到分布式文件系统(HDFS文件系统)中数据节点的每个服务器上。

对基础数据进行数据业务处理,生成基本的数据结果。

具体地,对基础数据进行数据业务处理,生成基本的数据结果包括:

对基础数据进行数据关联处理、挖掘业务模型和迭代计算;

根据挖掘的业务模型对基础数据进行迭代计算,得到基本的数据结果。

对存储于上述Hadoop分布式文件系统中的基础数据通过Spark数据关联定位,该定位包括IP定位、手机号定位或僵木蠕类型定位。

具体地,对原始数据进行IP定位、手机号定位、僵木蠕类型定位等操作。这部分需要数据的支持,包含IP类:IP全球资源库、IP全国IDC机房资源库,手机号码类:全国手机号码段资源库,僵木蠕类:僵木蠕类别库。

其中,挖掘业务模型具体包括:用户根据已知的业务逻辑形成数据基本的计算模型。

根据挖掘的业务模型对基础数据进行迭代计算,得到基本的数据结果可以作为可视化分析的基础。

关联定位后的基本的数据结果上传至Hadoop分布式文件系统(HDFS文件系统中)中;然后建立可视化分析模型并根据可视化分析模型和基本的数据结果得到分析结果。具体地,建立可视化分析模型包括:

根据用户指示生成可视化的初步分析模型;

用户将所述初步分析模型与预期分析模型进行比对,调整所述初步分析模型;

当所述初步分析模型与预期分析模型一致时,判定生成最终的可视化分析模型。

在可视化分析模型建立系统中,预先设置有可供用户选择的数据结果模型,并以可视化图形的方式展示给用户;用户根据展示的可视化数据种类选择需要参与模型计算的数据,数据种类的具体模型结构可视化展示给用户;用户选定数据种类后,根据业务类型,拖拽特定的模型并结合进行模型计算的属性建立模型计算关系;系统根据用户的选择返回模型的结果,并不断的可视化调整得到最终的分析模型。

数据中心的数据存储和处理基于分布式文件系统Hadoop,便于系统中数据安全和扩展。数据中心主要解决大量数据中数据查询结果的返回,为了解决数据普通查询和统计分析结果实时返回的问题,架构中重点使用了巨杉数据库提供在大批量数据中普通查询结果的即时搜索功能,Impala查询架构提供了统计分析结果的实时搜索功能。

Hadoop分布式文件系统(HDFS)与ES数据库和Impala查询服务连接,其中ES数据库中存储的数据用于提供关联查询结果和分页查询结果,Impala查询服务用于提供统计分析查询结果。

可选的,数据中心还配置有查询接口,用于提供数据查询服务。该查询接口一端与Impala查询服务和ES查询服务连接,另一端与网安平台连接。数据查询接口服务具体包括:认证访问接口、统计分析任务下发接口、关联查询任务下发接口、结果查询接口、任务删除接口、数据添加接口和数据文件批量导入接口等。

可选的,数据中心还配置有展示接口,用于实时展示分析结果。

本发明实施例提供的一种可视化大数据分析系统,提供大数据的可视化处理和可视化展示,解决数据格式统一、完整、正确、及时性等的问题,并且可以对数据进行各种分析和关联,达到解决客户现实问题的能力。能更好的为海量数据处理提供技术解决,可以更好的为业务处理人员提供帮助,更好的聚焦于数据实际业务,快速得到模型结果,更好的为业务决策提供数据支撑。

需要说明的是:所述实施例提供的可视化大数据分析系统在执行大数据分析方法时,仅以所述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将所述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,所述实施例提供的可视化大数据分析方法和系统属于同一构思,其具体实现过程详见实施例,这里不再赘述。

本领域普通技术人员可以理解实现所述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,所述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1