一种企业大数据分析系统和方法与流程

文档序号:14990844发布日期:2018-07-20 22:11阅读:1356来源:国知局

本发明涉及云计算技术领域,尤具体地说是一种企业大数据分析系统和方法。



背景技术:

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可以帮助人们做出判断,以便采取适当的行动。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为现实,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。

当今时代是大数据时代、云计算时代,我们的生活离不开庞大的数据。根据相关数据统计,每秒钟人们发送290封电子邮件,亚马逊处理72.9笔订单;每分钟人们在youtube上传20小时视频;每月人们总共在facebook上浏览7000亿分钟。如此巨大的数据量同时还存在数据多样化的问题,数据多样化的形成主要有两方面的原因:一是数据来源多,有搜索引擎、社交网络、通话记录、传感器等等;二是数据格式多,有结构数据、半结构数据和非结构数据。

目前数据分析面临的问题是数据量大,多种结构形式和实时性等多样化要求,这些问题增加了数据采集和整合困难,传统的基于块和文件的存储系统的架构设计已无法满足数据分析的需要。面对如此大的数据量,如何让数据产生价值,让数据给我们带来利益,是目前需要考虑的问题。



技术实现要素:

本发明的技术任务是针对以上不足之处,提供一种企业大数据分析系统和方法,对数据进行采集、存储、分析、处理和呈现,让企业更好的利用大数据进行直观的分析,方便企业或个人进行大数据的使用。

一种企业大数据分析系统,对数据进行采集、存储、分析、处理和呈现,从而进行数据整合;包括

数据采集子系统,用于数据的采集,包括日志采集模块、网络数据采集模块和其他数据采集模块;

数据存储子系统,用于将采集到的数据导入到数据库中;

数据处理子系统,用于对数据存储子系统中的数据进行清洗、转化、提取和计算;

数据分析子系统,用于对数据处理子系统处理后的数据进行统计分析和深度挖掘;

数据展示子系统,用于对数据进行呈现。

优选的,日志采集模块为分布式架构,能够满足每秒数百mb的日志数据采集和传输需求。

优选的,所述日志采集模块为基于插件的模式,构件适应业务场景的采集插件,系统根据不同的日志源调用不同的采集服务对数据进行采集,并统一格式处理,持久到日志库。

优选的,所述网络数据采集模块通过网络爬虫或网站公开api从网站获取数据信息,将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件。

进一步的,网络数据采集模块支持图片、音频和视频文件或附件的采集,附件与正文自动关联。

优选的,所述其他数据采集模块通过与企业或研究机构合作,针对企业生产经营数据或学科研究数据的保密性要求,使用特定系统接口的方式采集数据,提高数据安全性。

优选的,所述数据存储系统为一个集中的大型分布式数据库。

优选的,数据处理子系统对数据的清洗包括数据双录入对比、数据合并、查找重复值、查找缺失值和查找异常值。

优选的,数据处理系统对数据的提取包括数据抽取、数据转换、数据加工和数据装载。

一种企业大数据分析方法,该方法采用上述的企业大数据分析系统进行数据的整合,其分析方法步骤如下:

s1:利用数据采集子系统进行数据的采集,包括日志采集、网络数据采集以及针对企业生产经营数据或学科研究数据保密性要求采用的特定系统接口的其他数据采集;

s2:将采集到的数据导入数据存储子系统中,即存入一个大型分布式数据库;

s3:利用数据处理子系统对数据存储子系统中的数据进行清洗、转化、提取和计算;其中,清洗包括数据双录入对比、数据合并、查找重复值、查找缺失值和查找异常值;提取包括数据抽取、数据转换、数据加工和数据装载;

s4:利用数据分析子系统对步骤s3处理后的数据进行统计分析和深度挖掘;

s5:利用数据展示子系统对步骤s4处理后的数据以表格、图片或文字的形式进行呈现。

从而达到数据整合的目的,快速直观。

本发明的一种企业大数据分析系统和方法,具有以下优点:

本系统及方法通过对数据的采集、存储、处理和分析,然后再将经过分析的数据用文字、图片和表格等方式呈现给用户,达到数据整合的目的,快速直观。

数据采集子系统中日志采集模块采用分布式架构,能够满足每秒数百mb的日志数据采集和传输需求;网络数据采集模块支持图片、音频和视频等文件或附件的采集,附件与正文可以自动关联;其他数据采集模块针对企业生产经营数据或学科研究数据等保密性要求较高的数据,使用特定系统接口可以提高数据安全性。

本发明能够充分迎合当今云计算、大数据时代,将海量原始数据进行大规模采集,再经过数据处理,数据分析,最终将得到的分析结果通过简单易懂的方式展现出来。通过此流程方便了企业对大数据、云计算的使用,让企业更好的利用大数据进行直观的分析,方便企业或个人进行大数据的使用,对企业发展有很大益处。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

附图1是企业大数据分析系统结构图;

附图2是实施例中企业大数据分析方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的方案,下面结合具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种企业大数据分析系统,对数据进行采集、存储、分析、处理和呈现,从而进行数据整合。包括数据采集子系统、数据存储子系统、数据处理子系统、数据分析子系统和数据展示子系统。

数据采集子系统,用于数据的采集,包括日志采集模块、网络数据采集模块和其他数据采集模块。

日志采集模块为分布式架构,能够满足每秒数百mb的日志数据采集和传输需求。所述日志采集模块为基于插件的模式,构件适应业务场景的采集插件,系统根据不同的日志源调用不同的采集服务对数据进行采集,并统一格式处理,持久到日志库。

网络数据采集模块通过网络爬虫或网站公开api从网站获取数据信息,将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件。网络数据采集模块支持图片、音频和视频文件或附件的采集,附件与正文自动关联。

其他数据采集模块通过与企业或研究机构合作,针对企业生产经营数据或学科研究数据的保密性要求,使用特定系统接口的方式采集数据,提高数据安全性。

数据存储子系统,用于将采集到的数据导入到数据库中。数据存储系统为一个集中的大型分布式数据库。

数据处理子系统,用于对数据存储子系统中的数据进行清洗、转化、提取和计算。

数据处理子系统对数据的清洗包括数据双录入对比、数据合并、查找重复值、查找缺失值和查找异常值。

数据处理系统对数据的提取包括数据抽取、数据转换、数据加工和数据装载。

数据分析子系统,用于对数据处理子系统处理后的数据进行统计分析和深度挖掘。

数据展示子系统,用于对数据进行呈现。呈现形式包括表格、图片和文字。

一种企业大数据分析方法,该方法采用上述的企业大数据分析系统进行数据的整合,其分析方法步骤如下:

s1:利用数据采集子系统进行数据的采集,包括日志采集、网络数据采集以及针对企业生产经营数据或学科研究数据保密性要求采用的特定系统接口的其他数据采集;

s2:将采集到的数据导入数据存储子系统中,即存入一个大型分布式数据库;

s3:利用数据处理子系统对数据存储子系统中的数据进行清洗、转化、提取和计算;其中,清洗包括数据双录入对比、数据合并、查找重复值、查找缺失值和查找异常值;提取包括数据抽取、数据转换、数据加工和数据装载;

s4:利用数据分析子系统对步骤s3处理后的数据进行统计分析和深度挖掘;

s5:利用数据展示子系统对步骤s4处理后的数据以表格、图片或文字的形式进行呈现。从而达到数据整合的目的,快速直观。

上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种企业大数据分析系统和方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1