一种大数据分析处理工具的制作方法

文档序号:10570016阅读:319来源:国知局
一种大数据分析处理工具的制作方法
【专利摘要】本发明公开了一种大数据分析处理工具,即裴克铭DatSmart工具,其采用多个不同的层来将性能和易用性结合到一起,包括用户界面层和Web API层;工作流通过用户界面层创建,存储在RDBMS中,然后由工作流执行器服务拾取,通过基于任务的异步模型来异步执行;工作流完成后,结果/元数据在RDBMS中再次更新,然后通过SignalR广播消息发送到用户界面层。本发明提供了易于使用的数据处理功能包括:数据导入、EDD电子数据字典、数据完整性检查、数据准备、变量工程和可视化等。由此为数据提供全方位的数据视图,能够在极短的时间内揭示出传统方法无法展现的隐藏的事实,助力决策过程。
【专利说明】
一种大数据分析处理工具
技术领域
[0001]本发明属于大数据分析和处理技术领域,具体的说是涉及一种大数据分析处理工具,其采用极为简单的单网页应用结合到一起。
【背景技术】
[0002]DatSmart是一种用于大数据分析的软件工具,为用户提供有关大数据的抽象分析,供其对任何类型的数据,例如结构化数据/非结构化数据/半结构化数据,开展各种深入研究/分析。为裴克铭的内部分析师提供协助,相对来说无需编写代码。DatSmart工具是各种不同工具与技术的一个组合,可帮助对原始数据执行分步处理与分析,提供针对数据极具意义的深入见解以及360度全方位的数据视图,除了数据处理和分析功能外,还可通过各种交互方式,例如图表、示意图、表格等,实现结果的可视化。
[0003]当前提供的工具能够执行部分操作,但并不是具备全套功能的单一工具,后者具备通过简单的网页界面正确整合所有科学算法和数据处理的能力。DatSmart的构建采用AngularJS作为前端接口,并且采用Microsoft Web API作为REST API层,提供对Hadoop生态系统实现的所有功能,例如Spark、Hive、HBase等的提取,其主要科学算法由Scala代码开发而成。

【发明内容】

[0004]本发明为了克服现有技术存在的不足,提供一种大数据分析处理工具,适用于裴克铭管理咨询(上海)有限公司,即DatSmart工具。
[0005]本发明是通过以下技术方案实现的:一种大数据分析处理工具,大数据分析处理工具采用多个不同的层来将性能和易用性结合到一起,大数据分析处理工具包括用户界面层和Web API层;用户界面层采用AngularJS和Bootstrap框架构建,使大数据分析处理工具能够真正做出实质上的快速响应;Web API层采用Asp.net MVC Web API构建,支持真正的异步操作;工作流通过用户界面层创建,存储在RDBMS中,然后由工作流执行器服务拾取,通过Net Framework所提供的基于任务的异步模型来异步执行;工作流完成后,结果/元数据在RDBMS中再次更新,然后通过SignalR广播消息发送到用户界面层。工作流执行服务是一种Windows服务,通过Hadoop簇来创建SSH连接,执行工作流中提及的所有步骤。
[0006]本发明中的大数据分析处理工具为DatSmart工具适用于裴克铭管理咨询(上海)有限公司。
[0007]本发明的有益效果是:提供一种大数据分析处理工具,具有充分的灵活性与可扩展性,满足客户复杂的数据分析要求。本发明DatSmart工具的设计采用大数据,无缝集成形形色色复杂的科学算法,其各种数据操作可提供有关结构化和非结构化数据的深入见解。迄今为止,使用本工具所完成的分析工作都极为出色,原因在于通过一个单一的工具包即可提供全部功能,为数据提供360°全方位的数据视图,能够在极短的时间内揭示出传统方法无法展现的隐藏的事实。此外还能在所需的层面上提供深入见解,助力决策过程。
[0008]本发明大数据分析处理工具的功能包括:数据导入、EDD电子数据字典、数据完整性检查、数据准备、变量工程和可视化等。
[0009]数据导入:该操作可供用户以各种格式导入数据,例如Excel、CSV、文本文件、制表符分隔文件、逗号分隔文件等。
[0010]EDD电子数据字典:该操作可供用户选择应用到给定数据集的各种科学算法,例如:1、单变量分析可供用户查找任何给定数据集的各种统计信息,例如求和、最小值、最大值、唯一值数、缺失值数、标准偏差、方差、平均值、中间值、众数、四分位数;2、字符分析将提供字符型变量的汇总结果。
[0011 ]数据完整性检查:该操作可供用户选择处理原始数据的各种算法,例如:1、缺失值处理使用户能够灵活的将缺失值替换为平均值/中位值;2、离群值处理使用户能够灵活的使用西格玛值来查找离群值;3、重复检查使用户能够灵活的检查重复的行;4、坏行处理可将非正常的行从数据集中分离出来,并将文件头保留作为参考。
[0012]数据准备:该操作可供用户执行各种数据准备步骤,取数据子集和数据合并,例如:1、取数据子集供用户基于各种条件来过滤出数据,并且还可从现有变量中创建出新的变量;2、数据合并供用户基于各种连接条件连接起两个或更多的数据集,如内连接、左连接、右连接、交叉连接等,并且为选定的字段返回汇总数据。
[0013]变量工程:该操作可供用户执行多种操作,例如:1、创建新变量:供用户通过加减等操作创建新变量;2、创建标志二进制变量:在该操作中,用户以O和I的形式获知在给定变量上所应用条件的情况,例如是否适用;3、数学函数:用户可对变量应用多种数学函数,平方根、立方等;4、字符串操作:供用户执行字符串操作,例如取长度、反向、修剪、取子串等。
[0014]可视化:Datsmart可供用户以各种所需的格式来查看不同的工作流各步骤的结果,例如:1、列表数据可按前100行/随机100行的形式进行可视化,以便了解处理完成后数据的表现形式;2、数据能够作为不同类型的图表来可视化,例如条形图、饼形图、柱状图等,用于确认处理完成后数据的分布;3、使用地理编码或反向地理编码,通过交互式地图能够对地理空间数据进行可视化。
【附图说明】
[0015]图1是本发明大数据分析处理工具的架构描述图;
图中名词中英文对照:
UI Layer (Angular JS)--用户界面层(Angular JS);
Web API Layer (C# DotNet) + SignalR--Web API 层(C# DotNet开发)+
SignalR;
Workflow Executor Service--工作流执行器服务;
Hadoop Ecosystem--Hadoop 生态系统;
Hive--Hive(基于Hadoop的一个数据仓库工具);
Spark--Spark(一个Hadoop Mapreduce 的通用并行框架);
HBase——HBase (一个分布式,面向列的数据库)。
【具体实施方式】
[0016]以下结合附图对本发明作详细描述。
[0017]如图1所示:一种大数据分析处理工具,大数据分析处理工具采用多个不同的层来将性能和易用性结合到一起,大数据分析处理工具包括用户界面层和Web API层;用户界面层采用AngularJS和Bootstrap框架构建,使大数据分析处理工具能够真正做出实质上的快速响应;Web API层采用Asp.net MVC Web API构建,支持真正的异步操作;工作流通过用户界面层创建,存储在RDBMS中,然后由工作流执行器服务拾取,通过NetFramework所提供的基于任务的异步模型来异步执行;工作流完成后,结果/元数据在RDBMS中再次更新,然后通过SignalR广播消息发送到用户界面层。工作流执行服务是一种Windows服务,通过Hadoop簇来创建SSH连接,执行工作流中提及的所有步骤。
[0018]最后应当说明的是,以上内容仅用以说明本发明的技术方案,而非对本发明保护范围的限制,本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换,均不脱离本发明技术方案的实质和范围。
【主权项】
1.一种大数据分析处理工具,其特征在于:所述大数据分析处理工具采用多个不同的层来将性能和易用性结合到一起,所述大数据分析处理工具包括用户界面层和Web API层;用户界面层采用AngularJS和Bootstrap框架构建,使大数据分析处理工具能够真正做出实质上的快速响应;Web API层采用Asp.net MVC Web API构建,支持真正的异步操作;工作流通过用户界面层创建,存储在RDBMS中,然后由工作流执行器服务拾取,通过.Net Framework所提供的基于任务的异步模型来异步执行;工作流完成后,结果/元数据在RDBMS中再次更新,然后通过SignalR广播消息发送到用户界面层。2.根据权利要求1所述的一种大数据分析处理工具,其特征在于:所述工作流执行服务是一种Windows服务,通过Hadoop簇来创建SSH连接,执行工作流中提及的所有步骤。3.根据权利要求1或2所述的一种大数据分析处理工具,其特征在于:所述大数据分析处理工具提供了易于使用的数据处理功能,如数据导入、EDD电子数据字典、数据完整性检查、数据准备、变量工程和可视化。
【文档编号】G06F17/30GK105930450SQ201610249404
【公开日】2016年9月7日
【申请日】2016年4月21日
【发明人】万云飞
【申请人】裴克铭管理咨询(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1