一种快速实现数据挖掘分析的模块组件化方法与流程

文档序号:12177425阅读:1585来源:国知局

本发明涉及数据分析处理技术领域,尤其是提供一种快速实现数据挖掘分析的模块组件化方法。



背景技术:

进入信息时代随着大数据的发展,越来越多的行业需要对数据挖掘分析,保存在计算机中的文件和数据库中的数据量正在以指数速度增长,同时人们期望从数据中获得更有用的信息。但数据量越来越大,需要一种新的技术从海量数据中自动、高效地提取所需的有用知识,数据挖掘技术由此而生。

数据挖掘分析的应用,需在大量的数据中找出数据的业务逻辑关系,随着数据挖掘分析工具的发展,可通过相关的软件工具,如Carlementine、R语言、Spark MLlib等进行实现,但是这些工具,都需要一定程度的编程语言实现,导致进行数据挖掘分析的难度加大。



技术实现要素:

本发明解决的技术问题在于提供一种快速实现数据挖掘分析的模块组件化方法;可以大大降低应用数据挖掘分析的门槛,降低数据挖掘分析的应用难度。

本发明解决上述技术问题的技术方案是:

所述的方法包括以下几个步骤:

步骤1:对数据挖掘分析过程进行分析总结,抽取出共同的数据挖掘分析过程的方法,对数据挖掘分析过程的数据输入、数据分析算法、数据分析结果解析进行模块组件化;

步骤2:分析数据输入,按类型分为文件类输入、关系型数据库输入、大数据型输入,不同的输入类型输入不同的数据源配置参数,形成各类型的模块组件化,用于后续的模块功能组装;

步骤3:对数据分析算法,按对数据的分析数量分为普通数据量分析与大数据量分析,按算法的分析结果分为分类算法、回归算法、聚类算法、关联算法等类型;不同的算法设置有不同的数据源输入指标,各类算法按实际的情况进行模块组件化,用于后续的模块功能组装;

步骤4:对数据分析结果进行解析,解析出来的结果以以文件或图片的方式进行展示,然后给用户显示数据的最终业务逻辑结果。

所述分析数据输入,通过对数据输入的相关操作方法总结,数据输入需共同实现以下方法:

1)读取输入的表(子源);

2)读取表(子源)中各列名称;

3)读取表(子源)总数据量;

4)读取表(子源)各列数据等方法;

数据输入使用的是文件类方法时,配置读取输入文件的目录地址,同时区分为TXT文件或Excel文件或CSV文件等类型,对于TXT文件配置文件的数据分隔符号,同时实现数据输入需共同实现的方法;对于Excel类文件,对其中包括的多个Sheet,当作多个表(子源)的情况进行读取;

数据输入使用的是关系型数据库方法时,配置读取关系型数据库的数据库类型、地址、端口、用户名、密码等信息,通过配置的读取数据库的信息,实现数据输入需共同实现的方法;

数据输入使用的是大数据类型方法时,配置大数据的相关信息,HDFS文件系统的,配置读取HDFS文件的目录信息,并且输入的HDFS文件是结构化的数据,并可以通过读取文件头等信息;对于数据输入是HBase,则需配置相关的IP地址、端口等信息,用于数据的读取。

对于多种类型的数据输入,各数据输入可以进行多种类型的互相转换,其中主要是文件类向大数据类型、关系型数据库向大数据类型进行转换,转换到大数据类型上,方便于后续进行数据挖掘分析时,调用大数据的分析算法,解除普通数据分析算法在大数据分析时的瓶颈。

所述的数据分析算法可通过第三方的数据分析包R语言进行实现;或是通过相关的编写语言Java进行实现;或是通过调用大数据的程序包进行实现;不同的实现方法,通过调用数据输入的不同类型,组织成各类数据格式,用于数据挖掘分析;

各算法类型,通过选择不现的算法实现,通过各自功能模块的组件化编程,最终可通过组装的形式,用于最终的数据挖掘分析;

从数据分析算法的实现、类型上,抽取出共同的数据输入各数据格式的组织方法,形成组件化的模块,对各类数据输入进行数据的获取并输入到数据分析算法的组件实现上,实现数据挖掘分析的数据输入与分析算法的对接。

所述的数据分析结果按数据分析算法的类型进行解析,抽取出共同的方法,按不同的数据分析结果解析进行实现,关联算法需解析出各数据输入的关联度,及各关联项的关联次数,用于描述关联度;对于线性回归需解析出回归自变量的各变量常数系数的值;

对分析结果的保存进行配置,指定保存位置与保存类型,可直接保存到文件、图片或关系型数据库表上。

所述的方法、在调用数据挖掘分析的过程中,通过运行主程序的方式,从配置数据输入、选择分析算法到数据分析结果解析,从命令行界面上进行选择配置,并形成配置文件的形式,在数据挖掘分析程序启动后直接获取配置信息进行数据挖掘分析过程;

通过在界面程序上按数据挖掘分析流程的参数规格,完成从数据输入、分析算法选择、分析结果解析的配置,然后通过传参数的形式进行调用,从而完成数据挖掘分析的过程,并从分析结果解析的文件上,读取相关的分析结果。

数据挖掘分析的过程可以按各流程功能的步骤实现模块化,数据输入、分析算法选择及分析结果解析可以按功能进行子模块的再模块化;

数据输入、分析算法选择和分析结果解析的后续的功能增加完善、或是对算法的优化,都可独立地进行某个环节的增加、删除或优化,而不会影响到其他的算法。

本发明的有益效果是:

本发明方法是通过利用面向对象的编程方法,通过总结分析数据挖掘分析过程的共同方法,通过模块组件化的方式,把各种数据输入、分析算法、分析结果解析进行模块化实现,并通过组件化组装的方式,使数据挖掘分析的过程,简化为通过对数据输入的配置、数据分析算法的选择、数据分析结果的解析,从而简化了数据挖掘分析过程中的难度,使数据挖掘分析过程可以快速实现。

通过模块功能组件化的形式,使应用数据挖掘分析的人,尽可能地减少编程,通过直接的数据输入与简单的数据挖掘分析算法选择,从而快速实现数据挖掘分析的模块组件化分析,降低应用数据挖掘分析的门槛,降低数据挖掘分析的应用难度。

通过抽取出数据挖掘分析过程的数据输入、分析算法、分析结果解析三个过程,再通过抽取数据输入的各种数据输入类型的获取数据方法、抽取分析算法从实现方式及类型上、抽取分析结果解析过程的方法,把整个数据挖掘分析的过程进行功能模块细化,形成可后续按需要、按功能进行组件化的过程,并且可以快速地进行功能模块的扩展。

附图说明

下面结合附图对本发明进一步说明:

附图1是本发明快速实现数据挖掘的模块组件化流程图。

具体实施方式

如图1所示,本发明的数据挖掘分析按数据输入、分析算法、分析结果解析进行实现后,通过打包为程序包的形式存在,并可通过界面配置后按相关的规格参数进行输入进行数据挖掘分析的调用,也可以通过命令的形式,进行数据挖掘分析的调用,下面是通过命令的形式进行程序实施方式的说明:

步骤一、程序按数据输入、分析算法、分析结果解析的功能模块的具体实现进行加载,并打包为可运行的程序;

步骤二、运行程序,程序初始化各数据输入的类型,分析算法的实现方式、类型,分析结果解析的类型等,并各形成1、2、3、…等的编号,用于后续的输入;

步骤三、程序初始化完成后,进入数据输入配置功能,程序自动读取原来已经配置好的数据输入,如果要进行数据挖掘分析的数据输入已经存在,可以直接读取并跳转到步骤四;如果数据输入需要重新配置,选择新增,按以下步骤进行操作:

1)输入新数据输入的名称;

2)选择新数据输入的类型:文件类、关系型数据库、大数据;

3)配置数据输入的相关信息:对于文件类,需选择文件类数据输入的类型:TXT、Excel、CSV,并设置分隔符等信息;对于关系型数据库,需输入数据库类型、地址、端口、数据库名称、用户名、密码等信息;对于大数所,需输入HDFS的地址,HBase的地址、端口等信息;

4)配置完成后,进行配置信息的数据读取测试,测试通过则转到下一步,测试不通过,输出不通过的原因,并跳转到配置数据输入的相关信息;

5)配置完成并测试通过后,把配置的信息保存到本地上,用于以后需要进行数据分析时直接读取;

步骤四、配置数据输入完成了,选择使用要用到的数据输入,对于有多个表(子源)的数据输入,需选择指定的表(子源)转入分析算法选择,分析算法选择的步骤如下:

1)命令显示Java实现、R语言实现、大数据实现,通过选择不同的实现调用不同的分析算法,特别对于大数据的输入,需选择大数据实现;

2)选择了不同的实现后,命令显示各种实现的具体分析算法类型,按选择的数据输入的业务逻辑,选择合适的数据分析算法;

3)对于选择的不同的数据分析算法,需对数据输入进行相关参数的配置,如线性回归算法需选择因变量与自变量;关联分析需选择输入的列信息,聚类分析需选择输入的列与分类数量等,按不同的分析算法进行输入参数的配置;

步骤五、配置数据分析算法的选择完成后,进入数据分析结果解析的配置,分析结果解析的配置步骤如下:

1)按分析的算法,列出分析结果的解析类型;

2)选择分析结果的解析类型,并设置分析结果输出目录或表结构;

3)对分析结果的输出目录或表结构进行判断,如果不存在,则进行判断,如果输出结果是表结构,则进行表结构的对应关系指定;

步骤六、完成分析结果解析的配置后,实现整个数据挖掘分析配置的过程,输入配置的名称则同时把配置结果保存在目录上,程序自动启动分析过程并按配置的信息进行分析,此过程可不断查询分析的进度,并在分析结束后,在指定的分析输出结果目录或表结构上,查看到分析的最终结果,并进行展示;

步骤七、如果需要重新运行此数据挖掘分析结果,直接选择该保存的数据挖掘分析配置并运行,可查看到多次的分析结果;

步骤八、对于数据输入的功能,多增加了一个把文件类或关系型数据库转换为大数据的功能,使对于大量的数据,可以在大数据的分析类型上进行分析。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1