一种表达数据挖掘流程的方法

文档序号:6420628阅读:302来源:国知局
专利名称:一种表达数据挖掘流程的方法
技术领域
本发明属数据库技术领域,具体涉及一种新颖的表达数据挖掘流程的方法。
背景技术
自从上个世纪60年代以来,数据库和信息技术已经系统地由原始的文件处理演化到复杂的功能强大的数据库系统。数据库系统中的数据量也在应用的扩展中不断地积累。数据的丰富带来了对强有力地数据分析工具的需求,大量的数据被描述为“数据丰富,但信息贫乏”。快速增长的海量数据收集、存放在大型和大量数据库中,没有强有力的工具,理解他们已经远远超出了人的能力。这样,重要的决定常常不是基于数据库中信息丰富的数据,而是基于决策者的直观。但是,如果通过数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科学和医学研究等领域都会起到相当大的作用,从而使得数据和信息之间的“鸿沟”不再存在了。
数据挖掘和知识发现是决策支持系统的重要内容。通过对历史数据集合进行挖掘,用户能够找出所隐藏的一些知识和应用,并且对将来的行为产生指导。在具体应用中,一个数据挖掘任务的成功执行必须经由多个步骤的紧密合作,才能够完成。
近十年来,数据挖掘技术得到了充分的发展,针对不同的领域问题,学术界提出了多种解决的算法,例如分类、聚类、关联规则、孤立点查询等等。对于如何在一个框架之下合理整合各种算法,历来是各个数据挖掘公司的核心技术。

发明内容
本发明的目的在于提出一种用形式化的方法表达数据挖掘流程,以解决数据挖掘软件中流程难以表示和维护的问题。
本发明提出的表达数据挖掘流程的方法,首先是准确划分一个完整数据挖掘任务,然后用流程的方法描述数据挖掘的任务。
划分数据挖掘任务将一个完整的数据挖掘任务划分为三个阶段数据预处理、算法执行和可视化。不同的阶段又可以根据其功能再进行细分。下面具体介绍各个任务的功能。
数据预处理选择数据源,并且对数据源做一些必要的变换,作为算法执行的输入。因此,这个阶段可以细分为两类子功能,(一)选择数据源。可以是文本数据源,或者是ODBC等其他数据源。(二)处理数据集。原始数据源可能并不能够充分适应数据挖掘任务,需要进行一些变换,这包括了数据清理、数据集成和变换、数据规约等。
算法执行选择特定的算法,设置算法的参数,运行算法并且保存结果。数据挖掘领域的算法很多,包括数据分类、聚类、关联规则、离群点检测等等。这些算法大体可以划分为两大类,一种是受监督的算法,另外一种是不受监督的算法。对于受监督的算法,一个必须的操作就是设定目标字段。另外,为了提高算法的精度,往往选取部分字段参与最后的运算。因此,选择字段对于算法而言也是很重要的。基于此,这个阶段可以细分为两类子功能。(一)设定数据集属性。内容不仅包括了设定集合的目标字段,为受监督的算法服务,还包括设定字段是否参与算法的运行。(二)选择算法,设置参数。选择特定的算法,例如聚类、分类、关联规则等,并且设定它们自身的参数。
可视化将算法的执行结果显示给用户;将流程的中间结果显示给用户。可视化对于任何软件而言都是非常重要的一环。数据挖掘任务中的可视化可以分为两类,(一)表示算法结果。由于算法多种多样,对于结果的表达也是多种多样的。(二)表示数据集合。从原始数据源开始,到作为算法的输入为止,数据集合一直在变化,需要能够对于不同的中间数据集合进行可视化表示。
通过对于数据挖掘任务的分析,我们可以用图来表示分解一个数据挖掘任务(见图1)。
2流程描述首先,用户需要选择数据源,这个数据源可以是数据库的,也可以是文本的数据源。其次,在处理数据集这个步骤,用户可以对原始数据源进行一些修改,例如增添字段,检测相关性,对数据集合进行标准化等等。接下来,就需要设定数据集合属性了,这部分的操作包括设定集合的目标字段,取消一些不参与算法的字段。上述三个步骤均可以产出一个新的数据集合,因此,表示数据集合步骤可以用来查看新的数据集合的内容。在设定数据集合属性之后,可以选择算法,创建一个数据挖掘模型。模型创建之后,表示算法结果步骤,可以提供可视化的手法来表示算法的运行结果。各步骤之间的流程关系见图2所示。
描述数据挖掘流程是数据挖掘软件的核心技术。本发明通过分解数据挖掘任务,提供了一种描述数据挖掘任务的方法。该方法具有以下的优点。
1、分解合理,使用方便。
对数据挖掘任务进行分解,各个步骤完成一个子功能,有利于用户创建任务。
2、良好的可扩展性。
本发明主要涉及如何分解数据挖掘任务,对于数据挖掘任务中具体步骤,并没有特定限制,可以进一步扩展。例如在算法执行中,列举了聚类、分类、关联规则算法等,同时可以添加其他算法。


图1为一个数据挖掘任务的分解图示。
图2为数据挖掘各步骤之间的流转关系图示。
图3为实施例中对数据挖掘任务的分解。
图4为实施例的数据挖掘流程。
图中标号1为用户,2为选择数据源,3为处理数据集,4为设定数据集合属性,5为表示数据集合,6为选择算法,7为表示算法结果。
具体实施例方式
下面通过一个实施例来说明如何表示一个数据挖掘任务。
数据挖掘任务可以分解成为几个小的步骤。图3描述了数据挖掘任务中所用到的一些元素。其中,1、数据源,包括;(1)文本数据源,(2)数据库,(3)测试文本,(4)测试数据库;2、浏览,包括查看;3、预处理,包括(1)数据集属性,(2)属性变换;4、挖掘模型,包括(1)决策树,(2)关联规则,(3)聚类;5、结果显示,包括(1)关联规则结果,(2)聚类结果。
图3所描述的并不是涵盖整个数据挖掘领域的所有元素的,保留将来进行扩展的能力。例如,数据挖掘的算法种类繁多,我们这里仅仅选取了四种代表性的算法。
基于上述的任务分解,我们可以构造出一个具体的数据挖掘任务。Iris.arff是一个典型的数据集合,内含有151种花的信息,常用来做分类或者聚类算法的输入集合。该数据集合有五个字段,分别是sepallength,sepalwidth,petallength,petalwidth和class。也就是记录了各个种类的花,以及它们的花萼,花瓣的信息。在这里,我们从这个数据集合出发,进行聚类分析。图4就是我们所建立的流程图。
这个流程图中包含了多个步骤。最左边的是一个文本数据源,将文本文件iris.arff作为原始的数据源。文本数据源指向一个变换,其目的是为了将原始数据源进行一些数据预处理,包括标准化等等。变换之后,数据源还需要设置数据集属性。在这个环节,需要过滤无用的字段(class),所产生的数据集合作为算法的输入数据集合。我们选择聚类算法作为这个流程的执行算法。聚类的结果也在新建中得到呈现。上述流程中还包括三个查看步骤,这些步骤的用途是用来监视中间数据集合的信息。
以上八个步骤,以及它们之间的相互联系,就构成了一个完整的流程。
权利要求
1.一种表达数据挖掘流程的方法,其特征在于首先准确划分一个完整数据挖掘任务,然后用流程方法描述数据划分的任务,具体步骤为(1)划分数据挖掘任务将一个完整的数据挖掘任务划分为三个阶段①数据预处理选择数据源,并对数据源作必要的变换,作为算法的输入,其中再细分为两类子功能(a)选择数据源,(b)处理数据集;②算法执行选择算法,设置算法参数,运行算法并且保存结果,其中再细分为两类子功能(a)设定数据集属性,(b)选择算法,设置算法参数。③可视化将算法的执行结果显示给用户,将流程的中间结果显示给用户,其中再分为两类(a)表示算法结果,(b)表示数据集合;(2)流程描述首先选择数据源,其次处理数据集,然后设定数据集合属性,这3个步骤均可产生出一个新的数据集合,表示数据集合的步骤可用来查看新的数据集合的内容;在设定数据集合属性之后,选择算法,创建一个数据挖掘模型;然后表示算法结果步骤,提供可视化手段来表示算法的运行结果。
全文摘要
本发明为一种表达数据挖掘流程的方法。首先是准确划分一个完整的数据挖掘任务,然后由流程的方法描述数据挖掘的任务。前者包括分为数据预处理、算法执行、可视化等。本发明方法分解合理,使用方便,并具有良好的可扩展性。
文档编号G06F17/30GK1588361SQ20041006623
公开日2005年3月2日 申请日期2004年9月9日 优先权日2004年9月9日
发明者金澈清, 周傲英 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1