一种数据挖掘系统中数据预处理的方法、系统及装置的制作方法

文档序号:6584555阅读:119来源:国知局
专利名称:一种数据挖掘系统中数据预处理的方法、系统及装置的制作方法
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种数据挖掘系统中数据预处理的方 法、系统及装置。
背景技术
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取 隐合在其中的人们事先不知道但又是潜在有用的信息和知识的过程。数据挖掘流程通常包 括数据加载、数据预处理(ETL)、数据挖掘算法实现、结果展示等主要步骤。其中,ETL(Ex traction-Transformation-Loading,抽取、转换和加载)占数据挖掘流程中60%以上的工作量。ETL是负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临 时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、 数据挖掘的基础。并且,ETL是数据仓库中的非常重要的一环。相对于关系数据库,数据仓库 技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按 照物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关, 同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘 的结果的质量。目前数据挖掘系统通常采用并行ETL工具进行并行数据预处理,需要经过多次数 据处理操作得到数据挖掘算法实现所需要的数据。现有并行数据处理过程通常采用工作流 拖拽的方式进行数据预处理,也就是说数据预处理对应具有设定执行次序的多个预处理方 式,每个预处理方式通过对应的功能组件实现,独立执行每个数据处理功能组件,每个数据 处理功能组件在执行中包括完整的数据分片、数据处理、数据处理结果合并操作。例如,一 个并行ETL流程包括数据缺值处理、数据冗余处理、属性交换以及属性删除四个预处理方 式,其对应的执行过程如图1所示,这4个预处理方式之间对应设定的执行次序,在根据每 个数据预处理方式处理数据时都需要先读取数据,然后进行相应处理,最后写入到硬盘。上述并行ETL处理方案中,完成每一个数据处理流程(即根据设定的数据预处理 方式处理数据),需要先将处理结果合并写入硬盘,进行下一个数据处理流程时再重新分片 数据并读取硬盘。由于一个完整的ETL数据处理流程往往由几十甚至几百个数据处理功能 组件完成数据的预处理,带来大量的I/O读写硬盘的操作,并且在每次读写时都引入了不 同数据存储节点之间的数据传输,导致并行处理数据的效率低,从而影响整个数据挖掘系 统的性能。

发明内容
有鉴于此,本发明实施例提供一种数据挖掘系统中数据预处理的方法、系统及装 置,采用该技术方案,减少了对硬盘的读写操作以及数据存储节点之间的数据传输,提高了 数据预处理的效率。
本发明实施例通过如下技术方案实现根据本发明实施例的一个方面,提供了一种数据挖掘系统中数据预处理的方法。根据本发明实施例提供的数据挖掘系统中数据预处理的方法,所述数据预处理对 应具有设定执行次序的多个预处理方式,包括确定数据预处理对应的当前预处理方式;在确定若根据所述当前预处理方式处理得到的处理结果无需合并并且所述当前 预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据所述当前预处理 方式处理待处理数据后,控制所述各操作节点对得到的处理结果根据当前预处理方式的下 一预处理方式进行处理。根据本发明实施例的另一个方面,还提供了一种数据挖掘系统中数据预处理的系 统。根据本发明实施例提供的数据挖掘系统中数据预处理的系统,所述数据预处理 对应具有设定执行次序的多个预处理方式,所述系统包括控制节点以及多个操作节点;其 中所述控制节点用于,确定数据预处理对应的当前预处理方式,在确定若根据所述 当前预处理方式处理得到的处理结果无需合并并且所述当前预处理方式不为数据预处理 的最后一个预处理方式时,在所述多个操作节点分别根据所述当前预处理方式处理待处理 数据后,控制所述多个操作节点对得到的处理结果根据当前预处理方式的下一预处理方式 进行处理;所述操作节点用于,在根据所述当前预处理方式处理待处理数据后,根据所述控 制节点的控制对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。根据本发明实施例的另一个方面,还提供了一种执行数据预处理的控制节点。根据本发明实施例提供的执行数据预处理的控制节点,所述数据预处理对应具有 设定执行次序的多个预处理方式,包括预处理方式确定单元,用于确定数据预处理对应的当前预处理方式;判断单元,用于判断若根据所述当前预处理方式处理得到的处理结果是否需要合 并,以及判断所述当前预处理方式是否为数据预处理的最后一个预处理方式;控制单元,用于在所述判断单元确定若根据所述当前预处理方式处理得到的处理 结果无需合并并且所述当前预处理方式不为数据预处理的最后一个预处理方式时,在各操 作节点根据所述当前预处理方式处理待处理数据后,控制所述各操作节点对得到的处理结 果根据当前预处理方式的下一预处理方式进行处理。通过本发明实施例提供的上述至少一个技术方案,首先确定数据预处理对应的当 前预处理方式,在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处 理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理 待处理数据后,控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式 进行处理,根据该技术方案,对于处理数据得到的处理结果无需合并并且不为数据预处理 的最后一个预处理方式的预处理方式,在各操作节点采用该预处理方式处理完数据后,控 制各操作节点直接根据该预处理方式的下一预处理方式处理数据,而无需执行处理结果合 并的操作,从而减少了对节点中硬盘的写入以及读取操作,并且减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预 处理的效率,提高了整个数据挖掘系统的性能。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本发明而了解。


附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施 例一起用于解释本发明,并不构成对本发明的限制。在附图中图1为本发明背景技术提供的ETL处理流程示意图;图2为本发明实施例提供的数据挖掘系统中数据预处理的系统示意图一;图3为本发明实施例提供的数据挖掘系统中数据预处理的系统示意图二 ;图4为本发明实施例提供的控制操作节点执行数据预处理的流程图;图5为本发明实施例提供的执行数据预处理的示意图;图6为本发明实施例提供的与图4对应的数据预处理流程图;图7为本发明实施例提供的控制节点第一示意图;图8为本发明实施例提供的控制节点第二示意图。
具体实施例方式为了给出提高数据预处理的效率的实现方案,本发明实施例提供了一种数据挖 掘系统中数据预处理的方法、系统及装置,以下结合说明书附图对本发明的优选实施例进 行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发 明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。根据本发明实施例,提供了一种数据挖掘系统中数据预处理的系统,其中,数据预 处理对应具有设定执行次序的多个预处理方式,如图2所示,该系统包括控制节点201以及多个操作节点202 ;其中控制节点201用于,确定数据预处理对应的当前预处理方式,在确定若根据当前 预处理方式处理得到的处理结果无需合并并且当前预处理方式不为数据预处理的最后一 个预处理方式时,在多个操作节点202分别根据当前预处理方式处理待处理数据后,控制 多个操作节点202对得到的处理结果根据当前预处理方式的下一预处理方式进行处理;操作节点202用于,在根据当前预处理方式处理待处理数据后,根据控制节点201 的控制对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。参见图3,本发明又一实施例提供的数据预处理的系统在图2的基础上还包括至 少一个合并节点203 ;其中控制节点201在实现上述功能的基础上,还用于在确定若根据当前预处理 方式处理得到的处理结果需要合并或当前预处理方式为数据预处理的最后一个预处理方 式时,在多个操作节点202根据当前预处理方式处理待处理数据后,控制至少一个合并节 点203获取各操作节点202的处理结果;合并节点202用于,根据控制节点201的控制获取多个操作节点202的处理结果并执行合并操作。以上系统中所涉及的控制节点、操作节点以及合并节点在实际应用中都可以通过 计算机实现。本发明实施例上述系统中各实体所实现的更为详细的功能以及具体实现过程将 在随后的实施例中体现,此处不再详细描述。在进行数据预处理之前,设置数据预处理流程所涉及的所有预处理方式,各预处 理方式之间对应设定次相互,然后根据流程设置依次对待挖掘数据采用设定的预处理方式 进行处理。较佳地,为了提高数据预处理的效率以及减少操作节点的处理压力,首先在根据 控制节点的控制下,将待挖掘数据分布存储到多个操作节点中,控制节点根据数据预处理 对应的当前预处理方式控制各操作节点对待处理数据进行处理,具体如图4所示,包括如 下步骤步骤401、控制节点确定数据预处理对应的当前预处理方式。步骤402、判断若根据当前预处理方式处理得到的处理结果是否需要合并,若否, 执行步骤403,若是,执行步骤405。步骤403、判断当前预处理方式是否为数据预处理对应的最后一个预处理方式,若 否,执行步骤404,若是,执行步骤405。步骤404、在各操作节点根据所述当前预处理方式处理待处理数据后,控制节点控 制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。步骤405、在各操作节点根据所述当前预处理方式处理待处理数据后,控制指定的 至少一个合并节点获取各操作节点的处理结果并执行合并操作。上述流程中,步骤402和步骤403的执行顺序可调换。上述步骤404中,控制各操作节点根据当前预处理方式处理待处理数据,具体包 括控制各操作节点获取待处理数据;以及控制各操作节点根据当前预处理方式,对获取的待处理数据进行处理。具体地,控制各操作节点获取待处理数据,进一步包括控制各操作节点从本地获取待处理数据,其中获取的待处理数据为源数据(即未 采用预处理方式处理的数据)或根据当前预处理方式的上一预处理方式处理得到的处理 结果;或,控制各操作节点从指定的至少一个合并节点获取待处理数据,其中获取的待处理 数据为源数据或所述指定合并节点执行合并操作得到的数据。例如,若当前预处理方式为数据预处理对应的第一个预处理方式,则为了减少不 同操作节点之间的数据读取以及数据传输,控制节点可以控制存储待处理数据的操作节 点为采用当前预处理方式处理数据的操作节点,该操作节点可以直接从本地获取待处理数 据;或者,在确定当前预处理方式的上一预处理方式无需合并处理结果时,直接在本地获 取当前预处理方式对应的待处理数据,该待处理数据即为根据上一预处理方式处理得到的 处理结果。实际应用中,可以结合待处理数据的具体存储情况以及各操作节点的运行状况 (例如操作节点负载情况以及配置等)而灵活确定数据的获取方式,此处不一一列举。
在传统的数据预处理流程中,由于采用设定预处理方式处理数据得到的处理结果 的合并过程只是简单地将各操作节点的局部处理结果汇总,而无需执行其他处理,例如属 性删除预处理方式,是将每一行数据的指定列删除,如两个操作节点各有100行处理结果 数据,合并后得到200行处理结果数据,其中100行和操作节点1的处理结果一致,另100 行和操作节点2的处理结果一致;再如缺值预处理方式,只是将每一行数据中有缺值的列 进行替换,也属于简单地将各操作节点的局部处理结果汇总的过程,因此,对于若根据此类 预处理方式处理数据得到的处理结果,可以不执行合并操作,而直接进入下一预处理方式 的处理流程;相应地,对应另一些预处理方式,处理结果的合并过程并不只是简单地将各个操 作节点的局部处理结果汇总,而需要执行设定操作,以得到全局数据处理结果。例如冗余删 除预处理方式,是将重复的数据行只保留一行,其余的删除。这时各操作节点的局部处理结 果不一定和全局处理结果一致,如两行冗余数据分别在两个节点上,只有合并处理时才能 发现是冗余数据并只保留一行数据;再如统计预处理方式,需要合并后才能得到全局的和、 最大值、最小值、均值等统计信息,对于采用此类预处理方式处理数据得到的处理结果,一 般都需要执行合并操作。基于数据预处理的上述特征,上述步骤402中,控制节点判断若根据当前预处理 方式处理得到的处理结果是否需要合并的过程,具体如下判断在若根据当前预处理方式的下一预处理方式处理数据之前,是否需要对若根 据所述当前预处理方式处理得到的处理结果执行设定操作;若否,则确定若根据所述当前预处理方式处理得到的处理结果无需合并;若是,则确定若根据所述当前预处理方式处理得到的处理结果需要合并。本发明又一实施例中,为了提高数据预处理的效率,可以预先确定数据预处理对 应的各预处理方式分别对应的处理结果是否需要合并的信息,根据该实施例,在控制节点 确定当前预处理方式后,直接根据预先确定的上述信息确定当前预处理方式对应的是否需 要合并处理结果的信息,其中,确定若采用数据预处理对应的预处理方式处理得到的处理 结果是否需要合并的判断过程与上述步骤402的具体判断过程相同,此处不再详细描述。为了更好地理解本发明实施例提供的数据预处理方法,以下以数据预处理包括 缺值预处理方式、冗余预处理方式、属性交换预处理方式以及属性删除预处理方式为例,对 本发明上述实施例进行更为详细的说明对于缺值预处理方式、属性交换预处理方式,其合并操作由于仅是将各个操作节 点的处理结果简单合并,因此根据这两种预处理方式处理数据得到的处理结果无需合并, 而对于冗余预处理方式,其合并过程是将冗余数据去除,对于属性删除预处理方式,其合并 过程虽然也是将处理结果简单合并,但是由于该预处理方式为数据预处理的最后一个预处 理方式,因此,采用这两个预处理方式处理数据后,都需要合并处理结果。图5为该过程的处理流程示意图,从图5可以看出,本发明实施例中,在对数据根 据缺值预处理方式处理时,读取数据,处理结束后无需合并以及写入数据(即处理结果)到 合并节点,而直接在当前操作节点中根据当前预处理方式对应的下一预处理方式,即冗余 预处理方式,对根据缺值预处理方式处理得到的处理结果进行处理,在执行完毕冗余预处 理后才执行处理结果合并以及写入操作;在根据属性交换预处理方式处理数据时,再读取一次数据,读取的该数据为根据冗余预处理方式处理数据得到的处理结果的合并数据,根 据属性交换预处理方式处理数据后,无需合并以及写入数据,而直接在当前操作节点执行 根据属性删除预处理方式处理数据的过程,并在执行属性删除处理过程结束后执行合并以 及写入操作。图5对应的处理流程如图6所示,包括如下步骤步骤601、根据控制节点的控制将数据分散存储到多个操作节点;步骤602、控制节点指定采用缺值预处理方式处理数据的操作节点(11、12、13), 控制该指定的三个操作节点获取待处理数据并行采用缺值预处理方式处理数据;步骤603、控制节点确定采用缺值预处理方式得到的处理结果无需合并后,进一步 控制该操作节点(11、12、1;3)在采用缺值预处理方式处理数据完毕后,继续采用冗余预处 理方式处理数据;步骤604、控制节点指定合并节点(21、22)为执行合并的节点,并控制该合并节点 (21,22)从操作节点(11、12、13)获取根据冗余预处理方式处理数据得到的处理结果,并执 行合并操作;步骤605、控制节点指定根据属性交换预处理方式处理数据的操作节点(31、32、 33),控制该指定的三个操作节点获取待处理数据并行根据属性交换预处理方式处理数 据;步骤606、控制节点确定根据属性交换预处理方式处理数据后无需合并处理结果 后,进一步控制该操作节点(31、32、3;3)在根据属性交换预处理方式处理数据完毕后,继续 根据属性删除预处理方式处理数据;步骤607、控制节点确定属性删除预处理为数据预处理的最后一个预处理方式,无 需合并处理结果,指定合并节点(41、42)为执行合并的节点,并控制该合并节点(41、42)从 操作节点(31、32、3;3)获取根据属性删除预处理方式处理数据得到的处理结果,执行合并 操作,结束数据预处理流程。上述流程中,仅为实施本发明的一个具体实例,实际应用中,控制节点可以指定执 行上一预处理的操作节点以及执行合并的合并节点为同一个节点,从而减少执行合并的合 并节点获取根据上一预处理方式处理数据得到的处理结果时的数据传输过程,并且,控制 节点指定的执行预处理的操作节点数量以及执行合并的合并节点的数量可以根据具体的 数据处理量以及各节点的处理能力灵活确定,此处不一一列举。图5以及图6所示的数据预处理过程与图1所示现有处理过程相比,节省了至少2 次数据读取操作,以及至少2次数据合并写入操作,因此一方面减少了对硬盘的读写操作, 另一方面,当待处理数据需要从其它操作节点获取时,还节省了不同操作节点之间的数据 传输。由于实际应用中,数据挖掘的预处理流程涉及的预处理过程包括根据几十甚至几百 个预处理方式的处理过程,并且待挖掘数据都很庞大,分散到多个操作节点中并行处理,因 此,采用本发明实施例提供的技术方案可以减少对各操作节点中硬盘的大量读写操作以及 减少各操作节点之间大量的数据传输,成倍提高数据挖掘预处理过程的执行效率。与上述流程对应,本发明实施例还提供了一种操作节点,应用于数据挖掘系统中 的数据预处理,其中,数据预处理对应具有设定执行次序的多个预处理方式,如图7所示, 该控制节点包括
预处理方式确定单元701、判断单元702以及控制单元703 ;其中预处理方式确定单元701,用于确定数据预处理对应的当前预处理方式;判断单元702,用于判断若根据当前预处理方式处理得到的处理结果是否需要合 并,以及判断当前预处理方式是否为数据预处理的最后一个预处理方式;控制单元703,用于在判断单元702确定若根据当前预处理方式处理得到的处理 结果无需合并并且当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节 点根据当前预处理方式处理待处理数据后,控制各操作节点对得到的处理结果根据当前预 处理方式的下一预处理方式进行处理。进一步地,本发明一个实施例中,上述判断单元705可以包括第一判断模块或第 二判断模块(未在图中标出)其中,第一判断模块,用于判断在若根据当前预处理方式的下一预处理方式处理数据之 前,是否需要对若根据当前预处理方式处理得到的处理结果执行设定操作,并在判断否时, 确定若根据当前预处理方式处理得到的处理结果无需合并;或,第二判断模块,用于获取预先确定的各预处理方式分别对应的处理结果是否需要 合并的信息,并根据信息确定若根据当前预处理方式处理得到的处理结果是否需要合并。进一步地,本发明一个实施例中,上述控制单元703还用于在判断单元702确定若根据当前预处理方式处理得到的处理结果需要合并或当 前预处理方式为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式 处理待处理数据后,控制指定的至少一个合并节点获取各操作节点的处理结果并执行合并 操作。进一步地,如图8所示,本发明一个实施例中,上述控制单元703包括获取控制模块703A,用于控制各操作节点获取待处理数据;处理控制模块7(Χ3Β,用于控制各操作节点根据当前预处理方式,对获取的待处理 数据进行处理。进一步地,上述获取控制模块703Α具体用于控制各操作节点从本地获取待处理数据,其中获取的待处理数据为源数据或根据 当前预处理方式的上一预处理方式处理得到的处理结果;或,控制各操作节点从指定的至少一个合并节点获取待处理数据,其中获取的待处理 数据为源数据或指定合并节点执行合并操作得到的数据。应当理解,该实施例提供的控制节点所实现的功能与上述实施例提供的数据预处 理方法流程一一对应,对于该装置各个功能单元所实现的更为详细的处理流程,在上述方 法实施例中已做详细描述,此处不再详细描述。通过本发明实施例提供的上述至少一个技术方案,首先确定数据预处理对应的当 前预处理方式,在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处 理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理 待处理数据后,控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式 进行处理,根据该技术方案,对于处理数据得到的处理结果无需合并并且不为数据预处理 的最后一个预处理方式的预处理方式,在各操作节点采用该预处理方式处理完数据后,控制各操作节点直接根据该预处理方式的下一预处理方式处理数据,而无需执行处理结果合 并的操作,从而减少了对节点中硬盘的写入以及读取操作,并且减少了不同节点之间由于 待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预 处理的效率,提高了整个数据挖掘系统的性能。 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含这些改动和变型在内。
权利要求
1.一种数据挖掘系统中数据预处理的方法,所述数据预处理对应具有设定执行次序的 多个预处理方式,其特征在于,包括确定数据预处理对应的当前预处理方式;在确定若根据所述当前预处理方式处理得到的处理结果无需合并并且所述当前预处 理方式不为数据预处理的最后一个预处理方式时,在控制各操作节点根据所述当前预处理 方式处理待处理数据后,控制所述各操作节点对得到的处理结果根据当前预处理方式的下 一预处理方式进行处理。
2.如权利要求1所述的方法,其特征在于,所述确定若根据所述当前预处理方式处理 得到的处理结果无需合并,包括判断在若根据当前预处理方式的下一预处理方式处理数据之前,是否需要对若根据所 述当前预处理方式处理得到的处理结果执行设定操作;若否,则确定若根据所述当前预处理方式处理得到的处理结果无需合并。
3.如权利要求1所述的方法,其特征在于,所述确定若根据所述当前预处理方式处理 得到的处理结果无需合并,包括获取预先确定的各预处理方式分别对应的处理结果是否需要合并的信息;根据所述信息确定若根据所述当前预处理方式处理得到的处理结果是否需要合并。
4.如权利要求1所述的方法,其特征在于,在确定若根据所述当前预处理方式处理得 到的处理结果需要合并或所述当前预处理方式为数据预处理的最后一个预处理方式时,还 包括在各操作节点根据所述当前预处理方式处理待处理数据后,控制指定的至少一个合并 节点获取所述各操作节点的处理结果并执行合并操作。
5.如权利要求1所述的方法,其特征在于,控制各操作节点根据所述当前预处理方式 处理待处理数据具体包括控制各操作节点获取待处理数据;以及控制各操作节点根据所述当前预处理方式,对获取的待处理数据进行处理。
6.如权利要求5所述的方法,其特征在于,控制各操作节点获取待处理数据,具体包括控制各操作节点从本地获取待处理数据,其中获取的待处理数据为源数据或根据当前 预处理方式的上一预处理方式处理得到的处理结果;或,控制各操作节点从指定的至少一个合并节点获取待处理数据,其中获取的待处理数据 为源数据或所述指定合并节点执行合并操作得到的数据。
7.一种数据挖掘系统中数据预处理的系统,所述数据预处理对应具有设定执行次序的 多个预处理方式,其特征在于,所述系统包括控制节点以及多个操作节点;其中所述控制节点用于,确定数据预处理对应的当前预处理方式,在确定若根据所述当前 预处理方式处理得到的处理结果无需合并并且所述当前预处理方式不为数据预处理的最 后一个预处理方式时,在所述多个操作节点分别根据所述当前预处理方式处理待处理数据 后,控制所述多个操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行 处理;所述操作节点用于,在根据所述当前预处理方式处理待处理数据后,根据所述控制节点的控制对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。
8.如权利要求7所述的系统,其特征在于,还包括至少一个合并节点;所述控制节点还用于,在确定若根据所述当前预处理方式处理得到的处理结果需要合 并或所述当前预处理方式为数据预处理的最后一个预处理方式时,在所述多个操作节点根 据所述当前预处理方式处理待处理数据后,控制所述至少一个合并节点获取所述各操作节 点的处理结果;所述合并节点用于,根据所述控制节点的控制获取所述多个操作节点的处理结果并执 行合并操作。
9.一种执行数据预处理的控制节点,所述数据预处理对应具有设定执行次序的多个预 处理方式,其特征在于,包括预处理方式确定单元,用于确定数据预处理对应的当前预处理方式;判断单元,用于判断若根据所述当前预处理方式处理得到的处理结果是否需要合并, 以及判断所述当前预处理方式是否为数据预处理的最后一个预处理方式;控制单元,用于在所述判断单元确定若根据所述当前预处理方式处理得到的处理结果 无需合并并且所述当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节 点根据所述当前预处理方式处理待处理数据后,控制所述各操作节点对得到的处理结果根 据当前预处理方式的下一预处理方式进行处理。
10.如权利要求9所述的控制节点,其特征在于,所述判断单元包括第一判断模块,用于判断在若根据当前预处理方式的下一预处理方式处理数据之前, 是否需要对若根据所述当前预处理方式处理得到的处理结果执行设定操作,并在判断否 时,确定若根据所述当前预处理方式处理得到的处理结果无需合并;或,第二判断模块,用于获取预先确定的各预处理方式分别对应的处理结果是否需要合并 的信息,并根据所述信息确定若根据所述当前预处理方式处理得到的处理结果是否需要合 并。
11.如权利要求9所述的控制节点,其特征在于,所述控制单元还用于在所述判断单元确定若根据所述当前预处理方式处理得到的处理结果需要合并或所 述当前预处理方式为数据预处理的最后一个预处理方式时,在各操作节点根据所述当前预 处理方式处理待处理数据后,控制指定的至少一个合并节点获取所述各操作节点的处理结 果并执行合并操作。
12.如权利要求9所述的控制节点,其特征在于,所述控制单元,包括获取控制模块,用于控制各操作节点获取待处理数据;处理控制模块,用于控制各操作节点根据所述当前预处理方式,对获取的待处理数据 进行处理。
13.如如权利要求12所述的控制节点,其特征在于,所述获取控制模块具体用于控制各操作节点从本地获取待处理数据,其中获取的待处理数据为源数据或根据当前 预处理方式的上一预处理方式处理得到的处理结果;或,控制各操作节点从指定的至少一个合并节点获取待处理数据,其中获取的待处理数据 为源数据或所述指定合并节点执行合并操作得到的数据。
全文摘要
本发明公开了一种数据挖掘系统中数据预处理的方法、系统及装置,其中,数据预处理对应具有设定执行次序的多个预处理方式,主要技术方案包括确定数据预处理对应的当前预处理方式;在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理待处理数据后,控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。根据该技术方案,减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预处理的效率,提高了整个数据挖掘系统的性能。
文档编号G06F17/30GK102054001SQ20091023674
公开日2011年5月11日 申请日期2009年10月28日 优先权日2009年10月28日
发明者何鸿凌, 周文辉, 孙少陵, 徐萌, 来晓阳, 罗治国, 邓超, 郭磊涛, 陶涛, 高丹 申请人:中国移动通信集团公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1