一种基于自动编码机实现数据增量聚类的方法

文档序号:8922970阅读:167来源:国知局
一种基于自动编码机实现数据增量聚类的方法
【技术领域】
[0001] 本发明涉及计算机技术领域,具体涉及一种基于自动编码机实现数据增量聚类方 法。
【背景技术】
[0002] 随着信息技术的兴起和发展,数据量增长迅速,需要更多的空间来存储数据。由于 存储空间的限制,提出了增量聚类的方法,使得所有的数据不需要全部存储到内存中。
[0003] 近年来,国内外研宄者提出了很多增量聚类算法,主要分为两类:一类是将所有数 据进行迭代运算,这样得到的聚类结果精度高,但是没有利用上一次的聚类结果,造成资源 浪费;另一类是将新增样本划到离它最近的簇中,这样能够充分利用上一次的聚类结果,不 需要对所有数据重新聚类,提高了效率,但是该类方法泛化能力弱。
[0004] 1998年,MEster等人首先提出增量聚类的概念,提出基于DBSCAN的增量聚类算 法,由于DBSCAN算法是基于密度的聚类算法,当插入一个新的样本时,只会影响与该样本 距离相近的簇,因此使得它的增量聚类结果与非增量聚类结果相似,但是由于该方法每次 只能处理一个样本,因此存在效率很低的问题。针对这个问题,2004年黄永平等人提出了基 于密度的批量增量聚类算法,克服了一个一个处理数据的缺点,但是该方法计算量过大,不 能用于大数据集。
[0005] 2011年吴佳等人提出了改进的模糊c均值的增量聚类算法,首先对模糊c均值算 法进行加权,并将权系数归一化,并将该方法与增量式算法结合,实现增量式聚类,避免了 重复计算,并且不受孤立点影响。郑宏亮等人提出了基于Mahalanobis距离的增量聚类算 法,该算法将模糊c均值聚类中的欧式聚类用Mahalanobis距离替代,提出一种基于马氏 距离的增量聚类学习算法,该方法解决了模糊c均值聚类对非球形或椭球型分布的数据集 聚类效果差的缺陷,提高了聚类精度。2012年孟凡荣等人提出了一种基于代表点的增量聚 类算法,根据代表点与已存代表点之间的关系来判断是否将其添加到已存代表点所属的簇 中,或提升为新的代表点,该方法对参数敏感性低、效率高、占用空间小。2014年Lei1eiSun 等人提出了两种基于AP聚类算法的增量聚类算法,分别基于K-中心点和最临近距离分配 的增量AP聚类算法,这两种增量聚类算法能够取得较好的聚类效果,并且时间消耗更低。 这些增量聚类方法不能够学习数据样本的特征,进行低维特征整合。本文提出的方法,属于 第二类方法,但是与原有方法不同的是,首先利用自动编码机学习数据集样本的特征,进行 低维特征整合,这样能够提高聚类效果,并且重新定义了样本加入已有簇的策略,采用一遍 式读取数据样本和动态更新簇中心点,对样本进行增量聚类,使得我们的方法时间消耗低 并且能够识别离群点。

【发明内容】

[0006] 基于传统的增量聚类方法不能学习数据样本的特征,进行低维特征整合,本发明 提供了一种基于自动编码机实现数据增量聚类的方法,基于自动编码机组合数据的低层特 征形成更加抽象的高层特征,既能够学习数据样本的特征,也能够对数据样本进行特征整 合从而对数据集样本进行压缩和降维。
[0007] 本发明提供了一种基于自动编码机实现数据增量聚类的方法,包括如下步骤:
[0008] 对新增数据集进行归一化预处理;
[0009] 利用数据集对自动编码机进行训练,根据前向传播和反向传导的方法,调整自动 编码机的权重;
[0010] 数据集通过自动编码机,根据训练得到的权重,得到数据集的一种新的高层特征 表示形式;
[0011] 对新生成的数据集中的每条样本逐条进行聚类,使得每条样本都聚到合适的类 中。
[0012] 所述对新增数据集进行归一化预处理具体为:
[0013] 对新增数据集中样本的每个属性,分别选取每个属性的最大值和最小值,之后对 于每个样本的每个属性值,(每个属性值-对应最小值)八对应最大值-对应最小值),得 到的值即为对应属性的新值,进行归一化的目的是使得样本的每个属性的重要性能够在同 等条件下进行比较。
[0014] 所述根据前向传播和反向传导的方法调整自动编码机的权重具体为:
[0015] 如果该数据集为首个到达的数据集,则随机为自动编码机指定权重,否则自动编 码机的权重为上一个数据集训练后得到的权重。新到达的数据集在该权重的基础上,通过 前向传播得到新的数据集,通过反向传导的方法使得重构数据集与原数据集的误差最小来 调整自动编码机的权重。
[0016] 所述数据集通过自动编码机,根据训练得到的权重,得到数据集的一种新的高层 特征表示形式具体为:
[0017] 新增数据集重新进入自动编码机,并根据此前训练得到的权重,进行前向传播,组 合低层特征,得到该数据集的一种更加抽象的高层表示形式。
[0018] 所述对新生成的数据集中的每条样本逐条进行聚类,使得每条样本都聚到合适的 类中具体为:
[0019] 判断样本到达的顺序,如果为前k个到达的样本,则自动定义为k个簇心,从第k+1 个样本开始,计算样本与簇心之间的距离;
[0020] 如果样本与簇心直接的最小距离〉簇心之间的最大距离,则该样本单独为一个 簇;
[0021] 如果样本与簇心之间的最小距离〈簇心之间的最小距离,则该样本进入距离其最 近的簇中;
[0022] 如果样本与簇心之间的最小距离〉簇心之间的最小距离,则距离最近的两个簇合 并为一个簇,样本独立为一个簇。
[0023] 在本发明提供了基于自动编码机实现数据增量聚类的方法,该方案针对数据样本 具有丰富的低层特征,构建自动编码机组合低层形成更加抽象的高层表示特征,以发现数 据的分布式特征,对数据进行降维和压缩,进而对样本进行增量式聚类,能够有效的提高增 量聚类效果。
【附图说明】
[0024] 图1是本发明实施例中的基于自动编码机实现增量聚类的方法流程图;
[0025] 图2是本发明实施例中的自动编码机结构原理示意图;
[0026] 图3是本发明实施例中的两层叠加自动编码机结构原理示意图;
【具体实施方式】
[0027] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它 实施例,都属于本发明保护的范围。
[0028] 图1示出了本发明实施例中的基于深度学习实现数据增量聚类的方法流程图,包 括如下步骤:
[0029] S101、对新增数据集进行归一化预处理;
[0030] 设整个数据集为U,且U= {up%,........un},U中每个对象由m个属性组成{ai, a2,......,aj,max(i),min(i)分别为属性i的最大值和最小值,则设对数据集进行归一化 得到的数据集为0, 0 ={op〇2,.......〇J,〇中第j个对象对应的第i个属性by,
[0032] 进行归一化的目的是使得样本的每个属性的重要性能够在同等条件下进行比较。
[0033] S102、利用数据集对自动编码机进行训练,根据前向传播和反向传导的方法,调整 自动编码机的权重;
[0034] 单个自动编码机的结构原理示意图如图2所示。自动编码机包括两个部分, 编码阶段和解码阶段。选用sigmoid函数作为激活函数。sigmoid函数的计算公式为
[0035] 编码阶段属于前向传播过程,对于样本X,假设x包含三个属性{Xl,x2,x3},则编码 阶段对应输出
[0037] 解码阶段属于反向传导过程,通过编码阶段得到的新属性{ai,a2}重构样本X,
[0038] 通过调整权重11^2^3馮 1'^2'^3',偏置项131、132,使得代价函数||1'1|| 2 最小。
[0039] 当输入数据集中样本属性多于5个属性式,采用栈式自动编码机来对数据集进行 训练,栈式自动编码机的结构原理示意图如图3所示,上一层自动编码机得到的特征作为 下一层自动编码机的输入,采用逐层训练的方式对栈式自动编码机进行参数调整,使得整 体代价函数最小。当数据集为首个到达的数据集时,为自动编码机随机初始化权重;否则将 上一个数据集训练得到的权重以及偏置项作为此次自动编码机的初始权重和偏置项,对数 据集进行训练。
[0040] S103、新增数据集重新进入自动编码机,并根据此前训练得到的权重,进行前向传 播,组合低层特征,得到该数据集的一种更加抽象的高层表示形式;
[0041] 在S102得到的最终权重W,偏置项bl以及数据集作为输入,通过公式
[0042]
-得到数据集的抽象压缩表示。其中
[0043] z=
[0044] S104、对新生成的数据集
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1