基于群体智能的行为聚类系统的制作方法_3

文档序号：8922597阅读：来源：国知局

] 定义二：概率转换函数
[0159] 概率转换函数是将相似度转换为简单个体的移动待聚类对象概率的函数，它是以群体相似度为自变量的函数，函数的值域为[0, 1]，概率转换函数的主要原则是相似度越大，对象拾起转换概率越小，相似度越小，对象拾起转概率越大；而对象放下转换概率遵循相反的规律，
[0160] 蚁群聚类算法中，概率转换函数定义如下：
[0163]其中pp是指概率拾起函数，pd指概率放下函数，概率放下函数为一向上凸的函数，且对于不同的C值，函数收敛速度不同，C值越大，函数收敛得越快
[0164] 定义三：距离
[0165] 设数据集中包含对象\和X」，则\和X」的距离定义为：
[0168] 蚁群聚类算法的过程为：
[0169] 搬运过程：蚁群聚类算法的主要过程为蚂蚁的搬运过程。蚂蚁通过判断当前对象的相似程度，通过概率转换函数决定是否拾起当前对象；同样，蚂蚁搬运对象到目的地之后，需要判断所负载对象与周围对象的相似程度，决定是否将当前负载对象放下。在此过程中，蚂蚁并不知晓其它的蚂蚁位置分布，负载情况，也不知道除观察范围之外的其他对象的分布情况。可以说，蚂蚁的搬运过程是简单的、独立的个体行为。但是正是由于蚂蚁的简单主体行为，在长期的、协作的过程中将对象逐渐分成了不同的聚类。
[0170] 影响蚂蚁的搬运过程的重要因素除了相似度以及概率转换函数外，还有蚂蚁的观察半径。蚂蚁的观察半径越小，聚类的效果越好。这是由于蚂蚁的观察半径越小，对周围对象的比较越精细，聚类的准确程度越高。但是，观察半径过小也会导致形成很多孤立点，影响聚类的合并，并最终导致聚类性能的下降。而观察半径较大时，虽然会使得聚类结果比较粗糙，但由于蚂蚁的观察范围大，加快了算法的收敛速度。
[0171] 在常规蚁群算法中，蚂蚁在搬运过程中，是没有任何记忆的。因此，蚂蚁可能会反复将同一个对象拾起、放下，造成了大量的无用功。为了改善搬运过程的效率，算法考虑赋予蚂蚁一定的"记忆"。即蚂蚁在搬运对象时，将会记住该对象在原位置的相似度，及原位置的坐标。蚂蚁在搬起该对象后，必须找到比原位置相似度更大的位置，才会将对象放下。如果在多次尝试后仍旧没有找到更优的位置，蚂蚁将会将原对象送回原来的位置。经过试验检验，这种引导方式可以使得蚂蚁的搬运过程更加有效，避免因反复的拾起放下对象导致效率的下降。
[0172] 对观察半径的调整和赋予蚂蚁"记忆"的功能是本算法中不同于传统蚁群算法的特点之一，也是算法的重要改进方面。
[0173] 调整过程：在蚁群聚类过程中，蚂蚁所观察的范围仅限于观察半径内，缺乏对全局信息的了解，因此算法容易陷入局部最优在传统蚁群聚类算法中，仅依赖于蚂蚁的搬运过程，无法避免算法陷入局部最优和早熟中。这种局部最优体现在两个方面：
[0174] ( 1)无法合并两个相似堆。如果在搬运过程中，形成了两个非常相似的堆，且两个堆的规模相差不大。对蚂蚁而言，这两个堆的对象的相似度也相差不大，因此，蚂蚁很难将这两个相似堆合并成同一堆；
[0175] (2)无法分开混合程度大的堆，混合程度大的堆是指堆包含对象数目比较大，且包含对象种类很多，特别是堆的范围比观察半径更大的情形。这种混合程度较大的堆，相似对象可能在局部分布集中，因此，蚂蚁在该局部内会判断对象的相似度很大，从而无法将对象从该堆中搬离或者不断的加入对象，使得堆的规模越来越大。
[0176]为了改善蚂蚁聚类的效果，不少学者采用了混合聚类方法，通常是采用其他的聚类方法，如k_均值、图划分的方法对蚁群聚类形成的堆进行调整。这种做法能够改善蚁群聚类的效果。同样，为了避免算法陷入局部最优，本文提出了通过在蚁群聚类算法中引入调整过程来进行改善。这种调整过程主要包括对同类簇的合并以及重分配异常点两部分。
[0177]为了能够对蚁群聚类的结果进行调整，首先需要将聚类的结果形成簇，再将各个簇之间的对象进行调整。迭代生成簇的步骤如下：
[0178] (1)设定观察半径R，对于待聚类空间中的对象；
[0179] (2)若该对象周围半径为R的领域内没有其他的点，则将该对象标记为孤立点。
[0180] 否则在半径为R的领域内搜索所有点，是否能够找到其他已被标记簇的对象，如果找到被标记簇的对象，则将该对象的簇标记赋予观察对象；若领域内所有点都没有被标注簇，建立一个新簇，将领域内所有点以及观察对象均标记为该簇。
[0181] (3)迭代直到所有的对象都被归入簇中。
[0182] 待形成所有的簇之后，对每一个簇，计算每个簇的聚类中心。对每一个簇，比较该簇与其他的簇的簇心，如果两个簇的聚类中心相同，说明这两个簇非常相似，因此，将其中较小的簇合并到较大的簇，形成的新簇以较大的簇的聚类中心为簇心。通过这种调整方法，可以将相似程度较大的不同簇合并成同一个簇。
[0183] 对聚类中的异常点的调整是通过将簇中相似度较小的对象调整到其他的簇中。对簇中的每一个对象，计算该对象在簇中的相似度，并且对象按照相似度大小进行排序。通过设定一个比例，将聚类中的相似度排名较小的对象加入到待调整对象数据子集中来。对该数据子集中的对象：
[0184] (1)计算该对象与各个簇的簇心的距离，寻找与该对象距离最小的簇的簇心；
[0185] (2)将对象分配到该簇心周围半径为R的领域内，并随机赋予对象坐标。
[0186]为了改善算法对孤立点的聚类效果，算法设定将所有的孤立点也加入到待调整对象，使得所有的孤立点能够被尽快分配到合适的簇中。
[0187] 由于该调整计算的时间复杂度和空间复杂度都相对较高，并且在算法开始阶段，由于蚂蚁搬运过程的无序性，基本没有形成有效的簇。因此，算法的调整过程从算法运行中期开始，且只在每次调整观察半径时进行。经过试验比较，这种策略能够满足异常点调整要求。
[0188]由图1所不：优化蚁群聚类算法（Optimized Ant Cluster Algorithm，0ACA)算法的主线是蚂蚁的搬运过程--通过蚂蚁的反复搬运将对象搬到合适的位置；而调整过程是辅助路线，通过调整过程避免算法陷入早熟和局部优化。调整过程占整个运行阶段的迭代次数的0. 1%不到。因此，算法的运行效率不会受到调整过程太大的影响。
[0189] 一般的聚类散发评价标准：
[0190] 聚类的目标是将数据对象分组成为多个簇，使得同簇中的对象之间距离尽可能小，而不同簇中的对象距离尽可能大。对聚类算法有一般的标准，这些标准主要有：
[0191] (1)可伸缩性：算法在模式数增大的情况下的表现。有些算法在模式数小的条件下，算法的性能很好，但是模式数增大后，算法性能下降。如k-means算法，它对小的数据集合非常有效，但对大的数据集合没有良好的可伸缩性。
[0192] (2)高维性：算法在模式属性个数增大的情况下的表现。同样，有些算法只擅长处理低维数据。在高维空间中聚类数据对象是一个挑战，特别是数据有可能非常稀疏和偏斜。
[0193] (3)发现任意形状的聚类：一个簇可能是任意形状的，但一般的聚类算法基于欧式距离和曼哈顿距离度量来聚类，这样更趋于发现球状簇。在这方面基于密度的方法有较好的特征。
[0194] (4)处理噪声数据的能力：噪声数据可能是数据本身不完整，也可能是例外数据。有些算法不擅于处理例外数据，因此还专门出现了发现例外数据的算法。
[0195] (5)用于决定输入参数的领域知识最小化和输入记录顺序敏感性：一方面主要要求降低算法对输入参数的敏感程度，另一方面要求输入记录顺序对算法的结果影响小。如经典k均值算法，需要预先给出簇的数目。这个参数对聚类结果有非常大的影响
[0196] (6)可解释性和可用性：要求聚类结果可解释，易理解。这一点与可视化有密切联系，同时也与实际应用有关。
[0197] 算法评价
[0198] 为了检验算法的有效性以及聚类结果的准确性，同时也为了将优化蚁群聚类算法与其他经典算法进行比较，算法提出者采用了多组来源于UCI机器学习数据库中的实验数据进行实验。将0ACA算法与k-modes算法、LF算法、基于信息熵的聚类算法（Entropy-based ClusteringAlgorithm，ECA)进行了对比分析。
[0199] 这里对聚类算法的效果衡量可以从两个方面来考虑。第一个方面是聚类的有效性，即聚类算法是否能够寻找到数据集中所有的内在分类；第二个方面是聚类的准确度，即聚类算法能否正确的将同类的数据归为同一个簇，而不同类的数据归入到不同的簇中。为了度量聚类的效果，我们采用了聚类收缩率和聚类正确率来度量聚类效果。
[0200] 聚类收缩率的定义如下：
[0202] 其中mbest是指数据集的最佳聚类数目，mMsult指聚类完成后的实际聚类数目。聚类收缩率度量了各个对象被归入各个簇的程度。对于固定聚类数目的算法，如k-modes，基于信息熵的聚类算法等，由于结果类的数目始终是固定的，且一般与最佳聚类数目相同，聚类收缩率的度量意义不大。但对于蚁群算法，由于聚类结果的簇数目不固定，因此聚类收缩率能够在一定程度上反映聚类的收缩效果。
[0203] 聚类正确率的定义如下：
[0205] 其中nvight为正确聚类的对象数目，而man是指所有对象的数目。聚类正确率能够度量算法的有效性。显然，聚类正确率越高，算法的效果越好。
[0206] 通过实验优化蚁群聚类算法（0ACA)在聚类收缩率和准确度上基本都优于其它算法。
[0207] 网络市场环境下用户行为特征：
[0208] 网络环境下，用户处于一种比传统用户更强势的地位。在网络市场上，用户获得和掌握信息的能力越来越强；同时产品的差别越来越难以区分，趋于同质化；另外，用户也更重视在消费的过程中心灵上的满足感，而不再是仅仅关注商品本身。
[0209] 网络用户的行为特征呈现出以下特点：
[0210] (1) "Self"，即追求个性化需求。当前，用户日益不满足于大众化消费，而是呈现出差异化、个性化的要求，特别是一些购买力水平高的高端用户，更是追求量身定做的一对一的服务，网络无疑为满足消费者的差异化需求提供了良好的平台和路径。
[0211] (2)"Instability"，即用户心理稳定性变小，忠诚度下降。在传统模式下，因受制于信息传递渠道所决定的时间与空间因素，用户很难在较短的时间内广泛获取产品信息并加以选择。互联网提供了一个平台，信息传递更快捷、更透明，用户时刻面对着多样化的信息，用户的选择性大大增强。因此其行为表现出不稳定性，很容易在品牌、产品或供应商、销售商之间进行转换，转换成本降低。转换成本是指用户重新选择一个新的服务提供商时所花费的代价，它不仅包括货币成本，还包括由不确定而引发的心理和时间成本。转换成本越高，用户就越不容易转向其他商家，也就越有利于网站运营商建立和维持长期的用户关系。过去由于信息的不对称使得用户需要花费较大的成本才能转向其他商家，而现在通过网络只要鼠标一点就能轻易地转向其他商家。
[0212] (3)"Initiative"，即主动性加强。传统模式下，用户通常是等待商家传达商品信息，接受消费教育。而网络用户则开始表现出强势的主动性，在网络的协助下，积极地寻找自己感兴趣的商品和信息，并主动联系商家，进行一系列的消费活动。网站运营商要正视这种变化，分析用户动态的需求。
[0213] (4) "Trust"，即网络消费的信用问题。信任是获得并维持用户关系的前提条件。进行网络消费时，交易双方并不见面，其交易完全通过网络进行，网络的距离性、虚拟性使得用户承担着很大的风险。因此，交易主体间的信任受到特别的重视。
[0214] 现在网络消费的核心还是产品或品牌，然而，在竞争

完整全部详细技术资料下载

当前第3页1 2 3 4 5