基于群体智能的行为聚类系统的制作方法_2

文档序号:8922597阅读:来源:国知局
大,其值越接近0;相异 程度越大,其值也越大,
[0061] 通常用对象间的距离来表示对象之间的相似(相异)程度,对距离的度量有很多种 不同的方法,最常用的是欧式距离,它的定义如下:
[0063]其中Xi=(xn,xi2, ? ? ?,xip,)和XjKxji,xj2, ? ? ?,xjp,)是两个p维的数据对象,
[0064] 另一种常见的度量方法是曼哈顿距离,其定义如下:
[0065] (1^-= |Xji-Xj! |+| xi2-xJ21+.. .+ |xip-xJp
[0066] 而明考斯基距离是对欧式距离和曼哈顿距离的概化,它的定义如下:
[0068] 另一种应用的比较多的距离度量方法是马氏距离:
[0069] dij: (Xi-Xj) 'S-1 (Xi-Xj)
[0070] 其中S4为样本协方差阵的逆矩阵,
[0071] 对于文本类型的数据的相似度,通常采用余弦距离来进行度量,定义如下:
[0072] cos (X,y) =x?y/ | | x || ? || y | |
[0073] 其中x,y分别表示两矢量。
[0074] 进一步,所述的蚁群聚类中采用优化蚁群聚类算法,优化蚁群聚类算法基于经典 算法--LF算法,但引入了新的相似度度量公式和概率转换函数,采用了新的距离公式,使 算法能够很好的处理可分类性数据,在参考其他的优化改进算法的基础上,综合了原有的 各种算法的优点,并创新性地引入了调整过程,对蚁群搬运过程形成的聚类进行迭代调整, 优化蚁群聚类算法的公式及函数定义如下:
[0075] 定义一:相似度度量公式
[0076] 相似度是指一个对象与其所在一定的局部的环境中所有的对象的综合也相似度, 设数据集中包含n个对象,其中对象Xi的相似度是指该对象的各个属性的属性概率的算术 平均值,即Xi的相似度f(XJ定义为:
[0078] 定义二:概率转换函数
[0079] 概率转换函数是将相似度转换为简单个体的移动待聚类对象概率的函数,它是以 群体相似度为自变量的函数,函数的值域为[0, 1],概率转换函数的主要原则是相似度越 大,对象拾起转换概率越小,相似度越小,对象拾起转概率越大;而对象放下转换概率遵循 相反的规律,
[0080] 蚁群聚类算法中,概率转换函数定义如下:

[0083] 其中pp是指概率拾起函数,pd指概率放下函数,概率放下函数为一向上凸的函数, 且对于不同的c值,函数收敛速度不同,C值越大,函数收敛得越快
[0084] 定义三:距离
[0085] 设数据集中包含对象\和X」,则\和X」的距离定义为:
[0088] 本发明的优点在于:
[0089] (1)引入调整过程,传统的蚁群算法是没有调整过程中,仅依靠蚂蚁反复的搬运过 程,导致算法的效率难以提高,并易于导致陷入局部最优和停滞等。而引入调整过程不仅可 以显著改进算法效率,且可以避免局部最优和停滞等。
[0090] (2)动态的观察半径调整。在聚类过程中,前期和后期所适应的观察半径是不一样 的,固定的观察半径无法同时兼顾精度和效率,而采用动态的观察半径,经过试验证明能够 有效的改进效率和精度。
[0091] (3)采用新的相似度度量公式,本发明提出的优化蚁群聚类算法采用了与传统蚁 群聚类算法不一样的相似度度量公式。
[0092] (4)短期记忆,赋予了蚂蚁一个短期记忆,减少蚂蚁所作的一些重复动作。
[0093] 后续的实验证明,这些改进之处使得算法无论是在精度还是效率上都比现有算法 表现更为优异。
【附图说明】
[0094] 下面结合附图和【具体实施方式】来详细说明本发明:
[0095] 图1是本发明优化蚁群聚类算法流程图;
[0096] 图2是本发明基于聚类的用户行为分析过程图;
[0097] 图3是本发明元数据获得过程图;
[0098] 图4是本发明数据预处理过程图;
[0099] 图5是本发明文本特征向量抽取图;
[0100] 图6是本发明用户行为分类的研究模型图;
【具体实施方式】
[0101] 为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结 合图示与具体实施例,进一步阐述本发明。
[0102] 本发明提出的基于群体智能的行为聚类系统,该系统的数据表示包括数据结构和 数据类型,采用K均值混合聚类算法;
[0103] 数据类型是一组值的集合和定义在这个值集合之上的一组操作的总称,与数据本 身相关,包括数值性、布尔型、可分类型、混合型等;
[0104] 数据结构是数据的组织形式,通常指存储在计算机内存中的数据;本系统采用的 聚类算法所用的数据主要有以下两种数据结构:
[0105] 1、矢量表示;2、相似矩阵表示;
[0106] 采用k均值混合聚类算法,将蚁群聚类算法与k均值聚类算法结合起来,该算法主 要分成两个部分,第一部分进行蚁群聚类,第二部分用k均值算法收集蚁群聚类的结果,在 k均值混合聚类算法中,相似度公式与蚁群聚类的基本模型及LF算法类似,但采用了更为 简单的概率转换函数,它是两条斜率为k的直线,如下所示;
[0109] 在基本模型中,概率转换函数的参数包括两个阈值常数匕和匕,并且阈值常数的 选取和实验数据相关密切,而在k均值混合聚类算法中,概率转换函数只有k,并且通过实 验证明,简化后概率转换函数的参数k并没有根据实验数据变化而变化,因此新算法的概 率转换函数变化同样减轻了算法参数选取的复杂度,提高了算法的实用性,K均值混合聚类 算法的运行过程如下:
[0110] 算法:K均值混合聚类算法
[0111] 输入:p个模式矢量
[0112] 输出:被标记聚类类别的p个模式
[0113] 方法:
[0114] 步骤1 :参数初始化,a,ant_number,k,R,size,dist.最大循环次数n,标注类别 值clusterno等;
[0115] 步骤2 :将待聚类模式随机分散于一个平面上,即随机赋给每一个模式一对(x,y) 坐标;
[0116] 步骤3 :给一组蚂蚁赋初始模式值,初始状态为无负载;
[0117] 步骤 4:fori=l,2...,n;
[0118] 步骤 4.lforj=l,2,…ant_number;
[0119] 步骤4. 1. 1以本只蚂蚁初始模式对应坐标为中心,r为观察半径,利用群体相似度 公式计算此模式在观察半径范围内的群体相似度;
[0120] 步骡4. 1. 2若本只蚂蚁无负载,则计算拾起概率pp ;
[0121] 步骤4. 1. 3与一随机概率p,相比较,若pp〈p,,则蚂蚁不拾起此模式,再随机赋给蚂 蚁一个模式值,否则蚂蚁拾起此模式,蚂蚁状态改为有负载,随机给蚂蚁一个新坐标;
[0122] 步骤4. 1. 4若本只蚂蚁有负载,则计算放下概率pd;
[0123] 步骤4. 1. 5与一随机概率p,相比较,若pd>p,则蚂蚁放下此模式,将蚂蚁的坐标赋 给此模式,蚂蚁状态改为无负载,再随机赋给蚂蚁一个模式值.否则蚂蚁继续携带此模式, 蚂蚁状态仍为有负载,再次随机给蚂蚁一个新坐标;
[0124]步骤 5:fori=l,2...,pattern_num;//对于每一个模式
[0125] 步骤5. 1若此模式未被标注类别;
[0126] 步骤5. 1. 1标注此模式的类别;
[0127] 步骤5. 1.2用同一类别标注值递归标注所有相距小于dist的模式,即在平面上收 集所有属于同一集簇的模式;
[0128] 步骤5. 1. 3if同一集簇模式数大于1,类别标注值clusterno++;
[0129]else标注此模式为例外;
[0130] 步骤6 :生成聚类中心模板,即计算不包括例外的每一个聚类中心的平均值;
[0131]步骤 7:Repeat;
[0132] 步骤7. 1(再次)将每一个模式以距离最近的规则划分到所属聚类中心;
[0133] 步骤7. 2更新聚类中心模板;
[0134] 步骤8Until聚类中心模板没有变化;
[0135]k均值混合聚类算法主要包括两个阶段,第一阶段是实现基于群体智能的聚类过 程,第二阶段是以第一阶段得到的聚类中心均值模板和聚类中心个数为参数,实现K均值 聚类过程,当然在收集第一阶段聚类结果的时候,由单个模式形成的聚类中心将不列为第 二阶段的初始聚类中心模板。
[0136] 进一步,所述的矢量表示是通过一个多维空间中的矢量来描述一个对象多方面 的特征,矢量的每个维度对应对象的一个特征,多个对象的矢量可以构成一个模式矩阵 (patternmatrix),矩阵的每一行描述一个对象,每一列对应一个特征,即(Xij);^,m为特征 的个数,为矢量i在特征j上的特征值,这种表示方法的缺陷之一在于不同的特征有不 同的度量标准和尺度,对聚类结果产生不同的影响,为了消除这种差别,通常采用标准化变 换,使所有的特征能够在一个共同的标准下进行度量,常用的标准化变换如下:
[0137] (1)
'将所有的特征全部规范到[_1,1]区间中,
[0138] (2)
,可以数据标 准化为服从标准正态分布,
[0139] (3)
这种变换有 更广泛的适用范围,并且受异常数据的干扰较小。
[0140] 进一步,所述的相似矩阵表示它由表示n个对象两两之间的近似性,表现形式为 一个nXn维对称矩阵,S卩(dij)m,且对角线元素为0, &是对象i和对象j之间相异性的 量化表示,通常为一个非负的数值,对象i与对象j之间相似程度越大,其值越接近0 ;相异 程度越大,其值也越大,
[0141] 通常用对象间的距离来表示对象之间的相似(相异)程度,对距离的度量有很多种 不同的方法,最常用的是欧式距离,它的定义如下:
[0143]其中Xi=(xn,xi2, ? ? ?,xip,)和XjKxw,xj2, ? ? ?,xjp,)是两个p维的数据对象,
[0144] 另一种常见的度量方法是曼哈顿距离,其定义如下:
[0145] (1^-= |Xji-Xj!|+|xi2-xJ21+.. . + | xip-xJp
[0146] 而明考斯基距离是对欧式距离和曼哈顿距离的概化,它的定义如下:
[0148] 另一种应用的比较多的距离度量方法是马氏距离:
[0149] (1^= (xj-Xj) ' S_1 (xj-Xj)
[0150] 其中S4为样本协方差阵的逆矩阵,
[0151] 对于文本类型的数据的相似度,通常采用余弦距离来进行度量,定义如下:
[0152] cos (X,y) =x?y/| |x| | ? | |y| |
[0153] 其中x, y分别表不两矢量。
[0154] 进一步,所述的蚁群聚类中采用优化蚁群聚类算法,优化蚁群聚类算法基于经典 算法--LF算法,但引入了新的相似度度量公式和概率转换函数,采用了新的距离公式,使 算法能够很好的处理可分类性数据,在参考其他的优化改进算法的基础上,综合了原有的 各种算法的优点,并创新性地引入了调整过程,对蚁群搬运过程形成的聚类进行迭代调整, 优化蚁群聚类算法的公式及函数定义如下:
[0155] 定义一:相似度度量公式
[0156] 相似度是指一个对象与其所在一定的局部的环境中所有的对象的综合也相似度, 设数据集中包含n个对象,其中对象Xi的相似度是指该对象的各个属性的属性概率的算术 平均值,即Xi的相似度f(XJ定义为:
[0158
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1