基于群体智能的行为聚类系统的制作方法_5

文档序号：8922597阅读：来源：国知局

系统性能的前提下，将高维特征向量转变为低维特征向量是必须的。
[0247]目前对WWW文档特征所采取的特征子集抽取算法一般是构造一个权重评价函数，对特征集中的每个特征进行独立的评估，这样每个特征都获得一个评估分，然后对所有的特征按照其评估分大小进行排序，选取预定数目的最佳特征作为结果的特征子集。所以，选取多少个最佳特征以及采取什么评估函数都需要针对一个具体的问题通过实验来决定。一些已被广泛采用的评估函数有信息增益、期望交叉嫡、相互信息、文本证据权、词频等。这些评估函数可大致分为：基于统计分析的方法和基于机器学习的方法。
[0248] (3)文本向量矩阵
[0249] 在向量空间模型中，页面文本用特征向量集来表示
[0250] 文档集合这样表示后，使得计算页面之间的相似度变得很容易，两张页面文档之间的相似度就是矩阵中所对应的两行数据之间的距离值。由于页面之间的相似度在进行聚类分析时经常调用，所以在第一次计算时就进行保存，避免以后每次用到都重新计算。
[0251] 综上，经过以上的数据预处理，将非结构、非数值型的Web页面文档用结构化的、数值型的矩阵来表示，对页面文档的Web聚类分析就可以采用经典的数值型聚类算法，从页面文档中发现隐含的用户兴趣信息。
[0252] 用户行为分类的研究模型
[0253] 根据基于聚类的用户行为分析过程，将用户行为的研究框架概括如图6所示。
[0254] 数据收集
[0255] 用于Web数据挖掘的数据很多，包括日志信息、用户行为数据、页面超链信息、页面内容数据、用户注册信息、站点拓扑结构信息等，这些数据一般可以从以下数据源获得：服务器端、客户端、代理服务器端。在获得用于数据挖掘的元数据后，将它们进行整理并以适当的格式进行保存，供聚类分析和用户兴趣模型建立使用。
[0256] 与数据库中的结构化数据相比，Web文档具有有限的结构，或者根本就没有结构。即使具有一些结构，也是着重于格式而非文档内容。不同类型文档的结构也不一致。此外，文档的内容是人类所使用的自然语言，计算机很难处理其语义。Web文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。这就需要对文本进行预处理，抽取代表其特征的元数据，这些特征可以用结构化的形式保存作为文档的中间表示形式。文本特征指的是关于文本的元数据，分为描述性特征和语义性特征。描述性特征诸如文本的名称、日期、大小、类型等易于获得，而语义性特征较难得到，包括文本的作者、机构、标题、内容等。 W3C近来制定的MXL、RDF等规范提供了对Web文档资源进行描述的语言和框架。在此基础上，可以从半结构化的Web文档中抽取作者、机构等语义性特征。
[0257] 基于上述，本发明的优点为：引入调整过程，传统的蚁群算法是没有调整过程中，仅依靠蚂蚁反复的搬运过程，导致算法的效率难以提高，并易于导致陷入局部最优和停滞等。而引入调整过程不仅可以显著改进算法效率，且可以避免局部最优和停滞等。态的观察半径调整。在聚类过程中，前期和后期所适应的观察半径是不一样的，固定的观察半径无法同时兼顾精度和效率，而采用动态的观察半径，经过试验证明能够有效的改进效率和精度。采用新的相似度度量公式，本发明提出的优化蚁群聚类算法采用了与传统蚁群聚类算法不一样的相似度度量公式。短期记忆，赋予了蚂蚁一个短期记忆，减少蚂蚁所作的一些重复动作。后续的实验证明，这些改进之处使得算法无论是在精度还是效率上都比现有算法表现更为优异。
[0258] 以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。
【主权项】
1.基于群体智能的行为聚类系统，其特征在于，该系统的数据表示包括数据结构和数据类型，采用K均值混合聚类算法；数据类型是一组值的集合和定义在这个值集合之上的一组操作的总称，与数据本身相关，包括数值性、布尔型、可分类型、混合型等；数据结构是数据的组织形式，通常指存储在计算机内存中的数据；本系统采用的聚类算法所用的数据主要有以下两种数据结构： 1、矢量表示；2、相似矩阵表示；采用k均值混合聚类算法，将蚁群聚类算法与k均值聚类算法结合起来，该算法主要分成两个部分，第一部分进行蚁群聚类，第二部分用k均值算法收集蚁群聚类的结果，在k均值混合聚类算法中，相似度公式与蚁群聚类的基本模型及LF算法类似，但采用了更为简单的概率转换函数，它是两条斜率为k的直线，如下所示；在基本模型中，概率转换函数的参数包括两个阈值常数Ic1和k2，并且阈值常数的选取和实验数据相关密切，而在k均值混合聚类算法中，概率转换函数只有k，并且通过实验证明，简化后概率转换函数的参数k并没有根据实验数据变化而变化，因此新算法的概率转换函数变化同样减轻了算法参数选取的复杂度，提高了算法的实用性，K均值混合聚类算法的运行过程如下：算法：K均值混合聚类算法输入：P个模式矢量输出：被标记聚类类别的P个模式方法：步骤1 :参数初始化，a，ant_number，k，R，size, dist.最大循环次数n，标注类别值 clusterno 等；步骤2 :将待聚类模式随机分散于一个平面上，即随机赋给每一个模式一对（x，y)坐标；步骤3 :给一组蚂蚁赋初始模式值，初始状态为无负载；步骤 4 :for i=l，2...，η ; 步骤 4. Ifor j=l, 2, ··· ant_number ；步骤4. I. I以本只蚂蚁初始模式对应坐标为中心，r为观察半径，利用群体相似度公式计算此模式在观察半径范围内的群体相似度；步骡4. 1. 2若本只蚂蚁无负载，则计算拾起概率pp ; 步骤4. 1. 3与一随机概率&相比较，若pPk，则蚂蚁不拾起此模式，再随机赋给蚂蚁一个模式值，否则蚂蚁拾起此模式，蚂蚁状态改为有负载，随机给蚂蚁一个新坐标；步骤4. 1. 4若本只蚂蚁有负载，则计算放下概率pd ; 步骤4. 1. 5与一随机概率&相比较，若pd>h则蚂蚁放下此模式，将蚂蚁的坐标赋给此模式，蚂蚁状态改为无负载，再随机赋给蚂蚁一个模式值.否则蚂蚁继续携带此模式，蚂蚁状态仍为有负载，再次随机给蚂蚁一个新坐标；步骤 5 :for i=l，2···，pattern_num ;// 对于每一个模式步骤5. 1若此模式未被标注类别；步骤5. I. 1标注此模式的类别；步骤5. 1. 2用同一类别标注值递归标注所有相距小于dist的模式，即在平面上收集所有属于同一集簇的模式；步骤5. I. 3if同一集簇模式数大于1，类别标注值clusterno++ ; else标注此模式为例外；步骤6 :生成聚类中心模板，即计算不包括例外的每一个聚类中心的平均值；步骤 7 :Repeat ; 步骤7. 1 (再次）将每一个模式以距离最近的规则划分到所属聚类中心；步骤7. 2更新聚类中心模板；步骤8Until聚类中心模板没有变化； k均值混合聚类算法主要包括两个阶段，第一阶段是实现基于群体智能的聚类过程，第二阶段是以第一阶段得到的聚类中心均值模板和聚类中心个数为参数，实现K均值聚类过程，当然在收集第一阶段聚类结果的时候，由单个模式形成的聚类中心将不列为第二阶段的初始聚类中心模板。2. 根据权利要求1所述的基于群体智能的行为聚类系统，其特征在于，所述的矢量表示是通过一个多维空间中的矢量来描述一个对象多方面的特征，矢量的每个维度对应对象的一个特征，多个对象的矢量可以构成一个模式矩阵（pattern matrix)，矩阵的每一行描述一个对象，每一列对应一个特征，即（XiPnm,m为特征的个数，Xu为矢量i在特征j上的特征值，这种表示方法的缺陷之一在于不同的特征有不同的度量标准和尺度，对聚类结果产生不同的影响，为了消除这种差别，通常采用标准化变换，使所有的特征能够在一个共同的标准下进行度量，常用的标准化变换如下： (1) ^将所有的特征全部规范到[_1，1]区间中， (2)可以数据标准化为服从标准正态分布， (3)这种变换有更广泛的适用范围，并且受异常数据的干扰较小。3. 根据权利要求1所述的基于群体智能的行为聚类系统，其特征在于，所述的相似矩阵表示它由表示η个对象两两之间的近似性，表现形式为一个η X η维对称矩阵，即（dip m，且对角线元素为〇，dh是对象i和对象j之间相异性的量化表示，通常为一个非负的数值，对象i与对象j之间相似程度越大,其值越接近O ;相异程度越大,其值也越大，通常用对象间的距离来表示对象之间的相似(相异）程度，对距离的度量有很多种不同的方法，最常用的是欧式距离，它的定义如下：其中 Xi= (Xn, Xi2, ···，Xip,)和 Xj= (Xj1, Xj2, ···，Xjp,)是两个 p 维的数据对象，另一种常见的度量方法是曼哈顿距离，其定义如下： dij= I XiI-Xji I + I Xi2-Xj21+---+1 xIP-xJp 而明考斯基距离是对欧式距离和曼哈顿距离的概化，它的定义如下：另一种应用的比较多的距离度量方法是马氏距离： Clij= (Xi-Xj) ' S-1 (Xi-Xj) 其中P为样本协方差阵的逆矩阵，对于文本类型的数据的相似度，通常采用余弦距离来进行度量，定义如下： cos (x, y)=x · y/| |x| I · | |y 其中x，y分别表示两矢量。4.根据权利要求1所述的基于群体智能的行为聚类系统，其特征在于，所述的蚁群聚类中采用优化蚁群聚类算法，优化蚁群聚类算法基于经典算法--LF算法，但引入了新的相似度度量公式和概率转换函数，采用了新的距离公式，使算法能够很好的处理可分类性数据，在参考其他的优化改进算法的基础上，综合了原有的各种算法的优点，并创新性地引入了调整过程，对蚁群搬运过程形成的聚类进行迭代调整，优化蚁群聚类算法的公式及函数定义如下：定义一：相似度度量公式相似度是指一个对象与其所在一定的局部的环境中所有的对象的综合也相似度，设数据集中包含η个对象，其中对象Xi的相似度是指该对象的各个属性的属性概率的算术平均值，即Xi的相似度f (Xi)定义为：定义二：概率转换函数概率转换函数是将相似度转换为简单个体的移动待聚类对象概率的函数，它是以群体相似度为自变量的函数，函数的值域为[〇, 1]，概率转换函数的主要原则是相似度越大，对象拾起转换概率越小，相似度越小，对象拾起转概率越大；而对象放下转换概率遵循相反的规律，蚁群聚类算法中，概率转换函数定义如下：其中Pp是指概率拾起函数，Pd指概率放下函数，概率放下函数为一向上凸的函数，且对于不同的C值，函数收敛速度不同，C值越大，函数收敛得越快定义三：距离设数据集中包含对象Xi和Xp则Xi和\的距离定义为：
【专利摘要】本发明提出基于群体智能的行为聚类系统，该系统的数据表示包括数据结构和数据类型，采用K均值混合聚类算法；采用k均值混合聚类算法，将蚁群聚类算法与k均值聚类算法结合起来，该算法主要分成两个部分，第一部分进行蚁群聚类，第二部分用k均值算法收集蚁群聚类的结果，在k均值混合聚类算法中，相似度公式与蚁群聚类的基本模型及LF算法类似，但采用了更为简单的概率转换函数，它是两条斜率为k的直线，后续的实验证明，这些改进之处使得算法无论是在精度还是效率上都比现有算法表现更为优异。
【IPC分类】G06N3/00, G06F17/30
【公开号】CN104899229
【申请号】CN201410084026
【发明人】李臻, 纪敏
【申请人】上海市玻森数据科技有限公司
【公开日】2015年9月9日
【申请日】2014年3月7日

完整全部详细技术资料下载

当前第5页1 2 3 4 5