数据聚类方法及b2b平台客户偏好获取方法、装置的制造方法

文档序号:9304845阅读:322来源:国知局
数据聚类方法及b2b平台客户偏好获取方法、装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘技术领域,尤其涉及一种改进的LF蚁群聚类方法及其在电 子商务技术领域的应用。
【背景技术】
[0002] 第三方B2B电子商务平台竞争压力巨大,为保持现有的客户的忠诚度,并吸引更 多的潜在客户是现在第三方B2B平台所面临的一大难题。并且相对于消费者市场,企业市 场有其自身的特点。因此,获取客户偏好,提供个性化的服务是未来的发展方向,而通过数 据挖掘,分析在线客户的偏好是平台个性化服务的起点。
[0003] 数据挖掘是获取客户偏好的重要方法,而聚类则是数据挖掘中的重要内容,属于 无监督学习的过程。聚类的基本原则是根据数据间的不同特征对数据集进行分簇,发现数 据中隐含的模式,聚类结果是同一簇中的数据相似度尽量大,不同簇的数据相似度尽量小。
[0004] 目前存在许多用于客户分析的经典聚类算法,其中近年来科学家根据蚂蚁群体 智能所提出的蚁群聚类算法由于可以自动生成集群,不需要预先设定聚类中心,可以有效 地发现数据中隐藏的共同特征,因此蚁群聚类算法在客户分析中已受到越来越多的重视。 Deneubourg等[Deneubourg,J.L.Goss,S.Franks,N.Sendova-Franks.Thedynamicsof collectivesorting:robot-likeantsandant-likerobots[C].Proceedingsofthe 1stInternationalConferenceonSimulationofAdaptiveBehaviors,MITPress,Ca mbridge,MA,pp. 356-363, 1991]最早把蚁群算法引入到聚类和分类问题中,提出了BM模型 (basicmodel)用来解释蚂蚁堆积尸体形成墓穴的行为。Lumer和Faieta[LumerE,Faieta B.DiversityandAdaptationinPopulationsofClusteringAnts[A].FromAnimals toAnimates3:ProceedingsofThirdInternationalConferenceonSimulationof AdaptiveBehaviorCambridge[C].Cambridge,MA,USA:MITPress, 1994:501-508.]在BM 模型的基础上,提出了用于数据聚类的LF算法。LF算法的思想是:初始时将待处理数据随 机放在一个ZXZ的二维网格中,同样也产生一些虚拟的蚂蚁,这些蚂蚁能观察到SXS邻域 中的数据对象,因此可以判断搬运对象是否与观察到的对象相似,对象Xl在地点R处的相 似度公式为:
[0005]
[0006] 相似度中的距离,一般采用欧式距离:
[0007]
[0008] 其中,m表示属性的个数,a为相似度系数。捡起、放下概率的公式分别为:
[0009]
[0010]
[0011] 其中,ki、k2为阈值常量。通过计算相似度,蚂蚁不断拾起或放下对象,不断重复, 直到达到设置的最大迭代次数。
[0012] 传统的LF蚁群聚类算法中,相似度函数、捡起放下概率转换函数参数需要设置多 个参数,蚂蚁观察半径不变且运动是随机的,最大迭代次数需要根据经验进行设置。

【发明内容】

[0013] 本发明所要解决的技术问题在于克服现有技术不足,提供一种数据聚类方法,对 现有LF蚁群聚类方法进行改进,在提高聚类效率的同时,提高聚类结果的准确性。
[0014] 本发明具体采用以下技术方案解决上述技术问题:
[0015] 数据聚类方法,利用LF蚁群聚类方法进行数据的聚类,所述LF蚁群聚类方法中, 负载蚂蚁所负载的数据对象或空载蚂蚁所在网格单元的数据对象^与该蚂蚁能观察到的 数据对象之间的相似度f(Xl)按照下式计算:
[0016]
[0017] 式中,Neighsxs(r)表示该蚂蚁所在网格单元r的大小为SXS的邻域;S为蚂蚁的 观察半径;n;表示Neighsxs(r)中数据对象的总数;dUi,xj表示x#Neighsxs(r)中的数 据对象X]之间的欧氏距离。
[0018] 进一步地,在所述LF蚁群聚类方法中,空载蚂蚁按照定向移动策略进行移动,具 体如下:空载蚂蚁在初始状态随机移动;之后,空载蚂蚁从当前时刻尚未发生过位置变化 的数据对象中选择一个,并向该数据对象移动;如所有数据对象均已发生过位置变化,则空 载蚂蚁恢复随机移动。
[0019] 进一步地,在所述LF蚁群聚类方法中,负载蚂蚁按照定向移动策略进行移动,具 体如下:负载蚂蚁从全局记忆矩阵AM中寻找与该蚂蚁当前负载的数据对象相似度最大且没 有失效的数据对象X,并以坐标为的点作为目标位置进行移动;如果目标位置在 网格内且被其他数据对象占据,则移动至目标位置随机的相邻空位;如果目标位置超越网 格边界,则重新计算目标位置;如果多次计算出的目标位置均不在网格内,则该负载蚂蚁保 持不动并显示定向移动失败;坐标(x_,y_)按照以下公式确定:
[0022] 其中,(xQ,y。)为数据对象X的当前坐标,Int是向下取整函数,a是[_1,1]之间 的随机数;所述全局记忆矩阵AM为怂X3的矩阵,其三列数据分别放置的是被任意一只蚂蚁 放下的数据对象及该数据对象的被放下的概率和位置坐标;全局记忆矩阵AM被所有蚂蚁按 照以下方法进行共享和操作:全局记忆矩阵AM初始化时,从待聚类数据中随机选择的A^个 数据对象,将这些数据编号为1到\,存放在矩阵第一列,对应第二列全部初始化为0,第三 列存放这\个数据对象对应的坐标;当任一只蚂蚁放下数据对象X4寸,此时放下的概率为 Pd (i),在全局记忆矩阵am中,首先查找是否有被其他蚂蚁"捡起"的数据对象,若被捡起,则 该数据对象成为失效点;若有失效点,则使用新的数据对象xjppd(i)替换;如果全局记忆 矩阵中没有失效点,则寻找全局记忆矩阵中所存储的所有放下的概率pd中的最小值pd _, 如果Pd(i)_〈Pd,使用新的数据对象&和Pd(i)替换,否则保持不变。
[0023] 进一步地,在所述LF蚁群聚类方法中,蚂蚁的观察半径根据算法迭代次数进行自 适应调整,具体如下式:
[0026] 其中Int()是向下取整函数,mod〇是取余函数,T_是总迭代次数,t表示当前迭 代次数,S(t+1)表示第t+1次迭代中蚂蚁的观察半径,M、N分别为预设的观察半径下界、上 界。
[0027] 优选地,在计算欧氏距离时,数据对象各属性的权重预先通过主成分分析方法确 定。
[0028] 优选地,所述LF蚁群聚类方法中的概率转换函数为Sigmoid函数。
[0029] 优选地,所述LF蚁群聚类方法中的算法终止条件为:在算法运行过程中,蚂蚁不 再进行捡起和放下的动作。
[0030] 根据相同的发明思路还可以得到如下技术方案:
[0031 ] -种B2B平台客户偏好获取方法,利用聚类分析挖掘出B2B平台中的客户偏好,所 述聚类分析使用如上任一技术方案所述数据聚类方法。
[0032] -种B2B平台客户偏好获取装置,包括:
[0033] 客户信息收集单元,用于对B2B平台中的客户信息进行收集;
[0034] 客户信息描述单元,用于根据预设的客户偏好指标体系对客户信息收集单元所收 集的客户信息进行量化描述;
[0035] 聚类分析单元,使用如上任一技术方案所述数据聚类方法对客户信息描述单元所 输出的量化描述的客户信息进行聚类分析,从而得到客户偏好。
[0036] 相比现有技术,本发明及其进一步改进方案具有以下有益效果:
[0037] 1、本发明改进了传统LF蚁群算法中相似度函数的描述,减少了参数设置,增加了 权重因素,能够更加准确的描述相似度,从而在提高聚类效率的同时,提高聚类结果的准确 性。
[0038] 2、本发明对传统的蚁群算法进行了改进,传统的蚁群聚类算法的观察半径是不变 的,本发明采用逐渐增加观察半径的方法,能够提高蚂蚁的观察效率,增加收敛速度。
[0039] 3、本发明对传统的蚁群算法进行了改进,传统的蚁群聚类算法蚂蚁只有短期记忆 指导蚂蚁运动,对于负载后的蚂蚁,本发明采用全局记忆和定向移动策略指导其运动,负载 蚂蚁可以有效找到合适的位置放下数据,加快了算法收敛速度,减少了无效移动。
[0040] 4、本发明对传统的蚁群算法进行了改进,用位置记录矩阵指导空载蚂蚁移动,能 够有效避免孤立点一直未被捡起的状况,能够提高蚂蚁运动效率,提高算法收敛度。
[0041] 5、本发明提出了循环终止控制机制,避免了人为设置迭代次数带来的影响,提高 了算法的准确性。
【附图说明】
[0042] 图1为【具体实施方式】中本发明数据聚类方法的流程示意图;
[0043] 图2为本发明B2B平台客户偏好获取装置的结构原理示意图。
【具体实施方式】
[004
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1