数据聚类方法及b2b平台客户偏好获取方法、装置的制造方法_2

文档序号:9304845阅读:来源:国知局
4] 下面结合附图对本发明的技术方案进行详细说明:
[0045] 传统的基于LF蚁群算法的数据聚类方法存在聚类效率低下的缺陷,同时其聚类 准确度也有待提高。为此,本发明针对传统LF蚁群聚类方法的不足,对其进行改进,以提高 聚类效率及聚类准确率。下面对这些改进之处进行详细说明。
[0046] 现有LF蚁群聚类方法中的相似度函数如下:
[0047]
[0048] 上述相似度函数形式比较复杂,计算复杂度较高,且其中存在多个需要人为设置 的参数,较易出现由于参数设置不合理而导致相似性描述不准确的情况发生,进而影响聚 类结果的准确性。为此,本发明首先对其中的相似度度量进行了改进,改进后的相似度函数 具体如下:
[0049]
[0050] 式中,f(Xl)表示负载蚂蚁所负载的数据对象或空载蚂蚁所在网格单元的数据对 象\与该蚂蚁能观察到的数据对象之间的相似度,Neighsxs(r)表示该蚂蚁所在网格单元 r的大小为SXS的邻域;S为蚂蚁的观察半径;叫表示Neighsxs(r)中数据对象的总数; cKx^Xj)表示叉工与Neighsxs(r)中的数据对象~之间的欧氏距离;考虑至IJ在数据对象的m 个属性中,每个属性的重要程度是不同的,因此对相似度的贡献也不同,因此欧式距离优选 采用以下计算方法:
[0051]
[0052] 其中,m为数据对象的属性类别数(即数据对象向量的维数);xlk、x]k分别表示数 据对象Xl、X]的第k类属性;A,是数据对象的第k类属性的权重,可以根据经验人为设定, 也可以预先通过主成分分析(PrincipalComponentAnalysis,PCA)方法得到。
[0053] 上述相似度定义简化了描述方法,减少了参数设置,使得整个算法的复杂度大幅 降低,同时能更加准确的描述相似度。
[0054] 传统LF蚁群算法中蚂蚁的移动是随机的,总是会出现一些孤立点一直未被拾起 的现象,或者当前蚂蚁所捡起的数据点是被其他蚂蚁捡起过的数据点,严重降低了算法效 率。针对这一问题,本发明为空载蚂蚁和负载蚂蚁分别设计了定向移动策略,以提高蚂蚁的 移动效率。
[0055] 传统的LF蚁群聚类算法中空载蚂蚁是随机移动的,为了提高其运动效率,本发明 采用一个&X2位置记录矩阵BN,BN第一列记录所有待聚类数据对象的序号,第二列记录数 据对象的位置坐标(x,y)。只要数据对象的位置有更新,就将新的位置代替原来的位置坐 标。如果在位置记录矩阵中有数据对象位置没有变化,表明这些数据对象还没有被捡起,空 载蚂蚁移动时,先向这些还没有被捡起过的数据对象移动,这样可以有效避免一些孤立点 一直未被拾起的现象,能够提高蚂蚁的移动效率。初始化时,空载蚂蚁是随机移动的;然后, 空载蚂蚁就根据位置记录矩阵^向这些还没有被捡起过的数据对象进行移动,如存在多个 还没有被捡起过的数据对象,则从中随机选取一个作为移动的目标;当位置记录矩阵中的 第二列都有变动时,表明所有数据对象均已被捡起过,此时空载蚂蚁就恢复随机移动。
[0056] 为了提高蚂蚁运动效率,本发明采用全局记忆来指导负载蚂蚁移动。在算法运行 过程中,所有蚂蚁共享一个\X3的全局记忆矩阵AM,AM的第一列放置的是当任意一只蚂蚁 放下数据对象时的数据点X,第二列放置的是与数据点相对应的数据对象被放下的概率Pd, 第三列放的是数据点X的位置坐标(X(],y。)。矩阵AM被所有蚂蚁共享和操作。初始化阶段, 全局记忆矩阵AM的第一列放入从待聚类数据中随机选择的I个数据点,第二列全部初始化 为〇,随机选择的\个数据点称为初始信息。当任一只蚂蚁放下数据点X4寸,此时放下的 概率为Pd (i)。在全局记忆矩阵AM中,首先查找是否有被其他蚂蚁"捡起"的数据点,若被捡 起,则该点失去指导意义,成为失效点。若有失效点,则使用新的数据点XjPPd(i)替换失 效点。如果全局记忆中没有失效点,则寻找?4中的最小值Pd _,如果Pd _〈Pd(i),使用新 的数据点XjPPd⑴替换Pd _所对应的数据点,否则保持不变。捡起数据Xi后的负载蚂 蚁直接寻找记忆矩阵AM中与数据点Xi相似度最大且没有失效的点X,找到X当前坐标(x。, %)。找到坐标后,采用以下的定向移动策略移动到X点为中心,边长为蚂蚁观察半径S的 正方形区域内的坐标(x_,y_)处:
[0059] 其中,Int是向下取整函数,a是[-1,1]之间的随机数。
[0060] 蚂蚁定向移动时,可能会移动到有数据的位置。因此,如果目标位置在网格内且被 其他数据占据,就找其随机的相邻空位;如果超越网格边界,则重新计算定向移动位置;如 果多次移动均不在网格内,则保持不动且显示"第x只蚂蚁定向移动失败"。存在多个最相 似数据时,随机选取一个数据对象作为定向移动的对象。
[0061] 传统LF蚁群算法蚂蚁的观察半径S是固定的,本发明采用根据算法运行次数,逐 渐增大观察半径的方法,逐渐增大蚂蚁的观察范围,从而加快算法收敛。本发明观察半径自 适应调整的公式为:
[0062]
[0063]
[0064] 其中Int()是向下取整函数,mod〇是取余函数,T_是总迭代次数,t表示当前迭 代次数,S(t+1)表示第t+1次迭代中蚂蚁的观察半径,M、N分别为预设的观察半径下界、上 界。公式表示蚂蚁观察半径在每n(t)次迭代后就增加1,观察半径S从M逐渐增加到N。
[0065] 传统蚁群聚类算法的最大迭代次数都是设定的,需要通过测试集来事先确定迭代 次数,本发明提出终止运算的控制机制。当运行过程中,蚂蚁不再进行捡起和放下的动作, 表明待聚类对象已经聚类到最合适的类中,此时可以终止循环。为实现这样的控制机制,本 发明采用蚂蚁运动记录矩阵QX3,其第一列是序号,第二、三列初始状态设置为0。蚂蚁运 动后,蚂蚁每进行一次捡起、放下的动作,第二、三列就增加1,直到蚂蚁不再捡起、放下,同 一只蚂蚁的第二、三列记录的运动次数相等且不再变化时,表明该只蚂蚁找不到需要移动 的点,当所有的蚂蚁出现这种情况时,表明聚类已经成功,此时即可终止迭代运算,输出聚 类结果。这样的控制机制,可以有效防止达到最大迭代次数时有些蚂蚁捡起数据对象仍未 放下的情况,提高了聚类的准确性。
[0066] 优选地,本发明采用Sigmoid函数作为概率转换函数。该函数是非线性函数,只需 要设置1个参数,且设置合适的参数后,比传统的概率转换函数有更好的收敛性。本发明将 概率转换函数定义为:
[0069] 其中,c为需要设置的参数,e为自然底数,fU)为相似度函数。
[0070] 图1显示了本发明一个优选实施例的基本流程,该优选实施例中包括了上述各项 改进。如图1所示,本发明数据聚类方法包括以下步骤:
[0071] 第一步,初始化观察半径、蚂蚁数目、全局记忆矩阵AM、位置记录矩阵BN、蚂蚁运动 记录矩阵C。
[0072] 第二步,将待聚类数据随机投影到二维平面,蚂蚁随机分布到二维平面。
[0073] 第三步,蚂蚁移动到任意待聚类对象\位置R。
[0074] 第四步,计算R位置处观察半径内相似度以\)、匕,产生在[0, 1]服从均匀分布的 随机数Q。
[0075] 第五步,ifPp>Qthen捡起X;,定向移动到新位置
[0076] else空载蚂蚁根据位置记录矩阵仏移动到新位置。
[0077] 第六步,负载蚂蚁到达一个空闲位置,计算该位置观察半径内相似度f(Xi)、Pp,产 生在[0, 1]服从均匀分布的随机数Q。
[0078] 第六步,ifPd>Qthen放下Xi,蚂蚁移动到新位置
[0079] else负载蚂蚁根据全局记忆矩阵AM移动到新位置。
[0080] 第七步,根据蚂蚁运动记录矩阵C及控制机制,达到最大迭代次数,算法结束,输 出结果。
[0081] 本发明的数据聚类方法可广泛用于各类数据的挖掘,下面以B2B平台客户偏好获 取为例来说明其在电子商务技术领域的应用。本发明的B2B平台客户偏好获取方法,具体 包括以下步骤:
[0082] 步骤1、获取影响客户偏好的因素;
[0083] 本实施例中影响客户偏好的因素具体如下:
[0084] 供应商维度
[0085] L物流服务
[0086] (1)时间质量。时间质量指供应商处理买方客户订单时的效率情况,发货的速度。 买方客户在购买时,有时会对时间上做出特别要求。供应商能否达到要求,影响着买方的决 策。
[0087] (2)人员沟通质量。人员沟通质量是指买方能及时掌握物流信息,能够与物流服务 人员保持信息通畅。
[0088] (3)响应质量。响应质量主要面对客户提出的物流服务数量变动,日常客户投诉、 服务应答以及退换货处理的反应速度。
[0089] 2?营销服务
[0090] (1)售前服务。售前服务是供应商推出的吸引客户的服务,起到帮助客户熟悉产品 性能,以及帮助客户了解购物环境等作用。
[0091] (2)售中服务。当客户表达购买意愿后以及在实施
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1