数据聚类方法及b2b平台客户偏好获取方法、装置的制造方法_2

文档序号：9304845阅读：来源：国知局

4] 下面结合附图对本发明的技术方案进行详细说明：
[0045] 传统的基于LF蚁群算法的数据聚类方法存在聚类效率低下的缺陷，同时其聚类准确度也有待提高。为此，本发明针对传统LF蚁群聚类方法的不足，对其进行改进，以提高聚类效率及聚类准确率。下面对这些改进之处进行详细说明。
[0046] 现有LF蚁群聚类方法中的相似度函数如下：
[0047]
[0048] 上述相似度函数形式比较复杂，计算复杂度较高，且其中存在多个需要人为设置的参数，较易出现由于参数设置不合理而导致相似性描述不准确的情况发生，进而影响聚类结果的准确性。为此，本发明首先对其中的相似度度量进行了改进，改进后的相似度函数具体如下：
[0049]
[0050] 式中，f(Xl)表示负载蚂蚁所负载的数据对象或空载蚂蚁所在网格单元的数据对象\与该蚂蚁能观察到的数据对象之间的相似度，Neighsxs(r)表示该蚂蚁所在网格单元 r的大小为SXS的邻域；S为蚂蚁的观察半径；叫表示Neighsxs(r)中数据对象的总数； cKx^Xj)表示叉工与Neighsxs(r)中的数据对象~之间的欧氏距离；考虑至IJ在数据对象的m 个属性中，每个属性的重要程度是不同的，因此对相似度的贡献也不同，因此欧式距离优选采用以下计算方法：
[0051]
[0052] 其中，m为数据对象的属性类别数（即数据对象向量的维数）；xlk、x]k分别表示数据对象Xl、X]的第k类属性；A,是数据对象的第k类属性的权重，可以根据经验人为设定，也可以预先通过主成分分析（PrincipalComponentAnalysis，PCA)方法得到。
[0053] 上述相似度定义简化了描述方法，减少了参数设置，使得整个算法的复杂度大幅降低，同时能更加准确的描述相似度。
[0054] 传统LF蚁群算法中蚂蚁的移动是随机的，总是会出现一些孤立点一直未被拾起的现象，或者当前蚂蚁所捡起的数据点是被其他蚂蚁捡起过的数据点，严重降低了算法效率。针对这一问题，本发明为空载蚂蚁和负载蚂蚁分别设计了定向移动策略，以提高蚂蚁的移动效率。
[0055] 传统的LF蚁群聚类算法中空载蚂蚁是随机移动的，为了提高其运动效率，本发明采用一个&X2位置记录矩阵BN，BN第一列记录所有待聚类数据对象的序号，第二列记录数据对象的位置坐标（x，y)。只要数据对象的位置有更新，就将新的位置代替原来的位置坐标。如果在位置记录矩阵中有数据对象位置没有变化，表明这些数据对象还没有被捡起，空载蚂蚁移动时，先向这些还没有被捡起过的数据对象移动，这样可以有效避免一些孤立点一直未被拾起的现象，能够提高蚂蚁的移动效率。初始化时，空载蚂蚁是随机移动的；然后，空载蚂蚁就根据位置记录矩阵^向这些还没有被捡起过的数据对象进行移动，如存在多个还没有被捡起过的数据对象，则从中随机选取一个作为移动的目标；当位置记录矩阵中的第二列都有变动时，表明所有数据对象均已被捡起过，此时空载蚂蚁就恢复随机移动。
[0056] 为了提高蚂蚁运动效率，本发明采用全局记忆来指导负载蚂蚁移动。在算法运行过程中，所有蚂蚁共享一个\X3的全局记忆矩阵AM，AM的第一列放置的是当任意一只蚂蚁放下数据对象时的数据点X，第二列放置的是与数据点相对应的数据对象被放下的概率Pd，第三列放的是数据点X的位置坐标（X(]，y。）。矩阵AM被所有蚂蚁共享和操作。初始化阶段，全局记忆矩阵AM的第一列放入从待聚类数据中随机选择的I个数据点，第二列全部初始化为〇,随机选择的\个数据点称为初始信息。当任一只蚂蚁放下数据点X4寸，此时放下的概率为Pd (i)。在全局记忆矩阵AM中，首先查找是否有被其他蚂蚁"捡起"的数据点，若被捡起，则该点失去指导意义，成为失效点。若有失效点，则使用新的数据点XjPPd(i)替换失效点。如果全局记忆中没有失效点，则寻找？4中的最小值Pd _，如果Pd _〈Pd(i)，使用新的数据点XjPPd⑴替换Pd _所对应的数据点，否则保持不变。捡起数据Xi后的负载蚂蚁直接寻找记忆矩阵AM中与数据点Xi相似度最大且没有失效的点X，找到X当前坐标（x。， %)。找到坐标后，采用以下的定向移动策略移动到X点为中心，边长为蚂蚁观察半径S的正方形区域内的坐标（x_，y_)处：
[0059] 其中，Int是向下取整函数，a是[-1，1]之间的随机数。
[0060] 蚂蚁定向移动时，可能会移动到有数据的位置。因此，如果目标位置在网格内且被其他数据占据，就找其随机的相邻空位；如果超越网格边界，则重新计算定向移动位置；如果多次移动均不在网格内，则保持不动且显示"第x只蚂蚁定向移动失败"。存在多个最相似数据时，随机选取一个数据对象作为定向移动的对象。
[0061] 传统LF蚁群算法蚂蚁的观察半径S是固定的，本发明采用根据算法运行次数，逐渐增大观察半径的方法，逐渐增大蚂蚁的观察范围，从而加快算法收敛。本发明观察半径自适应调整的公式为：
[0062]
[0063]
[0064] 其中Int()是向下取整函数，mod〇是取余函数，T_是总迭代次数，t表示当前迭代次数，S(t+1)表示第t+1次迭代中蚂蚁的观察半径，M、N分别为预设的观察半径下界、上界。公式表示蚂蚁观察半径在每n(t)次迭代后就增加1，观察半径S从M逐渐增加到N。
[0065] 传统蚁群聚类算法的最大迭代次数都是设定的，需要通过测试集来事先确定迭代次数，本发明提出终止运算的控制机制。当运行过程中，蚂蚁不再进行捡起和放下的动作，表明待聚类对象已经聚类到最合适的类中，此时可以终止循环。为实现这样的控制机制，本发明采用蚂蚁运动记录矩阵QX3,其第一列是序号，第二、三列初始状态设置为0。蚂蚁运动后，蚂蚁每进行一次捡起、放下的动作，第二、三列就增加1，直到蚂蚁不再捡起、放下，同一只蚂蚁的第二、三列记录的运动次数相等且不再变化时，表明该只蚂蚁找不到需要移动的点，当所有的蚂蚁出现这种情况时，表明聚类已经成功，此时即可终止迭代运算，输出聚类结果。这样的控制机制，可以有效防止达到最大迭代次数时有些蚂蚁捡起数据对象仍未放下的情况，提高了聚类的准确性。
[0066] 优选地，本发明采用Sigmoid函数作为概率转换函数。该函数是非线性函数，只需要设置1个参数，且设置合适的参数后，比传统的概率转换函数有更好的收敛性。本发明将概率转换函数定义为：
[0069] 其中，c为需要设置的参数，e为自然底数，fU)为相似度函数。
[0070] 图1显示了本发明一个优选实施例的基本流程，该优选实施例中包括了上述各项改进。如图1所示，本发明数据聚类方法包括以下步骤：
[0071] 第一步，初始化观察半径、蚂蚁数目、全局记忆矩阵AM、位置记录矩阵BN、蚂蚁运动记录矩阵C。
[0072] 第二步，将待聚类数据随机投影到二维平面，蚂蚁随机分布到二维平面。
[0073] 第三步，蚂蚁移动到任意待聚类对象\位置R。
[0074] 第四步，计算R位置处观察半径内相似度以\)、匕，产生在[0, 1]服从均匀分布的随机数Q。
[0075] 第五步，ifPp>Qthen捡起X;，定向移动到新位置
[0076] else空载蚂蚁根据位置记录矩阵仏移动到新位置。
[0077] 第六步，负载蚂蚁到达一个空闲位置，计算该位置观察半径内相似度f(Xi)、Pp，产生在[0, 1]服从均匀分布的随机数Q。
[0078] 第六步，ifPd>Qthen放下Xi，蚂蚁移动到新位置
[0079] else负载蚂蚁根据全局记忆矩阵AM移动到新位置。
[0080] 第七步，根据蚂蚁运动记录矩阵C及控制机制，达到最大迭代次数，算法结束，输出结果。
[0081] 本发明的数据聚类方法可广泛用于各类数据的挖掘，下面以B2B平台客户偏好获取为例来说明其在电子商务技术领域的应用。本发明的B2B平台客户偏好获取方法，具体包括以下步骤：
[0082] 步骤1、获取影响客户偏好的因素；
[0083] 本实施例中影响客户偏好的因素具体如下：
[0084] 供应商维度
[0085] L物流服务
[0086] (1)时间质量。时间质量指供应商处理买方客户订单时的效率情况，发货的速度。买方客户在购买时，有时会对时间上做出特别要求。供应商能否达到要求，影响着买方的决策。
[0087] (2)人员沟通质量。人员沟通质量是指买方能及时掌握物流信息，能够与物流服务人员保持信息通畅。
[0088] (3)响应质量。响应质量主要面对客户提出的物流服务数量变动，日常客户投诉、服务应答以及退换货处理的反应速度。
[0089] 2?营销服务
[0090] (1)售前服务。售前服务是供应商推出的吸引客户的服务，起到帮助客户熟悉产品性能，以及帮助客户了解购物环境等作用。
[0091] (2)售中服务。当客户表达购买意愿后以及在实施

完整全部详细技术资料下载

当前第2页1 2 3