一种利用相异度聚类和关联的数据挖掘方法与流程

文档序号:11995483阅读:来源:国知局
一种利用相异度聚类和关联的数据挖掘方法与流程

技术特征:
1.一种利用相异度聚类和关联的数据挖掘方法,其特征在于,主要包括:a、从网站用户购买数据的Log日志中提取数据,并对Log日志进行有效数据提取,即对数据进行清洗;b、根据进行清洗后的有效数据,分别进行相异度聚类及关联规则计算,并利用数据库实现对数据的存取和处理,将聚类后关联推荐存于数据库中;c、当有新用户在网站购买数据时,可将其在网站中的Log日志数据依据相异度聚类和关联算法,进行购买推荐,为用户网站购买提供推荐参考,在步骤a中,所述对数据进行清洗的操作,具体包括:作为电子商务网站的访问用户,在网站停留以及购买商品,或点击浏览商品时都会留下记录,并保存在web日志服务器Log日志中,所述保存在web日志服务器Log日志的操作,具体包括:将web日志中的用户购买记录依据购买商品的种类建立用户购买商品关联矩阵,如下表所示:其中Ui(i=1,2…n)表示访问网站的用户;Pj(j=1,2….m)表示电子商务网站中商品数;为了便于用户购买商品的聚类,首先构建网站用户购买商品的矩阵,其规则如下式(1):可得购物矩阵M:2.根据权利要求1中所述的利用相异度聚类和关联的数据挖掘方法,其特征在于,所述步骤b和步骤c具体包括:b1、基于相异度的初始聚类:相异度是表征对象间相似程度,对一组数据的相异度通常可以用相异度矩阵进行表示;b2、新样本聚类:当样本空间数据元素增大,将产生的新元素与利用相异度产生的聚类结果进行对比计算;b3、基于关联规则的推荐:通过上述产生的聚类结果,利用布尔关联规则频繁项集的算法,对每个聚类结果进行关联规则的挖掘。3.根据权利要求2所述的利用相异度聚类和关联的数据挖掘方法,其特征在于,所述步骤b1具体包括:⑴相异度是表征对象间相似程度,对一组数据的相异度通常可以用相异度矩阵进行表示,对象间的相异度通常用对象i和对象j之间的相异性的量化d(i,j)表示,通常为非负值;两个对象越接近,其值越接近0;两个对象越不同,其值越大且有下式成立:d(i,j)=d(j,i),d(i,i)=0;依据相异度矩阵计算原理将矩阵M进行相异度计算可到相异度矩阵D:定义相异度矩阵是自反的和对称的即d(i,i)=0,d(i,j)=d(j,i),其中d(i,j)(i=2、3、…n;j=1、2、…n)表示二元变量矩阵D两元素间的相异度:f00=x取0并且y取0的属性个数;f01=x取0并且y取1的属性个数;f10=x取1并且y取0的属性个数;f11=x取1并且y取1的属性个数;定义C1、C2……Cn表示类,Dpq表示Cp和Cq样本间的相异度;⑵选择矩阵D(t),t=0中最大值元素,假设Dpq对应类Cp和Cq合并成一类,记为Cm={x|x∈Cp或,x∈Cq};⑶计算新类与其它类之间的相异度:将D(t)中q、p行,p、q分别合为一个新列,新行列应为Cm,得到矩阵D(t+1);⑷若全部样本已聚类成一个类,则停止算法,否则t=t+1;⑸设定相异度阈值α,选择聚类点,由此得到数据集的聚类中心向量C1、C2……Cn,得到聚类数据集G={C1、C2……Cn}。4.根据权利要求3所述的利用相异度聚类和关联的数据挖掘方法,其特征在于,所述步骤b2具体包括:(1)将样本空间元素Si和聚类中心Ci分别进行距离计算如下式:其中i=1、2、3…n;(2)设置距离阈值α,若dmin(i,j)<α,将Si归入到Ci相同的聚类中,否则产生新的聚类中心,并将Si归入到Cn+1的聚类中去;(3)重复(1)、(2)两步,直到找完所有的样本。5.根据权利要求4所述的利用相异度聚类和关联的数据挖掘方法,其特征在于,所述步骤b3具体包括:关联规则是形如A=>B的蕴含式,其中I表示样本集合,并且A∩B=φ,支持度support是M事务中包含A∪B的百分比;置信度confidence表示M事务中包含A也包含B的百分比,具体如下式[1]:通过设定最小支持度阈值和最小置信度阈值,使得到一定阈值的关联规则才是有用的关联规则,分别对聚类结果G进行关联度计算,产生关联规则G1、G2、…Gn,将此作为网站用户购买的商品的推荐。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1