一种利用相异度聚类和关联的数据挖掘方法与流程

文档序号:11995483阅读:281来源:国知局
本发明涉及通信技术领域,具体地,涉及一种利用相异度聚类和关联的数据挖掘方法。

背景技术:
随着电子商务的快速发展以及信息时代人们社会生活环境的变化,网络用户通过电子商务网站来购买商品已成为常态化。作为商务网站的运营,需要留住浏览网站的用户,需要将浏览者变成购买者,需要增加网站销售品种以供客户多项选择。为此作为电子商务网站推荐系统研究得到了越来越多的关注和研究。目前,作为推荐领域的研究主流是对于推荐算法的改进,主要集中在协同过滤算法,基于内容的算法和混合算法。而在这几种算法中,混合算法的应用研究较多,主要集中在关联规则、遗传算法、神经网络算法等融合使用中。混合算法中聚类和关联规则,在联合使用中出现的实时性差、准确率差以及推荐效果不佳等问题,而采用一种基于相异度聚类和关联规则算法。大多聚类算法和关联规则都采用先聚类在进行关联的推荐形式,但对于稀疏数据以及海量数据时,聚类和关联联合算法在推荐的实时性和有效性将有所下降。在实现本发明的过程中,发明人发现现有技术中至少存在实时性差、准确率低和使用效果差等缺陷。

技术实现要素:
本发明的目的在于,针对上述问题,提出一种利用相异度聚类和关联的数据挖掘方法,以实现实时性好、准确率高和使用效果好的优点。为实现上述目的,本发明采用的技术方案是:一种利用相异度聚类和关联的数据挖掘方法,主要包括:a、从网站用户购买数据的Log日志中提取数据,并对Log日志进行有效数据提取,即对数据进行清洗;b、根据进行清洗后的有效数据,分别进行相异度聚类及关联规则计算,并利用数据库实现对数据的存取和处理,将聚类后关联推荐存于数据库中;c、当有新用户在网站购买数据时,可将其在网站中的Log日志数据依据相异度聚类和关联算法,进行购买推荐,为用户网站购买提供推荐参考,在步骤a中,所述对数据进行清洗的操作,具体包括:作为电子商务网站的访问用户,在网站停留以及购买商品,或点击浏览商品时都会留下记录,并保存在web日志服务器Log日志中,所述保存在web日志服务器Log日志的操作,具体包括:将web日志中的用户购买记录依据购买商品的种类建立用户购买商品关联矩阵,如下表所示:其中Ui(i=1,2…n)表示访问网站的用户;Pj(j=1,2….m)表示电子商务网站中商品数;为了便于用户购买商品的聚类,首先构建网站用户购买商品的矩阵,其规则如下式(1):可得购物矩阵M:进一步地,所述步骤b和步骤c具体包括:b1、基于相异度的初始聚类:相异度是表征对象间相似程度,对一组数据的相异度通常可以用相异度矩阵进行表示;b2、新样本聚类:当样本空间数据元素增大,将产生的新元素与利用相异度产生的聚类结果进行对比计算;b3、基于关联规则的推荐:通过上述产生的聚类结果,利用布尔关联规则频繁项集的算法,对每个聚类结果进行关联规则的挖掘。进一步地,所述步骤b1具体包括:⑴相异度是表征对象间相似程度,对一组数据的相异度通常可以用相异度矩阵进行表示,对象间的相异度通常用对象i和对象j之间的相异性的量化d(i,j)表示,通常为非负值;两个对象越接近,其值越接近0;两个对象越不同,其值越大且有下式成立:d(i,j)=d(j,i),d(i,i)=0;依据相异度矩阵计算原理将矩阵M进行相异度计算可到相异度矩阵D:定义相异度矩阵是自反的和对称的即d(i,i)=0,d(i,j)=d(j,i),其中d(i,j)(i=2、3、…n;j=1、2、…n)表示二元变量矩阵D两元素间的相异度:f00=x取0并且y取0的属性个数;f01=x取0并且y取1的属性个数;f10=x取1并且y取0的属性个数;f11=x取1并且y取1的属性个数;定义C1、C2……Cn表示类,Dpq表示Cp和Cq样本间的相异度;⑵选择矩阵D(t),t=0中最大值元素,假设Dpq对应类Cp和Cq合并成一类,记为Cm={x|x∈Cp或,x∈Cq};⑶计算新类与其它类之间的相异度:将D(t)中q、p行,p、q分别合为一个新列,新行列应为Cm,得到矩阵D(t+1);⑷若全部样本已聚类成一个类,则停止算法,否则t=t+1;⑸设定相异度阈值α,选择聚类点,由此得到数据集的聚类中心向量C1、C2……Cn,得到聚类数据集G={C1、C2……Cn}。进一步地,所述步骤b2具体包括:(1)将样本空间元素Si和聚类中心Ci分别进行距离计算如下式:其中i=1、2、3…n;(2)设置距离阈值α,若dmin(i,j)<α,将Si归入到Ci相同的聚类中,否则产生新的聚类中心,并将Si归入到Cn+1的聚类中去;(3)重复(1)、(2)两步,直到找完所有的样本。进一步地,所述步骤b3具体包括:关联规则是形如A=>B的蕴含式,其中I表示样本集合,并且A∩B=φ,支持度support是M事务中包含A∪B的百分比;置信度confidence表示M事务中包含A也包含B的百分比,具体如下式[1]:通过设定最小支持度阈值和最小置信度阈值,使得到一定阈值的关联规则才是有用的关联规则,分别对聚类结果G进行关联度计算,产生关联规则G1、G2、…Gn,将此作为网站用户购买的商品的推荐。本发明各实施例的利用相异度聚类和关联的数据挖掘方法,由于包括:从网站用户购买数据的Log日志中提取数据,并对日志进行有效数据提取,即对数据进行清洗;分别进行相异度聚类及关联规则计算,并利用数据库实现对数据的存取和处理,将聚类后关联推荐于数据库中;当有新用户在网站买数据时,可将其在网站中的日志数据依据相异度聚类和关联算法,进行购买推荐,为用户网站购买提供推荐参考;可以改善稀疏矩阵数据的推荐准确度,同时也能改善海量数据的推荐效果,为最后的电子商务推荐提供更好的服务;从而可以克服现有技术中实时性差、准确率低和使用效果差的缺陷,以实现实时性好、准确率高和使用效果好的优点。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。附图说明附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:图1为Web网站电子商务推荐系统的模型图。具体实施方式以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。针对目前电子商务推荐中混合算法的优劣,进行分析,为了能实现电子商务网站的推荐更好的留住电子商务网站用户,根据本发明实施例,提供了一种利用相异度聚类和关联的数据挖掘方法,利用这种基于相异度聚类和关联的算法,不但可以改善稀疏矩阵数据的推荐准确度,同时也能改善海量数据的推荐效果,为最后的电子商务推荐提供更好的服务。该利用相异度聚类和关联的数据挖掘方法,利用相异度进行web网站购物用户的数据聚类,再利用关联规则算法对聚类的结果进行关联推荐,该算法相比于传统的聚类关联算法运算迭代次数降低,提高了运算效率,增强了网站用户购买推荐的有效性。如图1所示,本实施例的利用相异度聚类和关联的数据挖掘方法,主要采用以下技术方案:建立基于数据挖掘技术的电子商务网站推荐系统模型,从图1可以看到,该基于数据挖掘技术的电子商务网站推荐系统模型主要包括三部分:第一部分为数据收集:从网站用户购买数据的Log日志中提取数据,并对Log日志进行有效数据提取,即对数据进行清洗;第二部分为数据处理:进行清洗后的有效数据分别进行相异度聚类及关联规则计算,并利用数据库实现对数据的存取和处理,将聚类后关联推荐存于数据库中;第三部分为关联推荐:当有新用户在网站购买数据时,可将其在网站中的Log日志数据依据相异度聚类和关联算法,进行购买推荐,为用户网站购买提供推荐参考。在第一部分中,web电子商务网站访问用户数据提取及清洗的操作,具体包括:作为电子商务网站的访问用户,在网站停留以及购买商品,或点击浏览商品时都会留下记录,并保存在web日志服务器Log日志中。将web日志中的用户购买记录依据购买商品的种类建立用户购买商品关联矩阵,如下表1所示:表1:电子商务网站用户商品购买矩阵表其中Ui(i=1,2…n)表示访问网站的用户;Pj(j=1,2….m)表示电子商务网站中商品数。为了便于用户购买商品的聚类,首先构建网站用户购买商品的矩阵,其规则如下式(1):可得购物矩阵M:基于数据挖掘的推荐算法,具体描述如下:推荐结果准确度、数据的稀疏性以及算法复杂度这些问题导致推荐实时性难以解决,而推荐的实时性一直是推荐算法改进工作的重要评判指标。在本实施例中提出的相异度动态聚类算法,是在常用聚类算法即K均值聚类算法中的一种改进。在K均值聚类算法中,初始聚类数是任意指定的,不能准确反应样本集的准确聚类数,同时该算法的计算迭代次数较大,聚类时间较长,不适合实时性的推荐。而相异度聚类算法,针对聚类的样本空间,先进行相异度聚类,并将聚类个数作为动态聚类的初始聚类数,再将样本空间与聚类数相比较,从而划分整个样本空间,该算法的优势在于减少聚类过程中迭代的次数,减少聚类时间,增加推荐实时性。在该基于数据挖掘技术的电子商务网站推荐系统模型中,对于网站新客户,只需将其购买物品与其关联的不同结果对比,从而为客户推荐商品。将聚类的结果,利用关联规则算法进行购买商品的关联度分析,产生不同的关联模式,并将结果存于专用数据库中。推荐算法求解过程如下:1、基于相异度的初始聚类⑴相异度是表征对象间相似程度,对一组数据的相异度通常可以用相异度矩阵进行表示,对象间的相异度通常用对象i和对象j之间的相异性的量化d(i,j)表示,通常为非负值。两个对象越接近,其值越接近0;两个对象越不同,其值越大且有下式成立:d(i,j)=d(j,i),d(i,i)=0;依据相异度矩阵计算原理将矩阵M进行相异度计算可到相异度矩阵D:定义相异度矩阵是自反的和对称的即d(i,i)=0,d(i,j)=d(j,i),其中d(i,j)(i=2、3、…n;j=1、2、…n)表示二元变量矩阵D两元素间的相异度:f00=x取0并且y取0的属性个数;f01=x取0并且y取1的属性个数;f10=x取1并且y取0的属性个数;f11=x取1并且y取1的属性个数。定义C1、C2……Cn表示类,Dpq表示Cp和Cq样本间的相异度。⑵选择矩阵D(t),t=0中最大值元素,假设Dpq对应类Cp和Cq合并成一类,记为Cm={x|x∈Cp或,x∈Cq};(3)计算新类与其它类之间的相异度:将D(t)中q、p行,p、q分别合为一个新列,新行列应为Cm,得到矩阵D(t+1)。⑷若全部样本已聚类成一个类,则停止算法,否则t=t+1。⑸设定相异度阈值α,选择聚类点,由此得到数据集的聚类中心向量C1、C2……Cn,得到聚类数据集G={C1、C2……Cn}。2、新样本聚类当样本空间数据元素增大,将产生的新元素与利用相异度产生的聚类结果进行对比计算,具体步骤如下:(1)将样本空间元素Si和聚类中心Ci分别进行距离计算如下式:其中i=1、2、3…n。(2)设置距离阈值α,若dmin(i,j)<α,将Si归入到Ci相同的聚类中,否则产生新的聚类中心,并将Si归入到Cn+1的聚类中去。(3)重复(1)、(2)两步,直到找完所有的样本。3、基于关联规则的推荐通过上述产生的聚类结果,利用布尔关联规则频繁项集的算法,对每个聚类结果进行关联规则的挖掘。关联规则是形如A=>B的蕴含式,其中I表示样本集合,并且A∩B=φ,支持度support是M事务中包含A∪B的百分比;置信度confidence表示M事务中包含A也包含B的百分比,具体如下式[1]:通过设定最小支持度阈值和最小置信度阈值,使得到一定阈值的关联规则才是有用的关联规则,分别对聚类结果G进行关联度计算,产生关联规则G1、G2、…Gn,将此作为网站用户购买的商品的推荐。综上所述,本发明上述各实施例的利用相异度聚类和关联的数据挖掘方法,主要包括:先对电子商务数据进行数据清洗,而后采用一种基于相异度聚类和关联规则算法进行电子商务网站系统的推荐。其中,数据清洗,是指从网站用户购买数据的Log日志中提取数据,并对Log日志进行有效数据提取,即对数据进行清洗。相异度聚类而相异度聚类算法,是针对聚类的样本空间,先进行相异度聚类,并将聚类个数作为动态聚类的初始聚类数,再将样本空间与聚类数相比较,从而划分整个样本空间,该算法的优势在于减少聚类过程中迭代的次数,减少聚类时间,增加推荐实时性。关联规则,则表示对于网站新客户,只需将其购买物品与其关联的不同结果对比,从而为客户推荐商品;将聚类的结果,利用关联规则算法进行购买商品的关联度分析,产生不同的关联模式,并将结果存于专用数据库中。最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1