基于群体智能的行为聚类系统的制作方法

文档序号:8922597阅读:478来源:国知局
基于群体智能的行为聚类系统的制作方法
【技术领域】
[0001] 本发明涉及互联网技术领域,尤其涉及基于群体智能的行为聚类系统。
【背景技术】
[0002] 目前,互联网行业发展到一定的程度以后,专业化分工的过程也使其内部结构中 产生了比较细致的分化,从而形成了整个互联网产业从低到高分成几个层次:处于不同层 次的互联网企业具有不同的客户对象、服务手段和利润来源,这就自然地形成了目前互联 网企业的不同商业模式。从目前互联网业界比较通用的角度来划分互联网产业的结构层 次,或者说互联网企业的商业模式主要有以下几种:
[0003] (1)接入与平台(Access and Platforms):这是互联网企业最初的业务形式之一。 服务主要包括互联网接入(有线、无线接入服务)、虚拟主机、主机托管等。同时,部分这类企 业还提供网站制作、维护等服务。
[0004] (2)网上内容提供服务(InternetContentProvide):这项服务是指通过在互联 网上建立网站向网络的用户(包括个人用户与企业用户)提供各种资讯、信息和社区服务的 互联网服务。内容和社区服务类网站根据其所提供内容的广度和深度的不同又可以分为综 合类网站和专业类网站两个大类;依据其提供内容的不同类别,又可以分为搜索引擎、门户 以及虚拟社区等。
[0005] (3)电子商务(E-Commerce):是利用Wbe技术、电子化手段在Internet网上完 成商业贸易活动的新型方式。电子商务的发展非常迅速,根据商务活动产生的资为电子事 物处理(无支付、无物流,如网上报税、网上办公等)和电子贸易处理(有支付、或者有物流, 如网上购物、网上直销等商务活动);根据交易对象的不同,电子商务又可以分为企业一企 业(BtoB,如电子贸易、电子数据交换、电子资金调拨等应用)、企业一个人(BtoC)、个人 一个人(CtoC,如网络拍卖交易)、政府一个人(CtoC,如通过网络实现个人身份核实、报 税、收税等政府对个人的事务性处理)、政府一企业(GtoB,实现网上报关、报税、网上产权 交易等企业与政府之间的行为)等形式。
[0006] 而WWW上信息的爆炸性增长,使得人们迫切需要开发自动挖掘技术从大量的WWW 数据中发现人们感兴趣的模式和知识,因此Web挖掘越来越成为一个热门的研究领域。但 是如何在如此复杂数据类型的数据中找到需要的知识,就提出了一个新的挑战。
[0007] 随着WWW用户的快速增长,人们淹没在网络信息中渴求着有用的知识,在线分 析用户的浏览行为以及浏览模式已成为越来越重要的研究领域。Tseng、Petrounias和 Chountas给出了一种web挖掘的方法介绍,讨论了在各种限定条件下,如浏览限定、时间的 限定(包括浏览时间、会话期、时间区间等)、个性限定等,如何发现频繁的用户浏览模式及 行为。Srivastava等人详细描述了web使用挖掘的每个阶段,即预处理、模式发现和模式分 析。
[0008] 有些研究者们使用基于关联规则挖掘的方法挖掘web用户浏览模式挖掘。在web 日志挖掘中利用关联规则可以发现用户所访问页面间的关联。有些研究者们把用户浏览访 问模式的发现归属于序列模式挖掘的范畴。WWW用户在访问感兴趣的信息时,倾向于通过连 接或图标来漫游网页。例如,用户为了到达当前主题的一个兄弟主题,总是利用"backward" 图标后退至父主题(起源主题),再向前作出选择,而不是打开一个新的URL从头开始。因此 在用户日志中的某些结点,被重复访问并非因其内容相关,而是因其结构特殊。为了从原始 日志库中抽取有意义的用户访问模式,我们要消除反向关联的影响,因为反向关联旨在方 便用户访问,而非满足用户的检索需求。Chen等人中采用的寻找最大向前关联路径的思想 与WWW的超链结构特点相结合,用以挖掘用户访问模式。
[0009] 挖掘用户浏览模式的全过程如下:
[0010] (1)从原始日志库中寻找所有最大向前关联路径;
[0011] (2)由找到的最大向前关联路径求出频繁关联路径浏览;
[0012] (3)由频繁关联路径浏览求出最大频繁关联路径浏览。
[0013] 各步骤思想如下:
[0014] 步骤1 :当用户访问一个曾经访问过的URL时,称出现了反向关联。反向关联的发 生意味着一个正向关联路径的结束,并产生最大向前关联路径。然后回溯到该前向关联路 径的起点,再继续寻找其他的前向关联路径。另外,源结点(即无父结点的结点)的出现也意 味着前向关联路径的结束及新路径的开始。
[0015] 步骤2 :找到所有用户的最大前向关联路径后,我们将发现用户访问模式的间题 映射为从所有最大向前关联路径中找最常出现的连续子浏览问题。频繁关联路径浏览定义 为出现次数达到某一阂值的序列。这里我们提出了增量式有序概念格算法。
[0016] 步骤3 :称一个频繁关联路径浏览为最大的,如果它不包含于任何一个其他的最 大频繁关联路径中。
[0017] 关于用户分类的方法很多。目前,很多研究都是从用户价值,特别是用户生命周期 价值对用户分类。如最常见的单因素分类方法ABC,其原理是根据网站运营商利润额构成区 分用户。我们按照网站运营商利润额来源大小对用户进行排序后发现,网站运营商80%以 上的利润来源于20%的用户(A),70%的用户提供了不足20%的利润(B),另有10%的用户不 仅不会为网站运营商带来任何利益,甚至会削弱网站运营商的赢利水平(C)。这种方法的缺 陷是只考虑用户给网站运营商带来的利润总额度,而没有区分本网站运营商经营中不同用 户所带来的利润高低,以及用户的成长情况。
[0018] 另外,常用的还有因素结合的方法。影响到网站运营商赢利能力的因素有多种,有 些来自于网站运营商内部,有些来自用户方,因素组合用户分类方法就是根据相关因素组 合结果来区分用户类型。双因素结合方法的主要缺陷是分类过程中一般没有考虑用户的动 态描述数据,没有充分利用用户数据。而多因素结合方法的不足之处在于影响用户分类的 因素选取上。
[0019] 综上所述,针对以上互联网行业的阐述,特别需要基于群体智能的行为聚类系统, 以解决现有技术的不足。

【发明内容】

[0020] 本发明的目的是提供互联网行业的基于群体智能的行为聚类系统,解决实际运行 中存在的不足。
[0021] 本发明为解决其技术问题所采用的技术方案是,
[0022] 基于群体智能的行为聚类系统,该系统的数据表示包括数据结构和数据类型,采 用K均值混合聚类算法;
[0023] 数据类型是一组值的集合和定义在这个值集合之上的一组操作的总称,与数据本 身相关,包括数值性、布尔型、可分类型、混合型等;
[0024] 数据结构是数据的组织形式,通常指存储在计算机内存中的数据;本系统采用的 聚类算法所用的数据主要有以下两种数据结构:
[0025] 1、矢量表示;2、相似矩阵表示;
[0026] 采用k均值混合聚类算法,将蚁群聚类算法与k均值聚类算法结合起来,该算法主 要分成两个部分,第一部分进行蚁群聚类,第二部分用k均值算法收集蚁群聚类的结果,在 k均值混合聚类算法中,相似度公式与蚁群聚类的基本模型及LF算法类似,但采用了更为 简单的概率转换函数,它是两条斜率为k的直线,如下所示;
[0029] 在基本模型中,概率转换函数的参数包括两个阈值常数&和k2,并且阈值常数的 选取和实验数据相关密切,而在k均值混合聚类算法中,概率转换函数只有k,并且通过实 验证明,简化后概率转换函数的参数k并没有根据实验数据变化而变化,因此新算法的概 率转换函数变化同样减轻了算法参数选取的复杂度,提高了算法的实用性,K均值混合聚类 算法的运行过程如下:
[0030] 算法:K均值混合聚类算法
[0031] 输入:P个模式矢量
[0032] 输出:被标记聚类类别的p个模式
[0033] 方法:
[0034] 步骤1 :参数初始化,a,ant_number,k,R,size,dist.最大循环次数n,标注类别 值clusterno等;
[0035] 步骤2 :将待聚类模式随机分散于一个平面上,即随机赋给每一个模式一对(x,y) 坐标;
[0036] 步骤3 :给一组蚂蚁赋初始模式值,初始状态为无负载;
[0037] 步骤 4:fori=l,2...,n;
[0038] 步骤 4.lforj=l,2,…ant_number;
[0039] 步骤4. 1. 1以本只蚂蚁初始模式对应坐标为中心,r为观察半径,利用群体相似度 公式计算此模式在观察半径范围内的群体相似度;
[0040] 步骡4. 1. 2若本只蚂蚁无负载,则计算拾起概率pp;
[0041] 步骤4. 1. 3与一随机概率匕相比较,若pp〈h,则蚂蚁不拾起此模式,再随机赋给蚂 蚁一个模式值,否则蚂蚁拾起此模式,蚂蚁状态改为有负载,随机给蚂蚁一个新坐标;
[0042] 步骤4. 1. 4若本只蚂蚁有负载,则计算放下概率pd ;
[0043] 步骤4. 1. 5与一随机概率&相比较,若pd>h则蚂蚁放下此模式,将蚂蚁的坐标赋 给此模式,蚂蚁状态改为无负载,再随机赋给蚂蚁一个模式值.否则蚂蚁继续携带此模式, 蚂蚁状态仍为有负载,再次随机给蚂蚁一个新坐标;
[0044]步骤 5:fori=l,2…,pattern_num;// 对于每一个模式
[0045] 步骤5. 1若此模式未被标注类别;
[0046] 步骤5. 1. 1标注此模式的类别;
[0047] 步骤5. 1. 2用同一类别标注值递归标注所有相距小于dist的模式,即在平面上收 集所有属于同一集簇的模式;
[0048] 步骤5. 1. 3if同一集簇模式数大于1,类别标注值clusterno++ ;
[0049]else标注此模式为例外;
[0050] 步骤6 :生成聚类中心模板,即计算不包括例外的每一个聚类中心的平均值;
[0051]步骤 7:Repeat;
[0052] 步骤7. 1 (再次)将每一个模式以距离最近的规则划分到所属聚类中心;
[0053] 步骤7. 2更新聚类中心模板;
[0054] 步骤8Until聚类中心模板没有变化;
[0055] k均值混合聚类算法主要包括两个阶段,第一阶段是实现基于群体智能的聚类过 程,第二阶段是以第一阶段得到的聚类中心均值模板和聚类中心个数为参数,实现K均值 聚类过程,当然在收集第一阶段聚类结果的时候,由单个模式形成的聚类中心将不列为第 二阶段的初始聚类中心模板。
[0056] 进一步,所述的矢量表示是通过一个多维空间中的矢量来描述一个对象多方面 的特征,矢量的每个维度对应对象的一个特征,多个对象的矢量可以构成一个模式矩阵 (patternmatrix),矩阵的每一行描述一个对象,每一列对应一个特征,即(Xij);^,m为特征 的个数,为矢量i在特征j上的特征值,这种表示方法的缺陷之一在于不同的特征有不 同的度量标准和尺度,对聚类结果产生不同的影响,为了消除这种差别,通常采用标准化变 换,使所有的特征能够在一个共同的标准下进行度量,常用的标准化变换如下:
[0057] (1)
'将所有的特征全部规范到[_1,1]区间中,
[0058] (2)
可以数据标 准化为服从标准正态分布,
[0059] (3)
这种变换有更 广泛的适用范围,并且受异常数据的干扰较小。
[0060] 进一步,所述的相似矩阵表示它由表示n个对象两两之间的近似性,表现形式为 一个nXn维对称矩阵,S卩(dij)m,且对角线元素为0,dij是对象i和对象j之间相异性的 量化表示,通常为一个非负的数值,对象i与对象j之间相似程度越
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1