融入簇存在强度的数据流聚类方法

文档序号:6552141阅读:447来源:国知局
融入簇存在强度的数据流聚类方法
【专利摘要】本发明涉及web【技术领域】,公开了一种融入簇存在强度的数据流聚类方法,包括以下的具体步骤:预处理步骤,对特定用户的信息进行预处理并保存至用户属性数据库中;用户聚类步骤,对用户属性技能型聚类,关联规则步骤,形成基于用户属性数据的关联规则,漂移检测步骤,实时地对关联规则进行检测,以保证关联规则的有效性。本发明的优点在于,解决了簇的存在强度对于聚类的影响,确实可以将荣誉距离、簇存在概率以及簇存在强度三重因素的不确定数据流聚类方法。
【专利说明】融入簇存在强度的数据流聚类方法

【技术领域】
[0001] 本发明涉及web【技术领域】,特别涉及一种融入簇存在强度的数据流聚类方法。

【背景技术】
[0002] 在电子商务推荐系统中,用户信息的获取通常来源于用户提交的注册信息显示信 息和用户搜索关键词、浏览时间、购买行为等隐式信息,但是用户和电子商务网站之间往往 存在两难问题:用户出于对个人隐私信息的保护,不愿意将个人信息提供给系统,调查显 示80%的用户在填写调查问卷是可以提供性别、年龄、教育背景、地域的信息,但是对于收 入水平、职业等更为隐私的信息是不希望透露的;同时网站运营商,非常渴望获取用户的更 多信息,从而更好的挖掘客户,掌握客户需求,以此来提高推荐系统的质量。目前多数网站 运营商采取隐式方法观察用户的兴趣,然而由于处理技术、获取方式等原因,使得获取的用 户信息多数是有残缺值的、不完全的,即数据元组不一定符合客观事实,是具有一定的概率 的。但是,目前国内外关于Web用户分析是针对确定型数据的,因此本发明针对此类问题, 将不确定数据模型引入到用户分析中,提出了融入不确定性的Web用户分析方法;同时针 对现有的不确定数据流的研究中并没有考虑到簇的存在强度对聚类的影响问题,本发明提 出了簇存在强度的概念,研究融入距离、簇存在概率及簇存在强度三重因素的不确定数据 流聚类方法。


【发明内容】

[0003] 本发明针对现有技术无法充分发挥簇的存在强度对于聚类的影响的缺点,提供了 一种融入簇存在强度的数据流聚类方法,可以实现应用簇的存在强度调整数据流聚类的问 题。
[0004] 为实现上述目的,本发明可采取下述技术方案:
[0005] -种融入簇存在强度的数据流聚类方法,包括以下的具体步骤:
[0006] 预处理步骤:对特定用户的用户特征信息进行处理以形成用户属性数据库,所述 用户特征信息是指包括用户背景信息以及用户行为信息的可以用人机交互界面或者人机 交互装置进行数据采集并可以转化为可以用特定长度和格式的数据串进行表征的用户属 性数据,所述用户属性数据库用于存放所述用户属性数据;
[0007] 用户聚类步骤:将至少两个用户的用户属性数据集合形成用户群属性库,其中,用 于形成用户群属性库的用户属性数据包括用户不确定性数据流,所述用户不确定性数据流 由至少两个元组组成,所述元组包括用户属性数据以及表征所述用户属性数据的出现的不 确定性的存在概率,所述存在概率通过赋予所述用户属性数据以一个随机变量得到,所述 随机变量是指在一定的给定区域上符合概率分布的随机量,所述给定区域是指在一定的时 间范围内用户属性数据的变化区域;
[0008] 关联规则步骤:依据用户群属性数据库所包含的用户属性数据形成关联规则,并 将所述关联规则存放于用户行为规则库,所述关联规则是指用户属性数据的可以用初等函 数进行表示的变化趋势;
[0009] 漂移检测步骤:对不同时间段内所产生的关联规则进行检测,生成最终的用户行 为规则,并将所生成的用户行为规则作为数据流聚类方法。
[0010] 于本发明的实施例中,还包括以下具体步骤:
[0011] 双区聚类步骤:组建簇,所述簇由至少两个元组构成;创建微簇,所述微簇至少包 括二阶矩CF2、一阶矩CFi、存在概率AP。、微簇创建时间ts、微簇最后更新时间、样本容量 η、簇编号CID、分区编号MID,其中,所述微簇与簇一一对应,所述二阶矩CF 2是指簇的连续 变量的二阶矩,所述一阶矩Ch是指簇的连续变量的一阶矩,所述分区编号MID是指微簇所 在分区的编号;进行双区聚类,所述双区聚类是指将簇划分为两类:主缓冲区Buf。簇以及 副缓冲区Buf。簇,所述主缓冲区Buf。簇是指当对一个新元组进行聚类时,首先在主缓冲区 Buf。中进行聚类得到的簇,所述主缓冲区Buf。簇是指当主缓冲区Buf。中的簇不适合新元组 时,则在副缓冲区Buf。中进行聚类得到的簇,所述不适合是指新元组的加入会令被加入的 簇的存在强度发生超出预设阈值的改变。
[0012] 于本发明的实施例中,所述双区聚类步骤还包括,当副缓冲区Buf。中的簇不适合 新元组时,将该新元组思维全局离散点,做丢弃处理。

【权利要求】
1. 一种融入簇存在强度的数据流聚类方法,其特征在于,包括以下的具体步骤:预处 理步骤(100):对特定用户的用户特征信息进行处理以形成用户属性数据库,所述用户特 征信息是指包括用户背景信息以及用户行为信息的可以用人机交互界面或者人机交互装 置进行数据采集并可以转化为可以用特定长度和格式的数据串进行表征的用户属性数据, 所述用户属性数据库用于存放所述用户属性数据; 用户聚类步骤(200):将至少两个用户的用户属性数据集合形成用户群属性库,其中, 用于形成用户群属性库的用户属性数据包括用户不确定性数据流,所述用户不确定性数据 流由至少两个元组组成,所述元组包括用户属性数据以及表征所述用户属性数据的出现的 不确定性的存在概率,所述存在概率通过赋予所述用户属性数据以一个随机变量得到,所 述随机变量是指在一定的给定区域上符合概率分布的随机量,所述给定区域是指在一定的 时间范围内用户属性数据的变化区域; 关联规则步骤(300):依据用户群属性数据库所包含的用户属性数据形成关联规则, 并将所述关联规则存放于用户行为规则库,所述关联规则是指用户属性数据的可以用初等 函数进行表示的变化趋势; 漂移检测步骤(400):对不同时间段内所产生的关联规则进行检测,生成最终的用户 行为规则,并将所生成的用户行为规则作为数据流聚类方法。
2. 根据权利要求1所述的融入簇存在强度的数据流聚类方法,其特征在于,还包括以 下具体步骤: 双区聚类步骤(500):组建簇,所述簇由至少两个元组构成;创建微簇,所述微簇至少 包括二阶矩CF2、一阶矩CFi、存在概率AP。、微簇创建时间ts、微簇最后更新时间t e、样本容量 η、簇编号CID、分区编号MID,其中,所述微簇与簇一一对应,所述二阶矩CF2是指簇的连续 变量的二阶矩,所述一阶矩Ch是指簇的连续变量的一阶矩,所述分区编号MID是指微簇所 在分区的编号;进行双区聚类,所述双区聚类是指将簇划分为两类:主缓冲区Buf。簇以及 副缓冲区Buf。簇,所述主缓冲区Buf。簇是指当对一个新元组进行聚类时,首先在主缓冲区 Buf。中进行聚类得到的簇,所述主缓冲区Buf。簇是指当主缓冲区Buf。中的簇不适合新元组 时,则在副缓冲区Buf。中进行聚类得到的簇,所述不适合是指新元组的加入会令被加入的 簇的存在强度发生超出预设阈值的改变。
3. 根据权利要求2所述的融入簇存在强度的数据流聚类方法,其特征在于,所述双区 聚类步骤(500)还包括,当副缓冲区Buf。中的簇不适合新元组时,将该新元组思维全局离 散点,做丢弃处理。
【文档编号】G06F17/30GK104090950SQ201410314647
【公开日】2014年10月8日 申请日期:2014年7月3日 优先权日:2014年7月3日
【发明者】琚春华, 鲍福光, 肖亮, 魏建良 申请人:浙江工商大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1