融入簇存在强度的数据流聚类方法

文档序号：6552141阅读：447来源：国知局

融入簇存在强度的数据流聚类方法
【专利摘要】本发明涉及web【技术领域】，公开了一种融入簇存在强度的数据流聚类方法，包括以下的具体步骤：预处理步骤，对特定用户的信息进行预处理并保存至用户属性数据库中；用户聚类步骤，对用户属性技能型聚类，关联规则步骤，形成基于用户属性数据的关联规则，漂移检测步骤，实时地对关联规则进行检测，以保证关联规则的有效性。本发明的优点在于，解决了簇的存在强度对于聚类的影响，确实可以将荣誉距离、簇存在概率以及簇存在强度三重因素的不确定数据流聚类方法。
【专利说明】融入簇存在强度的数据流聚类方法

【技术领域】
[0001] 本发明涉及web【技术领域】，特别涉及一种融入簇存在强度的数据流聚类方法。

【背景技术】
[0002] 在电子商务推荐系统中，用户信息的获取通常来源于用户提交的注册信息显示信息和用户搜索关键词、浏览时间、购买行为等隐式信息，但是用户和电子商务网站之间往往存在两难问题：用户出于对个人隐私信息的保护，不愿意将个人信息提供给系统，调查显示80%的用户在填写调查问卷是可以提供性别、年龄、教育背景、地域的信息，但是对于收入水平、职业等更为隐私的信息是不希望透露的；同时网站运营商，非常渴望获取用户的更多信息，从而更好的挖掘客户，掌握客户需求，以此来提高推荐系统的质量。目前多数网站运营商采取隐式方法观察用户的兴趣，然而由于处理技术、获取方式等原因，使得获取的用户信息多数是有残缺值的、不完全的，即数据元组不一定符合客观事实，是具有一定的概率的。但是，目前国内外关于Web用户分析是针对确定型数据的，因此本发明针对此类问题，将不确定数据模型引入到用户分析中，提出了融入不确定性的Web用户分析方法；同时针对现有的不确定数据流的研究中并没有考虑到簇的存在强度对聚类的影响问题，本发明提出了簇存在强度的概念，研究融入距离、簇存在概率及簇存在强度三重因素的不确定数据流聚类方法。

【发明内容】

[0003] 本发明针对现有技术无法充分发挥簇的存在强度对于聚类的影响的缺点，提供了一种融入簇存在强度的数据流聚类方法，可以实现应用簇的存在强度调整数据流聚类的问题。
[0004] 为实现上述目的，本发明可采取下述技术方案：
[0005] -种融入簇存在强度的数据流聚类方法，包括以下的具体步骤：
[0006] 预处理步骤：对特定用户的用户特征信息进行处理以形成用户属性数据库，所述用户特征信息是指包括用户背景信息以及用户行为信息的可以用人机交互界面或者人机交互装置进行数据采集并可以转化为可以用特定长度和格式的数据串进行表征的用户属性数据，所述用户属性数据库用于存放所述用户属性数据；
[0007] 用户聚类步骤：将至少两个用户的用户属性数据集合形成用户群属性库，其中，用于形成用户群属性库的用户属性数据包括用户不确定性数据流，所述用户不确定性数据流由至少两个元组组成，所述元组包括用户属性数据以及表征所述用户属性数据的出现的不确定性的存在概率，所述存在概率通过赋予所述用户属性数据以一个随机变量得到，所述随机变量是指在一定的给定区域上符合概率分布的随机量，所述给定区域是指在一定的时间范围内用户属性数据的变化区域；
[0008] 关联规则步骤：依据用户群属性数据库所包含的用户属性数据形成关联规则，并将所述关联规则存放于用户行为规则库，所述关联规则是指用户属性数据的可以用初等函数进行表示的变化趋势；
[0009] 漂移检测步骤：对不同时间段内所产生的关联规则进行检测，生成最终的用户行为规则，并将所生成的用户行为规则作为数据流聚类方法。
[0010] 于本发明的实施例中，还包括以下具体步骤：
[0011] 双区聚类步骤：组建簇，所述簇由至少两个元组构成；创建微簇，所述微簇至少包括二阶矩CF2、一阶矩CFi、存在概率AP。、微簇创建时间ts、微簇最后更新时间、样本容量 η、簇编号CID、分区编号MID，其中，所述微簇与簇一一对应，所述二阶矩CF 2是指簇的连续变量的二阶矩，所述一阶矩Ch是指簇的连续变量的一阶矩，所述分区编号MID是指微簇所在分区的编号；进行双区聚类，所述双区聚类是指将簇划分为两类：主缓冲区Buf。簇以及副缓冲区Buf。簇，所述主缓冲区Buf。簇是指当对一个新元组进行聚类时，首先在主缓冲区 Buf。中进行聚类得到的簇，所述主缓冲区Buf。簇是指当主缓冲区Buf。中的簇不适合新元组时，则在副缓冲区Buf。中进行聚类得到的簇，所述不适合是指新元组的加入会令被加入的簇的存在强度发生超出预设阈值的改变。
[0012] 于本发明的实施例中，所述双区聚类步骤还包括，当副缓冲区Buf。中的簇不适合新元组时，将该新元组思维全局离散点，做丢弃处理。

【权利要求】
1. 一种融入簇存在强度的数据流聚类方法，其特征在于，包括以下的具体步骤：预处理步骤（100):对特定用户的用户特征信息进行处理以形成用户属性数据库，所述用户特征信息是指包括用户背景信息以及用户行为信息的可以用人机交互界面或者人机交互装置进行数据采集并可以转化为可以用特定长度和格式的数据串进行表征的用户属性数据，所述用户属性数据库用于存放所述用户属性数据；用户聚类步骤（200):将至少两个用户的用户属性数据集合形成用户群属性库，其中，用于形成用户群属性库的用户属性数据包括用户不确定性数据流，所述用户不确定性数据流由至少两个元组组成，所述元组包括用户属性数据以及表征所述用户属性数据的出现的不确定性的存在概率，所述存在概率通过赋予所述用户属性数据以一个随机变量得到，所述随机变量是指在一定的给定区域上符合概率分布的随机量，所述给定区域是指在一定的时间范围内用户属性数据的变化区域；关联规则步骤（300):依据用户群属性数据库所包含的用户属性数据形成关联规则，并将所述关联规则存放于用户行为规则库，所述关联规则是指用户属性数据的可以用初等函数进行表示的变化趋势；漂移检测步骤（400):对不同时间段内所产生的关联规则进行检测，生成最终的用户行为规则，并将所生成的用户行为规则作为数据流聚类方法。
2. 根据权利要求1所述的融入簇存在强度的数据流聚类方法，其特征在于，还包括以下具体步骤：双区聚类步骤（500):组建簇，所述簇由至少两个元组构成；创建微簇，所述微簇至少包括二阶矩CF2、一阶矩CFi、存在概率AP。、微簇创建时间ts、微簇最后更新时间t e、样本容量 η、簇编号CID、分区编号MID，其中，所述微簇与簇一一对应，所述二阶矩CF2是指簇的连续变量的二阶矩，所述一阶矩Ch是指簇的连续变量的一阶矩，所述分区编号MID是指微簇所在分区的编号；进行双区聚类，所述双区聚类是指将簇划分为两类：主缓冲区Buf。簇以及副缓冲区Buf。簇，所述主缓冲区Buf。簇是指当对一个新元组进行聚类时，首先在主缓冲区 Buf。中进行聚类得到的簇，所述主缓冲区Buf。簇是指当主缓冲区Buf。中的簇不适合新元组时，则在副缓冲区Buf。中进行聚类得到的簇，所述不适合是指新元组的加入会令被加入的簇的存在强度发生超出预设阈值的改变。
3. 根据权利要求2所述的融入簇存在强度的数据流聚类方法，其特征在于，所述双区聚类步骤（500)还包括，当副缓冲区Buf。中的簇不适合新元组时，将该新元组思维全局离散点，做丢弃处理。
【文档编号】G06F17/30GK104090950SQ201410314647
【公开日】2014年10月8日申请日期:2014年7月3日优先权日:2014年7月3日
【发明者】琚春华, 鲍福光, 肖亮, 魏建良申请人:浙江工商大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：琚春华;鲍福光;肖亮;魏建良
技术所有人：浙江工商大学
我是此专利的发明人

上一篇：适用于手持设备的输电线路三维选线方法
上一篇：一种产品装配偏差的计算方法及装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。