一种保护原交易数据集关联规则的数据挖掘方法及系统的制作方法

文档序号:9432606阅读:340来源:国知局
一种保护原交易数据集关联规则的数据挖掘方法及系统的制作方法
【技术领域】
[0001] 本发明属于数据挖掘技术领域,设及一种数据挖掘方法及系统,特别是设及一种 保护原交易数据集关联规则的数据挖掘方法及系统。
【背景技术】
[0002] 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取 隐含在其中的、人们事先不知道的、但有时潜在的信息和知识的过程。从商业角度定义,数 据挖掘是一种商业信息处理技术,对商业数据库中的大量业务数据进行抽取、转换、分析和 其他模型化处理,从中提取辅助商业决策的关键性数据。
[0003] 而商业公司在将数据提供给数据分析公司挖掘数据时,随之会产生的就是隐私数 据或者信息的泄露问题。
[0004] 原始数据隐私保护最初由R.AGrawal提出,其主要思想是通过预定义的变换来 改变原始数据集,并将变换后的数据提供给挖掘者进行数据挖掘。运种思想为隐私保护数 据挖掘沿用,Rizvi曾提出在每笔交易中删除一些既有的项目,并加入一些原本未出现在该 交易中的项目的方法,运样不能确定真正的频繁项目集在变换后的数据集中的支持度的下 界,因此较难直接运用现有计算工具来完成。
[0005]另外在每笔交易中加入干扰项目,运样将无法区分哪些项目原本就在该笔交易 中,哪些项目是后来加入的干扰项目,原始数据因此受到一定的保护,但是原本的交易中的 规则仍然在数据中,因此信息的保密程度不够。
[0006] 因此,如何提供一种保护原交易数据集关联规则的数据挖掘方法及系统,W解决 现有技术中隐私数据或信息容易泄露,信息保密程度不高等带来商业损失和严重负面影响 等种种缺陷,实已成为本领域从业者亟待解决的技术问题。

【发明内容】

[0007] 鉴于W上所述现有技术的缺点,本发明的目的在于提供一种保护原交易数据集关 联规则的数据挖掘方法及系统,用于解决现有技术中隐私数据或信息容易泄露,信息保密 程度不高等带来商业损失和严重负面影响的问题。
[0008] 为实现上述目的及其他相关目的,本发明一方面提供一种保护原交易数据集关联 规则的数据挖掘方法,所述保护原数据关联规则的数据挖掘方法包括W下步骤:步骤一,根 据预制加入干扰策略将所述原交易数据集转换为授权数据集;步骤二,推导所述原交易数 据集中各项目集在原交易数据集的支持度;步骤=,根据支持度挖掘出所述授权数据集中 的频繁项目集W挖掘所述原交易数据集中数据关联规则。
[0009] 可选地,设交易项目集合I是由交易项ik构成的集合,I=U1,iz,is,…,U,k大 于等于1,小于等于m;设原交易数据集为D是由n笔交易化构成的集合,D=化1,〇2, … ,D。}中包括n个交易项目,交易数为N,交易的最大长度为m,i表示交易化中交易项目数,i小于等于m;所述步骤一包括:添加干扰项目,从集合I-Dk中随机选取m-i个交易项添加 至每一笔交易化中,使所述每一交易Dk的交易长度达到mW形成加入干扰项目后的交易数 据集Ti;干扰交易,从交易项目集合I选取m个交易项ik作为干扰交易的项目W形成加入 的干扰交易数据集T2;将加入干扰项目后的交易数据集T1和加入的干扰交易数据集T2形成 所述授权数据集DS所述授权数据集D'的交易数为N+L。
[0010] 可选地,所述步骤二包括:从所述原交易数据集D中提取由k个交易项组成的各项 目集或子交易数据集Ak,Ak在原交易数据集D中的支持度记为S,Ak在授权数据集D'中的 支持度记为S' ;计算加入干扰项目后的交易数据集Ti中Ak的支持度S1;计算加入的干扰交 易数据集T2中Ak的支持度S2;根据预制计算方式推导出各项目集或子交易数据集Ak中所 述原交易数据集的支持度S。
[0011] 可选地,其中,Ak在授权数据集D'中的支持度记为s'与支持度Si和支持度S2的 关系为:(N+L)XSi=NXSi+LXSz。
[0012] 可选地,所述步骤=包括:根据所述原交易数据集D中频繁项目集的第一最小支 持度计算所述授权数据集D'中的第二最小支持度;根据所述第二最小支持度查找所述授 权数据集D'中的频繁项目集,并将其存放在关联集合F中;循环m次W便执行循环处理, 重建关联集合F中的子交易数据集Ak的支持度;判断Ak重建的支持度是否小于第一最小支 持度,若是,将Ak从所述关联集合F中剔除,输出剔除Ak后的关联集合F中所有项目集;若 否,则返回循环步骤。
[0013] 本发明另一方面还提供一种保护原交易数据集关联规则的数据挖掘系统,包括: 数据集转换模块,用于根据预制加入干扰策略将所述原交易数据集转换为授权数据集;推 导模块,与所述数据集转换模块连接,用于推导所述原交易数据集中各项目集在原交易数 据集的支持度;挖掘模块,与所述数据集转换模块和所述推导模块连接,用于根据支持度挖 掘出所述授权数据集中的频繁项目集W挖掘所述原交易数据集中数据关联规则。
[0014] 可选地,设交易项目集合I是由交易项ik构成的集合,I=a1,i2,is,…,i"J,k大 于等于1,小于等于m;设原交易数据集为D是由n笔交易化构成的集合,D=化1,〇2, … ,D。}中包括n个交易项目,交易数为N,交易的最大长度为m,i表示交易化中交易项目数, i小于等于m;所述数据集转换模块包括:干扰项目添加单元,用于添加干扰项目,从集合 I-Dk中随机选取m-i个交易项添加至每一笔交易Dk中,使所述每一交易Dk的交易长度达到 mW形成加入干扰项目后的交易数据集Ti;干扰交易单元,与所述干扰项目添加单元连接, 用于从交易项目集合I选取m个交易项ik作为干扰交易的项目W形成加入的干扰交易数据 集T2;转换单元,与所干扰项目添加单元和干扰交易单元连接,用于将加入干扰项目后的交 易数据集Ti和加入的干扰交易数据集T2形成所述授权数据集DS所述授权数据集D'的 交易数为N+L。
[0015] 可选地,所述推导模块包括:提取单元,用于从所述原交易数据集D中提取由k个 交易项组成的项目集或子交易数据集Ak,Ak在原交易数据集D中的支持度记为S,Ak在授 权数据集D'中的支持度记为S' ;第一计算单元,与所述提取单元连接,用于计算加入干扰 项目后的交易数据集Ti中Ak的支持度S1和计算加入的干扰交易数据集T2中Ak的支持度 S2;推导单元,与所述提取单元和所述第一计算单元连接,用于根据预制计算方式推导出各 项目集或子交易数据集Ak中所述原交易数据集的支持度S。
[0016] 可选地,所述挖掘模块包括:第二计算单元,用于根据所述原交易数据集D中频繁 项目集的第一最小支持度计算所述授权数据集D'中的第二最小支持度;查找单元,与所述 第二计算单元连接,用于根据所述第二最小支持度查找所述授权数据集D'中的频繁项目 集,并将其存放在关联集合F中;循环处理单元,与所述第二计算单元和查找单元连接,用 于循环k次W便执行循环处理,重建关联集合F中的子交易数据集Ak的支持度;其中,k大 于1,小于等于m;判断单元,与所述第二计算单元和循环处理单元连接,用于判断Ak重建的 支持度是否小于第一最小支持度,若是,调用用于将Ak从所述关联集合F中剔除的剔除单 元,及用于输出剔除Ak后的关联集合F中所有项目集的输出单元;若否,则重新调用所述循 环处理单元。
[0017] 本发明又一方面还提供一种服务器,包括:所述的保护原交易数据集关联规则的 数据挖掘系统。
[0018] 如上所述,本发明的保护原交易数据集关联规则的数据挖掘方法及系统,具有W 下有益效果:
[0019] 本发明通过添加干扰项目和干扰交易,既具有良好的隐私保护效果,同时也能挖 掘出真正有用的数据关联规则,给商业应用带来积极效果。
【附图说明】
[0020] 图1显示为本发明的保护原交易数据集关联规则的数据挖掘方法流程示意图。
[0021] 图2显示为本发明的保护原交易数据集关联规则的数据挖掘方法中步骤1的具体 流程示意图。
[0022] 图3显示为本发明的保护原交易数据集关联规则的数据挖掘方法中步骤2的具体 流程示意图。
[0023] 图4显示为本发明的保护原交易数据集关联规则的数据挖掘方法中步骤3的具体 流程示意图。
[0024] 图5显示为本发明的保护原交易数据集关联规则的数据挖掘系统的原理结构示 意图。
[0025] 图6显示为本发明的保护原交易数据集关联规则的数据挖掘系统中数据集转换 模块的原理结构示意图。
[0026] 图7显示为本发明的保护原交易数据集关联规则的数据挖掘系统中推导模块的 原理结构示意图。
[0027] 图8显示为本发明的保护原交易数据集关联规则的数据挖掘系统中挖掘模块的 原理结构示意图。
[0028] 图9显示为本发明的服务器的原理结构示意图。
[0029] 元件标号说明
[0030]1 保护原交易数据集关联规则的数据挖掘系统
[0031] 11 数据集转换模块
[00础 12 推导模块
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1