大数据系统的数据挖掘方法

文档序号:6639040阅读:368来源:国知局
大数据系统的数据挖掘方法
【专利摘要】本发明涉及网络技术及数据处理方法领域,具体地说是一种能够快速从海量数据中完成目标数据提取的大数据系统的数据挖掘方法,其特征在于包括以下步骤:从逻辑数据库中抽取样本数据进行预处理,设定检索顺序,建立检索子模型,检索子模型对输入的样本数据进行运算,输出检索结果,本发明与现有技术相比,采用高效的优化方法和抽样方法,使得大数据集合在存储和运算挖掘过程中更高效,具有低复杂度、检索快速等显著的优点。
【专利说明】大数据系统的数据挖掘方法

【技术领域】:
[0001] 本发明涉及网络技术及数据处理方法领域,具体地说是一种能够快速从海量数据 中完成目标数据提取的大数据系统的数据挖掘方法。

【背景技术】:
[0002] 随着信息技术的高度发展,人们积累的数据量日益增长,如何从海量数据中快速 的获得有效数据成为当务之急。大数据是指无法再当前条件下使用常规的工具对数据内容 进行检索和管理的数据集,其具有数据量大、数据类型繁多、价值密度低、处理速度快等特 点。目前检索时,用户通常希望能快速的从已有资料中获得自己需要的东西,这就涉及一个 准确率和速度的问题,现阶段的数据检索方法例如KD-tree,M-tree等在数据维度小于10 维时能够取得良好的效果,但对于大数据系统不适用。另外,网络检索过程中,用户越来越 多的追求快速获得相同或相似的结果,现有的检索方法在近似检索中受到局限。


【发明内容】

[0003] 本发明针对现有技术中存在的缺点和不足,提出了一种能够快速从海量数据中完 成目标数据提取的大数据系统的数据挖掘方法。
[0004] 本发明可以通过以下措施达到:
[0005] 一种大数据系统的数据挖掘方法,其特征在于包括以下步骤:
[0006] 步骤1 :从逻辑数据库中抽取样本数据进行预处理,先对每个样本数据赋唯一的 id编号,并设定对该样本数据的检索类型Ti,然后根据样本数据归属的数据检索类型对样 本数据进行初步分类;
[0007] 步骤2 :设定检索顺序,即获取所述样本数据的id编号以及检索类型;
[0008] 步骤3 :建立检索子模型,按照不同的检索顺序依次将样本数据送入多个检索子 模型中;
[0009] 步骤4 :检索子模型对输入的样本数据进行运算,同时判断本次输入的样本数据 是否有外部参数,外部参数指用于向该样本数据的变量传递数据的参数,如果具有外部参 数,则调用该外部参数后执行当前检索子模型;
[0010] 步骤5:输出检索结果。
[0011] 本发明所述检索子模型可以采用哈希函数检索模型,检索子模型的建立包括以下 步骤:
[0012] 步骤3-1 :从逻辑数据库中抽取数据组成训练集X,用于训练哈希函数,训练集的 大小η

【权利要求】
1. 一种大数据系统的数据挖掘方法,其特征在于包括以下步骤: 步骤1 :从逻辑数据库中抽取样本数据进行预处理,先对每个样本数据赋唯一的id编 号,并设定对该样本数据的检索类型Ti,然后根据样本数据归属的数据检索类型对样本数 据进行初步分类; 步骤2 :设定检索顺序,即获取所述样本数据的id编号以及检索类型; 步骤3 :建立检索子模型,按照不同的检索顺序依次将样本数据送入多个检索子模型 中; 步骤4 :检索子模型对输入的样本数据进行运算,同时判断本次输入的样本数据是否 有外部参数,外部参数指用于向该样本数据的变量传递数据的参数,如果具有外部参数,则 调用该外部参数后执行当前检索子模型; 步骤5 :输出检索结果。
2. 根据权利要求1所述的一种大数据系统的数据挖掘方法,其特征在于所述检索子模 型采用哈希函数检索模型,检索子模型的建立包括以下步骤: 步骤3-1 :从逻辑数据库中抽取数据组成训练集X,用于训练哈希函数,训练集的大小η (tV" 由H决定,其中ta/2表示置信度的值,可以通过t分布临界值获得,ε表示最 ^ 2ε J 大的允许误差; 步骤3-2 :用X训练哈希函数,首先涉及目标函数转高位实数数据到低维数据,目标函 数定义为:
其中X为训练集,B为基空间,B的每一个向量均为训练集X中训练出来的基向量,S是X被 投影在基空间B上的低维实数值,λJPλ2是通过十折交叉验证方法取得的可调参数,Wi, 」是X中两个实例XJPX」之间的欧式距离在高斯核上的投影,SJPS」是矩阵S中的两个向 量,是矩阵B中第i行和第j列的元素,i= 1,2,3,……,η为表示实例的记号,j= 1,2,3,......k表示基向量的标号,η是实例的个数,k是基向量的个数,s>O表示S中每 个元素非负; 步骤3-3 :对大数据库中还没得到二进制代码的实例进行二进制编码,过称谓对每一 个实例X,通过s= (Β'Β+2ΙΓΒ'X得到X的低维实数值,然后通过哈希函数得到它的低维 二进制代码,其中B是步骤3-2中定义的基空间,I是跟B同维度的单位矩阵,这样对整个 大数据数据库进行编码。
3. 根据权利要求2所述的一种大数据系统的数据挖掘方法,其特征在于还包括对新进 入的测试实例Xt通过s= (B'B+2I) X运算得到Xt的低维实数值,然后通过哈希函数 得到它的低维二进制代码,把测试实例的二进制代码跟大数据的二进制代码进行相似性检 索,以得到与其相似的实例。
【文档编号】G06F17/30GK104462458SQ201410783567
【公开日】2015年3月25日 申请日期:2014年12月16日 优先权日:2014年12月16日
【发明者】刘焰龙, 高辉 申请人:芜湖乐锐思信息咨询有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1