大数据系统的数据挖掘方法

文档序号：6639040阅读：368来源：国知局

大数据系统的数据挖掘方法
【专利摘要】本发明涉及网络技术及数据处理方法领域，具体地说是一种能够快速从海量数据中完成目标数据提取的大数据系统的数据挖掘方法，其特征在于包括以下步骤：从逻辑数据库中抽取样本数据进行预处理，设定检索顺序，建立检索子模型，检索子模型对输入的样本数据进行运算，输出检索结果，本发明与现有技术相比，采用高效的优化方法和抽样方法，使得大数据集合在存储和运算挖掘过程中更高效，具有低复杂度、检索快速等显著的优点。
【专利说明】大数据系统的数据挖掘方法

【技术领域】：
[0001] 本发明涉及网络技术及数据处理方法领域，具体地说是一种能够快速从海量数据中完成目标数据提取的大数据系统的数据挖掘方法。

【背景技术】：
[0002] 随着信息技术的高度发展，人们积累的数据量日益增长，如何从海量数据中快速的获得有效数据成为当务之急。大数据是指无法再当前条件下使用常规的工具对数据内容进行检索和管理的数据集，其具有数据量大、数据类型繁多、价值密度低、处理速度快等特点。目前检索时，用户通常希望能快速的从已有资料中获得自己需要的东西，这就涉及一个准确率和速度的问题，现阶段的数据检索方法例如KD-tree，M-tree等在数据维度小于10 维时能够取得良好的效果，但对于大数据系统不适用。另外，网络检索过程中，用户越来越多的追求快速获得相同或相似的结果，现有的检索方法在近似检索中受到局限。

【发明内容】
：
[0003] 本发明针对现有技术中存在的缺点和不足，提出了一种能够快速从海量数据中完成目标数据提取的大数据系统的数据挖掘方法。
[0004] 本发明可以通过以下措施达到：
[0005] 一种大数据系统的数据挖掘方法，其特征在于包括以下步骤：
[0006] 步骤1 :从逻辑数据库中抽取样本数据进行预处理，先对每个样本数据赋唯一的 id编号，并设定对该样本数据的检索类型Ti,然后根据样本数据归属的数据检索类型对样本数据进行初步分类；
[0007] 步骤2 :设定检索顺序，即获取所述样本数据的id编号以及检索类型；
[0008] 步骤3 :建立检索子模型，按照不同的检索顺序依次将样本数据送入多个检索子模型中；
[0009] 步骤4 :检索子模型对输入的样本数据进行运算，同时判断本次输入的样本数据是否有外部参数，外部参数指用于向该样本数据的变量传递数据的参数，如果具有外部参数，则调用该外部参数后执行当前检索子模型；
[0010] 步骤5:输出检索结果。
[0011] 本发明所述检索子模型可以采用哈希函数检索模型，检索子模型的建立包括以下步骤：
[0012] 步骤3-1 :从逻辑数据库中抽取数据组成训练集X，用于训练哈希函数，训练集的大小η

【权利要求】
1. 一种大数据系统的数据挖掘方法，其特征在于包括以下步骤：步骤1 :从逻辑数据库中抽取样本数据进行预处理，先对每个样本数据赋唯一的id编号，并设定对该样本数据的检索类型Ti，然后根据样本数据归属的数据检索类型对样本数据进行初步分类；步骤2 :设定检索顺序，即获取所述样本数据的id编号以及检索类型；步骤3 :建立检索子模型，按照不同的检索顺序依次将样本数据送入多个检索子模型中；步骤4 :检索子模型对输入的样本数据进行运算，同时判断本次输入的样本数据是否有外部参数，外部参数指用于向该样本数据的变量传递数据的参数，如果具有外部参数，则调用该外部参数后执行当前检索子模型；步骤5 :输出检索结果。
2. 根据权利要求1所述的一种大数据系统的数据挖掘方法，其特征在于所述检索子模型采用哈希函数检索模型，检索子模型的建立包括以下步骤：步骤3-1 :从逻辑数据库中抽取数据组成训练集X，用于训练哈希函数，训练集的大小η (tV" 由H决定，其中ta/2表示置信度的值，可以通过t分布临界值获得，ε表示最 ^ 2ε J 大的允许误差；步骤3-2 :用X训练哈希函数，首先涉及目标函数转高位实数数据到低维数据，目标函数定义为：
其中X为训练集，B为基空间，B的每一个向量均为训练集X中训练出来的基向量，S是X被投影在基空间B上的低维实数值，λJPλ2是通过十折交叉验证方法取得的可调参数，Wi, 」是X中两个实例XJPX」之间的欧式距离在高斯核上的投影，SJPS」是矩阵S中的两个向量，是矩阵B中第i行和第j列的元素，i= 1，2,3，……，η为表示实例的记号，j= 1,2,3,......k表示基向量的标号，η是实例的个数，k是基向量的个数，s>O表示S中每个元素非负；步骤3-3 :对大数据库中还没得到二进制代码的实例进行二进制编码，过称谓对每一个实例X，通过s= (Β'Β+2ΙΓΒ'X得到X的低维实数值，然后通过哈希函数得到它的低维二进制代码，其中B是步骤3-2中定义的基空间，I是跟B同维度的单位矩阵，这样对整个大数据数据库进行编码。
3. 根据权利要求2所述的一种大数据系统的数据挖掘方法，其特征在于还包括对新进入的测试实例Xt通过s= (B'B+2I) X运算得到Xt的低维实数值，然后通过哈希函数得到它的低维二进制代码，把测试实例的二进制代码跟大数据的二进制代码进行相似性检索，以得到与其相似的实例。
【文档编号】G06F17/30GK104462458SQ201410783567
【公开日】2015年3月25日申请日期:2014年12月16日优先权日:2014年12月16日
【发明者】刘焰龙, 高辉申请人:芜湖乐锐思信息咨询有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘焰龙;高辉;
技术所有人：芜湖乐锐思信息咨询有限公司;
我是此专利的发明人

上一篇：基于神经网络的大数据分析处理系统及方法
上一篇：大数据分析系统及方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。