一种基于统计分析方法的高维数据自动加工及处理方法与流程

文档序号:18900565发布日期:2019-10-18 21:53阅读:448来源:国知局
一种基于统计分析方法的高维数据自动加工及处理方法与流程

本发明涉及高维数据处理技术领域,尤其涉及一种基于统计分析方法的高维数据自动加工及处理方法。



背景技术:

高维数据挖掘是基于高维度的一种数据挖掘,它和传统的数据挖掘最主要的区别在于它的高维度。高维数据挖掘已成为数据挖掘的重点和难点。随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、web文档、基因表达数据、文档词频数据、用户评分数据、web使用数据及多媒体数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。

由于高维数据存在的普遍性,使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响,也使得高维数据挖掘变得异常地困难,必须采用一些特殊的手段进行处理。

在专利“cn106055645a一种用于高维数据分析的维度重要性评估方法”公开了“因此我们只需估计系数a即可,它的取值为0~1,当它取值较大时,密度曲线会比较平滑,这样便会导致没有局部极小值,只有最大值,此时计算出的维度质量为1,是一个错误的结果,因此我们尽量取较小的a值,即使这样也可能会造成误差,于是我们检验每一维度的质量值,如果有质量值为1便重新估计h值,重新计算维度质量,直到没有误差为止”;虽然实现了筛选出重要的维度;但采用人工估计系数的方式进行检验,数据计算量较大,人工工作量大,导致高维数据分析时间长。



技术实现要素:

本发明的目的在于提供一种基于统计分析方法的高维数据自动加工及处理方法;通过对高维数据中的样本和样本维度进行统计;通过访问的次数和总时间计算样本维度与样本之间的粘合度;从而得到样本重要的样本维度;然后通过减维处理,使样本重要度较小的数据进行去除,然后通过样本之间计算相似度;解决了现有的高维数据的数据量大和分析处理时间长的问题;通过时间采集器获取样本维度相邻两次的访问时间间隔以及最后一次访问时间与将要访问的时间间隔,然后计算样本维度的压缩值;解决了高维数据在数据库内合理存储的问题。

本发明所要解决的技术问题为:

(1)如何通过计算样本重要度获取样本的样本重要度,通过样本重要度进行减维处理计算样本的相似度,解决了现有的高维数据的数据量大和分析处理时间长的问题;

(2)本发明通过计算样本维度的压缩值,对样本维度进行压缩存储,解决了高维数据在数据库内合理存储的问题。

本发明的目的可以通过以下技术方案实现:一种基于统计分析方法的高维数据自动加工及处理方法,包括以下步骤:

步骤一:采集和统计高维数据并存储在数据库内,高维数据包括样本和样本维度;

步骤二:通过数据统计工具统计样本维度的访问次数和访问总时间计算样本重要度;具体步骤如下:

s1:设定样本记为yi,i=1、……、n;设定样本维度为yij;j=1、……、n

s2:设定样本维度yij的访问次数和访问总时间分别记为pij和tij;

s3:对访问次数pij进行过滤和统计tij;获取访问次数对应访问设备的ip和访问次数对应的时刻;对访问次数对应的时刻进行判断;将一天的时间分为a个时间段;将访问次数对应的时刻与a个时间段进行匹配,统计访问次数对应的时刻匹配到的时间段的个数记为新的访问次数;则新访问次数记为pxij;

s4:利用公式nij=pxij*h1+tij*h2获取得到样本重要度nij,其中,h1为次数比例固定值;h2为时间比例系数;

步骤三:通过样本维度数据集对样本进行筛选;具体筛选步骤如下:

w1:对样本重要度nij大小设定z个取值区间;z=1……n;取值区间由大到小分别记为{nij|[kz,kz-1)},……,{nij|[k2,k1)};kz>……>k1;

w2:判断样本重要度nij所属取值区间;得到样本维度数据集uzij={yim,……,yij};其中1≤m<j;yim和yij对应的nim、nij的值均属于{nij|[kz,kz-1)}范围内;

w3:依次获取样本维度数据集uzij、uz-1ij、……u1ij的并记为dz;

w4:对样本维度数据集uzij、uz-1ij、……u1ij进行减维;减维过程为:选择减维等级;减维等级标记为ji,i=z、z-1、……、1;jz表示为样本需要需要的维度是样本维度数据集uzij,jz-1表示为样本维度包括样本维度数据集uzij和uz-1ij;依次类推,j1的样本维度最多;

步骤四:对选择减维等级后的样本计算相似度,具体过程为:

a:设定选取的减维等级为jz;对样本yi对应的样本维度数据集uzij;的样本维度数量dz进行筛选;选取dz±q对应的样本维度数据集uzij以及样本yi;其中q为预设范围固定值;

b:在筛选后的样本yi计算两个样本之间的相似度;具体表现为:选取样本ya和样本yb;其中,a=i,b=i,a≠b;获取样本ya和样本yb对应的样本维度数据集uzaj和uzbj相同样本维度的个数并记为pgab;并获取相同样本维度对应的样本重要度naj和nbj;利用公式获取得到样本ya与样本yb的相似度xsa|b,其中,r1、r2为预设比例系数。

优选的,s3中所述的统计tij具体过程如下:

a:设定访问设备访问的初始时间记为tcij;结束时间记为tdij;

b:访问设备的单次访问时间段tfij=tdij-tcij;利用求和公式统计同一访问设备的总时间;然后再利用求和公式计算所有访问设备的总时间,得到访问总时间tij。

优选的,s4中所述的时间比例系数h2的取值步骤如下:

ss1:获取单次访问时间段tfij;设定对比时间段记为mkij;k=1、……、n;每个时间段对应的时间因子记为vkij;k=1、……、n;

ss2:对单次访问时间段与对比时间段进行匹配获取对应的单次时间总因子vwkij;设定单次时间段在对比时间段重合的比例记为lkij;利用公式获取得到单次时间总因子vwkij;

ss3:利用求和公式计算所有待测时间总因子vwkij时间比例系数h2。

优选的,步骤一所述的数据库内还包括高维数据处理单元;高维数据处理单元的处理高维数据具体步骤如下:

sss1:获取样本维度对应的访问次数和访问总时间;通过时间采集器获取样本维度相邻两次的访问时间间隔并记为hgi,i=1、……、n;最后一次访问时间与将要访问的时间间隔记为hgi+1;

sss2:计算样本维度的压缩值;利用公式获取得到样本维度的压缩值ysij;其中e1、e2和e3均为预设比例固定值;hji为解压查看次数;对压缩后的样本维度访问一次,则hji增加一次;

sss3:设定压缩阀值记为es;当样本维度的压缩值ysij>es;则对该样本维度;当样本维度的压缩值ysij<es;则对该样本维度恢复解压存储。

本发明的有益效果:

(1)本发明通过对高维数据中的样本和样本维度进行统计;通过访问的次数和总时间计算样本维度与样本之间的粘合度;从而得到样本重要的样本维度;然后通过减维处理,使样本重要度较小的数据进行去除,然后通过样本之间计算相似度;通过相似度的大小实现样本之间的关联;

(2)本发明通过高维数据处理单元对高维数据进行处理,获取样本维度对应的访问次数和访问总时间;通过时间采集器获取样本维度相邻两次的访问时间间隔以及最后一次访问时间与将要访问的时间间隔,然后计算样本维度的压缩值;利用公式获取得到样本维度的压缩值ysij;当样本维度的压缩值ysij>es;则对该样本维度;当样本维度的压缩值ysij<es;则对该样本维度恢复解压存储,从而合理的压缩存储高维数据。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明一种基于统计分析方法的高维数据自动加工及处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1所示,本发明为一种基于统计分析方法的高维数据自动加工及处理方法,包括以下步骤:

步骤一:采集和统计高维数据并存储在数据库内,高维数据包括样本和样本维度;

步骤二:通过数据统计工具统计样本维度的访问次数和访问总时间计算样本重要度;具体步骤如下:

s1:设定样本记为yi,i=1、……、n;设定样本维度为yij;j=1、……、n

s2:设定样本维度yij的访问次数和访问总时间分别记为pij和tij;

s3:对访问次数pij进行过滤和统计tij;获取访问次数对应访问设备的ip和访问次数对应的时刻;对访问次数对应的时刻进行判断;将一天的时间分为a个时间段;将访问次数对应的时刻与a个时间段进行匹配,统计访问次数对应的时刻匹配到的时间段的个数记为新的访问次数;则新访问次数记为pxij;统计tij具体过程如下:

a:设定访问设备访问的初始时间记为tcij;结束时间记为tdij;

b:访问设备的单次访问时间段tfij=tdij-tcij;利用求和公式统计同一访问设备的总时间;然后再利用求和公式计算所有访问设备的总时间,得到访问总时间tij;

s4:利用公式nij=pxij*h1+tij*h2获取得到样本重要度nij,样本重要度越大,表示样本维度与样本越重要;通过公式可得,访问的次数越多,样本重要度越大;访问的时间越长,样本重要度越大;其中,h1为次数比例固定值;h2为时间比例系数;时间比例系数h2的取值步骤如下:

ss1:获取单次访问时间段tfij;设定对比时间段记为mkij;k=1、……、n;每个时间段对应的时间因子记为vkij;k=1、……、n;

ss2:对单次访问时间段与对比时间段进行匹配获取对应的单次时间总因子vwkij;设定单次时间段在对比时间段重合的比例记为lkij;利用公式获取得到单次时间总因子vwkij;

ss3:利用求和公式计算所有待测时间总因子vwkij时间比例系数h2;

步骤三:通过样本维度数据集对样本进行筛选;具体筛选步骤如下:

w1:对样本重要度nij大小设定z个取值区间;z=1……n;取值区间由大到小分别记为{nij|[kz,kz-1)},……,{nij|[k2,k1)};kz>……>k1;

w2:判断样本重要度nij所属取值区间;得到样本维度数据集uzij={yim,……,yij};其中1≤m<j;yim和yij对应的nim、nij的值均属于{nij|[kz,kz-1)}范围内;

w3:依次获取样本维度数据集uzij、uz-1ij、……u1ij的并记为dz;

w4:对样本维度数据集uzij、uz-1ij、……u1ij进行减维;减维过程为:选择减维等级;减维等级标记为ji,i=z、z-1、……、1;jz表示为样本需要需要的维度是样本维度数据集uzij,jz-1表示为样本维度包括样本维度数据集uzij和uz-1ij;依次类推,j1的样本维度最多;

步骤四:对选择减维等级后的样本计算相似度,具体过程为:

a:设定选取的减维等级为jz;对样本yi对应的样本维度数据集uzij;的样本维度数量dz进行筛选;选取dz±q对应的样本维度数据集uzij以及样本yi;其中q为预设范围固定值;

b:在筛选后的样本yi计算两个样本之间的相似度;具体表现为:选取样本ya和样本yb;其中,a=i,b=i,a≠b;获取样本ya和样本yb对应的样本维度数据集uzaj和uzbj相同样本维度的个数并记为pgab;并获取相同样本维度对应的样本重要度naj和nbj;利用公式获取得到样本ya与样本yb的相似度xsa|b,其中,r1、r2为预设比例系数;通过公式可得,样本的样本维度相同的个数越多,相似度越大,相同维度的样本重要度越接近,相似度越大;

数据库内还包括高维数据处理单元;高维数据处理单元的处理高维数据具体步骤如下:

sss1:获取样本维度对应的访问次数和访问总时间;通过时间采集器获取样本维度相邻两次的访问时间间隔并记为hgi,i=1、……、n;最后一次访问时间与将要访问的时间间隔记为hgi+1;

sss2:计算样本维度的压缩值;利用公式获取得到样本维度的压缩值ysij;其中e1、e2和e3均为预设比例固定值;hji为解压查看次数;对压缩后的样本维度访问一次,则hji增加一次;

sss3:设定压缩阀值记为es;当样本维度的压缩值ysij>es;则对该样本维度;当样本维度的压缩值ysij<es;则对该样本维度恢复解压存储;

实施例1:样本以若干个网上出售商品为例;网上出售商品包括若干个属性(维度);统计消费者在购买网上出售商品时查看商品的属性次数和时间;然后通过统计所有消费者对该网上出售商品属性的查看次数和查看时间,筛选出网上出售商品的重要属性;然后对所有网上出售商品进行重要属性进行匹配,匹配到重要属性相同的个数并计算网上出售商品的相似度;选取与网上出售商品最大相似度的另一个网上出售商品为关联商品,用户访问该网上出售商品时,则推荐该网上出售商品的关联商品;

本发明的工作原理:对高维数据中的样本和样本维度进行统计;通过访问的次数和总时间计算样本维度与样本之间的粘合度;从而得到样本重要的样本维度;然后通过减维处理,使样本重要度较小的数据进行去除,然后通过样本之间计算相似度;从而得到样本之间的相似度;通过相似度的大小实现样本之间的关联;数据库内还包括高维数据处理单元;高维数据处理单元对高维数据进行处理,获取样本维度对应的访问次数和访问总时间;通过时间采集器获取样本维度相邻两次的访问时间间隔以及最后一次访问时间与将要访问的时间间隔,然后计算样本维度的压缩值;利用公式获取得到样本维度的压缩值ysij;当样本维度的压缩值ysij>es;则对该样本维度;当样本维度的压缩值ysij<es;则对该样本维度恢复解压存储,从而合理的压缩存储高维数据。

以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1