用于对压缩的数据矢量进行数据挖掘的方法和设备的制作方法

文档序号:6533656阅读:261来源:国知局
用于对压缩的数据矢量进行数据挖掘的方法和设备的制作方法
【专利摘要】提出一种用于通过可表达为欧几里得距离的函数的某个度量而对压缩的数据矢量进行数据挖掘的方法。在第一步骤中,对于每个压缩的数据矢量,存储在压缩的数据矢量中的具有最大能量的这样的系数的位置和值。在第二步骤中,对于每个压缩的数据矢量,丢弃在压缩的数据矢量中的不具有最大能量的系数。在第三步骤中,对于每个压缩的数据矢量,根据在压缩的数据矢量中的丢弃的系数来确定压缩误差。在第四步骤中,根据具有最大能量的系数的存储的位置和存储的值以及确定的压缩误差来取回用于某个度量的上界和下界中的至少一个。
【专利说明】用于对压缩的数据矢量进行数据挖掘的方法和设备

【技术领域】
[0001] 本发明涉及一种用于利用可表达为欧几里得距离的函数的某个度量对压缩的数 据矢量进行数据挖掘的方法和设备。

【背景技术】
[0002] 在数据分析中的常有问题是增加的数据集大小。这一趋势规定不仅需要更高效压 缩方案而且需要对压缩的数据直接工作的分析操作。可以基于利用在数据中的固有模式和 结构来设计高效压缩方案。数据周期是可以显著地提高压缩的一个这样的特性。
[0003] 周期行为普遍存在,许多类型的收集的测量表现出周期模式、包括博客数据[1,2, 3]、网络测量[4]、环境和自然过程[5,6]、医学和生理测量、前述仅为处置周期数据的许多 科学和工业领域中的一些领域。
[0004] 在数据包含固有结构时,可以执行高效压缩而数据质量损失最小。这可通过在完 整正交基(complete orthonormal basis)表示、例如傅里叶、小波、主分量分析(PCA)中仅 使用少数高能量系数来实现。
[0005] 在数据挖掘团体中,已经如例如在[8]中描述的那样广泛地研究在欧几里得距离 之下对时间序列(time-series)数据搜索。然而这样的研究通常已经考虑仅使用第一傅里 叶或者小波的压缩。已经如在[1]中描述的那样研究对相异系数集合的使用。
[0006] 用于依次数据的数据压缩技术中的多数数据压缩技术无论使用傅里叶[7,8]、小 波[9,10]或者切比雪夫多项式[11]都使用相同低能系数集合作为用于表示和压缩的正交 基。使用相同正交系数集合具有若干优点:首先,比较相应系数是立即进行的。第二,可以 对压缩的数据直接使用空间分割编索引结构、比如R树。第三,不必还存储所存储的系数对 应于的基函数的索引。缺点可能是对象重建和距离估计二者可能与对于给定的固定压缩比 而言最优相距甚远。
[0007] 也可以记录附带信息、比如丢弃的系数的能量以通过利用柯西-施瓦兹不等式
[13]来更好地逼近(approximate)在压缩的序列之间的距离。
[0008] 在US 2009/0204754A1 (见[25])中,检查在一个压缩与一个未压缩的数据矢量之 间的距离估计。


【发明内容】

[0009] 根据第一方面的一个实施例,提出一种用于通过按照可表达为欧几里得距离的函 数的某个度量而对压缩的数据矢量进行数据挖掘的方法。在第一步骤中,对于每个压缩的 数据矢量,存储在压缩的数据矢量中的具有最大能量的这样的系数的位置和值。在第二步 骤中,对于每个压缩的数据矢量,丢弃在压缩的数据矢量中的不具有最大能量的系数。在第 三步骤中,对于每个压缩的数据矢量,根据在压缩的数据矢量中的丢弃的系数来确定压缩 误差。在第四步骤中,根据具有最大能量的系数的存储的位置和存储的值以及确定的压缩 误差来取回用于某个度量的上界和下界中的至少一个。
[0010] 通过根据具有最大能量的系数的存储的位置和存储的值以及确定的压缩误差来 取回用于某个度量的上界和下界,可以提供尽可能紧密的界限。获得紧密界限引起减少对 压缩的数据矢量的、数据挖掘的相似性的不确定性。因此,可以增强对压缩的数据数量的数 据挖掘。
[0011] 具体而言,由于界限的所提供的紧密性,对压缩的数据矢量的数据挖掘表示用于 对未压缩的数据矢量的数据挖掘的良好逼近。
[0012] 根据在压缩的数据矢量中的丢弃的系数的能量之和来确定相应压缩误差。
[0013] 与[25]对照,根据本方案的实施例,在使用高能量系数来压缩两个数据矢量时检 查距离估计。
[0014] 用于数据矢量的示例可以是高维数据矢量或者时间序列数据序列。
[0015] 根据一些实现,假设两个压缩的数据矢量,可以提供关于在未压缩的对象之间的 原有距离的最紧密可能上界和下界。最紧密意味着在信息给定时不可能推导更好估计。距 离估计是数据挖掘的基础,因为挖掘和学习任务中的多数挖掘和学习任务基于距离、包括 聚类、例如k均值或者分级、k-NN分类、孤立点检测(outlier detection)、模式匹配等。 [0016] 根据一些实现,可以制定紧密距离估计问题为用于获得下界/上界的两个优化问 题。可以通过解决单凸优化程序来同时解决两个问题。以下给出细节。
[0017] 根据一些实现,推导用于最优求解的必要和充分Karush-Kuhn-Tucker(KKT)条 件,并且提供最优求解的性质。
[0018] 根据一些实现,使用分析以推导用于获得最优下界/上界的确切算法。
[0019] 因而,关于距离的估计的下界/上界为最优地紧密,以便最小化关于距离估计的 不确定性。这又意味着本方案可以最少地影响直接对压缩的数据操作进行的任何基于距离 的挖掘操作。
[0020] 根据一些实现,为每个虚拟维持相异系数集合,并且记录压缩误差的L2范数。
[0021] 根据一些实现,提供L2范数或者相关性的最紧密可证明估计。另外,本方案可以 比由凸求解器获得的数值求解执行快至少两个数量级。本方案可以适用于周期的数据、任 何连续或者高维数据以及用于下层数据压缩方案的任何正交数据变换。
[0022] 在一个实施例中,将度量具体化为欧几里得距离或者为相关性或者为余弦相似性 等。
[0023] 在另一实施例中,通过将压缩的数据矢量的系数根据它们的相应能量排序并且通 过选择最高排序的系数中的预定义数目的系数来标识在相应压缩的数据矢量中的具有最 大能量的系数。因此,可以存储固定、预定数目的系数用于提供固定压缩比。
[0024] 在另一实施例中,通过选择产生预定压缩误差的最小数目的那些系数来标识在相 应压缩的数据矢量中的具有最大能量的系数。这里,可以提供固定、预定压缩误差。
[0025] 在另一实施例中,在相应压缩的数据矢量中的具有比预定义能量阈值更高的能量 的所有系数被存储为具有最大能量的系数。
[0026] 在另一实施例中,在两个压缩的数据矢量中的任一压缩的数据矢量或者二者中的 具有最大能量的系数的不同位置被存储。因此,在压缩的数据矢量中的具有最大能量的不 同系数集合被存储。
[0027] 在另一实施例中,通过具有某个压缩比的某个有损压缩变换将数据矢量变换成所 述系数表示的压缩的数据矢量。
[0028] 在另一实施例中,选择压缩变换和压缩比中的至少一项。
[0029] 在另一实施例中,压缩变换由具有完整正交基的不可逆线性变换来具体化。用 于这样的不可逆线性变换的示例是离散傅里叶变换(DFT)、主分量分析(PCA)、也被称为 Karhunen-Loeve扩展、切比雪夫多项式和小波。
[0030] 在另一实施例中,数据矢量由通过通信网络传送的周期网络数据来具体化。
[0031] 在另一实施例中,双水填充算法根据具有最大能量的系数的存储的位置和存储的 值以及确定的压缩误差确切地取回上界和下界而具体无任何逼近数值方法。
[0032] 在另一实施例中,在用于取回用于两个压缩的数据矢量的上界和下界的双水填充 算法内,使用第一位置,其中对于第一压缩的数据矢量丢弃系数而对于第二压缩的数据矢 量存储系数,使用第二位置,其中对于第一压缩的数据矢量存储系数而对于第二压缩的数 据矢量丢弃系数,并且使用第三位置,其中对于第一数据矢量和第二数据矢量相互地丢弃 系数的位置。
[0033] 在另一实施例中,通过水填充算法在第一位置使用第一压缩的数据矢量的压缩误 差的最优估计来估计在第一位置的第一压缩的数据矢量的丢弃的系数。另外,通过水填充 算法在所述第二位置使用第二压缩的数据矢量的压缩误差的最优估计来估计在第二位置 的第二压缩的数据矢量的丢弃的系数。
[0034] 在另一实施例中,利用柯西-切比雪夫不等式以用于优化第一压缩的数据矢量和 第二压缩的数据矢量的第三位置的相关性。
[0035] 第一方面的任何实施例可以与第一方面的任何实施例组合以获得第二方面的另 一实施例。
[0036] 根据第二方面的一个实施例,提出一种计算机程序,该计算机程序包括用于在至 少一个计算机上运行时执行用于对压缩的数据矢量进行数据挖掘的以上第一方面的方法 的程序代码。
[0037] 根据第三方面,提出一种用于通过可表达为欧几里得距离的函数的某个度量而对 压缩的数据矢量进行数据挖掘的设备。该设备包括存储装置、丢弃器、确定器和取回器。存 储装置被配置为存储在压缩的数据矢量中的具有最大能量的这样的系数的位置和值。丢弃 器被配置为丢弃在相应压缩的数据矢量中的不具有最大能量的系数。确定器被配置为根据 在相应压缩的数据矢量中的丢弃的系数来确定相应压缩误差。取回器被配置为根据具有最 大能量的系数的存储的位置和存储的值以及确定的压缩误差取回用于某个度量的上界和 下界中的至少一个。
[0038] 存储装置可以是任何存储装置。另外,丢弃器可以是用于丢弃的任何装置,确定器 可以是用于确定的任何装置,并且取回器可以是用于取回的任何装置。
[0039] 可以在硬件中和/或在软件中实施相应装置。如果在硬件中实施所述装置,则可 以将它具体化为设备、例如为计算机或者为处理器或者为系统的部分、例如计算机系统。如 果在软件中实施所述装置,则可以将它具体化为计算机程序产品、为函数、为例程、为程序 代码或者为可执行对象。
[0040] 在下文中,参照附图描述本发明的示例实施例。

【专利附图】

【附图说明】
[0041] 图1示出用于对压缩的数据矢量进行数据挖掘的方法步骤序列的一个实施例;
[0042] 图2示出用于对压缩的数据矢量进行数据挖掘的设备的一个实施例的示意框图;
[0043] 图3示出如下图,该图图示在完整正交基中表示的在压缩的序列与查询之间的距 离估计,其中通过存储第一系数来压缩两个序列;
[0044] 图4示出如下图,该图图示在完整正交基中表示的在压缩的序列与查询之间的距 离估计,其中最高能量系数用于一个序列而另一序列是未被压缩的;
[0045] 图5示出如下图,该图图示在完整正交基中表示的在压缩的序列与查询之间的距 离估计,其中使用最高能量系数来压缩两个序列;
[0046] 另外,图6示出如下图,该图图示两个未压缩的数据序列;
[0047] 图7示出如下图,该图图示使用第一系数来压缩的两个序列;
[0048] 图8示出如下图,该图图示使用具有最高能量的系数来压缩的两个序列;
[0049] 图9示出集合P0、P1、P2、P3的可视图示;
[0050] 图10示出四个函数的绘图;并且
[0051] 图11示出适合用于对压缩的数据矢量的数据挖掘的系统的一个实施例的示意框 图。
[0052] 如果未以别的方式指示则已经向在各图中的相似或者功能相似单元分配相同标 号。

【具体实施方式】
[0053] 在图1中,描绘用于按照可表达为欧几里得距离的函数的某个度量对压缩的数据 矢量进行数据挖掘的方法步骤序列的一个实施例。可以体现度量为欧几里得距离或者为相 关性或者为余弦相似性。数据矢量可以由通过通信网络传送的周期网络数据体现。通过具 有某个压缩比的某个有损压缩变换将数据矢量变换成系数表示的压缩的数据矢量。就这一 点而言,可以选择压缩变换和压缩比中的至少一项。另外,压缩变换由具有完整正交基的不 可逆线性变换、例如离散傅里叶变换(DFT)、主分量分析(PCA)、切比雪夫多项式或者小波 来具体化。
[0054] 所述方法具有以下步骤101至104 :
[0055] 在步骤101中,对于每个压缩的数据矢量,存储在压缩的数据矢量中的具有最大 能量的这样的系数的位置和值。在相应压缩的数据矢量中的具有最大能量的系数可以通过 以下三个备选之一来标识:
[0056] 在第一备选中,压缩的数据矢量的系数根据它们的相应能量来排序。然后选择预 定义数目的最高排序的系数。
[0057] 在第二备选中,通过选择产生预定压缩误差的最小数目的那些系数来标识在相应 压缩的数据矢量中的具有最大能量的系数。
[0058] 在第三备选中,在相应压缩的数据矢量中的具有比预定义能量阈值更高的能量的 所有系数被存储作为具有最大能量的系数。
[0059] 另外,在所述步骤101内,在至少两个压缩的数据矢量中的具有最大能量的系数 的不同位置被存储。因此,在压缩的数据矢量中的具有最大能量的不同系数集合被存储。
[0060] 在步骤102中,对于每个压缩的数据矢量,丢弃在压缩的数据矢量中的无最大能 量的系数。
[0061] 在步骤103中,对于每个压缩的数据矢量,根据在压缩的数据矢量中的丢弃的系 数确定压缩误差。报告压缩误差为丢弃的系数的L2范数(L2-n〇rm)。
[0062] 在步骤104中,根据具有最大能量的系数的存储的位置和存储的值以及确定的压 缩误差取回用于某个度量的上界和下界中的至少一个。
[0063] 具体而言,双水填充算法(double water-filling algorithm)根据具有最大能量 的系数的存储的位置和存储的值以及确定的压缩误差确切地取回上界和下界。
[0064] 在用于取回用于两个压缩的数据矢量的上界和下界的双水填充算法内,使用第一 位置(Pl),其中对于第一压缩的数据矢量丢弃而对于第二压缩的数据矢量存储系数,使用 第二位置(P2),其中对于第一压缩的数据矢量存储而对于第二压缩的数据矢量丢弃系数, 并且使用第三位置(P3),其中对于第一和第二数据矢量相互地丢弃系数的位置。另外,水填 充算法(water-filling algorithm)在第一位置(Pl)使用第一压缩的数据矢量的压缩误差 的最优估计来估计在第一位置的第一压缩的数据矢量的丢弃的系数,并且其中水填充算法 使用在所述第二位置(P2)的第二压缩的数据矢量的压缩误差的最优估计来估计在第二位 置(P2)的第二压缩的数据矢量的丢弃的系数。利用柯西-切比雪夫不等式用于优化第一 和第二压缩的数据矢量的第三位置(P3)的相关性。
[0065] 图2示出用于按照可表达为欧几里得距离的函数的某个度量对压缩的数据矢量 的数据挖掘的设备20的一个实施例的示意框图。
[0066] 设备20包括存储装置21、丢弃器22、确定器23和取回器24。存储装置21被配置 为存储在相应压缩的数据矢量中的具有最大能量的这样的系数的位置和值。丢弃器22被 配置为丢弃在相应压缩的数据矢量中的无最大能量的系数。确定器23被配置为根据在相 应压缩的数据矢量中的丢弃的系数确定相应压缩误差。取回器24被配置为根据具有最大 能量的系数的存储的位置和存储的值以及确定的压缩误差取回用于某个度量的上界和下 界中的至少一个。
[0067] 为了举例说明本方案与常规解决方案比较的更紧密界限的增强的效果,描绘图3 至5。
[0068] 就这一点而言,图3示出如下图,该图图示在完整正交基中表示的在压缩的序列 与查询之间的距离估计,其中通过存储第一系数来压缩两个序列。在图3中的距离为6, 4。
[0069] 图4示出如下图,该图图示在完整正交基中表示的在压缩的序列与查询之间的距 离估计,其中最高能量系数用于一个序列而另一序列是未被压缩的。在图4中的距离为 4, 3。
[0070] 图5示出如下图,该图图示在完整正交基中表示的在压缩的序列与查询之间的距 离估计,其中使用最高能量系数来压缩两个序列。在图5中的距离在5, 7与7, 2之间。 [0071] 图6示出如下图,该图图示两个未压缩的数据序列,图7示出如下图,该图图示使 用第一系数(cl)来压缩的两个序列,并且图8示出如下图,该图图示使用具有最高能量的 系数(c2)来压缩的两个序列。
[0072] 使用距离估计来搜索数据、符号表示、动机和问题制定、等效凸优化问题和确切求 解这些以下章节可以举例说明本发明的功能原理:
[0073] 俥用距离估计来榑索数据
[0074] 考虑数据库DB,该数据库存储序列为V个高维复矢量x(i) e CN,i = 1,...V可以 抽象化考察的搜索问题如下:用户对发现在某个距离度量d之下与给定的查询序列q G DB 的k个最'相似'序列感兴趣:
[0075]

【权利要求】
1. 一种用于通过可表达为欧几里得距离的函数的某个度量而对压缩的数据矢量进行 数据挖掘的方法,所述方法包括: 对于每个压缩的数据矢量,存储(101)在所述压缩的数据矢量中的具有最大能量的这 样的系数的位置和值; 对于每个压缩的数据矢量,丢弃(102)在所述压缩的数据矢量中的不具有所述最大能 量的所述系数; 对于每个压缩的数据矢量,根据在所述压缩的数据矢量中的丢弃的所述系数来确定 (103)压缩误差;以及 根据具有所述最大能量的所述系数的存储的所述位置和存储的所述值以及确定的所 述压缩误差来取回(104)用于所述某个度量的上界和下界中的至少一个。
2. 根据权利要求1所述的方法,其中所述度量被具体化为欧几里得距离或者为相关性 或者为余弦相似性。
3. 根据权利要求1或者2所述的方法,其中通过将所述压缩的数据矢量的所述系数根 据它们的相应能量进行排序并且通过选择最高排序的系数中的预定义数目的系数来标识 在相应的所述压缩的数据矢量中的具有所述最大能量的所述系数。
4. 根据权利要求1或者2所述的方法,其中通过选择在相应的所述压缩的数据矢量中 的产生预定压缩误差的最小数目的那些系数来标识在相应的所述压缩的数据矢量中的具 有所述最大能量的所述系数。
5. 根据权利要求1或者2所述的方法,其中在相应的所述压缩的数据矢量中的具有比 预定义能量阈值更高的能量的所有系数被存储作为具有所述最大能量的所述系数。
6. 根据权利要求1至5中任一项所述的方法,其中在至少两个压缩的数据矢量中的具 有所述最大能量的系数的不同位置被存储。
7. 根据权利要求1至6中任一项所述的方法,其中通过具有某个压缩比的某个有损压 缩变换而将数据矢量变换成由所述系数表示的所述压缩的数据矢量。
8. 根据权利要求7所述的方法,其中所述压缩变换和所述压缩比中的至少一项被选 择。
9. 根据权利要求8所述的方法,其中所述压缩变换由具有完整正交基的不可逆线性变 换、例如由离散傅里叶变换(DFT)、由主分量分析(PCA)、由切比雪夫多项式或者由小波来 具体化。
10. 根据权利要求1至9中任一项所述的方法,其中通过双水填充算法根据具有所述最 大能量的所述系数的存储的所述位置和存储的所述值以及确定的所述压缩误差、尤其是无 任何逼近数值方法来确切地取回所述上界和所述下界。
11. 根据权利要求10所述的方法,其中在用于取回用于所述两个压缩的数据矢量的所 述上界和所述下界的所述双水填充算法内,使用第一位置,其中对于第一压缩的数据矢量 丢弃所述系数而对于第二压缩的数据矢量存储所述系数,使用第二位置,其中对于所述第 一压缩的数据矢量存储所述系数而对于所述第二压缩的数据矢量丢弃所述系数,并且使用 第三位置,其中对于第一数据矢量和第二数据矢量相互地丢弃所述系数的所述位置。
12. 根据权利要求11所述的方法,其中通过水填充算法在所述第一位置使用所述第一 压缩的数据矢量的所述压缩误差的最优估计来估计在所述第一位置的所述第一压缩的数 据矢量的丢弃的所述系数,并且其中通过所述水填充算法在所述第二位置使用所述第二压 缩的数据矢量的压缩误差的所述最优估计来估计在所述第二位置的所述第二压缩的数据 矢量的丢弃的所述系数。
13. 根据权利要求11或者12所述的方法,其中利用柯西-切比雪夫不等式以用于优化 所述第一压缩的数据矢量和所述第二压缩的数据矢量的所述第三位置的相关性。
14. 一种计算机程序,包括用于当在至少一个计算机上运行时执行根据权利要求1至 13中任一项所述的用于对压缩的数据矢量进行数据挖掘的方法的程序代码。
15. -种用于通过可表达为欧几里得距离的函数的某个度量而对压缩的数据矢量进行 数据挖掘的设备(20),所述设备包括: 存储装置(21),用于存储在相应的所述压缩的数据矢量中的具有最大能量的这样的系 数的位置和值, 丢弃器(22),用于丢弃在相应的所述压缩的数据矢量中的不具有所述最大能量的所述 系数, 确定器(23),用于根据在相应的所述压缩的数据矢量中的丢弃的所述系数来确定相应 压缩误差,以及 取回器(24),用于根据具有所述最大能量的所述系数的存储的所述位置和存储的所述 值以及确定的所述压缩误差来取回用于所述某个度量的上界和下界中的至少一个。
【文档编号】G06F9/45GK104335176SQ201380021614
【公开日】2015年2月4日 申请日期:2013年4月24日 优先权日:2012年4月26日
【发明者】N·弗雷里斯, F·福斯科, M·威拉乔斯 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1