概述非线性回归问题中的结构化矩阵的制作方法

文档序号:8380920阅读:356来源:国知局
概述非线性回归问题中的结构化矩阵的制作方法
【专利说明】
[0001] 政府合同
[0002] 本发明是在政府支持下完成的,合同号为FA8750-12-C-0323,由国防部高级研宄 计划局授予。政府对本发明享有某些权利。
技术领域
[0003] 本发明一般涉及预测分析领域,特别地,涉及基于概述(sketch)非线性回归问题 中的结构化矩阵的高效和可伸缩的预测分析系统。
【背景技术】
[0004] 数据分析应用中普遍出现的一个基本统计问题是非线性回归。对于大的数据集, 解决这样的问题从计算上来说很有挑战性。
[0005] 尽管存在解决线性最小二乘回归和最小绝对偏差问题的随机技术的发展,它们并 不会利用在回归问题中经常发现的结构。例如,在多项式拟合问题和某些核回归问题中,设 计矩阵的结构化很强,可想象其能导致解决回归问题的更快方法。
[0006] 需要一种方法来利用这种结构。

【发明内容】

[0007] 本发明提供了一种运行对于数字线性代数问题的基于概述的算法的系统和方法, 包括多项式拟合和结构化回归。
[0008] 在一个实施例中,当设计矩阵是范德蒙德矩阵或这种矩阵的序列时,该方法快速 并近似地解决结构化回归问题,其中问题以各种统计建模设置自然出现,包括经典多项式 拟合问题、加法模型(additive model)和近似,以及用于可伸缩核方法(kernel method) 的最近开发的随机技术。
[0009] 该范德蒙德矩阵结构可被开发,以进一步加速解决回归问题,实现比"输入稀疏" 更快的运行时间(即,其写下描述回归问题的矩阵所需的时间)。
[0010] 在一方面,提供了一种计算机实施的用于解决快速非线性回归和分类问题的方 法。该方法包括:利用稀疏嵌入矩阵和结构化随机矩阵来概述输入和输出数据;利用输入 和输出数据中的结构来加速概述,所述结构是范德蒙德矩阵形式;并解决概述的数据的回 归问题。
[0011] 在又一个方面,提供了一种用于解决快速非线性回归和分类问题的系统,包括:存 储器;以及耦合到存储器的硬件处理器设备,被配置为执行包括以下步骤的方法:利用稀 疏嵌入矩阵和结构化随机矩阵来概述输入和输出数据;利用输入和输出数据中的结构来加 速概述,所述结果是范德蒙德矩阵形式;并解决概述的数据的回归问题。
[0012] 在又一个方面,提供了一种用于执行操作的计算机程序产品。计算机程序产品包 括存储介质,其可被处理电路读取,并存储由处理电路运行的指令以运行方法。该方法与如 上描述的一样。
【附图说明】
[0013] 现在将参考以下附图作为非限制性的例子描述实施例。
[0014] 图1示出了根据在此描述的方法解决的回归问题的概述;
[0015] 图2A到2C示出了本发明的预测分析方法的方面:图2A示出了应用概述矩阵S的 一般方法的第一步骤20 ;图2B示出了在应用概述矩阵S后改良的回归问题30 ;且图2C示 出了概述矩阵S的应用的描述以及S和A都被结构化以允许增加的处理速度的指示。
[0016] 图3示出了在一个实施例中,实施处理器"p"55a,... 55η的描述50,处理器被配 置为将相同的概述矩阵S局部应用到其数据,并将相应的结果传播到中央处理器。
[0017] 图4示出了在范德蒙德矩阵中使用的数据结构70以有助于实现更快的处理方法, 并指示了几个应用,诸如多项式拟合和多变量多项式拟合;
[0018] 图5示出了在一个实施例中被命名为算法I (StructRegression-2) 100的第一概 述矩阵乘法算法;
[0019] 图6示出了在一个实施例中被命名为算法2 (StructRegression-I) 150的第二概 述矩阵乘法算法;
[0020] 图7示出了概括(generalization)性能表175形式的不同方法的测试误差和训 练时间的比较;
[0021] 图8A-8C示出了概述的示例性性能曲线,其报告了概述在运行时间方面的好处, 以及在准确率方面的权衡;且
[0022] 图9示出了其中可运行本方法的计算系统架构200的示例性硬件配置。
【具体实施方式】
[0023] 系统和方法使用某种随机概述和采样转换来大大压缩大数据集,同时保持其关键 特性。这允许对在较小的数据概述上很快地运行分析,但达到相同或类似的输出质量,就好 象在整个数据集上运行那样。
[0024] 系统和方法通过应用用于非线性回归的概述/采样概念,并针对特定结构化矩阵 的问题,执行预测分析。
[0025] 图1示出了以代数形式写出的回归问题的概念描述。在图1中,回归问题10 是发现矩阵"X",使得给定回归问题类,矩阵"Αχ"与矢量"b"(值列表)尽可能接近: minx I Ax_bIp〇
[0026] 在此描述的实施例中,矩阵A是块范德蒙德(block-Vandermonde)结构化矩阵。接 近性是根据Lp度量而度量的,它是曲线有多好的一种度量的回归。"lp"回归中的p的不同 值对应于不同的误差,例如P = 1是每个数据点对曲线的距离和,P = 2是每个数据点到曲 线的距离的平方和。
[0027] 图2A-2C示出了在此讨论的实施例的方法。
[0028] 图2A示出了将概述矩阵S应用到矩阵A和矢量b的一般方法的第一步骤20。即, 由编程计算机系统实施的方法首先计算以下乘积:S*A和S*b,其分别是矩阵-矩阵乘积和 矩阵 -矢量乘积。概述矩阵S在每列具有单个非零项。矩阵A具有与其相关的快速矢量-矩 阵方法,因为它是范德蒙德结构化矩阵。矩阵SA被缩小尺寸为比"A"还小的矩阵,如同矢 量" sb "被缩小尺寸为比"b "还小的矢量。
[0029] 图2B示出了应用概述矩阵S后的改良的即新的回归问题30, 即,解决 minx| SAx-Sb |p。为了解决该缩减的问题,用于"lp"回归的任何算法可被用作"黑盒"处理。 如果"S"是一种概述矩阵,且如果多项式矩阵A具有范德蒙德形式,"SA"矩阵可被更快得 多地计算。"Sb"矢量也可被更快得多地计算,这样回归问题整体都被处理地更快得多。
[0030] 图2C示出了概述矩阵S的应用的描述40,以及S和A都被结构化以允许增加的处 理速度的指示45。即,使用下列事实,S*A矩阵-矩阵计算被很快速地执行:(I) S在每列具 有单个非零项;以及(2) A具有与其相关的快速矢量-矩阵方法,因为它是范德蒙德矩阵。
[0031] 更具体地,如以下将详细描述的,考虑以下等式1)中的类型的回归问题类:
【主权项】
1. 一种计算机实施的用于解决快速非线性回归和分类问题的方法,包括: 使用稀疏嵌入矩阵和结构化随机矩阵来概述输入数据和输出数据; 利用数据中的结构来加速概述,所述结构是范德蒙德矩阵形式;以及 在概述的数据上解决回归问题,硬件处理器执行一个或多个所述概述、结构利用和问 题解决。
2. 如权利要求1所述的计算机实施的方法,其中回归问题是minxIAx-b|p的形式,其中 X是矩阵,A是块范德蒙德结构化矩阵,b是矢量,而p是1范数或欧几里得范数。
3. 如权利要求1所述的计算机实施的方法,还包括: 生成对于所述回归问题的输出x',其中输出X'满足|Ax'-b|p彡(l+eps)minx|Ax-b|p, 其中eps>0是用户指定的精确度参数。
4. 如权利要求1所述的计算机实施的方法,其中回归问题是minxITq(A)X-Mj^形式, 其中X是矩阵,A是任意(nXd)矩阵,且Tq(A)通过用q-元组(1,AuAi,/,…,Ai^1)替 换每个项将A扩展为(nx(dq))矩阵。
5. 如权利要求4所述的计算机实施的方法,还包括: 生成对于回归问题的输出x',其中输出X'满足|Ax'-b|p彡(l+eps)minx|Ax-b|pj*eps(e) >0是用户指定的精确度参数。
6. 如权利要求5所述的计算机实施的方法,还包括: 在根据O(nnz⑷log2q)+poly(dq/e)的时间中以p= 2来解决所述回归问题,其中nnz(A)表示矩阵A的非零项的数量。
7. 如权利要求5所述的计算机实施的方法,还包括: 在根据〇(〇11^(4)+(^)1(^(1/£))+口〇17((^)的时间中以口 = 2来解决所述回归问题, 其中nnz(A)表示矩阵A的非零项的数量。
8. 如权利要求5所述的计算机实施的方法,还包括: 在根据〇(nnz⑷lognlog2q) +(dqelogn)的时间中以p= 1来解决所述回归问题,其 中nnz(A)表示矩阵A的非零项的数量。
9. 一种用于解决快速非线性回归和分类问题的系统,包括: 存储器; 硬件处理器,其耦合到存储器并被配置为执行包括如下步骤的方法: 使用稀疏嵌入矩阵和结构随机矩阵来概述输入数据和输出数据; 利用输入数据和输出数据中的结构来加速概述,所述结构是范德蒙德矩阵形式;以及 在概述的数据上解决回归问题。
10. 如权利要求9所述的系统,其中回归问题是minxIAx-bIp的形式,其中X是矩阵,A 是块范德蒙德结构化矩阵,b是矢量,而p是1范数或欧几里得范数。
11. 如权利要求9所述的系统,其中,所述硬件处理器还被配置为: 生成对于所述回归问题的输出x',其中输出X'满足|Ax'-b|p彡(l+eps)minx|Ax-b|p, 其中eps>0是用户指定的精确度参数。
12. 如权利要求9所述的系统,其中回归问题是minxITq (A)x-bIp的形式,其中X是矩 阵,A是任意(nXd)矩阵,且Tq (A)通过用q-元组(1,\』,/,…,\广)替换每个项Ai,j 将A扩展为(nX(dq))矩阵。
13. 如权利要求9所述的系统,其中,所述硬件处理器还被配置为: 生成对于回归问题的输出x',其中输出X'满足|Ax'-b|p彡(l+eps)minx|Ax-b|pj*eps(e) >0是用户指定的精确度参数。
14. 如权利要求9所述的系统,其中,所述硬件处理器还被配置为: 在根据O(nnz⑷log2q)+poly(dq/e)的时间中以p= 2来解决所述回归问题,其中nnz(A)表示矩阵A的非零项的数量。
15. 如权利要求9所述的系统,其中,所述硬件处理器还被配置为: 在根据〇((nnz(A)+dq)log(l/e))+p〇ly(dq)的时间中以p= 2来解决所述回归问题, 其中nnz(A)表示矩阵A的非零项的数量。
16. 如权利要求9所述的系统,其中,所述硬件处理器还被配置为: 在根据〇(nnz⑷lognlog2q) +(dqelogn)的时间中以p= 1来解决所述回归问题,其 中nnz(A)表示矩阵A的非零项的数量。
【专利摘要】公开了一种用于快速并近似解决结构化回归问题的系统、方法和计算机程序产品。在一方面,该系统、方法和计算机程序产品适用于在各种统计建模设置中自然出现的问题(当设计矩阵是范德蒙德矩阵或是一系列这样的矩阵时)。利用范德蒙德矩阵结构还加速解决了回归问题,实现比“输入稀疏”更快的运行时间。建模框架加速有益于用于解决结构化回归问题的随机回归。
【IPC分类】G06F17-18
【公开号】CN104699660
【申请号】CN201410520663
【发明人】H·阿夫隆, V·辛杜瓦纳, D·P·伍德拉夫
【申请人】国际商业机器公司
【公开日】2015年6月10日
【申请日】2014年9月30日
【公告号】DE102014114392A1
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1