本发明属于数据挖掘与机器学习领域,涉及数据挖掘和数据处理的方法,具体地说,涉及一种基于固定预算的核岭回归在线学习方法。
背景技术
岭回归通过放弃回归系数估计的无偏性,以损失部分信息、降低精度为代价获得更稳健的回归系数估计,在病态数据上的拟合效果优于最小二乘法。而融合了核技巧的核岭回归可有效处理非线性问题因而得到了更为广泛的应用。传统核岭回归模型的求解是基于批处理算法执行的,算法的计算复杂度为o(n3),其中n为样本数。然而,越来越多的实际问题所处理的数据具有数据流特性,如动态工业生产过程优化、传感器实时监测等,其采样数据均是以数据流的形式随时间推移不断采集的。批处理算法由于计算复杂度高,不适合处理上述数据流问题。为此,国内外学者们开始研究核岭回归的在线学习算法,以降低计算复杂度,减少模型运行时间,标志性成果是b.w.chen提出的增量式核岭回归在线学习方法。该方法利用sherman-morrison-woodbury公式迭代更新核岭回归模型,将每次模型更新的计算复杂度由o(n3)降到o(n2)。由于样本量随时间线性增长,核岭回归模型的规模、存储空间、运行时间都将随之不断增加。为解决上述问题,亟待开发一种基于固定预算学习样本集的核岭回归在线学习方法,在保证模型精度的同时有效控制模型的存储空间和学习时间,以适应数据流环境。
技术实现要素:
本发明的目的在于针对现有核岭回归在线学习方法无法有效控制模型规模等不足,提出了一种基于固定预算的核岭回归在线学习方法,该方法能够降低模型存储空间,减少运行时间,满足应用问题的实时性需求。
根据本发明实施例,提出了一种基于固定预算学习样本集的核岭回归在线学习方法,含有以下步骤:
(一)通过数值实验确定预算取值;
(二)按照预算随机选取初始学习样本构造初始学习样本集合,建立岭回归模型,通过中心化方法将岭回归模型转化为无截距的岭回归模型并得到岭回归解,引入核技巧将岭回归预测器等价转化为核岭回归预测器;
(三)以mini-batch或one-by-one的形式采集数据流,采用预测器对数据流中的样本进行预测;
(四)采用3σ法则剔除数据流中的噪声,以保持预测器的稳定性;
(五)根据样本贡献值将部分样本加入学习样本集合,并按照最小贡献准则剔除相应数量的样本,维持预算稳定;
(六)利用低秩矩阵校正技术以及sherman-morrison-woodbury公式更新核岭回归模型,得到在线预测器,通过在线预测器对数据流进行在线预测。
在根据本发明实施例的学习方法中,步骤(一)中,确定预算的具体步骤为:
(1)确定训练样本集合和测试样本集合。
(2)依次选取待测预算值,按照待测预算值在训练样本集合中随机选取相应数目的样本,建立核岭回归模型,并应用测试样本集合测试该预算值的精度。
(3)执行步骤(2)10次,并计算各个预算的平均测试精度及平均测试时间。
(4)利用平均测试精度和平均测试时间绘制双纵轴曲线,综合考虑时间成本和核岭回归模型精度确定合理预算。
在根据本发明实施例的学习方法中,步骤(二)中,得到预测器的具体步骤为:
按照确定的预算n随机选取训练样本构造学习样本集合,建立岭回归模型,岭回归模型表示为:
其中,β为岭回归预测器的系数向量,b为截距项,ei为误差项,λ为模型正则化参数,
采用如下中心化方法去掉模型中的截距项,具体方法为:用
β=[φt(x)φ(x)+λi]-1φt(x)y,(2)
其中,
将岭回归解(2)等价转化为如下内积表示形式
φt(x)[φ(x)φt(x)+λi]-1y,(3)
进一步引入核技巧可得核岭回归预测器:
f(x)=k(x,x)(k+λi)-1y.(4)
其中,
在根据本发明实施例的学习方法中,步骤(四)中,当采集到样本真实标签后,对比预测器的预测输出计算样本的贡献|yi-f(xi)|,根据3-σ法则剔除数据流中的噪声。作为优选,步骤(五)中,将贡献值最大的样本加入固定预算学习样本集,按照最小贡献准则从预算学习样本集中剔除相应数量的样本以维持预算。
在根据本发明实施例的学习方法中,步骤(六)中,利用低秩矩阵校正技术以及sherman-morrison-woodbury公式更新核岭回归模型,得到在线预测器的具体步骤为:
(1)采用数据流中的样本
(2)标记旧模型中需要求逆的对称正定矩阵(k+λi)为a,即
构造校正矩阵u∈rn×m,具体表示为:
以及校正矩阵v∈rn×m,具体表示为:
(3)利用所构造的校正矩阵u∈rn×m和v∈rn×m修正对称正定矩阵a,即:
utv+vtu+a(8)
(4)利用sherman-morrison-woodbury公式更新(8)中对称正定矩阵的逆矩阵:
q-1-q-1v(i+utq-1v)-1utq-1(9)
其中,q-1=a-1-a-1u(i+vta-1u)-1vta-1;
(5)根据学习样本集合更新右端向量y,获得更新后的预测器,即在线预测器。
本发明提出的基于固定预算的核岭回归在线学习方法,确定学习样本集的规模即预算,选择初始学习样本集,建立核岭回归模型并求解得到预测器,利用低秩矩阵校正技术以及sherman-morrison-woodbury公式更新核岭回归模型得到在线预测器,实现了对数据流的在线预测。该方法采用固定预算策略,能有效控制在线学习模型的规模、节约存储空间、降低计算复杂度、易于实现。通过根据本发明实施例基于固定预算的核岭回归在线学习方法,能够灵活处理具有数据流特征的在线预测问题,数据可以通过数据块的形式收集,与传统批处理方式以及当前的在线学习方法相比,大幅度降低了计算复杂度,缩减了模型运行时间,能够灵活处理回归和分类问题。特别地,处理留一法交叉验证问题时可将计算复杂度从o(n4)降到(n3)。
附图说明
附图1为本发明实施例基于固定预算的核岭回归在线学习方法示意图。
附图2为本发明实施例中基准数据集cpusmall上预算budgetsize对模型精度和运行时间的影响分析图。
附图3为基准数据集cpusmall上不同数据块规模chunksize对本发明学习方法和已有学习方法的平均测试时间影响示意图。
附图4为基准数据集casp上不同数据块规模chunksize对本发明学习方法和已有学习方法的平均测试时间影响示意图。
附表1为本发明学习方法和已有学习方法在六个基准数据集上的平均在线测试精度和平均测试时间比较。
具体实施方式
以下结合附图对本发明实施例作进一步说明。
实施例:以回归问题为例进行说明。如图1所示,根据本发明实施例提供的一种基于固定预算的核岭回归在线学习方法,该在线学习方法含有以下步骤:
步骤一:通过数值实验确定预算取值。其具体步骤为:
(1)选择待处理数据集合,本实施例中,以基准数据集cpusmall为例进行说明。cpusmall数据集的样本总量为8192。设置样本块规模为1,从cpusmall中随机选取5000个样本构造训练样本集,剩余样本构造测试集。选择gaussian径向基函数
(2)确定待测预算集合为{200,300,…,4900,5000}。
(3)从上述步骤(2)的集合中依次选取预算,根据预算在训练样本集中随机选取相应数目的样本建立核岭回归模型,并应用测试集测试该预算的精度。
(4)依次执行上述步骤(3)10次,并计算各预算的平均测试精度以及运行时间。
(5)利用平均测试时间和平均测试精度绘制双纵轴曲线,如图2所示,综合考虑时间成本与模型精度以确定预算范围为3500-4500之间。本实施例中,不失一般性地,选择预算为4000。
步骤二:按照预算随机选取初始训练集合,建立岭回归模型,通过中心化方法将岭回归模型转化为无截距的岭回归模型并求得岭回归解,通过核技巧将岭回归预测器等价转化为核岭回归预测器。其具体步骤为:
按照确定的预算n随机选取训练样本构造学习样本集合,建立岭回归模型,岭回归模型表示为:
其中,β为岭回归预测器的系数向量,b为截距项,ei为误差项,λ为模型正则化参数,
采用如下中心化方法去掉模型中的截距项,具体方法为:用
β=[φt(x)φ(x)+λi]-1φt(x)y,(2)
其中,
将岭回归解(2)可等价转化为如下内积表示形式
φt(x)[φ(x)φt(x)+λi]-1y,(3)
进一步引入核技巧可得核岭回归预测器:
f(x)=k(x,x)(k+λi)-1y.(4)
其中,
步骤三:如图1所示,以mini-batch的形式采集数据流,采用预测器对数据流中的样本进行预测。
步骤四:采用3-σ法则剔除数据流中的噪声,以保持预测器的稳定性。
步骤五:当采集到样本真实标签后,对比预测器的预测输出计算样本的贡献|yi-f(xi)|,将最大贡献样本加入固定预算学习样本集,按照最小贡献准则从预算学习样本集中剔除相应数量的学习样本以维持向量预算稳定。
步骤六:利用低秩矩阵校正技术以及sherman-morrison-woodbury公式更新核岭回归模型,得到在线预测器,通过在线预测器对数据流进行在线预测。
图3为不同chunksize情况下采用本发明在线学习方法与滑动窗口核岭回归方法和基于预算支持向量集的ls-svms在线学习方法在基准数据集casp和cpusmall上的平均测试时间对比图,由图3可以看出,本发明在线学习方法的测试时间在不同chunksize情况下均优于其他两种方法。
表1列出了采用本发明在线学习方法与现有增量式核岭回归方法、滑动窗口核岭回归方法和基于预算支持向量集的ls-svms在线学习方法在基准数据集abalonescale、kin、letters、pendigits、cpusmall和poker上的平均在线测试精度和平均测试时间。由表1可以看出,本发明在线学习方法在保证测试精度的情况下,其测试时间一致优于其它方法。
表1
上述实施例用来解释本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。