基于留一样本交叉检核的LS-SVM算法的稀疏处理方法与流程

文档序号:17758323发布日期:2019-05-24 21:28阅读:134来源:国知局
基于留一样本交叉检核的LS-SVM算法的稀疏处理方法与流程
本发明属于海洋测量
技术领域
,涉及一种利用ls-svm算法构造海底趋势面方法,具体是一种基于留一样本交叉检核的ls-svm算法的稀疏处理方法。
背景技术
:利用多波束测深数据反演海底地形其实质是将海底趋势面的构造转化为最小二乘支持向量机(leastsquaressupportvectormachine,ls-svm)模型函数构建问题,算法采用最小二乘线性系统作为损失函数,将模型函数的构建变成一组等式方程进行求解。ls-svm可以得到全局最优解,但ls-svm算法得到的支持向量解是非稀疏的,即所有的测深训练样本都对海底趋势面函数的构造产生影响,这极大地限制了ls-svm算法的应用,具体是:随着测深数据样本点的不断增加,趋势面函数的构造将变得异常复杂,构造时间将成倍增加。由此可知,为减少模型构造的计算量,急需一种能够减少样本数量且处理过程迅速的方法,而且处理后的样本能够反映海底地形的整体变化趋势。技术实现要素:本发明的目的在于克服现有技术的不足,提供利用留一样本交叉检核的方法对选取的测深训练样本进行修剪,使得ls-svm算法的解具有稀疏性,可有效地提高海底趋势面的构造效率的一种基于留一样本交叉检核的ls-svm算法的稀疏处理方法。本发明采取的技术方案是:一种基于留一样本交叉检核的ls-svm算法的稀疏处理方法,其特征在于:包括以下步骤:⑴利用回波获取扇面内多个被测点的水深值,每个坐标值对应的水深值为原始深度样本;⑵利用ls-svm获取最佳组合参数;⑶利用ls-svm对原始深度样本进行初始训练,计算出原始拉格朗日乘子值;⑷基于留一样本交叉检核计算测试样本残差序列,计算测试样本的权比重;⑸根据步骤⑶和步骤⑷的结果计算新拉格朗日乘子值;⑹利用步骤⑸的结果对测试样本进行稀疏处理;⑺完成处理。再有,步骤⑵所述的最佳组合参数中的两个参数为惩罚因子和核宽度;惩罚因子的数值是在扇面最小水深和扇面最大水深之间按照一定步长依次取值;核宽度的数值是在相邻坐标较差最小值和相邻坐标较差最大值之间按照一定步长依次取值。再有,最佳组合参数的计算包括以下步骤:⑴将惩罚因子、核宽度、坐标值和原始深度样本的不同组合代入公式进行计算,得到每个组合参数对应的构造函数;⑵将所有坐标值依次代入每个组合参数对应的构造函数中,得到所有构造函数的预测深度样本;⑶用每个坐标值对应的原始深度样本与每个预测深度样本求差,然后计算每个差的均方差;⑷将步骤⑶的均方差排序,均方差最小的对应的组合参数为最佳组合参数。再有,步骤⑶中,将最佳组合参数、坐标值和原始深度样本代入公式,得到原始拉格朗日乘子值序列。再有,所述公式为:其中,k为rbf核函数,α为拉格朗日乘子值,b为实数,x、y为坐标值,n为原始深度样本的数量,i为1和n之间的第i个坐标值。再有,步骤⑷中,所述残差的序列的计算过程是:选取第一个坐标值至最后一个坐标值,依次将每个坐标值代入公式中,计算出每个坐标值对应的测试深度样本,每个坐标值对应的原始深度样本与测试深度样本的差值为残差,所有的坐标值对应的残差为残差序列。再有,步骤⑷中,所述权比重为一与残差平方的比值。再有,所述公式为:其中,k为rbf核函数,α为拉格朗日乘子值,b为实数,x、y为坐标值,n为原始深度样本的数量,i为1和n之间的第i个坐标值;i≠k表示第k次计算中删除与坐标k对应的核函数展开项。再有,步骤⑸中新拉格朗日乘子值为步骤⑶的原始拉格朗日乘子值与对应的步骤⑷的权比重的乘积。再有,步骤⑹中的稀疏处理为:将步骤⑸得到的新拉格朗日乘子值的绝对值进行由大到小的排列,去掉对应的原始深度样本最后3~10%的数据。本发明的优点和积极效果是:本发明中,首先获取原始深度样本,然后利用ls-svm获取最佳组合参数,再计算出原始拉格朗日乘子值和测试样本的权比重,将原始拉格朗日乘子值与权比重相乘后得到新拉格朗日乘子值,最后对测试样本进行稀疏处理后完成处理过程。本发明弥补了现有ls-svm算法构建海底趋势面过程中支持向量机解不具备稀疏性的缺陷,拓展了ls-svm算法在构建海底趋势面的应用范围,提出了具体的测深训练样本筛选方法,该方法可以快速有效的对特征训练样本进行修剪,在确保ls-svm算法稀疏性的基础上,合理构造海底趋势面函数。附图说明图1是本发明的应用的示意图;图2是处理过程的流程图。具体实施方式下面结合实施例,对本发明进一步说明,下述实施例是说明性的,不是限定性的,不能以下述实施例来限定本发明的保护范围。一种基于留一样本交叉检核的ls-svm算法的稀疏处理方法,如图所示,本发明的创新在于:包括以下步骤:⑴利用回波获取扇面内多个被测点的水深值,每个坐标值对应的水深值为原始深度样本;⑵利用ls-svm获取最佳组合参数;⑶利用ls-svm对原始深度样本进行初始训练,计算出原始拉格朗日乘子值;⑷基于留一样本交叉检核计算测试样本残差序列,计算测试样本的权比重;⑸根据步骤⑶和步骤⑷的结果计算新拉格朗日乘子值;⑹利用步骤⑸的结果对测试样本进行稀疏处理;⑺完成处理。最佳组合参数中的两个参数为惩罚因子和核宽度;惩罚因子的数值是在扇面最小水深和扇面最大水深之间按照一定步长依次取值;核宽度的数值是在相邻坐标较差最小值和相邻坐标较差最大值之间按照一定步长依次取值。最佳组合参数的计算包括以下步骤:⑴将惩罚因子、核宽度、坐标值和原始深度样本的不同组合代入公式进行计算,得到每个组合参数对应的构造函数;⑵将所有坐标值依次代入每个组合参数对应的构造函数中,得到所有构造函数的预测深度样本;⑶用每个坐标值对应的原始深度样本与每个预测深度样本求差,然后计算每个差的均方差;⑷将步骤⑶的均方差排序,均方差最小的对应的组合参数为最佳组合参数。上述最佳组合参数、坐标值和原始深度样本代入公式,得到原始拉格朗日乘子值序列。最佳组合参数和原始拉格朗日乘子值序列计算过程中的公式为:其中,k为rbf核函数,α为拉格朗日乘子值,b为实数,x、y为坐标值,n为原始深度样本的数量,i为1和n之间的第i个坐标值。残差序列的计算过程是:选取第一个坐标值至最后一个坐标值,依次将每个坐标值代入公式中,计算出每个坐标值对应的测试深度样本,每个坐标值对应的原始深度样本与测试深度样本的差值为残差,所有的坐标值对应的残差为残差序列。权比重为一与残差平方的比值。残差序列计算过程中的公式为:其中,k为rbf核函数,α为拉格朗日乘子值,b为实数,x、y为坐标值,n为原始深度样本的数量,i为1和n之间的第i个坐标值;i≠k表示第k次计算中删除与坐标k对应的核函数展开项。新拉格朗日乘子值序列为原始拉格朗日乘子值序列与对应的权比重的乘积。稀疏处理为:将新拉格朗日乘子值的绝对值进行由大到小的排列,去掉对应的原始深度样本最后3~10%的数据。实施例如图1所示,选取某测量船进行某海区的测量时,该海区被划分为图中的条形区域的多个扇区,选取其中的第30扇区为例进行说明。测深采用seabeam3012多波束测深系统,声速剖面测量采用svp-16,水深变化范围:2550~3000米。声速剖面的采集严格按照试验要求进行布放,在确定声速不存在显著变化的情况下进行多波束测量作业,后处理软件采用cariships。测线间距、覆盖重叠率满足规范要求。取海底地形变化较为明显的测线作为水深数据源,扇区多波束测深数据的个数为151,将水深值为零的数据剔除之后,剩余的水深数据个数为115,即原始深度样本数量为115个,对应的坐标值为115个。最佳组合参数的计算:该扇区内最大水深为3000米,最小水深为2550米,惩罚因子的取值范围是[2550,3000],搜索步长为10个单位。测深数据的坐标值为d.d(度.度)的格式,依次将所有坐标值的横坐标和纵坐标求差,得到较差最小值和最大值。比如:某两点的测深数据的坐标信息分别为[x1,y1]=[13.25557,113.344443]和[x2,y2]=[13.25556,113.344445],较差x1-x2为13.25557-13.25556=0.0001,较差y1-y2为113.344443-113.344445=0.00001,所以该两个坐标较差的最大值为0.0001,最小值为0.00001。依次将所有的横纵坐标进行相减,得到较差最小值和最大值,得到核宽度的取值范围。本例的115个坐标值计算后得到核宽度为[0.0005°,0.04°],搜索步长为0.0005°个单位。⑴将惩罚因子、核宽度、坐标值和原始深度样本的不同组合代入公式:其中,k为rbf核函数,α为拉格朗日乘子值,b为实数,x、y为坐标值,n为原始深度样本的数量,i为1和n之间的第i个坐标值。上述核函数为rbf:k(x,y)=exp(-(x-y)2/(2σ2))(2)将公式(2)代入公式(1),得到以下方程组:其中,核宽度为σ,惩罚因子为c,α为拉格朗日乘子值,b为实数,x、y为坐标值,n为原始深度样本的数量(n=115),l为原始深度样本的数值。[2550,3000]中按搜索步长依次取值得到不同的惩罚因子,[0.0005°,0.04°]按搜索步长依次取值得到不同的核宽度,将不同的惩罚因子和核宽度组合后形成不同的组合参数。(x1、y1)至(xn、yn)的坐标值以及l1至ln的原始深度样本均为已知量。将不同的组合参数和已知量代入公式(3)中进行矩阵求逆运算。每个组合参数、坐标值(x、y)以及坐标值对应的原始深度样本(l)代入后会得到多个b,α1......αn构成的列矩阵,将每个列矩阵代入f(x,y)中,得到每个组合参数的构造函数。该构造函数为:f(x,y)=α1*exp(-(x1-y1)2/(2σ2))+α2*exp(-(x2-y2)2/(2σ2))+......α115*exp(-(x115-y115)2/(2σ2))+b对于每个组合参数来说,将x1,...xn,y1,....yn代入其对应的构造函数,计算出预测深度样本f(x1,y1),.....f(xn,yn),将l1,.....ln分别与f(x1,y1),.....f(xn,yn)求差,得到差值为d1,......dn,对差值求均方差,该均方差为该组合参数的均方差,然后将所有组合参数对应的均方差进行比较,最小均方差对应的组合参数为最佳组合参数。下面以三个组合参数和三个原始深度样本为例进行说明:[2550,0.0005°]、[2740,0.001°]、[3000,0.04°],每个组合参数、三个坐标值和三个原始深度样本代入公式(3)后得到三个矩阵:矩阵1:[2550,0.0005°]计算后得到:构造函数为:f(x,y)=x+0.67y-0.33xy矩阵2:[2740,0.001°]计算后得到:构造函数为:f(x,y)=1.71x-0.29y-0.57xy矩阵2:[3000,0.04°]计算后得到:构造函数:f(x,y)=2x+0.67y-1.33xy上述三个构造函数分别代入三个x,y,然后求得三个差值,计算均方差后得到[2740,0.001°]的均方差最小。上述例子为示意性的,真实的均方差计算后,得到表1:序号组合参数值均方差(米)1[2550,0.0005°]26.99422[2740,0.001°]17.16773[3000,0.04°]26.3081表1:组合参数的均方差比较当组合参数取值[2550,0.0005°]时,核宽度为相邻坐标较差最小值0.0005°,拟合函数过分强调算法的学习能力,算法充分考虑了每一个支持向量对函数构造的影响,从而扩大了噪声数据在函数构造过程中的贡献率,在数据质量较差的前20个离散数据影响效果尤为明显,拟合残差绝对值最大达到233.9371。当组合参数取值[3000,0.04°]时,核宽度为相邻坐标较差最大值0.04°,拟合函数过分强调算法的泛化能力,在有效抑制噪声数据对模型函数构造影响的同时淹没了正常测深数据对函数模型构造的贡献,整体的中误差达到26.3081,拟合函数的离散程度较大。最后确定序号2的[2740,0.001°]为最佳组合参数。将[2740,0.001°]、(x1,y1).....(xn,yn)、l1,.....ln代入公式(3)得到原始拉格朗日乘子值序列(ai=2cξi),具体见表2的第一列。训练样本的选择:多波束测深的原始数据集为{(xi,yi),li},(i=1,2,…,115),训练样本集为{(xj,yj),lj},(j=1,…,k-1,k+1,…,115)且(k≠1,k≠115),k为所对应选取的单个测试样本,即{(xk,yk),lk}。特别地,当k=1时,训练样本集为{(xj,yj),lj},(j=2,3,…,115);当k=115时,训练样本集为{(xj,yj),lj},(j=1,2,…,114)。残差序列的计算公式为:其中,k为rbf核函数,α为拉格朗日乘子值,b为实数,x、y为坐标值,n为原始深度样本的数量,i为1和n之间的第i个坐标值;i≠k表示第k次计算中删除与坐标k对应的核函数展开项。具体是:将公式(3)代入最佳组合参数和最佳组合参数对应的b,α1......αn,构造函数表达式为:f(x,y)=α1*k((x,y),(x1,y1))+α2*k((x,y),(x2,y2))+.....+α115*k((x,y),(x115,y115))+b当选取(x1,y1)为测试样本时,将(x1,y1)代入下式:f(x1,y1)=α2*k((x1,y1),(x2,y2))+.....+α115*k((x1,y1),(x115,y115))+b当选取(x2,y2)为测试样本时,将(x2,y2)代入下式:f(x2,y2)=α1*k((x2,y2),(x1,y1))+α3*k((x2,y2),(x3,y3))+.....+α115*k((x2,y2),(x115,y115))+b以此类推,直至选取(x115,y115)为测试样本时,将(x115,y115)代入下式:f(x115,y115)=α1*k((x115,y115),(x1,y1))+α2*k((x115,y115),(x2,y2))+.....+α114*k((x115,y115),(x114,y114))+b最后计算出f(x1,y1),f(x2,y2)......f(x115,y115)共115个预测深度样本,将l1,.....l115分别与f(x1,y1),.....f(x115,y115)求差,得到具有115个成员的残差序列ν1......ν115,具体见表2的最后一列。将残差序列代入得到权比重p1......p115,具体见表2的第三列。再根据ai=2cpiξi计算出新拉格朗日乘子值α1......α115,具体见表2的第二列。上述原始拉格朗日乘子绝对值、新拉格朗日乘子绝对值、权比重和残差序列见表2:表2:计算结果将表2的数据按照新拉格朗日乘子值的绝对值的数值进行由大到小的排序,去掉最后3~10%的数据对应的原始深度样本,优选5%,即完成了稀疏处理。实施例与现有技术的比较见表3:实施例扇面中的原始深度样本为115个,趋势面构造时间为0.482436秒,而经过稀疏处理后的构造时间为处理前的三分之一,而五个扇面时构造时间为接近五分之一,而十个扇面时构造时间为接近五分之一,而二十扇面时构造时间为接近五分之一,由此可知,随着扇面数量的增加,构造时间大幅度减少,效率大幅提高。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1