一种异质网络大数据分类中多响应参数优化方法与流程

文档序号:17491285发布日期:2019-04-23 20:34阅读:608来源:国知局
一种异质网络大数据分类中多响应参数优化方法与流程

本发明涉及一种异质网络大数据分类,具体说是一种异质网络大数据分类中多响应参数优化方法。



背景技术:

异质网络中具有多种类型的边和节点,是一种信息网络,在异质网络中存在海量的语义信息,为了满足用户的需求,需要对异质网络中的大数据进行分类处理。而目前分类处理的方法可分为三个方向:

(1)vapnik等人提出了支持向量机,支持向量机是一种统计学习方法,在农业信息学、模式识别、生物信息学、网络入侵和故障诊断等领域中的应用较为频繁。支持向量机存在泛化能力强和学习速度快的特点,约束常数、支持向量机核函数参数以及核函数的类型对大数据分类的影响较大。对异质网络中的大数据进行分类时,需要人为确定一些参数,易出现不是最优参数的现象。当前大数据分类中参数优化方法存在分类效率低和分类结果准确率低的问题,需要对大数据分类中参数优化方法进行研究。

(2)丁胜、张进、李波提出了一种基于mea的svm参数优化方法,该方法将“反思”机制和“学习”机制引入思维进化算法中,通过子群体之间存在的信息共享特性进行学习,比较子群体之间的适应度值,根据比较结果进行反思,完成大数据分类参数的优化,将该方法优化后的参数应用在大数据分类中,分类所用的时间较长,存在分类效率低的问题。

(3)林怡、季昊魏等人提出了一种基于鱼群算法的分类参数优化方法,该方法首先对分类参数进行分析,采用仿生鱼群算法对正则化参数和小波核参数进行寻优,根据寻优结果建立参数优化后的分类模型,完成异质网络中大数据的分类,该方法得到的分类结果与实际结果不符,存在分类结果准确率低的问题。

(4)王震宇、梁雪春提出了一种基于cfoa的分类参数优化方法,该方法采用混沌果蝇优化算法对异质网络大数据分类中的重要参数进行调整,通过基于lozi’s映射的混沌算法对果蝇种群搜索和多样性的遍历性进行优化,避免出现局部最优,完成分类参数的优化,该方法分类所用的时间较长,存在分类效率低的问题。

综上所述,提出一种异质网络大数据分类中多响应参数优化方法。



技术实现要素:

为解决前面揭示的问题,本发明的目的是提供一种异质网络大数据分类中多响应参数优化方法。

为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:

采用当前方法对大数据分类中的参数进行优化时,计算样本分布半径的期望值,根据计算结果得到不同类型样本的分布期望半径。设置目标函数,通过样本分布半径的期望值和样本的分布期望半径得到目标函数的最小值,完成大数据分类参数的优化。

附图说明

图1是本发明一种异质网络大数据分类中多响应参数优化方法工作流程图;

图2是本发明一种异质网络大数据分类中多响应参数优化方法中优化参数选择工作原理图;

具体实施方式

本发明一种异质网络大数据分类中多响应参数优化方法,包括以下具体的优化参数选择和多响应参数优化方法。

参考图1所示,本发明一种异质网络大数据分类中多响应参数优化方法实现的具体步骤如下:

代表的是分类核函数中需要优化的参数;代表的是优化参数的取值范围,其中代表的是参数的初始值。

代表的是所有样本在训练过程中分布的期望半径,其计算公式为:

(1)

式中,代表的是训练样本的总数;代表的是异质网络中存在的第个训练样本;代表的是异质网络大数据分类的核函数。

分别代表的是第一、二类样本分布在异质网络大数据分类中的期望半径,其计算公式如下:

(2)

式中,代表的是异质网络中存在的训练样本的类型,代表的是异质网络中存在的第类别中的第个样本;代表的是第类型的样本在异质网络中存在的总数。

代表的是目标函数,大数据分类参数的优化目标是使函数最小化,通过下式对目标函数进行最小化处理:

(3)

式中,为分子,代表的是不同类型的训练样本的类内距离在异质网络中的平均值;为分母,代表的是不同类型训练样本在异质网络中的类间距离。类间距离代表的是两个不同类别的样本在异质网络中的分类边界之间存在的距离。使目标函数最小的目的是使样本之间存在最大的分类间隔,提高推广能力。

给参数设置步长,通过公式(1)、(2)、(3)得到一个新的目标函数值,并将新的目标函数值与原来的目标函数值进行对比,留下函数值较小的目标函数和函数对应的参数。采用公式(1)、(2)、(3)对训练样本进行循环迭代,直至参数,结束迭代。终止循环后,得到最小的目标函数值,和目标函数值相应的参数,此时得到的参数为大数据分类中的最优参数,完成大数据分类中参数的优化。

本发明一种异质网络大数据分类中多响应参数优化方法中多响应参数优化方法工作原理,具体如下:

对异质网络大数据分类中的多响应参数进行优化之前,需要选择优化的参数。异质网络大数据分类中多响应参数优化方法在支持向量机理论基础上对参数进行分析,确定需要进行优化的参数。

采用支持向量机分类方法对异质网络中的大数据进行分类时,将低维线性问题通过核函数映射到高维空间中,将不可分问题转变为可分问题。最初的支持向量机优化问题如下:

(4)

式中,代表的是目标函数,目标函数越小越好;代表的是偏移量;代表的是权重向量;代表的是异质网络大数据分类中的样本总数。离群点的出现会使目标函数变大,此时将参数优化问题变为下式:

(5)

式中,代表的是损失,通过惩罚因子在目标函数中加入损失,此时惩罚因子为异质网络大数据分类中需要优化的参数。离群点造成的损失程度通过惩罚因子决定,当损失保持不变时,目标函数的损失随着惩罚因子的增大而增大,表明离散点的重视程度较高,将惩罚因子设置为无限大是最极端的情况,此时只要存在一个点离群,目标函数的值就接近无限大,此时优化问题无解。所以对异质网络大数据分类中多响应参数进行优化时,在多响应参数可以设置一样识别率的情况下,选取惩罚因子最小的参数,可以解决支持向量机过学习的问题,提高大数据分类的精准度。

通常情况下rbf核为支持向量机默认的核函数,设代表的是rbf核中的参数,通过参数对支持向量之间存在的相关程度进行反映。当参数的值过小时,支持向量之间的关联较为松弛;当参数的值过大时,支持向量之间的相互影响力过强,模型的精度较低。

通过上述分析得到异质网络大数据分类中需要优化的多响应参数,分别是惩罚因子和参数

本发明一种异质网络大数据分类中多响应参数优化方法中多响应参数优化方法工作原理,具体如下:

采用小生境遗传算法对异质网络大数据分类中存在的多响应参数进行优化,对异质网络种群中的个体进行编码,计算个体的适应度函数,根据计算结果得到个体共享后适应度,通过迭代选择、交叉、变异,获得最优种群,完成异质网络大数据分类中多响应参数的优化。

在异质网络中随机生成种群,将其作为初始种群,通过浮点数编码方法对种群个体进行编码。采用nloo方法对支持向量机的分类性能进行评价,对异质网络中的个样本进行分类,将其分成个小组,通过对每个小组进行表示,其中。在个小组中选择一个小组进行测试,其他的个小组作为训练样本。

将目标函数与个小组的支持向量机输出之间的误差平方和倒数当做异质网络中第个样本的评价函数,评价函数的值越大,异质网络中的样本质量越高。评价函数的表达式如下:

(6)式中,为设置的常数,用来避免分母为零;代表的是目标函数与小组支持向量机输出之间的误差平方和。

代表的是个体与个体之间存在的海明距离;代表的是个体共享之后的适应度,采用小生境遗传算法计算得到

(7)

式中,代表的是种群中存在的第个、第个个体。通过上式得到适应度

(8)

式中,代表的是种群在异质网络中的大小;分母代表的是个体在异质网络中的共享度。设置阈值,当大于两个个体间存在的海明距离时,将较小的惩罚因子与较小的个体适应度相乘,使个体的适应度更小,提高个体在进化中被剔除的概率,保持在范围内有且只有一个优良个体。

代表的是个体的选择概率,的计算公式如下:

(9)

代表的是父母个体,通过公式(10)对进行交叉处理:

(10)

式中,代表的是交叉概率,在区间[0,1]内取值。通过交叉处理对个体在异质网络中的步长进行改变,根据改变结果对其进行变异处理,设代表的是交叉后的个体,的表达式如下:

(11)

式中,代表的是变异概率,在区间[0,1]内取值;代表的是待优化参数可搜索的最大空间;代表的是待优化参数可搜索的最小空间。

通过变异概率、交叉概率和选择概率利用公式(9)、(10)、(11)得到新的种群。重复上述步骤,直到生成的种群中存在的最优个体在多次迭代中未进行改进,终止迭代。得到最优惩罚因子和核参数

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1