基于特征加权贝叶斯优化算法的空中飞行物识别方法与流程

文档序号:21697997发布日期:2020-07-31 22:49阅读:178来源:国知局
基于特征加权贝叶斯优化算法的空中飞行物识别方法与流程

本发明属于机器学习领域,具体涉及一种空中飞行物识别方法。



背景技术:

空中飞行物的识别是基于空中飞行物的目标特征实现的,主要是通过各类传感器获得空中飞行物的数据,然后经过信号处理技术将其转化为数值化的目标特征,通过对目标特征进行分析获得其所属类别目标。此过程中主要面对的问题是数据体量庞大、数据样式复杂、数据处理速度等问题亟待解决。因此一些基于模板识别、专家系统、监督学习、统计学等方法开始应用于空中飞行物识别的过程中,极大地提高了数据的处理速度,提高了分析效能。通过对上述算法在逻辑表达、规则依赖、可解释性等角度进行分析发现,以朴素贝叶斯为代表的统计学算法具有逻辑简单、算法稳定和对缺失数据不敏感等特点。因此将使用其作为空中飞行物类别目标识别的应用算法,并针对于应用过程中存在的条件独立性假设对于飞行物分类结果的影响问题进行优化。

贝叶斯理论是英国数学家thomasbayes为解决一个“机遇理论逆推理”问题而提出的概率模型。该理论一经发现,掀起了一番概率论的狂潮,打破了频率派长此以往的思想统治。不同于频率派思想观念,贝叶斯概率论学派将原有的以客观世界为主体的观察方式更改为以人为主的观察方式,根据经验知识等信息,定义初始事件发生概率,然后根据目标的状态演变情况得出目标在某一时刻发生的概率。贝叶斯理论自发现以来被广泛应用于不确定性问题求解,现在看来贝叶斯理论可以称得上机器学习的核心之一被应用于贷款过程中的信用评估和人工智能等实际应用中。而以贝叶斯理论为基础的贝叶斯网络是一个有向无环图结构,结点代表随机变量,结点间的有向边代表了结点间的互相关系(由父结点指向其子结点),用条件概率表达关系强度,没有父结点的用先验概率进行信息表达

经过长时间的实践应用可以发现贝叶斯网络在处理不确定性问题上表现突出,其主要优点表现为与人类思想过程充分相符,且表现形式简单易懂便于创建,能将具体分析过程抽象出来量化分析,具有严格的标准化制式,同时结合已有知识和基本现状对目标能够进行精确分析。自贝叶斯理论提出至今有诸多学者对其进行改进,其中较为突出的改进结果就是朴素贝叶斯网络,它是在贝叶斯理论的基础上提出了一个假设,要求贝叶斯网络中子结点间相互条件独立。正是因为这种相互条件独立的基本特性使得朴素贝叶斯以简单、快速等特点著称。虽然该理论在思想上特点鲜明,简单易懂,但是该理论在实际应用中也有其弊端,即条件独立性假设在现实中不容易成立。为了解决此类问题,研究员们在朴素贝叶斯网络输入特征的选择、算法结构拓展和特征加权等方向进行改进。输入特征选择是通过控制算法的输入特征,将一些无关的、相对次要的特征摒弃以达到特征条件独立的目的,此方法虽然降低了网络的结构复杂度、满足了条件独立假设,但是会降低分类的准确率;而针对于算法结构的改进,通过加入概率估计、相关结点间的有向弧连接和组合树等方法进行结构拓展,但此类方法或多或少的增加了朴素贝叶斯网络的结构复杂度和识别过程中的时间、空间消耗;通过特征加权的方法对其改进,其中有柔性加权、深度特征加权和自适应特征加权等方式。通过特征加权的方式对样本进行标记,此类改进方案既能保持朴素贝叶斯简单的网络结构,又能在一定程度上提高分类的准确率。相较于前两种改进方案,此类优化方法能有效的提高应用模型的分类精度和时间、空间利用率。



技术实现要素:

本发明的目的是针对于朴素贝叶斯网络特征间的条件独立假设的局限性问题,以特征重叠部分的分布情况为特征加权依据,通过特征加权的方式对贝叶斯网络进行优化,意图解决现有的空中飞行物的识别方法存在的准确率较低的问题。

基于特征加权贝叶斯优化算法的空中飞行物识别方法,包括以下步骤:

步骤1、构建朴素贝叶斯网络结构,确定模型包含的特征和飞行物类别目标;

网络结构的根结点代表飞行物所属类别目标;网络结构中的叶子结点代表影响飞行物识别的特征;

步骤2、根据每个特征对应的离散特征数据的分布情况,将不同类别目标的当前特征的最大值和最小值形成数据分布区间,分析发现不同类别目标的数据分布区间彼此存在交叉、重合的公共部分,分析重叠区间内的特征数据的跨度和分布密度情况;

步骤3、根据特征数据的跨度和分布密度情况,确定基于跨度和密度的特征加权方式:

其中,α、β为跨度、密度的分配比例;n为当前样本空间中所有类别目标中任选两个类别目标的所有组合情况的个数,用于确定两个类别目标在当前特征下是否存在重叠部分;di为不同类别目标形成的特征区间中彼此重叠区域的跨度;d为当前特征所有类别目标训练数据所形成的特征数据总体区间跨度;sum_di为不同类别目标形成的特征区间中彼此重叠区域内数据的个数;sum_d为当前特征所有类别目标的特征数据的总数量;

步骤4、使用计算的权值q取倒数对朴素贝叶斯识别模型中输入特征进行加权,基于特征加权贝叶斯优化算法的结果实现空中飞行物的识别。

进一步地,所述类别目标包括旋翼式飞机、固定翼飞机、喷气式飞机。

进一步地,所述特征包括飞行物的高度、速度、时频域图的图像熵。

进一步地,所述步骤1的具体过程包括以下步骤:

构建的网络结构为一个根结点的无向图g,g=(v,e)由网络结点集合v与结点间的边集合e组成,结点集合v={vi|0≤i≤n},n>0;边集合e={ei|1≤i≤m},m>0,边用来表示结点间的相互关系;其中v0为网络结构的根结点,代表飞行物所属类别目标;i≥1对应的vi为网络结构中的叶子结点代表影响飞行物识别的特征;ei是根结点与叶子结点间的无向边;结点vi,vj∈v,j∈[1,n],二者之间可能存在的关联性记作t,t=1表示两个结点之间存在关联关系,t=0表示两个结点之间不存在关联关系。

进一步地,所述步骤2的具体过程包括以下步骤:

首先对特征的离散数据进行统计分析,针对于每个特征,先遍历一遍所有类别目标的特征数据,确定所有类别目标当前特征数据的总区间,同时分别存储不同类别目标当前特征的最大值和最小值,确定不同类别目标的当前特征区间;

在形成特征区间后,获取任意类别目标与其余类别目标形成的重叠区间,计算所有重叠区间内数据的个数的平均值,计算所有重叠区间长度的平均值;

然后用个数平均值和长度平均值分别除以训练样本的数据个数和训练样本的数据分布所形成区间总长度,获得当前特征在密度和跨度上的数据分布情况。

进一步地,所述α、β的确定过程如下:

根据实验确定不同分配比例α、β对应的q值对于分类结果的影响程度,选择识别准确率最高时对应的α、β作为最佳配比,作为最终确定的α、β。

进一步地,所述α、β的比为3:7。

有益效果:

本发明通过对空中飞行物的特征数据分布情况进行分析,将特征重叠部分的分布情况中分布跨度和分布密度作为特征的权值计算依据,然后再根据实验结果统计分析,密度和跨度两种影响因素在不同分配比例下对于实验结果的影响,选择最优的分配比例,将其作为朴素贝叶斯识别模型的输入特征的权重。而且从直观上看该方法立足于不同角度,全面分析各个方向对于此类特征数据的影响,并综合分析具体影响方式和影响情况。使得该算法能够以最简单的方式,通过最明确的方法确定朴素贝叶斯识别模型的输入特征的权值。通过实验分析发现,发明解决了当前朴素贝叶斯算法中普遍面临的特征间的关联性对于分类结果的影响问题,使得特征间的条件依赖降低,提高了朴素贝叶斯网络模型的目标类型识别准确率,所以能够在较合理的空间、时间复杂度内,大幅度的提高目标类型识别的准确率。

附图说明

图1为本发明的流程图;

图2为特征属性分析特征表现图;

图3为权重分配比例效果图;

图4为加权处理后实验对比图;

图5为分类模型结果对比图。

具体实施方法

具体实施方式一:结合图1说明本实施方式:

本实施方式所述的基于特征加权贝叶斯优化算法的空中飞行物识别方法包括以下步骤:

步骤1、构建朴素贝叶斯网络结构,确定模型包含的特征和飞行物类别目标:

构建的网络结构为一个根结点的无向图g,g=(v,e)由网络结点集合v与结点间的边集合e组成,结点集合v={vi|0≤i≤n},n>0;边集合e={ei|1≤i≤m},m>0,边用来表示结点间的相互关系;其中v0为网络结构的根结点,代表飞行物所属类别目标,类别目标集包含旋翼式飞机、固定翼飞机、喷气式飞机等;i≥1对应的vi为网络结构中的叶子结点代表影响飞行物识别的特征,影响飞行物识别的特征包括飞行物的高度、速度、时频域图的图像熵;ei是根结点与叶子结点间的无向边;结点vi,vj∈v,j∈[1,n],二者之间可能存在的关联性记作t,t=1表示两个结点之间存在关联关系,t=0表示两个结点之间不存在关联关系;

步骤2、分析朴素贝叶斯分类算法受离散数据特征的分布情况的影响,确定特征加权的依据:

根据每个特征对应的离散特征数据的分布情况,将不同类别目标的当前特征的最大值和最小值形成数据分布区间,分析发现不同类别目标的数据分布区间彼此存在交叉、重合的公共部分,分析重叠区间内的特征数据的跨度和分布密度情况,并以此为依据确定特征权重的比重;

步骤3、定义特征对于分类结果的影响权重q:

根据不同特征对分类识别的影响程度不同计算各个特征的可视化权重;分析离散数据重叠部分的分布密度和分布跨度对于分类准确率的影响,确定基于跨度和密度的特征加权方式:

跨度、密度二者在不同比例情况下对于权重的影响程度不同,其中α,β为跨度、密度的分配比例,将通过实验分析获得;n为当前样本空间中所有类别目标中任选两个类别目标的所有组合情况的个数,用于确定两个类别目标在当前特征下是否存在重叠部分;di为不同类别目标形成的特征区间中彼此重叠区域的跨度,如图2所示,不同的灰度代表不同飞行物的速度重叠区间,计算其长度为di;d为当前特征所有类别目标训练数据所形成的特征数据总体区间跨度;sum_di为不同类别目标形成的特征区间中彼此重叠区域内数据的个数,即图2中重叠区间内元素的个数;sum_d为当前特征所有类别目标的特征数据的总数量;

步骤4、基于公式中跨度、密度两种影响因素在不同分配比例的情况下对于分类结果的影响程度,通过实验选择两种影响因素的最佳配比;并计算不同特征对应的q值;

使用计算的权值q取倒数对朴素贝叶斯识别模型中输入特征进行加权,基于特征加权贝叶斯优化算法的结果实现空中飞行物的识别。

步骤5、使用上一步计算的权值q取倒数对输入特征进行加权处理,基于特征加权贝叶斯优化算法的结果实现空中飞行物的识别。

基于特征加权贝叶斯优化算法的结果实现空中飞行物的识别的过程可以采用现有的属性加权的贝叶斯网络实现,例如:良余俊的《属性加权的贝叶斯网络分类算法及其应用研究》,将其公式(2.29)中的wi替换为权值qi的倒数qi为特征i对应的权值。计算的权值q取倒数对朴素贝叶斯识别模型中输入特征进行加权处理,弱化特征之间关联关系的影响,进而提高空中目标识别模型的准确率。

通过对空中飞行物的特征数据分布情况进行分析,将特征重叠部分的分布情况中分布跨度和分布密度作为特征的权值计算依据,然后再根据实验结果统计分析,密度和跨度两种影响因素在不同分配比例下对于实验结果的影响,选择最优的分配比例,将其作为朴素贝叶斯识别模型的输入特征的权重。而且从直观上看该方法立足于不同角度,全面分析各个方向对于此类特征数据的影响,并综合分析具体影响方式和影响情况。使得该算法能够以最简单的方式,通过最明确的方法确定朴素贝叶斯识别模型的输入特征的权值。通过实验分析发现,发明解决了当前朴素贝叶斯算法中普遍面临的特征间的关联性对于分类结果的影响问题,使得特征间的条件依赖降低,提高了朴素贝叶斯网络模型的目标类型识别准确率。

实施例

通过输入的特征对类别目标进行识别,本实施例中,输入的特征包括飞行物的飞行速度、高度和时频域图的图像熵。

首先,对于空中飞行物对应特征的数据分布特性进行分析。不难发现不同类别目标的目标在同一特征上所形成的分布区间可能存在重叠情况,它们之间可能彼此相互重叠,也可能存在同时重叠的部分,当然特征间也可能存在不重叠的情况,具体情况需要通过实际数据进行分析。如果重叠部分的数据密度小于非重叠部分的数据密度,虽然存在重叠部分,但大部分数据依旧处于各自独立分布、类别目标鲜明、便于辨识,那么以该特征作为目标识别的分类依据,可以保持较高的分类准确率,认为该特征为清晰特征。反之则认为该特征作为分类依据时会难以对目标进行分类,可以理解为该特征对分类结果没有清晰的导向作用。因此,综合上述分析情况,结合跨度、密度两种影响因素,提出如下特征的权值计算方法:

首先对特征的离散数据进行统计分析,针对于每个特征,先遍历一遍所有类别目标的特征数据,确定所有类别目标当前特征数据的总区间,同时分别存储不同类别目标当前特征的最大值和最小值,确定不同类别目标的当前特征区间。以空中飞行物输入特征的的速度为例,通过对训练样本中不同类别目标的目标(对应图2中的旋翼式飞机、固定翼飞机和喷气式飞机)的飞行速度进行统计分析,形成如图2所示的各类目标的飞行速度总区间,和对应不同类别目标的目标独有的飞行速度区间。在形成特征区间后,获取任意类别目标与其余类别目标形成的重叠区间,计算所有重叠区间内数据的个数的平均值(计算重叠区间内元素个数之和,再除以重叠区间个数),计算所有重叠区间长度的平均值,例如重叠区间的长度分别为a、b、c,则重叠区间长度的平均值(a+b+c)/3;

然后用个数平均值和长度平均值分别除以训练样本的数据个数和训练样本的数据分布所形成区间总长度,如图2中样本数据形成的0.0ma到3.30ma区间总长度为3.30,获得当前特征(速度)在密度和跨度上的数据分布情况。然后将上述信息带入步骤3的公式中计算特征的权值q,将根据最终获取的权值q取倒数对特征进行加权处理,并根据α和β在不同分配比例的情况下所呈现的效果选择最适合的比例来确定最优的权值计算公式。

通过对密度和跨度两种情况的统计,并以此为特征加权的依据,然后再根据实验结果统计分析,确定密度和跨度两种影响因素在不同权重比例下对于实验结果的影响,具体结果如图3所示,可以看出两种影响因素在不同分配比例的情况下,对于目标分类的影响程度是不同的,在跨度和密度的分配比例为3:7时目标的分类准确率最高,且对于不同数据的识别结果表现一致,因此本发明选择跨度与密度的比例为3:7来计算特征的权值,对朴素贝叶斯网络进行特征加权。而且从直观上看该方法立足于不同角度,全面分析各个方向对于此类特征数据的影响,并综合分析具体影响方式和影响情况。使得该算法能够以最简单的方式,通过最明确的方法确定朴素贝叶斯识别模型的输入特征的权值。

本发明主要适用于离散数据,对离散数据的分布特征有较好的表达效果,同时该算法在计算过程中仅需存储各类别目标的特征数据的最大值和最小值,形成各类别目标的特征区间后,特征区间内数据的个数用于密度统计依据,因此该算法的空间复杂度仅与类别目标的个数与特征的个数相关。在本发明中所消耗的空间为o(n+k),与其他的特征加权算法的空间复杂度基本相同,因此本算法所需要的空间复杂度符合要求。从时间复杂度的角度分析本算法的第一次数据遍历获得各类别目标的特征数据的最大值和最小值,形成特征区间,对形成的所属不同类别目标的特征区间进行标记;第二次遍历获得特征区间的内数据的个数,再除以样本数据的个数计算重复区间的数据密度,然后计算两者的加权和作为特征的权值。从算法的流程看来本过程需要对数据遍历两次,因此本算法的时间复杂度为o(2n),相较于未优化的朴素贝叶斯算法,仅增加了少部分的训练时间复杂度,但同时提高了模型的识别准确率。

通过对本发明的优化算法(fsnb)和未经优化(nb)的朴素贝叶斯识别模型的训练时间和识别时间进行对比,结果如图4所示,可以发现虽然本发明优化方法在进行模型训练过程中,会额外增加时间消耗,但是由于二者模型网络结构相同,因此在识别过程中的时间消耗相同。同时对本发明的优化算法与未优化算法的空中目标识别模型和支持向量机的空中目标识别模型,在识别准确率方面进行比较分析,实验结果如图5所示,可以发现随着训练样本数量的增加,模型的识别准确率都得到一定程度的提升。其中应用本发明的识别模型在识别准确率上要明显优于其他模型,且随着训练样本的数量增加效果越明显,对于支持向量机在样本数据超过400时,识别准确率下降问题可能原因是由于支持向量机的过拟合问题导致的。因此通过实验的结果看出,本发明的优化算法可以有效地提高空中目标分类识别的准确率。

需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1