一种基于量子法医调查机制的特征选择方法、系统及存储介质

文档序号:37937946发布日期:2024-05-11 00:16阅读:8来源:国知局
一种基于量子法医调查机制的特征选择方法、系统及存储介质

本发明涉及数据处理,具体而言,涉及一种基于量子法医调查机制的特征选择方法、系统及存储介质。


背景技术:

1、特征选择技术是一种从原始特征中选择最有效的特征子集以降低数据集维度并使得系统的特定指标最优化的方法,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。现有的特征选择方法按照特征子集的评价标准是否与后续的学习算法相结合可分为嵌入式特征选择方法、过滤式特征选择方法和封装式特征选择方法。其中封装式特征选择方法因将特征选择问题与后续的学习方法相结合,利用分类器来评价选取特征子集的优劣使得所选子集的性能有较大的优势而被广泛应用。同时,封装式特征选择多与各类群智能算法相结合来提升特征选择的效率,降低时间复杂度,增加所选特征子集的精度。但是由于工程问题的困难性和复杂性,现有的群智能算法的优化能力很难同时达到收敛性好、收敛精度高和时间复杂度低的效果,因此设计一种特征选择用时短、所选特征子集性能好并且鲁棒性强的特征选择方法有重要的理论价值和研究意义。

2、现有研究中,贾鹤鸣等在《控制与决策》(2022,vol.37,no.02,pp.445-454)发表的“基于改进秃鹰搜索算法的同步优化特征选择”提出了一种利用算法同时优化支持向量机参数和进行特征选择的同步优化特征选择模型。将秃鹰算法与模拟退火算法相结合的改进秃鹰算法在收敛速度和收敛精度上有一定提升,但由于秃鹰算法是一种收敛精度较低的群智能算法,利用传统方法对该算法进行相应改进难以突破算法本身的局限性,因此该方法在特征子集的选取上未能达到十分理想的结果,且用支持向量机实现多分类问题的训练开销较大,特征选择用时较长。mohamed abdel-basset等在《artificial intelligencereview》(2020,vol.54,pp.1-45)发表的“a hybrid harris hawks optimizationalgorithm with simulated annealing for feature selection”中提出了一种基于模拟退火的哈里斯鹰算法并将算法应用于采用k近邻法作为学习算法评价指标的封装式特征选择中。该方法对哈里斯鹰算法进行了改进,提升了哈里斯鹰算法的收敛性。但由于改进后的哈里斯鹰算法时间优势仍不明显,不能较好的发挥利用k近邻法简单和时效性高的特点设计的封装式特征选择模型具有较低的时间复杂度的优势。r.k.agrawal等在《artificialintelligence review》(2020,vol.89)发表的“quantum based whale optimizationalgorithm for wrapper feature selection”中提出了双链编码的量子鲸鱼算法并应用于封装式特征选择。通过对鲸鱼算法的量子编码极大的提高了算法的收敛速度和收敛精度,并且可以兼顾所用时间。将量子鲸鱼算法与四种传统分类方法相结合的封装式特征选择模型均得到了较高的分类正确率和较低的平均特征数。但由于鲸鱼算法是一种被较早提出的群智能算法,其收敛性有明显不足,且所设计量子鲸鱼算法的量子旋转角更新公式过于简单,因此算法的精度有待进一步的提升。

3、可见,现有封装式特征选择方法将传统的优化方法应用于特征选择中会面临收敛精度低,时间成本高等问题,采用常见的改进策略对群智能方法进行改进难以同时兼顾收敛速度、收敛精度和所用时间。要达到智能优化方法快速收敛和所选特征子集优越性高的目标,如何提高收敛速度、收敛精度、减少所用时间是亟待解决的技术问题。


技术实现思路

1、本发明要解决的技术问题是:

2、现有的特征选择方法分类正确率不高以及时间复杂度高,选择的特征子集精度不够。

3、本发明为解决上述技术问题所采用的技术方案:

4、本发明提供一种基于量子法医调查机制的特征选择方法,包括如下步骤:

5、步骤一:对数据集进行归一化处理,将处理后的数据集随机划分为训练集和测试集,采用k近邻分类器对训练集样本进行聚类,对测试集样本进行分类,基于k近邻分类器的分类精度和所选特征个数构建特征选择的目标函数,随机生成含有多个分别代表不同特征子集的量子警察群体;

6、步骤二:初始化量子警察群体中每个成员的量子位置,利用目标函数计算量子警察个体的适应度,将量子警察群体平均分为调查组和追捕组两个子群体,确定各个子群体和量子警察群体的初始全局最优量子位置;

7、步骤三:分别对调查组和追捕组每个成员的量子位置同时进行更新;

8、步骤四:计算每个量子警察个体进行量子位置更新后的适应度值,更新调查组和追捕组以及量子警察群体的全局最优量子位置;

9、步骤五:对调查组和追捕组中的部分成员进行交换,形成新的调查组和追捕组继续执行步骤三至步骤四;

10、步骤六:迭代次数加1,重复执行步骤三至步骤五,至达到最大迭代次数;最终得到选取的最优特征子集。

11、进一步地,步骤一包括如下步骤:

12、(1)针对数据集i=[(z1,y1),(z2,y2),...,(zl,yl)],其中z=[z1,z2,...,zl]为数据集中的数据样本,y=[y1,y2,...,yl]为数据集中的类别标签,l为数据集中数据样本的总数,每个数据样本在特征向量中都有d个特征元素,即zi=[zi1,zi2,...,zid],i=1,2,...,l,d为数据集包含的特征数;

13、对数据集进行归一化处理,随机选取占比为α1的数据样本及其类别标签作为训练集其余数据为测试集遍历[kmin,kmax]范围内的所有奇数值为k的值,以0-1损失函数为交叉验证的损失函数采用c折交叉验证法确定[kmin,kmax]范围内的最优k值,其中k为k近邻法每一邻域内包含的样本个数,kmin为k值搜索的下界,kmax为k值搜索的上界;

14、(2)设i′2中第j个数据样本为z′j,初始化j=α1l+1;

15、(3)计算z′j与训练集中所有数据样本的欧氏距离其中z′i为训练集中的第i个数据样本,i=1,2,...,α1l;

16、(4)寻找训练集中与z′j的欧氏距离最小的k个数据样本,将涵盖这k个数据样本的z′j的邻域记作nk(z′j);

17、(5)采用多数表决法判定z′j的类别标签其中yi为z′i对应的类别标签,i=1,2,...,α1l,h=1,2,...,u,为指示函数,即当时的值为1;否则为0;

18、(6)若j=l,结束对测试集数据类别标签的判定,完成测试集分类;否则令j=j+1,重复执行步骤(3)-步骤(5),至满足分类结束的条件。

19、进一步地,步骤一中所述目标函数具体为:其中χ为分类精确性,代表分类正确率在适应度函数中所占的比重,γr为k近邻法分类器取得的分类正确率,ξ为所选特征重要性,表示所选特征个数在适应度函数中所占权重,ξ=1-χ,为所选特征子集数。

20、进一步地,步骤二包括如下过程:

21、初始化第1代第n个量子警察第d维的量子位置为[0,1]之间的随机数,其第t代第n个量子警察的量子位置为d=1,2,...,d,n为量子警察群体数,d为搜索空间最大维数;根据测量规则对量子位置进行测量得到每个量子警察的位置第t代第n个量子警察的第d维量子位置对应测量位置为测量规则为其中是区间内满足均匀分布的随机数;

22、将量子警察群体平均分为调查组和追捕组两个子群体,对于调查组,量子警察的标号为对于追捕组,量子警察的标号为根据适应度函数计算每个量子警察个体的初始适应度值,将调查组和追捕组成员的初始适应度值分别进行排序,两个子群体中初始适应度值最优的成员所在量子位置分别设为两个子群体的初始全局最优量子位置,比较两个子群体的最优适应度值大小,将两个子群体中适应度值更优的成员的量子位置设为量子警察群体的初始全局最优量子位置。

23、进一步地,步骤三包括如下步骤:

24、调查组第n位成员第d维量子位置的量子旋转门更新过程为:其中为调查组调查取证时的量子旋转角,和为(0,1)之间的随机数,为迭代过程中调查组第n位成员第d维的最优量子位置,是前t次迭代过程中调查组全局最优解第d维的量子位置,为[0,1]间均匀分布的随机数,β1为调查组调查时的变异概率;

25、追捕组第n位成员第d维量子位置的量子旋转门更新过程为:其中为追捕组行动阶段的量子旋转角,和为(0,1)之间的标准正态随机数,是前t次迭代过程中追捕组全局最优解的第d维量子位置,为追捕组的第d维平均量子位置,为[0,1]间均匀分布的随机数,β2为追捕组进行追捕过程的变异概率。

26、进一步地,步骤五中调查组第n位成员被选中进入追捕组的概率为追捕组第n位成员被选中进入调查组的概率为

27、进一步地,用于数据分类、生物医学、图像处理和通信信号处理领域。

28、一种基于量子法医调查机制的特征选择系统,该系统具有与上述技术方案任一项技术方案的步骤对应的程序模块,运行时执行上述的基于量子法医调查机制的特征选择方法中的步骤。

29、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现上述技术方案中任一项所述的基于量子法医调查机制的特征选择方法中的步骤。

30、相较于现有技术,本发明的有益效果是:

31、一、本发明设计了单链编码的量子法医调查机制,对连续优化问题的法医调查机制进行离散化处理,同时结合无明显学习过程k近邻分类器,极大的降低了封装式特征选择所需要的时间,减小时间开销,同时与过滤式特征选择方法相比所选取的特征子集具有更高的精度。

32、二、发明所提出的基于量子编码和模拟量子旋转门进行演进的量子法医调查机制方法相较于其他传统智能优化方法有更好的全局收敛性和收敛速度,并且可以用于离散优化问题的求解,突破了原有法医调查机制的应用局限,在特征选择问题上可以选择精度更高的特征子集。

33、三、本发明的基于量子法医调查机制的特征选择方法在低维度和高维度的数据集下选取的特征子集均具有分类正确率高和所选特征子集包含特征数低的优点,对于维数较高的数据集可以明显达到对数据集降维的效果,同时在先验知识较少的情况下依旧能选取精度高的特征子集,因此,本发明方法具有更快的收敛速度、更高的收敛精度、更低的时间复杂度以及较强的鲁棒性和广泛的应用前景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1