生物疫苗数据特征选择方法、装置、设备及介质

文档序号:36015003发布日期:2023-11-17 10:36阅读:28来源:国知局
生物疫苗数据特征选择方法、装置、设备及介质与流程

本发明涉及生物疫苗研发数据挖掘,具体涉及生物疫苗数据特征选择方法、装置、设备及介质。


背景技术:

1、随着生物疫苗研发和生产制造技术快速的发展,疫苗研发及生产过程中会产生大量的数据。为了从这些生物疫苗数据中获取有效信息,需要对这些数据进行处理分析,机器学习算法作为一种有效的处理方法备受研究者青睐。然而,在实际应用中,机器学习算法所要处理的生物疫苗数据中存在着大量不相关或者冗余的特征,这些特征可能会影响算法的学习精度和训练速度,从而影响机器学习算法的性能。

2、特征选择是一种数据预处理技术,旨在从原始数据集中删除大量无关和冗余的特征,并选择一些重要的特征来构建一个有效的特征子集,特征子集可以尽可能地保留原始数据集的特点,提高机器学习算法的性能表现。特征选择具有降低数据的储存成本,减少机器学习算法的训练时间,提高分类准确率,促进数据的可视化和理解等优点。然而,在高维数据集中,由于其维度高,训练样本少,并且存在着大量冗余和不相关的特征,给传统的特征选择方法带来了一定的困难,因此,提出一个高效的特征选择方法用于处理高维数据集是一个十分有意义的课题。

3、群智能优化算法是一类基于计算智能机制,将随机算法与局部搜索算法相结合形成的算法,常被用于求解复杂优化问题最优解或满意解。随着计算机科学技术的飞速发展,群智能优化算法已经在生物疫苗、机械调度、图像信号处理、医疗健康领域得到了广泛的应用。近年来,高维数据存在的“维度灾难”问题给一些传统的特征选择方法带来了挑战。特征选择作为一个经典的组合优化问题,一个具有n个特征的数据集理论上会产生2n-1个特征子集,穷举搜索在理论上可以找到最优特征子集,但是随着维度的升高,使用穷举搜索的时间消耗巨大,在现有的计算机硬件基础上使用穷举搜索搜寻高维数据集的特征子集是不现实的。由于群智能优化算法基于随机搜索的特点,已被广泛应用于求解高维、非线性组合优化问题。通过群智能优化算法对高维数据进行特征选择,能有效地降低高维数据集的维度,同时提升分类准确率。众多的实验研究表明,基于群智能优化算法的特征选择方法在处理高维数据上具有显著优势。

4、现有的粒子群优化算法存在的种群多样性不足,搜索容易陷入局部最优问题,高维生物疫苗数据集存在的“维度灾难”,特征选择过程中的时间消耗较长的问题,因此,将群智能优化算法中经典的粒子群优化算法应用于生物疫苗数据中高维特征选择是具有十分重要的研究意义的。


技术实现思路

1、本发明的目的是提供生物疫苗数据特征选择方法、装置、设备及介质,以解决现有技术中的上述不足之处。

2、为了实现上述目的,本发明提供如下技术方案:生物疫苗数据特征选择方法,包括以下步骤:

3、步骤1:对高维生物疫苗数据集进行预处理,使用卡方检验计算每个特征与标签之间的相关性,并按照相关性进行排序,保留指定比例的排序靠前的特征;

4、步骤2:将预处理后的生物疫苗数据集划分为训练集和测试集;

5、步骤3:初始化种群和改进粒子群优化算法所需参数,所述的初始化参数包括:种群规模n,最大迭代次数t,速度向量,位置向量,当前种群个人最佳位置pbesti和全局最佳位置gbest,设置位置向量上限ub=1,下限lb=0;

6、步骤4:将每个粒子的位置向量进行二进制编码转化;

7、步骤5:算法开始迭代运行,在每次迭代过程中,计算种群中每个粒子代表的特征子集的适应性函数值,通过比较每个粒子的适应性函数值,确定当前迭代中适应性函数值最高的三个粒子;

8、步骤6:更新种群中粒子的速度向量和位置向量;

9、步骤7:判断当前迭代次数是否达到最大迭代次数,若否,则执行步骤5,若是,则输出全局最优的粒子所对应的特征子集及其适应度值。

10、进一步的,所述步骤1使用卡方检验对高维生物疫苗数据集进行预处理;使用卡方检验计算数据集中特征与标签的相关性的计算公式为;

11、

12、其中,f0表示实际频数,fe表示理论频数,使用卡方检验进行特征选择时,通过计算卡方值的大小,判断两者之间的差异性。

13、进一步的,所述步骤3将种群中每个粒子进行初始化,对种群中每个粒子的速度向量vi,位置向量xi进行初始化vi=(vi1,vi2,…,vid),xi=(xi1,xi2,…,xid),其中,vi和xi表示第i(i=1,2,…,n)个粒子的速度和位置矢量,d表示数据集的特征维度。

14、进一步的,所述步骤4中二进制转换使用公式为:

15、

16、其中,xbid=(xbi1,xbi2,…,xbid),xbid表(示经过二进制转换后种群中粒子的位置向量,i和d分别表示种群的粒子数量和特征维度。

17、进一步的,所述步骤5中计算初始种群的适应性函数值的计算公式为:

18、

19、其中acc(x)表示特征子集的分类准确率,#x和n分别表示特征子集和原始数据集中的特征数量,θ为用于平衡分类准确率和选择特征数量的惯性权重。

20、进一步的,所述步骤6中,根据种群中前三个最优粒子对种群中每个粒子的速度向量和位置向量进行更新,具体步骤为:

21、步骤6.1:更新三个最优粒子的位置向量,其更新公式为:

22、

23、

24、

25、其中,和是α、β和δ的位置向量,和表示粒子和领导者之间的距离,和是[0,2]之间的随机数,粒子的搜索范围由收敛因子控制,收敛因子计算公式为:

26、

27、其中,变量是控制系数,t表示当前迭代次数,t表示最大迭代次数,r5表示一个0到1的随机数,其在搜索过程中从2线性减小到0,c是自适应参数,c根据种群状态动态变化。

28、步骤6.2:更新自适应参数c,其更新公式如下:

29、

30、

31、其中m是一个变量,初值为0,如果在下一次迭代中最佳适应度值发生了改变,则m的值将会增加1,否则其值始终为0。

32、步骤6.3:更新每个粒子的速度向量和位置向量,公式如下:

33、

34、xi(t+1)=xi(t)+vi(t+1)(10),

35、其中ω被定义为惯性参数,它是一个非负数,和表示种群中的前三位,r4是一个[0,1]之间的随机数。

36、进一步的,所述全局最优粒子的位置向量,使用二进制转换公式进行转换,其中“1”表示选择特征,“0”表示放弃特征。

37、生物疫苗数据特征选择装置,包括数据获取模块、数据处理模块、数据划分模块、算法模型模块、算法迭代模块、算法输出模块;

38、所述数据获取模块用于获取高维生物疫苗数据,生成高维生物疫苗数据集;

39、所述数据处理模块与数据获取模块连接,用于对高维生物疫苗数据集进行预处理,并对预处理后的数据进行排序筛选;

40、所述数据划分模块与数据处理模块连接,用于将处理后的数据划分为训练集和测试集;

41、所述算法模型模块内储存有初始化种群和改进粒子群优化算法及其所需参数;

42、所述算法迭代模块与算法模型模块连接,用于对位置向量进行二进制转化,并对算法模型中的改进粒子群优化算法及其参数进行迭代更新;

43、所述算法输出模块与算法模型模块连接,用于输出算法模型的算法的输出。

44、一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行程序时实现生物疫苗数据特征选择方法。

45、一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现生物疫苗数据特征选择方法。

46、1、与现有技术相比,本发明提供的生物疫苗数据特征选择方法、装置、设备及介质,通过设置算法模型模块、算法迭代模块、算法输出模块,使用自适应的参数更新策略用于取代粒子群优化算法的固定参数,使粒子能在更合理的范围内搜索,还采用了一种向搜索过程中前三位最优粒子学习的领导学习策略,为粒子搜索提供了更丰富的种群多样性。

47、2、与现有技术相比,本发明提供的生物疫苗数据特征选择方法、装置、设备及介质,通过设置数据获取模块、数据处理模块、数据划分模块、算法模型模块、算法迭代模块、算法输出模块,采用了一种基于卡方检验的两阶段特征选择方法。在第一阶段,采用卡方检验对生物疫苗数据进行预处理,初步去除大量不相关特征,快速降低数据的维度。第二阶段,使用所提出的改进的粒子群优化算法对处理后的生物疫苗数据进行特征选择,进一步提升分类准确率、降低特征子集的大小。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1