基于改进PSO算法的基因表达数据聚类方法与流程

文档序号:12271990阅读:500来源:国知局

本发明属于基因表达数据聚类分析领域中,具体涉及一种基于改进PSO算法的基因表达数据聚类方法。



背景技术:

随着生命科学的高速发展,产生的生物信息也急剧增加,为了处理这些庞大的数据集,人们巧妙的将计算机科学等分析工具和方法引入到生命科学研究中,形成生物信息学。生物信息学的研究内容大致可分为基因组分析、蛋白质组学研究、在基因组水平上研究分子进化、基因芯片与生物信息学以及系统生物学研究五个方面。基因相似性的研究内容是寻找不同序列的相似性,主要从结构及功能的角度进行研究和分析,既是序列结构和功能相似性研究的入手点,也为研究新纪元的结构和功能提供一个新的途径。

粒子群算法是通过模拟鸟群觅食行为而发展起来的一种基于群体协作的随机搜索算法,相对于其他聚类算法具有较大的优势,所以将其应用到基因表达数据聚类分析领域上来。



技术实现要素:

本发明的目的在于,提出一种基于改进PSO算法的基因表达数据聚类新方法。

为实现上述目的,本发明的技术方案包括以下部分:一种基于改进PSO算法的基因表达数据聚类方法,其特征在于,包括以下步骤:步骤S1:对基因芯片数据进行0-1标准化后,建立基因表达矩阵,然后再计算基因间的欧式距离,把基因表达矩阵转化为距离矩阵,距离矩阵相对于对角线对称,基因间的距离表示基因的相似程度;步骤S2对于每个粒子,随机选取0~n之间的整数k,其中n为基因的个数,求出其余各基因到基因k之间的距离作为当前粒子的初始位置,粒子群中初始群体最优位置是以各基因到中心基因的距离作为粒子群体历史最优位置;步骤S3:将惯性权重w设为可调因子:w=0.9-a*0.4b,将学习因子c2也设为可调因子:c2=2.0*a/b,其中a为当前迭代次数,b为总迭代次数;步骤S4:原始的基因表达数据聚类算法中,当获得最初优化路径时,仅仅根据给定阀值D对路径进行剪枝,获得初始基因聚类;再对聚类的结果进行进一步优化,去掉单独成簇的基因以及过于稀疏的聚类,得到最终的基因聚类结果。

较佳的,步骤S2中的粒子的种群规模取基因个数的5倍。

本发明将粒子群算法应用到基因表达数据聚类分析领域上,使其能根据基因表达数据,对基因进行准确、快速的聚类。

具体实施方式

下面结合具体实施例对本发明做进一步解释说明。

本发明提出一种基于改进PSO算法的基因表达数据聚类新方法,其主要包括以下步骤:

①建立基因距离矩阵

从基因芯片数据中选取优质的实验条件,对数据进行0-1标准化后,建立基因表达矩阵。然后再计算基因间的欧式距离,把基因表达矩阵转化为距离矩阵。距离矩阵相对于对角线对称,基因间的距离表示基因的相似程度。

②PSO初始化

在基本粒子群算法中,粒子群初始位置是随机选取,跟实际问题的求解没有关联。而为了使粒子群算法跟实际问题相关联,本发明中粒子初始位置是确定的:对于每个粒子,随机选取0~n之间的整数k(其中n为基因的个数),求出其余各基因到基因k之间的距离作为当前粒子的初始位置,粒子群中初始群体最优位置是以各基因到中心基因的距离作为粒子群体历史最优位置。较佳的,粒子的种群规模取基因个数的5倍。

③参数设置

在基本粒子群算法中,一般选取惯性权重w=1和学习因子c2=2,但考虑到基本粒子群算法容易陷入局部最优,而惯性权重w主要是粒子保持自身运动状态的惯性,用来平衡算法局部和全局搜索,当w取大值时有利于探索新领域,较小时有利于详细搜索当前区域。因此迭代初始时粒子应扩大搜索区域,进行全局搜索,使搜索区域收敛于某一局部区域,而随着迭代次数的增加,粒子应进行局部范围搜索,有利于寻找最优解,防止陷入局部最优。所以本发明中惯性权重w设为可调因子:w=0.9-a*0.4b。

由于学习因子c2是粒子向群体历史最优位置学习,粒子开始搜索阶段,群体历史最优位置在群体最优解所占据的优势还不是很明显,因此通过参数设置使粒子开始阶段向群体历史最优位置学习的比重较低,而搜索后期,由于群体历史最优位置在搜索全局最优解中的比重较大,因此可以使粒子多向群体历史最优位置学习,防止陷入局部最优,有利于找到最优解。所以本发明中,c2也设为可调因子:c2=2.0*a/b。其中a为当前迭代次数,b为总迭代次数。

④聚类优化

原始的基因表达数据聚类算法中,当获得最初优化路径时,仅仅根据给定阀值D对路径进行剪枝,获得初始基因聚类。之后,再对聚类的结果进行进一步优化,去掉单独成簇的基因以及过于稀疏的聚类,得到最终的基因聚类结果。

以上所述仅为本发明的较佳实施例,并不用以限定本发明,在不脱离本发明基本构思的前提下所做的若干等同替代和变型,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1