一种基于深度自动编码器的基因表达数据聚类方法

文档序号:29692192发布日期:2022-04-16 12:04阅读:来源:国知局

技术特征:
1.一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,包括:s1:获取基因表达数据;s2:对基因表达数据进行预处理,得到mrna数据;s3:将mrna数据输入到训练好的深度自动编码器中,得到降维后的mrna数据;s4:采用mclust包确定降维后的mrna数据的聚类簇数;s5:根据聚类簇数,采用k-means聚类算法对降维后的mrna数据进行聚类,得到聚类结果。2.根据权利要求1所述的一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,对获取的基因表达数据进行预处理包括:从基因表达数据中提取mrna数据;对mrna数据进行基因id转换、缺失值处理和删除重复基因,得到得到初步处理好的mrna数据;对初步处理好的mrna数据进行剔除过低表达量基因处理;使用方差稳定变换对剔除过低表达量基因后的数据进行标准化处理,得到预处理好的mrna数据。3.根据权利要求1所述的一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,对深度自动编码器进行训练包括:深度自动编码器包括编码器和解码器;s31:采用编码器对输入mrna数据进行特征学习,得到降维后的mrna数据;s32:采用解码器对降维后的mrna数据进行重构,得到重构的mrna数据;s33:根据重构的mrna数据和原mrna数据计算损失函数,返回步骤s31,当损失函数最小时,得到训练好的深度自动编码器。4.根据权利要求3所述的一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,深度自动编码器的编码器处理数据的公式为:y=f
θ
(x)=f
k
(f
k-1
(...f1(x)))=σ
k

k-1
(...σ1(wx+b)))其中,x表示输入向量,y表示降维后的mrna数据,f
θ
表示编码器,f
i
表示深度网络中第i层的映射函数,σ
k
表示第k层的激活函数,w表示权重矩阵值,b表示偏移矩阵。5.根据权利要求3所述的一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,深度自动编码器的解码器处理数据的公式为:z=g
θ

(y)=g
k
(g
k-1
(...g1(y)))=σ
k

k-1
(...σ1(w

y+b

)))其中,y表示输入的经过降维的mrna数据,z表示重构基因向量,g
θ

={g1,g2,...,g
k
}表示解码器,σ
k
表示激活函数,w

表示权重矩阵值,b

表示偏移矩阵。6.根据权利要求3所述的一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,损失函数为:l=-log p(x|z)=-log p(x|z=g
θ

(f
θ
(x)))其中,l表示损失函数,x表示输入的原mrna数据,z表示输入x的一个重构基因向量,f
θ
(x)表示经过降维的mrna数据,g
θ

表示解码器。7.根据权利要求1所述的一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,采用mclust包确定降维后的mrna数据的聚类簇数包括:设定初始聚类簇数的范围;在聚类簇数的范围内,mclust包中所有算法均根据不同的聚类簇数计算bic值;将使得bci值最大时的聚类簇数作为mrna数据的聚类簇数。8.根据权利要求7所述的一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,bic值的计算公式为:
其中,m表示mclust包中第m个算法,g表示聚类簇数,x表示输入的经过降维的mrna数据,表示极大似然估计,n表示基因数目,v表示估计参数个数。9.根据权利要求1所述的一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,采用k-means聚类算法对降维后的mrna数据进行聚类包括:s51:定义初始聚类中心;s52:根据聚类中心对mrna数据进行聚类,得到聚类后的mrna数据;s53:根据所有mrna数据与聚类中心的距离计算目标函数;s54:更新聚类中心,返回步骤s52,当目标函数最小时,停止聚类。10.根据权利要求9所述的一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,目标函数为:其中,s
i
表示第i个簇,μ
i
表示簇s
i
的均值向量聚类中心,k表示聚类簇数,x表示mrna数据。

技术总结
本发明属于基因表达数据分析领域,具体涉及一种基于深度自动编码器的基因表达数据聚类方法;该方法包括:获取基因表达数据;对基因表达数据进行预处理,得到mRNA数据;将mRNA数据输入到训练好的深度自动编码器中,得到降维后的mRNA数据;采用mclust包确定降维后的mRNA数据的聚类簇数;根据聚类簇数,采用k-means聚类算法对降维后的mRNA数据进行聚类,得到聚类结果;本发明采用mclust包确定聚类簇数,避免了人为设置聚类簇数的局限性,聚类结果更准确;将深度自动编码器与聚类方法相结合,加快了聚类运算速度,且有效地提升了聚类的效果,具有良好的应用前景。具有良好的应用前景。具有良好的应用前景。


技术研发人员:何瑶 舒坤贤
受保护的技术使用者:重庆邮电大学
技术研发日:2022.01.05
技术公布日:2022/4/15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1