本发明涉及数据分析,具体涉及一种高维数据可视化分析方法及系统。
背景技术:
1、数据分析是一种从数据集中挖掘数据规律以及数据间关联关系的技术,而确定数据集的数据分布则是数据分析过程中所要解决的重要问题之一。数据集通常具有多个维度,且不同的维度用于指示不同的属性或特征。
2、在生物实验中,比如流式细胞术收集单个细胞多个参数,包括三个物理参数:蓝激光下的前向光、蓝激光下的侧向散射光、紫激光下的侧向散射光;多种荧光参数:不同蛋白结合对应抗体偶联荧光的荧光平均强度。对于低维度的数据集,根据数据集中的数据绘制数据点集即可直观了解到数据的分布情况;但是对于高维度的数据集,则难以通过绘制数据点集的方式来确定数据的分布情况。现有技术中,为了实现数据分布可视化,当数据集的维度较高时,需要对数据集进行降维分析。其中,常见的降维分析方式包括线性降维分析(pca,lda)、非线性降维分析(t-sne,umap,mds)等等,聚类的方式有划分式聚类方法、密度聚类方法、层次聚类方法、图聚类,神经网络聚类等等。但是现有的方法在实施的过程中存在以下问题:1、在对高维数据集进行降维的过程中,导入的数据质量不一,存在空数据、数据批间差、仪器不稳定导致的异常数据等,这些数据的存在会影响结果分析的准确度。2、在降维的过程中可选用的降维分析方式的单一,聚类方法单一,不可以根据数据的特点,自行选择降维方式和聚类方法。
技术实现思路
1、针对上述缺陷,本发明实施例公开了一种高维数据可视化分析方法及系统,本发明针对在对高维数据集进行降维的过程中,导入的数据质量不一,存在空数据、数据批间差、仪器不稳定导致的异常数据等,这些数据的存在会影响结果分析的准确度;本发明通过对高维数据进行数据整合、数据标准化以及去除异常数据,节省降维资源消耗,使得降维后的数据分析结果更加准确。
2、本发明实施例第一方面公开了一种高维数据可视化分析方法,包括:
3、获取高维数据集;
4、对所述高维数据集进行预处理,得到预处理数据集;其中,所述预处理步骤包括:将所述高维数据集整合成一个含有相同通道的数据矩阵;对所述数据矩阵进行标准化处理,得到标准化数据矩阵;利用harmony算法去除所述标准化数据矩阵的批次效应;
5、对所述预处理数据集进行降维分析后,输出可视化视图。
6、作为一种可选的实施方式,在本发明实施例第一方面中,所述高维数据集包括由多色流式细胞术测试得到的第一数据集、由质谱流式细胞术测试得到的第二数据集、由单细胞测序得到的第三数据集、geo数据库中的第四数据集、tcga数据库中的第五数据集以及由多重荧光免疫组化技术测试得到的第六数据集中的一种或两种以上的组合。
7、作为一种可选的实施方式,在本发明实施例第一方面中,所述预处理步骤还包括:利用isotype的标记效果去除所述标准化数据矩阵的非特异性荧光背景。
8、作为一种可选的实施方式,在本发明实施例第一方面中,高维数据集中的每个样品数据在整合之前,需要经过随机downsample取样。以确保最终的数据量不会太大,节省降维资源消耗。
9、作为一种可选的实施方式,在本发明实施例第一方面中,对所述预处理数据集进行降维分析包括:
10、利用pca或lda对所述预处理数据集进行线性降维分析;
11、或,利用t-sne、umap或mds对所述预处理数据集进行非线性降维分析。
12、作为一种可选的实施方式,在本发明实施例第一方面中,对所述预处理数据集进行降维分析后,再利用划分式聚类方法或密度聚类方法对所述预处理数据集进行聚类分析,得到多个亚群。
13、作为一种可选的实施方式,在本发明实施例第一方面中,对所述预处理数据集进行聚类分析后,还包括:
14、根据所述聚类分析后的数据集定义差异化亚群,其中,定义差异化亚群包括:根据特异性高表达蛋白或基因的表达水平自主定义或自动命名;
15、将每一个亚群分别与其他所有亚群进行差异分析,寻找每个亚群的特异性高表达蛋白或基因;
16、计算每个样品中的亚群比例,比较组间的亚群分布差异;
17、基于每个样品的亚群比例分布的相似性进行相关性分析或pca分析,从而对未明确分组的样品进行分组。
18、本发明实施例第二方面公开一种高维数据可视化分析系统,包括:
19、获取模块,用于获取高维数据集;
20、预处理模块,用于对所述高维数据集进行预处理,得到预处理数据集;其中,所述预处理步骤包括:将所述高维数据集整合成一个含有相同通道的数据矩阵;对所述数据矩阵进行标准化处理,得到标准化数据矩阵;利用harmony算法去除所述标准化数据矩阵的批次效应;
21、降维分析模块,用于对所述预处理数据集进行降维分析后,输出可视化视图。
22、本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的
23、所述可执行程序代码,用于执行本发明实施例第一方面公开的一种高维数据可视化分析方法。
24、本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种高维数据可视化分析方法。
25、与现有技术相比,本发明实施例具有以下有益效果:本发明实施例中高维数据可视化分析方法通过对高维数据进行数据整合、数据标准化以及去除异常数据,节省降维资源消耗,使得降维后的数据分析结果更加准确;同时,本发明在数据降维过程中可自由选择降维分析方式和聚类方法,在降维分析后,定义差异化亚群,对差异化亚群进行二次降维分析,使得可视化可靠性高,结果更可信。
1.一种高维数据可视化分析方法,其特征在于,包括:
2.如权利要求1所述的高维数据可视化分析方法,其特征在于,所述高维数据集包括由多色流式细胞术测试得到的第一数据集、由质谱流式细胞术测试得到的第二数据集、由单细胞测序得到的第三数据集、geo数据库中的第四数据集、tcga数据库中的第五数据集以及由多重荧光免疫组化技术测试得到的第六数据集中的一种或两种以上的组合。
3.如权利要求1所述的高维数据可视化分析方法,其特征在于,所述预处理步骤还包括:利用isotype的标记效果去除所述标准化数据矩阵的非特异性荧光背景。
4.如权利要求1所述的高维数据可视化分析方法,其特征在于,高维数据集中的每个样品数据在整合之前,需要经过随机downsample取样。
5.如权利要求1所述的高维数据可视化分析方法,其特征在于,对所述预处理数据集进行降维分析包括:
6.如权利要求5所述的高维数据可视化分析方法,其特征在于,对所述预处理数据集进行降维分析后,再利用划分式聚类方法或密度聚类方法对所述预处理数据集进行聚类分析,得到多个亚群。
7.如权利要求6所述的高维数据可视化分析方法,其特征在于,对所述预处理数据集进行聚类分析后,还包括:
8.一种高维数据可视化分析系统,其特征在于,包括:
9.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至7任一项所述的高维数据可视化分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至7任一项所述的高维数据可视化分析方法。