一种数据融合方法及装置与流程

文档序号:17491303发布日期:2019-04-23 20:34阅读:152来源:国知局
一种数据融合方法及装置与流程

本申请涉及数据处理的技术领域,尤其涉及一种数据融合方法及装置。



背景技术:

icluster是一个无监督机器学习框架,用来进行数据整合。方法流程表示为多个数据矩阵的矩阵分解。xi代表相同数量的样本的不同数据类型,不同的数据类型有不同的特征数量ni。多个矩阵被分解到一个共同的特征空间,由矩阵z表示,矩阵z也被称为聚类指示矩阵;它用于将p个样本分配到k个社团中。称为系数矩阵的矩阵wi特定于每个数据集i(即分别对应于不同数据类型矩阵)。矩阵z捕获跨数据类型的相关性,并根据z将样本分配到子社团(癌症分子亚型)。

但是目前在具体的实施过程中,icluster数据整合技术通过整合癌症的多维属性数据进行癌症分子分型,得到癌症的分子亚型。若矩阵中特征数量变化,则矩阵分解的结果也会直接受到影响,若特征样本矩阵中特征数量十分巨大,则矩阵分解的计算量增加,时间复杂度也会增大,所以,这种方法的时间复杂度会随着特征数增大而显著增加。因此,现有技术中存在着对癌症的多维属性数据融合,并进行癌症分子分型,从而获得癌症的分子亚型的过程中,时间复杂度会随着特征数增大而显著增加的问题。



技术实现要素:

有鉴于此,本申请提供一种数据融合方法及装置,用于解决现有技术中对癌症的多维属性数据融合,并进行癌症分子分型,从而获得癌症的分子亚型的过程中,时间复杂度会随着特征数增大而显著增加的问题。

本申请提供了的一种数据融合方法,所述方法包括:将获得的多个相似性矩阵连接,获得第一异质矩阵;使用第一预设算法对所述第一异质矩阵进行迭代计算,获得在迭代达到稳态分布下的第二异质矩阵;使用第二预设算法对所述第二异质矩阵进行融合计算,获得融合相似性矩阵;对所述融合相似性矩阵进行聚类分析,获得多个社团。

可选地,在本申请实施例中,所述将获得的多个相似性矩阵连接,获得第一异质矩阵,包括:将所述多个相似性矩阵与多个相同的预设矩阵按照预定顺序排列,获得第一异质矩阵。

可选地,在本申请实施例中,所述多个相似性矩阵包括第一相似性矩阵、第二相似性矩阵,所述第一异质矩阵为:其中,s为所述第一异质矩阵,in为预设矩阵,s1为所述第一相似性矩阵,s2为所述第二相似性矩阵。

可选地,在本申请实施例中,所述使用第二预设算法对所述第二异质矩阵进行融合计算,获得融合相似性矩阵,包括:对进行均值融合计算,获得其中,s'为所述第二异质矩阵,sfusion为所述融合相似性矩阵,所述第一相似性矩阵包括多个节点,所述第二相似性矩阵包括多个节点,s′1为所述第一相似性矩阵中节点游走到所述第一相似性矩阵的概率矩阵,a′12为所述第一相似性矩阵中节点游走到所述第二相似性矩阵的概率矩阵,a′21为所述第二相似性矩阵中节点游走到所述第一相似性矩阵的概率矩阵,s′2为所述第二相似性矩阵中节点游走到所述第二相似性矩阵的概率矩阵。

可选地,在本申请实施例中,所述使用第一预设算法对所述第一异质矩阵进行迭代计算,获得在迭代达到稳态分布下的第二异质矩阵,包括:设置所述第一相似性矩阵的第一初始值、所述第二相似性矩阵的第二初始值和所述第一异质矩阵的第三初始值;将所述第一初始值、所述第二初始值和所述第三初始值代入可重启随机游走算法对所述第一异质矩阵进行迭代计算;当所述迭代计算满足第一预设条件时,迭代达到稳态分布,获得第二异质矩阵。

可选地,在本申请实施例中,所述设置所述第一相似性矩阵的第一初始值、所述第二相似性矩阵的第二初始值和所述第一异质矩阵的第三初始值,包括:设置所述第一初始值为其中,表示所述第一相似性矩阵的初始资源,满足关系设置所述第二初始值为其中,表示所述第二相似性矩阵的初始资源,满足关系设置所述第三初始值为其中,表示所述第一异质矩阵在第0时刻的概率向量,α1为所述第一相似性矩阵的初始资源获得概率,α2为所述第二相似性矩阵的初始资源获得概率,α1和α2满足关系α1+α2=1,并且,满足关系

可选地,在本申请实施例中,所述将所述第一初始值、所述第二初始值和所述第三初始值代入可重启随机游走算法对所述第一异质矩阵进行迭代计算,包括:将所述第一初始值、所述第二初始值和所述第三初始值代入对所述第一异质矩阵进行迭代计算;其中,t表示在第t时刻,为所述第一异质矩阵在第t+1时刻的概率向量,γ表示在迭代计算过程中的回到第0时刻的概率向量,w为所述第一异质矩阵的概率转移矩阵,wt为所述概率转移矩阵的转置运算,为所述第一异质矩阵在第t时刻的概率向量,为所述第一异质矩阵在第0时刻的概率向量。

可选地,在本申请实施例中,所述概率转移矩阵为:w11满足关系w12满足关系w21满足关系w22满足关系其中,w为所述概率转移矩阵,w11为所述第一相似性矩阵中节点游走到所述第一相似性矩阵的概率矩阵,w12为所述第一相似性矩阵中节点游走到所述第二相似性矩阵的概率矩阵,w21为所述第二相似性矩阵中节点游走到所述第一相似性矩阵的概率矩阵,w22为所述第二相似性矩阵中节点游走到所述第二相似性矩阵的概率矩阵;w11(i,j)为所述第一相似性矩阵中第i节点游走到所述第一相似性矩阵中第j节点的概率,w12(i,j)为所述第一相似性矩阵中第i节点游走到所述第二相似性矩阵中第j节点的概率,w21(i,j)为所述第二相似性矩阵中第i节点游走到所述第一相似性矩阵中第j节点的概率,w22(i,j)为所述第二相似性矩阵中第i节点游走到所述第二相似性矩阵中第j节点的概率;λ1为节点从一个相似性矩阵游走到同一个相似性矩阵的概率,λ2为节点从一个相似性矩阵游走到另一个相似性矩阵的概率,λ1和λ2满足关系λ1+λ2=1,s1(i,j)表示所述第一相似性矩阵中的第i行第j列的相似性值,∑ks1(i,k)表示所述第一相似性矩阵中的从第i行第1列的相似性值累加至第i行第k列的相似性值之和,s2(i,j)表示所述第二相似性矩阵中的第i行第j列的相似性值,∑ks2(i,k)表示所述第二相似性矩阵中的从第i行第1列的相似性值累加至第i行第k列的相似性值之和。

可选地,在本申请实施例中,所述当所述迭代计算满足第一预设条件时,迭代达到稳态分布,获得第二异质矩阵,包括:当所述迭代计算满足时,迭代达到稳态分布,获得第二异质矩阵;其中,t表示在第t时刻,为所述第一异质矩阵在第t+1时刻的概率向量,为所述第一异质矩阵在第t时刻的概率向量,表示所述第一异质矩阵在第t+1时刻的概率向量与第t时刻的概率向量的差值后的范数。

本申请还提供了一种数据融合装置,所述装置包括:第一异质矩阵获得模块,用于将获得的多个相似性矩阵连接,获得第一异质矩阵;第二异质矩阵获得模块,用于使用第一预设算法对所述第一异质矩阵进行迭代计算,获得在迭代达到稳态分布下的第二异质矩阵;融合相似性矩阵获得模块,用于使用第二预设算法对所述第二异质矩阵进行融合计算,获得融合相似性矩阵;多个社团获得模块,用于对所述融合相似性矩阵进行聚类分析,获得多个社团。

本申请提供一种数据融合方法及装置,通过将获得的多个相似性矩阵连接,获得第一异质矩阵;使用第一预设算法对所述第一异质矩阵进行迭代计算,获得在迭代达到稳态分布下的第二异质矩阵;使用第二预设算法对所述第二异质矩阵进行融合计算,获得融合相似性矩阵;对所述融合相似性矩阵进行聚类分析,获得多个社团。通过采用对将多个相似性矩阵连接后获得第一异质矩阵,再对第一异质矩阵进行迭代和融合计算,最后进行聚类分析计算,最终获得多个社团,这种方式没有特征数量,也同时避免了对样本矩阵的特征进行分解等计算,从而避免了时间复杂度会随着特征数增大而显著增加的问题,有效地解决了现有技术中对癌症的多维属性数据融合,并进行癌症分子分型,从而获得癌症的分子亚型的过程中,时间复杂度会随着特征数增大而显著增加的问题。

为使本申请的上述目的和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚的说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的电子设备结构示意图;

图2示出了本申请实施例提供的数据融合方法流程示意图;

图3示出了本申请实施例提供的数据融合方法步骤s200的流程示意图;

图4示出了本申请实施例提供的数据融合装置结构示意图。

图标:100-电子设备;110-处理器;120-存储器;130-存储介质;200-数据融合装置;210-第一异质矩阵获得模块;220-第二异质矩阵获得模块;230-融合相似性矩阵获得模块;240-多个社团获得模块。

具体实施方式

本申请实施例提供一种数据融合方法及装置,用于解决现有技术中对癌症的多维属性数据融合,并进行癌症分子分型,从而获得癌症的分子亚型的过程中,时间复杂度会随着特征数增大而显著增加的问题。其中,应用于电子设备的方法和装置是基于同一创造构思的,由于方法及相应的装置和设备解决问题的原理相似,因此方法及相应的装置和设备的实施可以相互参见,重复之处不再赘述。

以下将对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。

脱氧核糖核酸(dna,deoxyribonucleicacid),又称去氧核糖核酸,是染色体的主要化学成分,同时也是组成基因的材料。有时被称为“遗传微粒”,因为在繁殖过程中,父代把它们自己dna的一部分复制传递到子代中,从而完成性状的传播。

核糖核酸(rna,ribonucleicacid),存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。rna由核糖核苷酸经磷酸二酯键缩合而成长链状分子。一个核糖核苷酸分子由磷酸,核糖和碱基构成。rna的碱基主要有4种,即a腺嘌呤、g鸟嘌呤、c胞嘧啶、u尿嘧啶,其中,u(尿嘧啶)取代了dna中的t。

信使核糖核酸(mrna,messengerrna),又称信使rna,信使rna是由dna的一条链作为模板转录而来的、携带遗传信息的能指导蛋白质合成的一类单链核糖核酸。携带遗传信息,在蛋白质合成时充当模板的rna。信使rna信使rna从脱氧核糖核酸(dna)转录合成的带有遗传信息的一类单链核糖核酸(rna)。它在核糖体上作为蛋白质合成的模板,决定肽链的氨基酸排列顺序。mrna存在于原核生物和真核生物的细胞质及真核细胞的某些细胞器(如线粒体和叶绿体)中。

非编码单链rna分子(microrna,简写为mirna)是一类内生的、长度约为20-24个核苷酸的小rna,其在细胞内具有多种重要的调节作用。每个mirna可以有多个靶基因,而几个mirna也可以调节同一个基因。这种复杂的调节网络既可以通过一个mirna来调控多个基因的表达,也可以通过几个mirna的组合来精细调控某个基因的表达。

互补脱氧核糖核酸(cdna,complementarydna),是指具有与某rna链呈互补碱基序列的dna。与rna链互补的单链dna,以其rna为模板,在适当引物的存在下,由依赖rna的dna聚合酶(反转录酶)作用而合成,并且在合成单链cdna后,再用碱处理除去与其对应的rna以后,以单链cdna为模板,由依赖dna的dna聚合酶或依赖rna的dna聚合酶作用合成双链cdna。在这种情况下,mrna的cdna,与原来的基因组dna不同而且无内含子;相反地,对应于在原来基因中没有的而在mrna存在的3'末端的多a序列等的核苷序列上,与外显子序列、先导序列以及后续序列等一起反映出mrna结构。真核生物的mrna或其他rna的cdna,在遗传工程方面广为应用。

基因表达谱(geneexpressionprofile):指通过构建处于某一特定状态下的细胞或组织的非偏性cdna文库,大规模cdna测序,收集cdna序列片段、定性、定量分析其mrna群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱。

dna甲基化(dnamethylation)为dna化学修饰的一种形式,能够在不改变dna序列的前提下,改变遗传表现。所谓dna甲基化是指在dna甲基化转移酶的作用下,在基因组cpg二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。大量研究表明,dna甲基化能引起染色质结构、dna构象、dna稳定性及dna与蛋白质相互作用方式的改变,从而控制基因表达。

分子分型(molecularclassification),是指通过综合的分子遗传学分析,为疾病分类提供更多的生物学信息,从而使疾病分类的基础从宏观形态学转向以分子病理特征为主要依据的新分类体系。

缺失数据处理,在数据挖掘中,原始海量的数据中存在着大量不完整、不一致、有异常、偏离点的数据。这些问题数据轻则影响数据挖掘执行效率,重则影响执行结果。因此数据预处理工作必不可少,而其中常见工作的就是数据集的缺失值处理。数据缺失值处理可分两类。一类是删除缺失数据,一类是进行数据插补,又称缺失值插值。前者比较简单粗暴,但是这种方法最大的局限就是它是以减少历史数据来换取数据的完备,会造成资源的大量浪费,尤其在数据集本身就少的情况下,删除记录可能会直接影响分析结果的客观性和准确性。

而比较常见的数据插补方法有:滑动平均窗口法和拉格朗日插值法等。

归一化处理,有两种形式,一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。例如,[2.5,3.5,0.5,1.5]归一化处理过程:2.5+3.5+0.5+1.5=8,2.5/8=0.3125,3.5/8=0.4375,

0.5/8=0.0625,1.5/8=0.1875,最终解为[0.3125,0.4375,0.0625,0.1875]。总之,就是要把需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保证程序运行时收敛加快。归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在某个区间上是统计的坐标分布。

蛋白质-蛋白质相互作用(protein-proteininteraction,ppi)是指两个或两个以上的蛋白质分子通过非共价键形成蛋白质复合体(proteincomplex)的过程。

正则化(regularization),是指在线性代数理论中,不适定问题通常是由一组线性代数方程定义的,而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。

另外,需要理解的是,在本申请实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或者暗示相对重要性,也不能理解为指示或者暗示顺序。

下面结合附图,对本申请实施例的至少一种实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。

请参见图1,图1示出了本申请实施例提供的电子设备结构示意图。本申请实施例提供了的一种电子设备100,包括:处理器110和存储器120,存储器120存储有处理器110可执行的机器可读指令,机器可读指令被处理器110执行时执行如下数据融合方法。

在具体的实施过程中,对卷积神经网络(convolutionalneuralnetwork,cnn)的相关计算可以用图形处理器(graphicsprocessingunit,gpu)进行加速,因此,该电子设备还可以包括图形处理器。此外,在使用分布式计算框架时需要使用通信接口,该电子设备还可以包括通讯与网络扩展卡、光纤卡或者多串口通信卡等部件,在此不再赘述。

请参见图1,本申请实施例提供了的一种存储介质130,该存储介质130上存储有计算机程序,该计算机程序被处理器110运行时执行如下数据融合方法。

本领域技术人员可以理解,图1中示出的电子设备的结构并不构成对该设备的限定,本申请实施例提供的设备可以包括比图示更多或者更少的部件,或者不同的部件布置。

第一实施例

请参见图2,图2示出了本申请实施例提供的数据融合方法流程示意图。本申请实施例提供了的一种数据融合方法,该方法包括:

步骤s100:将获得的多个相似性矩阵连接,获得第一异质矩阵。

可选地,在本申请实施例中,将获得的多个相似性矩阵连接,获得第一异质矩阵,包括:

将多个相似性矩阵与多个相同的预设矩阵按照预定顺序排列,获得第一异质矩阵。

其中,可选地,在本申请实施例中,多个相似性矩阵包括第一相似性矩阵、第二相似性矩阵;

第一异质矩阵为:

其中,s为第一异质矩阵,in为预设矩阵,s1为第一相似性矩阵,s2为第二相似性矩阵。

需要说明的是,第一相似性矩阵与第二相似性矩阵的大小可以相同,也可以不相同,相同的情况举例如下:

则预设矩阵为可计算得出:

第一异质矩阵为:

则预设矩阵为或者可计算得出:第一异质矩阵为:

当然,第一相似性矩阵与第二相似性矩阵的连接可以是直接连接,也可以是以加权有向边的形式连接。以加权有向边的形式连接这种方式,不仅考虑了相同节点之间的连边,也考虑到节点在各相似性网络的拓扑上的邻居信息。

例如:则预设矩阵为得出:

第一异质矩阵为:

又例如:预设矩阵为得出:

第一异质矩阵为:

因此,第一相似性矩阵与第二相似性矩阵的大小与连接方式不因理解为对本申请实施例的限制。

步骤s200:使用第一预设算法对第一异质矩阵进行迭代计算,获得在迭代达到稳态分布下的第二异质矩阵。

请参见图3,图3示出了本申请实施例提供的数据融合方法步骤s200的流程示意图。可选地,在本申请实施例中,使用第一预设算法对第一异质矩阵进行迭代计算,获得在迭代达到稳态分布下的第二异质矩阵,包括:

步骤s210:设置第一相似性矩阵的第一初始值、第二相似性矩阵的第二初始值和第一异质矩阵的第三初始值。

其中,可选地,在本申请实施例中,设置第一相似性矩阵的第一初始值、第二相似性矩阵的第二初始值和第一异质矩阵的第三初始值,步骤s210包括:

设置第一初始值为其中,表示第一相似性矩阵的初始资源,满足关系

设置第二初始值为其中,表示第二相似性矩阵的初始资源,满足关系

设置第三初始值为其中,表示第一异质矩阵在第0时刻的概率向量,α1为第一相似性矩阵的初始资源获得概率,α2为第二相似性矩阵的初始资源获得概率,α1和α2满足关系α1+α2=1,并且,满足关系

步骤s220:将第一初始值、第二初始值和第三初始值代入可重启随机游走算法对第一异质矩阵进行迭代计算。

可选地,在本申请实施例中,将第一初始值、第二初始值和第三初始值代入可重启随机游走算法对第一异质矩阵进行迭代计算,步骤s220包括:

将第一初始值、第二初始值和第三初始值代入对第一异质矩阵进行迭代计算。

其中,t表示在第t时刻,为第一异质矩阵在第t+1时刻的概率向量,表示在迭代计算过程中的回到第0时刻的概率向量,为第一异质矩阵的概率转移矩阵,为概率转移矩阵的转置运算,为第一异质矩阵在第t时刻的概率向量,为第一异质矩阵在第0时刻的概率向量。

在本申请实施例中,概率转移矩阵为:w11满足关系w12满足关系w21满足关系w22满足关系

其中,w为概率转移矩阵,w11为第一相似性矩阵中节点游走到第一相似性矩阵的概率矩阵,w12为第一相似性矩阵中节点游走到第二相似性矩阵的概率矩阵,w21为第二相似性矩阵中节点游走到第一相似性矩阵的概率矩阵,w22为第二相似性矩阵中节点游走到第二相似性矩阵的概率矩阵;w11(i,j)为第一相似性矩阵中第i节点游走到第一相似性矩阵中第j节点的概率,w12(i,j)为第一相似性矩阵中第i节点游走到第二相似性矩阵中第j节点的概率,w21(i,j)为第二相似性矩阵中第i节点游走到第一相似性矩阵中第j节点的概率,w22(i,j)为第二相似性矩阵中第i节点游走到第二相似性矩阵中第j节点的概率;λ1为节点从一个相似性矩阵游走到同一个相似性矩阵的概率,λ2为节点从一个相似性矩阵游走到另一个相似性矩阵的概率,λ1和λ2满足关系λ1+λ2=1,s1(i,j)表示第一相似性矩阵中的第i行第j列的相似性值,∑ks1(i,k)表示第一相似性矩阵中的从第i行第1列的相似性值累加至第i行第k列的相似性值之和,s2(i,j)表示第二相似性矩阵中的第i行第j列的相似性值,∑ks2(i,k)表示第二相似性矩阵中的从第i行第1列的相似性值累加至第i行第k列的相似性值之和。

步骤s230:当迭代计算满足第一预设条件时,迭代达到稳态分布,获得第二异质矩阵。

可选地,在本申请实施例中,当迭代计算满足第一预设条件时,迭代达到稳态分布,获得第二异质矩阵,步骤s230包括:

当迭代计算满足时,迭代达到稳态分布,获得第二异质矩阵;

其中,t表示在第t时刻,为第一异质矩阵在第t+1时刻的概率向量,为第一异质矩阵在第t时刻的概率向量,表示第一异质矩阵在第t+1时刻的概率向量与第t时刻的概率向量的差值后的范数。

步骤s300:使用第二预设算法对第二异质矩阵进行融合计算,获得融合相似性矩阵。

可选地,在本申请实施例中,使用第二预设算法对第二异质矩阵进行融合计算,获得融合相似性矩阵,包括:

进行均值融合计算,获得

其中,s'为第二异质矩阵,sfusion为融合相似性矩阵,第一相似性矩阵包括多个节点,第二相似性矩阵包括多个节点,s′1为第一相似性矩阵中节点游走到第一相似性矩阵的概率矩阵,a′12为第一相似性矩阵中节点游走到第二相似性矩阵的概率矩阵,a'21为第二相似性矩阵中节点游走到第一相似性矩阵的概率矩阵,s'2为第二相似性矩阵中节点游走到第二相似性矩阵的概率矩阵。

步骤s400:对融合相似性矩阵进行聚类分析,获得多个社团。

其中,聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

需要说明的是,对融合后的相似性网络进行聚类分析,具体来说,使用谱聚类方法对融合后的相似性网络进行聚类,将其划分为若干个社团。

谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并且计算矩阵的特征值和特征向量,然后选择合适的特征向量聚类不同的数据点。谱聚类算法最初用于计算机视觉等领域,最近才开始用于机器学习中,并迅速成为国际上机器学习领域的研究热点。谱聚类算法建立在图论中的谱图理论基础上,其本质是将聚类问题转化为图的最优划分问题,是一种点对聚类算法,对数据聚类具有很好的应用前景。

谱聚类算法将数据集中的每个对象看作是图的顶点v,将顶点间的相似度量化作为相应顶点连接边e的权值,这样就得到一个基于相似度的无向加权图g(v,e),于是聚类问题就可以转化为图的划分问题。基于图论的最优划分准则就是使划分成的子图内部相似度最大,子图之间的相似度最小。

为了便于理解,下面介绍本申请实施例提供的另一种实施方式,本申请实施例提供的另一种实施方式具体描述如下:

1.假设对乳腺癌进行分子分型,获取了病人的三层组学数据:mrna表达谱,mirna表达谱和dna甲基化数据。【数据形式都是特征x样本矩阵,行是特征,列是样本,比如mrna表达谱数据矩阵中的一列是某个病人样本在20000个基因(特征)上的mrna表达谱数据(数值型数据)】首先通过样本名称对齐【将每种组学数据矩阵的列名对齐,即保证每种组学数据的样本名相同】,缺失值插值和数据归一化等数据预处理步骤进行数据预处理。

2.基于三层组学数据分别构建三个不同属性的相似性网络。即对每种组学数据,计算样本两两之间基于特征向量之间的相似性,可采用简单的欧式距离或其他相似性度量方法,从而形成样本-样本相似性矩阵。最终得到三个基于不同组学数据的样本-样本相似性矩阵,三个网络中的样本相同,只是样本之间的相似性不同。

3.将三个基于不同组学数据的相似性网络连接成为异质网络。有两种连接方式:第一种是将不同网络中相同的节点相连,第二种是将不同网络中相同的节点相连,同时将某节点与其在其他相似性网络中的镜像节点的近邻节点以加权有向边的形式连接。

4.使用可重启的随机游走算法在异质网络上进行随机游走。初始资源,重启的概率,跨网络游走的概率和近邻节点的数量等参数可调。

5.游走达到稳态分布后终止,得到稳态下的新异质网络。

6.将新异质网络下的多个不同属性的相似性网络取均值得到融合后的相似性网络。

7.对融合后的相似性网络进行聚类分析(即对乳腺癌进行分子分型),具体来说,使用谱聚类方法对融合后的相似性网络进行聚类,将其划分为若干个社团。

8.使用验证数据进行实验,评估模型效果,验证算法的收敛性,抗噪能力,参数鲁棒性和分型的准确性。

为了便于理解,以上过程用公式描述和表示如下:

针对构建异质网络的第一种连接方式:以两个网络融合为例,假设有2个相似性网络,分别记为s1和s2,每个网络中的节点数为n。将两个网络中相同的节点连接,构成一个异质网络s如公式1所示,其中in为对角阵。

(1)设置初值

假设要求相似性网络s1中的第x个节点与其他节点的相似性得分,那么该异质网络的概率初值设为

其中为n维向量,表示相似性网络s1中节点的初始资源,节点分得1份资源,s1中其他节点不分配资源,即

为n维向量,表示相似性网络s2中节点的初始资源,相似性网络s2中的第x个节点分得1份资源,s2中其他节点不分配资源,即

同时,

α1+α2=1(5)

初始资源即为

(2)异质网络上的可重启随机游走

假设每一步以概率γ回到0时刻的状态(即重启),以概率(1-γ)从t时刻经概率转移矩阵变换,转移至t+1时刻的状态,概率转移矩阵可以经过如下式子迭代:

其中w为概率转移矩阵,定义如下:

假设在随机游走的过程中,节点资源在同一个相似性网络内游走的概率为λ1,游走到其他相似性网络的概率为λ2,且

λ1+λ2=1(9)

总之,在随机游走的过程中,必须保证资源总和保持为r0不变,才能保证随机游走的收敛。

下面定义概率转移矩阵中的各子矩阵。

记w11(i,j)为节点游走到节点的概率(即网内游走概率),w12(i,j)为节点游走到节点的概率(即网间游走概率),则

(3)迭代终止,达到稳态分布

利用迭代公式10和11进行计算,直到

此时的即为稳态下节点与相似性网络s1内其他节点之间的相似性系数,即为稳态下节点与相似性网络s2内其他节点之间的相似性系数。

最后,经过2n轮循环迭代,得到新的异质网络s'

融合的相似性网络sfusion为

算法的默认参数设置为:

γ=0.7,λ1=λ2=…=λk=1/k,α1=α2=…=αk=1/k,其中k为相似性网络的数量。

针对构建异质网络的第二种连接方式:不仅考虑了相同节点之间的连边,也考虑到节点在各相似性网络的拓扑上的邻居信息。

同样以两个网络融合为例,假设有2个相似性网络,分别记为s1和s2,每个网络中的节点数为n。记节点为相似性网络s1中的第x个节点,定义的镜像节点为相似性网络s2中的第x个节点。

将两个网络中的节点按照如下规则以加权有向边的形式连接:

若相似性网络s1中的第x个节点在s1中的m个近邻为节点则将节点与这m个最近邻节点在相似性网络s2中的镜像节点连接起来,这些连边为加权有向边,源节点为目标节点为这些镜像节点,每条边的权值为(1-β)/m,同时连接该有向边的权值为β。这样,便构造出一个异质网络s如下:

其中a12表示相似性网络s1到s2的有向邻接矩阵,a21表示相似性网络s2到s1的有向邻接矩阵,且

∑ka12(i,k)=1(17)

∑ka21(i,k)=1(18)

(1)设置初值

假设要求相似性网络s1中的第x个节点与其他节点的相似性得分,那么该异质网络的概率初值设为

其中为n维向量,表示相似性网络s1中节点的初始资源,节点分得1份资源,s1中其他节点不分配资源,即

为n维向量,表示相似性网络s2中节点的初始资源,

公式21表示按照邻接矩阵分配1份资源给在相似性网络s2中的镜像节点及其m个近邻在s2中的镜像节点a12(x,)表示邻接矩阵a12的第x行,即

同时,

α1+α2=1(23)

若有k个相似性网络,则

初始资源即为

(2)异质网络上的可重启随机游走

假设每一步以概率γ回到0时刻的状态(即重启),以概率(1-γ)从t时刻经概率转移矩阵变换转移至t+1时刻的状态,概率转移矩阵可以经过如下式子迭代:

其中w为概率转移矩阵,定义如下:

假设在随机游走的过程中,节点资源在同一个相似性网络内游走的概率为λ1,游走到其他相似性网络的概率为λ2,且

λ1+λ2=1(28)

总之,在随机游走的过程中,必须保证资源总和保持为r0不变,才能保证随机游走的收敛。

下面定义概率转移矩阵中的各子矩阵。

记w11(i,j)为节点游走到节点的概率(即网内游走概率),w12(i,j)为节点游走到节点的概率(即网间游走概率),则

(3)迭代终止,达到稳态分布

利用迭代公式29和30进行计算,直到

此时的即为稳态下节点与相似性网络s1内其他节点之间的相似性系数,即为稳态下节点与相似性网络s2内其他节点之间的相似性系数。

最后,经过2n轮循环迭代,得到新的异质网络s'

融合的相似性网络sfusion为

算法的默认参数设置为:m=10,α=0.9,β=0.9,γ=0.7,λ1=λ2=…=λk=1/k,其中k为相似性网络的数量。

第二实施例

请参见图4,图4示出了本申请实施例提供的数据融合装置结构示意图。本申请实施例提供了的一种数据融合装置200,数据融合装置200包括:

第一异质矩阵获得模块210,用于将获得的多个相似性矩阵连接,获得第一异质矩阵。

第二异质矩阵获得模块220,用于使用第一预设算法对第一异质矩阵进行迭代计算,获得在迭代达到稳态分布下的第二异质矩阵。

融合相似性矩阵获得模块230,用于使用第二预设算法对第二异质矩阵进行融合计算,获得融合相似性矩阵。

多个社团获得模块240,用于对融合相似性矩阵进行聚类分析,获得多个社团。

本申请实施例提供一种数据融合方法及装置,通过将获得的多个相似性矩阵连接,获得第一异质矩阵;使用第一预设算法对第一异质矩阵进行迭代计算,获得在迭代达到稳态分布下的第二异质矩阵;使用第二预设算法对第二异质矩阵进行融合计算,获得融合相似性矩阵;对融合相似性矩阵进行聚类分析,获得多个社团。通过采用对将多个相似性矩阵连接后获得第一异质矩阵,再对第一异质矩阵进行迭代和融合计算,最后进行聚类分析计算,最终获得多个社团,这种方式没有特征数量,也同时避免了对样本矩阵的特征进行分解等计算,从而避免了时间复杂度会随着特征数增大而显著增加的问题,有效地解决了现有技术中对癌症的多维属性数据融合,并进行癌症分子分型,从而获得癌症的分子亚型的过程中,时间复杂度会随着特征数增大而显著增加的问题。

以上的本申请实施例仅为优选实施例而已,并不限制于本申请实施例,对于本领域的技术人员来说,本申请实施例可以有各种更改和变化。凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1