一种基于相似性和张量分解的微生物-疾病关联关系预测方法

文档序号：30301874发布日期：2022-06-05 00:35阅读：来源：国知局

技术特征：
1.一种基于相似性和张量分解的微生物-疾病关联关系预测方法，其特征在于，所述预测方法包括以下步骤：步骤s1，构建疾病功能相似性矩阵d
funsim
和疾病表征相似性矩阵d
symsim
，并对所述疾病功能相似性矩阵d
funsim
和所述疾病表征相似性矩阵d
symsim
进行均值集成得到最终的疾病相似性矩阵s
d
；步骤s2，根据微生物的序列信息得到微生物的序列相似性s
m
；步骤s3，利用已知的微生物-疾病关联关系和关联类型构建一个微生物疾病关联的三维二进制关联矩阵；步骤s4，利用微生物相似性、疾病相似性和微生物疾病关联的三维二进制关联矩阵采用张量分解的模型对微生物-疾病的深层次关联关系进行预测。2.根据权利要求1所述的预测方法，其特征在于，步骤s1中，计算疾病之间的功能相似性时，对于任意两种疾病d
i
和d
j
，其功能相似性d
funsim
(i,j)计算公式如下：其中，g
i
＝{g
i1
,g
i2
,......,g
im
}和g
j
＝{g
j1
,g
j2
,......,g
jn
}分别表示疾病d
i
和d
j
相关联的基因集合，m和n分别为基因集合g
i
和g
j
中的基因数目；和分别表示单个基因与基因集合之间的功能相似性值。3.根据权利要求2所述的预测方法，其特征在于，步骤s1中，计算疾病表征相似性时，对于任意两种疾病d
i
和d
j
，其表征相似性计算公式如下：其中，w
i,l
和w
j,l
分别表示疾病d
i
和d
j
与表征f
l
之间的权重，其具体值的范围为0到1，w
i,l
的具体计算公式如下：其中，w
il
用于表示疾病d
i
是否存在表征f
l
，如果存在则为1，否则为0，n
d
和n
l
分别代表总的疾病和存在表征f
l
的疾病数量。4.根据权利要求3所述的预测方法，其特征在于，步骤s1中，计算最终的疾病相似性矩阵s
d
的公式如下：5.根据权利要求1所述的预测方法，其特征在于，步骤s2中，微生物的序列相似性矩阵s
m
的计算过程为：s21，从refseq数据库获取到微生物对应的序列信息，基于微生物序列的k-mer频率来计算微生物之间的相似性，对于微生物m
i
和m
j
，其序列相似性的具体计算公式如下：
其中，为微生物m
i
和m
j
的基于序列元组统计比较的分数；s22，的具体计算公式为：其中，ω＝ω1ω2ω3......ω
k
代表k-mer序列信息，其中的每一个元素都来源于集合ω＝{a,t,c,g}，ω
k
代表所有k-mer的集合；对微生物m
i
，和分别表示在ω出现的频率和期望频率；s23，期望频率通过第一个m-mer(ω[1:m])的固定概率和第n个m-mer(ω[n:n+m-1])到第(n+m)个核苷酸序列(ω[n+m])的转换概率来计算，具体如下：其中，l
(i)
为序列i的长度，μ和π分别为固定概率和转换概率。6.根据权利要求1所述的预测方法，其特征在于，步骤s3中，微生物疾病关联的三维二进制关联矩阵的构建过程如下：s31，定义为微生物的集合，n
m
为微生物的数量，为疾病的集合，n
d
为疾病的数量，为微生物疾病关联类型的集合，n
t
为关联类型种类的数量；s32，定义三维的张量矩阵代表微生物与疾病的关联类型，如果微生物m
i
和疾病d
j
之间存在类型为t
k
的关联关系，则y
ijk
值为1，否则值为0。7.根据权利要求1所述的预测方法，其特征在于，步骤s4中包括以下步骤：s41，对于三维的张量矩阵其张量分解定义的优化如下：其中，||
·
||为张量范数，和分别表示微生物、疾病和关联关系类型的因子矩阵，其中r为近似张量[c,p,f]矩阵的秩，其值小于min(n
m
,n
d
)；s42，进一步集成微生物和疾病的相似性到张量分解的约束模型，基于和共享一个维度为r的潜在空间，其中微生物m
i
和疾病d
j
的潜在编码向量分别为c
i：
和p
j：
，通过一个映射函数来近似计算微生物之间或者疾病之间的相似性，函数如下：f(x,y)＝xmy
t
其中，m为映射矩阵，x和y分别为和中的行向量；s43，微生物和疾病的相似性的误差最小化条件为：
其中，α和β是控制不同相似性对模型的影响参数，m1和m2为确保学习到不同的附加条件信息的映射矩阵；其相似性附加条件的近似性优化问题转换为：s43，对映射矩阵增加l2正则化项，基于相似性和张量分解的微生物疾病关联关系的模型优化目标函数定义如下：其中，λ为l2正则化项的约束因子；s44，采用交替更新的过程来求解优化目标，过程如下：首先，在其他变量确定的情况下，优化矩阵f的目标函数如下：其中，y
(3)
和分别为张量矩阵y的模式-3矩阵和矩阵的khatri
–
rao积，其中模式-3矩阵的具体定义如下：n＝n
m
*n
d
y
(3)
(n,j)maps from＝y(a,b,c)where j＝c+(a-1)(b-1)j,j＝n
m
*n
d
.然后，再对矩阵c进行优化求解，其具体优化函数如下：其中，y
(1)
为张量矩阵y的模式-1矩阵，采用admm对上式进行求解；确认矩阵f和c后，再据此计算得到矩阵p，在计算更新矩阵f、c和p后，进一步确认优化矩阵m1和m2，采用共轭梯度方法(cg：conjugate gradients)来对其进行求解；最后，经过上述求解过程，得到整个微生物和疾病关联关系以及其关联类型的张量矩阵预测结果，从而得到每一个微生物和疾病关联对的关联类型分数。

技术总结
本发明公开了一种基于相似性和张量分解的微生物-疾病关联关系预测方法，包括以下步骤：步骤S1，构建疾病功能相似性矩阵D

技术研发人员：严承黄辛迪刘佳俊
受保护的技术使用者：湖南中医药大学
技术研发日：2022.03.03
技术公布日：2022/6/4

完整全部详细技术资料下载

当前第2页1 2