一种基于相似性和张量分解的微生物-疾病关联关系预测方法

文档序号:30301874发布日期:2022-06-05 00:35阅读:81来源:国知局
1.本发明涉及生物信息学
技术领域
:,特别涉及一种基于相似性和张量分解的微生物-疾病关联关系预测方法。
背景技术
::2.随着多组学和高通量测序技术为代表的生物技术的发展,近来的研究表明微生物跟人类的多种存在着重要的关联关系。特别是肠道微生物(也就是我们所说的肠道菌群),在营养物质代谢、人体自身发育、免疫及疾病的产生等方面都起到极其重要的作用,研究表明其与癌症、心血管疾病、神经性疾病等多种疾病的发病直接相关。此外,有的微生物尽管没有直接影响疾病,但是疾病能够反过来影响其丰度,这些微生物能够作为此类疾病诊断的重要标志物。还有的疾病和微生物能够互相影响进而加重疾病的严重程度。由于通过生物医学实验对微生物疾病之间的关联关系的研究具有费时费力的缺点,故通过计算的方法对微生物和疾病之间的关联关系研究对快速加深对疾病致病机理的理解,提高其诊断和治疗水平有着重要的意义。3.通过研究的人员的不断努力下,当前已经提出了许多计算的方法来预测微生物与疾病之间的关联关系。基于hmdad数据库,katzhmda方法是第一个预测微生物-疾病关联关系的计算方法,其集成了集成疾病的表征和高斯核相似性,微生物高斯核相似性。katzhmda是一个基于katz度信息的网络方法。rwhmda也是一个集成了高斯核相似性网络和已知微生物疾病关联关系网络的基于随机游走模型的微生物疾病关联关系预测方法。grnmfhmda为一个基于非负矩阵分解的微生物疾病关联关系预测模型,其利用的信息包括疾病的表征相似性以及微生物的高斯核相似性。值得注意的是这个方法增加了初始化处理过程进一步提高了预测的精度。此外,mchmda也是一个基于矩阵填充的微生物疾病关联关系预测方法,其利用了疾病的表征、表征相似性和微生物的高斯核相似性,并且进一步集成了微生物的寄生组织信息来提高计算方法的预测性能。4.然而,当前的这些都集中在微生物和疾病之间是否存在关联关系上,而对其关联类型则没有涉及。而在生物学和医学上,除了识别疾病和微生物是否存在关联关系外,对深层次的关联类型的确认也是非常重要的。比如微生物staphylococcusaureus与疾病guttatepsoriasis中的关联关系是(increase)的,而微生物bifidobacteriumcatenulatum在疾病irritablebowelsyndrome(ibs)中是下调(decrease)的。不同微生物与疾病的关联类型对疾病的诊断和后续治疗药物的开发有着重要的基础参考作用,能够根据其制定不同的诊断和治疗机制。所以,当前对微生物-疾病关联关系的理解还是有待于更进一步加深,为了更加系统的理解疾病的致病机理、提高其诊断和治疗效率,迫切需要提出更加深层次计算方法来预测微生物疾病的关联类型。技术实现要素:5.本发明要解决的技术问题是:针对当前通过计算模型对微生物-疾病关系进行预测集中在是否存在关联关系,而对关联类型预测关注不足的问题,提出了一种基于相似性和张量分解的计算方法来预测微生物疾病关联关系。该方法集成疾病表征相似性和功能相似性的均值来得到最终的疾病相似性网络,微生物相似性在通过微生物的序列基于k-mer来计算。本发明能够充分利用微生物和疾病相关生物信息,较准确的预测微生物-疾病之间的关联类型,为后续提高疾病的诊断和治疗效率相关的生物医学实验提供基础的指导作用。为了解决上述问题,其技术方案如下:6.本发明的一种基于相似性和张量分解的微生物-疾病关联关系预测方法,所述预测方法包括以下步骤:7.步骤s1,构建疾病功能相似性矩阵dfunsim和疾病表征相似性矩阵dsymsim,并对所述疾病功能相似性矩阵dfunsim和所述疾病表征相似性矩阵dsymsim进行均值集成得到最终的疾病相似性矩阵sd;8.步骤s2,根据微生物的序列信息得到微生物的序列相似性sm;9.步骤s3,利用已知的微生物-疾病关联关系和关联类型构建一个微生物疾病关联的三维二进制关联矩阵;10.步骤s4,利用微生物相似性、疾病相似性和微生物疾病关联的三维二进制关联矩阵采用张量分解的模型对微生物-疾病的深层次关联关系进行预测。11.进一步地,步骤s1中,计算疾病之间的功能相似性时,对于任意两种疾病di和dj,其功能相似性dfunsim(i,j)计算公式如下:[0012][0013]其中,gi={gi1,gi2,......,gim}和gj={gj1,gj2,......,gjn}分别表示疾病di和dj相关联的基因集合,m和n分别为基因集合gi和gj中的基因数目;和分别表示单个基因与基因集合之间的功能相似性值。基因与基因集合之间的功能相似性值依据集合中的所有基因与这个基因的最大值来定义;另外,在humannet数据库中基于对数似然函数提供了具体的基因之间的功能相似性值。[0014]进一步地,步骤s1中,计算疾病表征相似性时,对于任意两种疾病di和dj,其表征相似性计算公式如下:[0015][0016]其中,wi,l和wj,l分别表示疾病di和dj与表征fl之间的权重,其具体值的范围为0到1,wi,l的具体计算公式如下:[0017][0018]其中,wil用于表示疾病di是否存在表征fl,如果存在则为1,否则为0,nd和nl分别代表总的疾病和存在表征fl的疾病数量。[0019]进一步地,步骤s1中,计算最终的疾病相似性矩阵sd的公式如下:[0020][0021]进一步地,步骤s2中,微生物的序列相似性矩阵sm的计算过程为:[0022]s21,从refseq数据库获取到微生物对应的序列信息,基于微生物序列的k-mer频率来计算微生物之间的相似性,对于微生物mi和mj,其序列相似性的具体计算公式如下:[0023][0024]其中,为微生物mi和mj的基于序列元组统计比较的分数;[0025]s22,的具体计算公式为:[0026][0027]其中,ω=ω1ω2ω3......ωk代表k-mer序列信息,其中的每一个元素都来源于集合ω={a,t,c,g},ωk代表所有k-mer的集合;对微生物mi,和分别表示在ω出现的频率和期望频率;[0028]s23,期望频率通过第一个m-mer(ω[1:m])的固定概率和第n个m-mer(ω[n:n+m-1])到第(n+m)个核苷酸序列(ω[n+m])的转换概率来计算,具体如下:[0029][0030]其中,l(i)为序列i的长度,μ和π分别为固定概率和转换概率。[0031]进一步地,步骤s3中,微生物疾病关联的三维二进制关联矩阵的构建过程如下:[0032]s31,定义为微生物的集合,nm为微生物的数量,为疾病的集合,nd为疾病的数量,为微生物疾病关联类型的集合,nt为关联类型种类的数量;[0033]s32,定义三维的张量矩阵代表微生物与疾病的关联类型,如果微生物mi和疾病dj之间存在类型为tk的关联关系,则yijk值为1,否则值为0。[0034]进一步地,步骤s4中包括以下步骤:[0035]s41,对于三维的张量矩阵其张量分解定义的优化如下:[0036][0037]其中,||·||为张量范数,和分别表示微生物、疾病和关联关系类型的因子矩阵,其中r为近似张量[c,p,f]矩阵的秩,其值小于min(nm,nd);[0038]s42,进一步集成微生物和疾病的相似性到张量分解的约束模型,基于和共享一个维度为r的潜在空间,其中微生物mi和疾病dj的潜在编码向量分别为ci:和pj:,通过一个映射函数来近似计算微生物之间或者疾病之间的相似性,函数如下:[0039]f(x,y)=xmyt[0040]其中,m为映射矩阵,x和y分别为和中的行向量;[0041]s43,微生物和疾病的相似性的误差最小化条件为:[0042][0043]其中,α和β是控制不同相似性对模型的影响参数,m1和m2为确保学习到不同的附加条件信息的映射矩阵;其相似性附加条件的近似性优化问题转换为:[0044][0045]s43,对映射矩阵增加l2正则化项,基于相似性和张量分解的微生物疾病关联关系的模型优化目标函数定义如下:[0046][0047]其中,λ为l2正则化项的约束因子;[0048]s44,采用交替更新的过程来求解优化目标,过程如下:[0049]首先,在其他变量确定的情况下,优化矩阵f的目标函数如下:[0050][0051]其中,y(3)和分别为张量矩阵y的模式-3矩阵和矩阵的khatri–rao积,其中模式-3矩阵的具体定义如下:[0052]n=nm*nd[0053]y(3)(n,j)mapsfrom=y(a,b,c)[0054]wherej=c+(a-1)(b-1)j,j=nm*nd.[0055]然后,再对矩阵c进行优化求解,其具体优化函数如下:[0056][0057]其中,y(1)为张量矩阵y的模式-1矩阵,采用admm对上式进行求解;[0058]确认矩阵f和c后,再据此计算得到矩阵p,在计算更新矩阵f、c和p后,进一步确认优化矩阵m1和m2,采用共轭梯度方法(cg:conjugategradients)来对其进行求解;[0059]最后,经过上述求解过程,得到整个微生物和疾病关联关系以及其关联类型的张量矩阵预测结果,从而得到每一个微生物和疾病关联对的关联类型分数。[0060]本发明提供的预测方法的有益效果是:[0061]本发明针对当前通过计算模型在微生物-疾病关联关系预测主要集中在是否存在关联关系,而对其深层次的关联类型缺乏关注的问题,提出了一种基于相似性和张量分解的微生物疾病关联关系预测方法。该方法首先计算了疾病的表征相似性和功能相似性,并通过均值集成的方式得到最终的疾病相似性。在微生物相似性计算上通过序列信息采用k-mer方式构建。利用的生物网络和特征信息包括疾病-基因关联关系和基因-基因关联网络,微生物的序列信息。然后对已知的微生物疾病关联关系,根据其关联类型进行区分,构建了一个三维的微生物疾病关联类型的张量矩阵。在此基础上,通过张量矩阵分解的模型集成相似性的约束条件来预测微生物-疾病对的关联类型分数。[0062]通过5倍交叉验证的方式来评估本发明的预测性能。对整个所有的已知确认关联类型的关联关系平均分成5份,然后再依次选择其中4组为训练集,剩下的一组为测试集,每组中各种关联类型的样本数量是随机产生的。采用accuracy、recall、precision和f1作为评估指标,在5倍交叉验证和以上验证指标来评估方法的预测性能。[0063]本发明针对微生物-疾病关联关系预测领域当前存在的计算方法都集中在是否存在关联关系上而对其深层次的关联类型缺乏的问题,提出了一种微生物-疾病关联类型的预测方法。该方法集成了微生物和疾病相关生物网络信息的特征相似性信息和基于已知的微生物疾病关联类型构建的张量矩阵信息,通过张量分解的模型来有效的预测潜在的微生物-疾病对的关联类型,对后续疾病致病机理的理解和诊断治疗相关的生物医学实验提供基础指导作用。附图说明[0064]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0065]图1是本发明基于相似性和张量分解的微生物-疾病关联关系预测方法总体流程图。具体实施方式[0066]为了使本
技术领域
:的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式作进一步的说明。[0067]在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。[0068]请参考图1,本实施例的一种基于相似性和张量分解的微生物-疾病关联关系预测方法,该预测方法包括以下步骤:[0069]步骤s1,构建疾病功能相似性矩阵dfunsim和疾病表征相似性矩阵dsymsim,并对所述疾病功能相似性矩阵dfunsim和所述疾病表征相似性矩阵dsymsim进行均值集成得到最终的疾病相似性矩阵sd;[0070]步骤s2,根据微生物的序列信息得到微生物的序列相似性sm;[0071]步骤s3,利用已知的微生物-疾病关联关系和关联类型构建一个微生物疾病关联的三维二进制关联矩阵;[0072]步骤s4,利用微生物相似性、疾病相似性和微生物疾病关联的三维二进制关联矩阵采用张量分解的模型对微生物-疾病的深层次关联关系进行预测。[0073]优选地,步骤s1中,计算疾病之间的功能相似性时,对于任意两种疾病di和dj,其功能相似性dfunsim(i,j)计算公式如下:[0074][0075]其中,gi={gi1,gi2,......,gim}和gj={gj1,gj2,......,gjn}分别表示疾病di和dj相关联的基因集合,m和n分别为基因集合gi和gj中的基因数目;和分别表示单个基因与基因集合之间的功能相似性值。[0076]优选地,步骤s1中,计算疾病表征相似性时,对于任意两种疾病di和dj,其表征相似性计算公式如下:[0077][0078]其中,wi,l和wj,l分别表示疾病di和dj与表征fl之间的权重,其具体值的范围为0到1,wi,l的具体计算公式如下:[0079][0080]其中,wil用于表示疾病di是否存在表征fl,如果存在则为1,否则为0,nd和nl分别代表总的疾病和存在表征fl的疾病数量。[0081]优选地,步骤s1中,计算最终的疾病相似性矩阵sd的公式如下:[0082][0083]优选地,步骤s2中,微生物的序列相似性矩阵sm的计算过程为:[0084]s21,从refseq数据库获取到微生物对应的序列信息,基于微生物序列的k-mer频率来计算微生物之间的相似性,对于微生物mi和mj,其序列相似性的具体计算公式如下:[0085][0086]其中,为微生物mi和mj的基于序列元组统计比较的分数;[0087]s22,的具体计算公式为:[0088][0089]其中,ω=ω1ω2ω3......ωk代表k-mer序列信息,其中的每一个元素都来源于集合ω={a,t,c,g},ωk代表所有k-mer的集合;对微生物mi,和分别表示在ω出现的频率和期望频率;[0090]s23,期望频率通过第一个m-mer(ω[1:m])的固定概率和第n个m-mer(ω[n:n+m-1])到第(n+m)个核苷酸序列(ω[n+m])的转换概率来计算,具体如下:[0091][0092]其中,l(i)为序列i的长度,μ和π分别为固定概率和转换概率。[0093]优选地,步骤s3中,微生物疾病关联的三维二进制关联矩阵的构建过程如下:[0094]s31,定义为微生物的集合,nm为微生物的数量,为疾病的集合,nd为疾病的数量,为微生物疾病关联类型的集合,nt为关联类型种类的数量;[0095]s32,定义三维的张量矩阵代表微生物与疾病的关联类型,如果微生物mi和疾病dj之间存在类型为tk的关联关系,则yijk值为1,否则值为0。[0096]优选地,步骤s4中包括以下步骤:[0097]s41,对于三维的张量矩阵其张量分解定义的优化如下:[0098][0099]其中,||·||为张量范数,和分别表示微生物、疾病和关联关系类型的因子矩阵,其中r为近似张量[c,p,f]矩阵的秩,其值小于min(nm,nd);[0100]s42,进一步集成微生物和疾病的相似性到张量分解的约束模型,基于和共享一个维度为r的潜在空间,其中微生物mi和疾病dj的潜在编码向量分别为ci:和pj:,通过一个映射函数来近似计算微生物之间或者疾病之间的相似性,函数如下:[0101]f(x,y)=xmyt[0102]其中,m为映射矩阵,x和y分别为和中的行向量;[0103]s43,微生物和疾病的相似性的误差最小化条件为:[0104][0105]其中,α和β是控制不同相似性对模型的影响参数,m1和m2为确保学习到不同的附加条件信息的映射矩阵;其相似性附加条件的近似性优化问题转换为:[0106][0107]s43,对映射矩阵增加l2正则化项,基于相似性和张量分解的微生物疾病关联关系的模型优化目标函数定义如下:[0108][0109]其中,λ为l2正则化项的约束因子;[0110]s44,采用交替更新的过程来求解优化目标,过程如下:[0111]首先,在其他变量确定的情况下,优化矩阵f的目标函数如下:[0112][0113]其中,y(3)和分别为张量矩阵y的模式-3矩阵和矩阵的khatri–rao积,其中模式-3矩阵的具体定义如下:[0114]n=nm*nd[0115]y(3)(n,j)mapsfrom=y(a,b,c)[0116]wherej=c+(a-1)(b-1)j,j=nm*nd.[0117]然后,再对矩阵c进行优化求解,其具体优化函数如下:[0118][0119]其中,y(1)为张量矩阵y的模式-1矩阵,采用admm对上式进行求解;[0120]确认矩阵f和c后,再据此计算得到矩阵p,在计算更新矩阵f、c和p后,进一步确认优化矩阵m1和m2,采用共轭梯度方法(cg:conjugategradients)来对其进行求解;[0121]最后,经过上述求解过程,得到整个微生物和疾病关联关系以及其关联类型的张量矩阵预测结果,从而得到每一个微生物和疾病关联对的关联类型分数。[0122]为了进一步说明本发明的有效性,我们采用了5倍交叉验证方式来评估其预测性能:5倍交叉验证将已知的微生物-疾病关联样本随机分成5份,依次选择其中1份为测试集,剩下其他4份为训练集。验证的这些性能指标趋向为1时表明算法具备完美的预测性能,取得越大的值表示算法的预测性能更好。[0123]表1描述了算法在数据集上的5倍交叉验证中的预测性能。在参数设置中,我们分别对α、β和r通过交叉搜索的方式依照f1分数最优的方式选择了默认值。α、β和r的选择范围为0至1.0,r的选择范围为5到50以梯度为5的方式递增进行选择,最后默认值分别设置为0.5,0.25,0.01和10。本发明作为第一个预测微生物-疾病关联类型的方法,在increase、decrease和unknown上其平均的accuracy、recall、precision和f1分数分别达到了0.6622、0.7470、0.7492和0.7428。[0124]通过上述案例的实验结果和参数分析表明本发明能够较准确的预测新潜在的微生物-疾病对的关联类型。故本发明有利于理解微生物对疾病的致病机制,提高此类疾病的诊断和治疗效率。[0125]表1:在数据集上的5倍交叉验证预测性能[0126]关联类型accuracyrecallprecisionf1increase0.63260.70880.71650.7087decrease0.64890.75340.74540.7467unknown0.70520.77890.78590.7730[0127]本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。[0128]以上结合附图对本发明的实施方式作出详细说明,但本发明不局限于所描述的实施方式。对本领域的技术人员而言,在不脱离本发明的原理和精神的情况下对这些实施例进行的多种变化、修改、替换和变型均仍落入在本发明的保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1