疾病关联miRNA的预测方法和系统

文档序号:25286018发布日期:2021-06-01 17:35阅读:261来源:国知局
疾病关联miRNA的预测方法和系统

本发明涉及生物信息技术领域,特别涉及一种疾病关联mirna的预测方法和系统。



背景技术:

microrna(mirna)是一类长度约为20–25nucleotide的单链非编码rna,它们通过与3’untranslatedregions结合并抑制targetmrna的翻译,从而对转录后基因表达水平产生重要影响。细胞的发育、分化、生长和代谢都和mirna密切相关,大量证据表明,mirna的变异和失调是诱发疾病的重要原因,识别疾病相关的mirna成为近年来生物学研究领域的一个重要课题。然而,通过生物实验来确定mirna与疾病之间的关联是非常费时费力的,而利用计算机技术来预测潜在的疾病关联mirna则可以大大降低工作强度,从而节省成本和时间,目前较为领先的预测模型有mdhgi、nsemda、rfmda和snmfmda,但是上述计算预测模型的结构较为复杂,同时涉及的参数较多,需要较多的负样本数据支撑,对于数据资源的依赖性较高,实施难度较大。近些年来,将计算机技术用于预测疾病关联mirna的专利申请也在逐步增多,例如中国专利文献cn109256215a就公开了一种基于自回避随机游走的疾病关联mirna预测方法,该方法使用自回避随机游走的两个属性之比来度量节点间的关联度,只需根据已知mirna与疾病的关联信息就能预测潜在的疾病关联mirna。该方法虽然实施起来相对简单,但是其预测结果的准确度尚有待提高。



技术实现要素:

本发明的目的之一是提供一种实现简单、结果准确度较高的疾病关联mirna预测方法。

为了实现上述目的,本发明所涉疾病关联mirna预测方法采用以下手段:

1)数据准备:利用疾病语义相似性和疾病高斯核谱相似性构建复合型疾病相似性网络;利用mirna功能相似性和mirna高斯核谱相似性构建复合型mirna功能相似性网络;

2)mirna与疾病关联预估:分别在复合型mirna功能相似性网络和复合型疾病相似性网络中实施带重启的随机游走算法,得到两个稳定的分布向量,将两个分布向量整合获得mirna与疾病关联综合预估得分网络;

3)细化预测:分别将复合型疾病相似性网络、复合型mirna功能相似性网络在mirna与疾病关联综合预估得分网络上进行投影,融合两个投影得分作为最终mirna与疾病关联预测得分,进而得出疾病关联mirna预测结果。

其中,在步骤1)中,疾病高斯核谱相似性表示为:

gd(i,j)=exp(-γd||md(:,i)-md(:,j)||2);

gd(i,j)为疾病di和疾病dj之间的高斯核谱相似性;md(:,i)为已知疾病关联mirna矩阵中疾病的第i列,md(:,j)为矩阵中疾病的第j列;参数γd用来控制gd(i,j)的内核带宽,γd通过下式计算得到:

γd′为1。

进一步地,在步骤1)中,mirna高斯核谱相似性表示为:

gm(i,j)=exp(-γ1||md(i,:)-md(j,:)||2);

gm(i,j)为mirnami和mirnamj之间的高斯核谱相似性;md(i,:)为矩阵中mirna的第i列,md(j,:)为矩阵中mirna的第j列;参数γ1用来控制gm(i,j)的内核带宽,γ1通过下式计算得到:

γ1′为1。

更进一步地,在步骤1)中,利用疾病语义相似性和疾病高斯核谱相似性构建的复合型疾病相似性网络ddfs为:

利用mirna功能相似性和mirna高斯核谱相似性构建的复合型mirna功能相似性网络mmfs为:

另外,在步骤2)中,于复合型疾病相似性网络中实施带重启的随机游走算法,得到表示疾病节点和mirna节点关联程度的分布向量为:

mdt为矩阵的转置矩阵;为矩阵mdt列归一之后第i列信息,该列向量为mirna节点mi和全部疾病节点关联的种子序列;为ddfs的列归一化矩阵;η为重启概率;(mdrd(:,i))t+1为经过t次迭代后概率空间达到稳定状态时的向量值,该向量值为mirna节点mi和各个疾病节点的关联得分;mdrd为基于复合型疾病相似性网络的mirna与疾病关联预估得分矩阵。

进一步地,在步骤2)中,于复合型mirna功能相似性网络中实施带重启的随机游走算法,得到表示mirna节点和疾病节点关联程度的分布向量为:

为矩阵列归一之后第j列信息,该列向量为疾病节点dj和全部mirna节点关联的种子序列;为mmfs的列归一化矩阵;γ为重启概率;(mdrm(:,j))t为经过t次迭代后概率空间达到稳定状态时的向量值,该向量值为疾病节点dj和各个mirna节点的关联得分,mdrm为基于复合型mirna功能相似性网络的mirna与疾病关联预估得分矩阵。

更进一步地,在步骤2)中,按以下方式整合两个分布向量,得到mirna与疾病关联综合预估得分网络:

mdr为基于mirna与疾病关联综合预估得分网络的mirna与疾病关联综合预估得分矩阵,(mdrd)t为mdrd的转置矩阵。

此外,在步骤3)中,将复合型mirna功能相似性网络在mirna与疾病预估得分网络上投影,得到基于复合型mirna功能相似性网络的投影得分mdpm为:

将复合型疾病相似性网络在mirna与疾病预估得分网络上投影,得到基于复合型疾病相似性网络的投影得分mdpd为:

进一步地,在步骤3)中,融合复合型mirna功能相似性网络的投影得分与复合型疾病相似性网络的投影得分,得到最终的预测得分mdp为:

最后,本发明还涉及一种疾病关联mirna预测系统,其包括:

数据准备单元,用于根据疾病语义相似性和疾病高斯核谱相似性构建复合型疾病相似性网络;并根据mirna功能相似性和mirna高斯核谱相似性构建复合型mirna功能相似性网络;

预评估单元,用于在数据准备单元构建的复合型mirna功能相似性网络和复合型疾病相似性网络中实施带重启的随机游走算法,构建mirna与疾病关联综合预估得分网络;

细化预测单元,用于将数据准备单元构建的复合型疾病相似性网络和复合型mirna功能相似性网络分别在预评估单元构建的mirna与疾病关联综合预估得分网络上进行投影,并融合两个投影得分,得出疾病关联mirna预测结果;

该疾病关联mirna预测系统按照前面所述的预测方法对mirna与疾病间关联性进行预测。

现有预测方法很多是利用疾病语义相似性网络和mirna功能相似性网络来衡量疾间相似性及mirna间功能相似性,常常会由于数据缺失而导致很多疾病间的语义相似性以及mirna间的功能相似性为零,从而影响预测结果的准确性,为保证预测结果准确性,则必须提供大量关联负样本数据作为支撑,而负样本的选取又是非常困难的。与现有的疾病关联mirna预测方法不同,本发明首先利用疾病高斯核谱相似性与疾病语义相似性结合构建复合型疾病语义相似性网络、利用mirna高斯核谱相似性与mirna功能相似性结合构建复合型mirna功能相似性网络,再分别在复合型疾病语义相似性网络和复合型mirna功能相似性网络中实施带重启的随机游走算法,并将实施带重启的随机游走算法所得到的两个稳定的分布向量整合得到mirna与疾病关联综合预估得分网络,之后结合网络投影方法,分别将复合型疾病相似性网络、复合型mirna功能相似性网络在mirna与疾病关联综合预估得分网络上进行投影,最终得出mirna与疾病关联预测结果。与现有预测方法相比,本发明不需要负样本数据,实现简单,能够用于孤立疾病和新mirna的预测、准确度较高且参数很少,仅利用很少的资源就可进行预测。

附图说明:

图1为实施例中疾病关联mirna预测方法的实现流程图。

图2为实施例所涉疾病关联mirna预测方法和其它四种现有方法的roc曲线和auc值比较图。

图3为实施例中所涉疾病关联mirna预测方法对孤立疾病和新mirna预测的roc曲线和auc值图。

具体实施方式

为了便于本领域技术人员的理解,下面结合实施例和附图对本发明作进一步的说明,实施例提及的内容并非对本发明的限定。

图1示出了以下实施例中疾病关联mirna预测方法的具体实现流程,其主要包括以下步骤:

一、数据准备:利用疾病语义相似性和疾病高斯核谱相似性构建复合型疾病相似性网络;利用mirna功能相似性和mirna高斯核谱相似性构建复合型mirna功能相似性网络。

1.1mirna-疾病关联:从记录mirna和人类疾病关联的hmdd数据库中提取了383种人类疾病和495种mirnas之间的关联,其中已知的实验验证的mirna-疾病关联为5430个,用矩阵表示,若mirna节点mi和疾病节点dj存在实验验证的关联,则md(i,j)设为1,否则设为0。

1.2疾病语义相似性:现有技术中,每个疾病在在mesh(医学主题词表)中被描述为层次结构的有向无环图(dag),根据两个疾病的mesh描述dag图即可度量疾病之间的语义相似性,根据从祖先节点遍历至目标疾病节点的遍历路径情况来计算疾病的语义值,各个节点的语义贡献值定义如下:

其中,da(t)为疾病dag中疾病t对疾病a的语义贡献值,δ为语义贡献系数,取0.5时效果最好,疾病a的语义值根据下式计算:

通过上式计算出a、b两个疾病的语义值之后,然后用下式来计算两个疾病的语义相似度:

本实施例也采用上述方法来计算疾病之间的语义相似性,并用矩阵表示疾病之间的语义相似性,由于上述计算语义相似性的方法属于现有技术,在此不再对其作展开和赘述。

1.3mirna功能相似性:通常情况下,功能相似的mirnas倾向于与表型相似的疾病相关,反之亦然。基于上述规律,现有技术中已经存在计算mirna之间功能相似性的方法并被用于疾病关联mirna预测中,由于上述计算mirna功能相似性的方法属于现有技术,为简化表述,在此不作赘述。在本实施例中,采用现有的方法计算mirna功能相似性,并用矩阵表示mirna间的功能相似性。

1.4疾病高斯核谱相似性与mirna高斯核谱相似性:考虑到在采用疾病语义相似性衡量疾病之间的相似性时,由于数据缺失,很多疾病之间的语义相似性为0,影响预测结果准确性,本实施例中引入疾病高斯核谱相似性来平衡上述问题:

gd(i,j)=exp(-γd||md(:,i)-md(:,j)||2);

gd(i,j)为疾病di和疾病dj之间的高斯核谱相似性;md(:,i)为已知疾病关联mirna矩阵中疾病的第i列,md(:,j)为矩阵中疾病的第j列;参数γd用来控制gd(i,j)的内核带宽,γd通过下式计算得到:

其中,γd′设为1。

同样的,mirna高斯核谱相似性计算如下:

gm(i,j)=exp(-γ1||md(i,:)-md(j,:)|||2);

gm(i,j)为mirnami和mirnamj之间的高斯核谱相似性;md(i,:)为矩阵中mirna的第i列,md(j,:)为矩阵中mirna的第j列;参数γ1用来控制gm(i,j)的内核带宽,γ1通过下式计算得到:

其中,γ1′设为1。

1.5构建复合型疾病相似性网络和复合型mirna功能相似性网络:整合疾病语义相似性和疾病高斯核谱相似性得到复合型疾病相似性网络ddfs,整合mirna功能相似性和mirna高斯核谱相似性得到复合型mirna相似性网络mmfs:

二、mirna与疾病关联预估:分别在复合型mirna功能相似性网络和复合型疾病相似性网络中实施带重启的随机游走算法,得到两个稳定的分布向量,将两个分布向量整合获得mirna与疾病关联综合预估得分网络。

2.1复合型mirna功能相似性网络实施带重启的随机游走算法:为了缓解已知的mirna-疾病关联网络节点稀疏的问题,首先利用带重启的随机游走算法在mirna相似性网络中行走,然后用捕获得到稳定的信息分布向量来表示mirna节点和疾病节点的关联程度:

为矩阵列归一之后第j列信息,该列向量为疾病节点dj和全部mirna节点关联的种子序列;为mmfs的列归一化矩阵;γ为重启概率,本实施例中γ取值为0.9;(mdrm(:,j))t为经过t次迭代后概率空间达到稳定状态时的向量值,该向量值为疾病节点dj和各个mirna节点的关联得分,mdrm为基于复合型mirna功能相似性网络的mirna与疾病关联预估得分矩阵。

2.2复合型疾病相似性网络实施带重启的随机游走算法:与2.1类似,也是首先利用带重启的随机游走算法在疾病相似性网络中行走,然后用得到的稳定的信息分布向量来表示疾病节点和mirna节点关联程度:

mdt为矩阵的转置矩阵;为矩阵mdt列归一之后第i列信息,该列向量为mirna节点mi和全部疾病节点关联的种子序列;为ddfs的列归一化矩阵;η为重启概率,本实施例中,η取值与γ相同,也为0.9;(mdrd(:,i))t+1为经过t次迭代后概率空间达到稳定状态时的向量值,该向量值为mirna节点mi和各个疾病节点的关联得分;mdrd为基于复合型疾病相似性网络的mirna与疾病关联预估得分矩阵。

2.3两个分布向量的整合:整合两个分布向量,得到mirna与疾病关联综合预估得分网络:

mdr为基于mirna与疾病关联综合预估得分网络的mirna与疾病关联综合预估得分矩阵,(mdrd)t为mdrd的转置矩阵。

三、细化预测:分别将复合型疾病相似性网络、复合型mirna功能相似性网络在mirna与疾病关联综合预估得分网络上进行投影,融合两个投影得分作为最终mirna与疾病关联预测得分,进而得出疾病关联mirna预测结果。

3.1网络投影:在使用随机游走算法求得mirna-疾病预估得分的基础上,接下来利用网络投影求得投影得分。

首先利用复合型mirna功能相似性网络在mirna与疾病关联综合预估得分网络上投影,得到基于复合型mirna功能相似性网络的投影得分mdpm

然后将复合型疾病相似性网络在mirna与疾病预估得分网络上投影,得到基于复合型疾病相似性网络的投影得分mdpd

3.2:融合投影得分:最后,整合于基于复合型mirna功能相似性网络的投影得分、基于复合型疾病相似性网络的投影得分,得到最终的预测得分mdp,得出预测结果。

四、评价测试:采用留一交叉验证对上述预测方法(以下将上述实施例中的预测方法简称为“rwrsp”)的性能进行评估,具体说来,依次将每一对mirna-疾病关联作为测试样本,剩下的关联作为训练样本用于模型训练,直至每一对mirna-疾病关联均作为测试样本测试一次。评估的性能指标采用roc曲线及auc值。roc曲线,也叫受试者工作特征曲线或者感受性曲线,是反映敏感性(sensitivity)和特异性(specificity)的综合指标。roc曲线的线下面积即为auc,roc曲线越凸越接近左上角,auc值越大,预测性能越好。

4.1与其他方法的性能比较:选取现有技术中mdhgi、nsemda、rfmda、snmfmda这四种方法与rwrsp进行对比实验。针对rwrsp、mdhgi,nsemda,rfmda和snmfmda这五种方法,在数据集上分别部署loocv评估他们的预测性能。mdhgi,nsemda,rfmda和snmfmda均按照最优参数设置。图2示出了这五种方法在loocv中的roc曲线和auc值。rwrsp的auc为0.9029,而mdhgi,nsemda,rfmda和snmfmda分别为0.8945、0.8899、0.8891、0.9007。显然,rwrsp显示出了最好的预测性能。

4.2孤立疾病和新mirna预测:孤立疾病是指mirna的关联信息完全未知的疾病。为了模拟孤立疾病,将待查询疾病与所有mirna的已知关联均去除。在进行交叉验证时,每次均取一个疾病模拟为孤立疾病,然后用其余的已知信息实施rwrsp进行预测,如此直至每种疾病均作为测试样本预测一次为止。预测结果用roc曲线及auc值进行评估,预测结果如图3所示,auc值为0.7774,这说明rwrsp对于孤立疾病与mirna关系的预测具有不错的效果。

最近几年,越来越多的新mirna被发现,但其与疾病的关系大多未知,对预测算法提出很大的挑战。现有的预测方法很多都不能很好的解决这类问题,为了验证rwrsp对新的mirna和疾病关联预测的有效性,同样把待预测的mirna与所有疾病的关联信息均去掉,然后实施rwrsp进行预测,如图3所示,对于新mirna的预测,其auc值达到了0.8041,这说明rwrsp对于新mirna和疾病关联预测也具有较好的性能。

4.3案例分析:为了进一步评价rwrsp对潜在mirna-疾病相关性预测的效果,下面选取肺肿瘤和肾肿瘤这两种疾病进行案例分析。

利用已知数据,使用rwrsp针对肺肿瘤进行实验。rwrsp预测的前50个与肺肿瘤相关的mirna中,有49个mirna可以从hmdd3.0、和dbdemc这两个数据集中找到支持证据,使用rwrsp预测得到的排名前50的肺肿瘤相关mirna见下表1所示,其中只有hsa-mir-451b没有得到这两个数据库的证明,但是natarelli{natarelli,2020#1143}认为hsa-mir-451b能够抑制骨肉瘤肺转移。对于肾肿瘤,使用rwrsp预测得到的排名前50的肾肿瘤相关mirna见下表2所示,在预测的前50个与肾肿瘤相关的mirna中,同样有49个mirna可以从hmdd3.0、和dbdemc这两个数据集中找到支持证据,仅有hsa-mir-1没有找到支持证据。

为了评估rwrsp对孤立性疾病的预测性能,删除了已知的与被验证疾病相关的mirnas关联,这一操作确保只利用了被验证疾病和其它疾病的相似性信息及和其它疾病有关联的mirnas信息。对于肺肿瘤,删除了78个已知的肺肿瘤与mirnas的关联,用rwrsp预测潜在的mirnas与肺肿瘤的关联,在删除了所有已知的肺肿瘤与mirna的关联条件下rwrsp预测的前50名与肺肿瘤相关的mirna候选物见表3所示,在预测的前50个mirnas中全部可在hmdd和dbdemc数据库中可以找到。对于肾肿瘤,删除了8个已知的关联实施rwrsp进行预测,在删除了所有已知的肾肿瘤与mirna的关联条件下rwrsp预测的前50名与肾肿瘤相关的mirna候选物见表4所示,得到的预测结果中前50个预测关联有48个在数据库hmdd和dbdemc中找到了证据,只有hsa-mir-1和hsa-mir-9没有得到这两个数据库的证明,虽然没有得到数据库的证明,但是业内通常也认为hsa-mir-1和肾肿瘤是有关联的。

表1

表2

表3

表4

综上所述,rwrsp不仅在预测未知mirna-疾病相互作用方面具有较高的性能,而且可以有效预测孤立疾病和新mirna。通过与现有技术中四种相对较为先进的预测方法(mdhgi,nsemda,rfmda和snmfmda)进行性能对比,rwrsp,mdhgi,nsemda,rfmda和snmfmda的auc值分别为0.9029,0.8945、0.8899、0.8891、0.9007.rwrsp的预测结果均优于其他方法,预测结果准确性较高。此外,评估rwrsp对孤立疾病和新mirna的预测性能时,在逐个将每个疾病(mirrna)模拟成孤立疾病(新mirna)的条件下,对每个疾病(mirna)实施交叉验证,其auc值分别为0.7774和0.8041,这说明rwrsp对于孤立疾病与mirna关系的预测具有较好的预测效果。总体来看,rwrsp实现简单、能够用于孤立疾病和新mirna的预测、可解释性强,并且参数很少,仅利用很少的资源即可进行预测,可以作为生物实验有力的辅助工具。

基于上述rwrsp预测方法,在本实施例的最后还提供一种疾病关联mirna预测系统,该疾病关联mirna预测系统是按照上述rwrsp预测方法对mirna与疾病间关联性进行预测,具体来说,其至少包括:

数据准备单元,用于根据疾病语义相似性和疾病高斯核谱相似性构建复合型疾病相似性网络;并根据mirna功能相似性和mirna高斯核谱相似性构建复合型mirna功能相似性网络;

预评估单元,用于在数据准备单元构建的复合型mirna功能相似性网络和复合型疾病相似性网络中实施带重启的随机游走算法,构建mirna与疾病关联综合预估得分网络;

细化预测单元,用于将数据准备单元构建的复合型疾病相似性网络和复合型mirna功能相似性网络分别在预评估单元构建的mirna与疾病关联综合预估得分网络上进行投影,并融合两个投影得分,得出疾病关联mirna预测结果。

应当指出的是,上述疾病关联mirna预测系统既可以被封装在便携式的存储介质中运行,也可以存储在云端在线运行;实施疾病关联mirna预测的过程可以由能够运行上述预测系统的计算机来执行,也可以由位于云端的服务器来执行,本发明的实施并不限于特定硬件和软件的结合。

上述实施例为本发明较佳的实现方案,除此之外,本发明还可以其它方式实现,在不脱离本技术方案构思的前提下任何显而易见的替换均在本发明的保护范围之内。

最后,应该强调的是,为了让本领域普通技术人员更方便地理解本发明相对于现有技术的改进之处,本发明的一些描述已经被简化,并且为了清楚起见,本申请文件还省略了一些其它元素,本领域普通技术人员应该意识到这些省略的元素也可构成本发明的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1