一种推断lncRNA和疾病联系的方法

文档序号:10725447阅读:414来源:国知局
一种推断lncRNA和疾病联系的方法
【专利摘要】本发明公开了一种lncRNA和疾病联系的方法,根据多种异构数据(lncRNA?疾病关系数据,蛋白质相互作用数据、lncRNA?蛋白质相互作用数据等)构建一个全局异构网络,然后通过网络传播算法来识别可能的lncRNA和疾病的联系。本发明与现有的技术相比,除了考虑实验证实的lncRNA和疾病的联系外,还可以集成更多的生物数据,比如集成lnRNA?蛋白质、蛋白质?蛋白质相互作用和蛋白质?疾病等之间联系。本发明通过融合更多的生物数据可以比以前的技术更准确的预测出lncRNA和疾病的联系,并且可以大规模的一次预测出多对lncRNA?疾病之间的联系,有效的解决了生物实验方法的盲目性、成本高的问题。
【专利说明】
一种推断I ncRNA和疾病联系的方法
技术领域
[0001] 本发明属于生物信息学领域,特别涉及一种鉴别和疾病相关的IncRNA的方法。
【背景技术】
[0002] 以"人类基因组计划"为代表的研究表明,在人类基因组中约有93%的序列可以被 转录出来,其中能编码蛋白质的序列不超过2%,而98%以上的是非编码序列,这些不编码 蛋白质的转录物被称为非编码RNA(noncoding RNA,ncRNA)。在这些非编码RNA中,其中一类 长度大于200nt的RNA分子称为长链非编码RNA( long non-coding RNA,IncRNA)。通常, IncRNA具有跨物种的低保守性,低的表达水平和组织特异性,因此,当初发现时,IncRNA曾 被认为是转录噪声。近年来的研究表明,IncRNA在剂量补偿效应、表观遗传调控、细胞周期 调控和细胞分化调控等众多生命活动中发挥重要作用。
[0003] 越来越多的生物实验已经证实长非编码RNA与包括心血管疾病,神经性疾病和各 种癌症在内的许多人类疾病关系密切。比如,IncRNA H19的表达水平显著和肝癌、膀胱癌和 胰腺癌等有密切的关系;IncRNA HOTAIR在肝细胞的高表达是肝癌肝移植术后肿瘤复发的 独立预测因素。研究证实在膀胱癌的诊断中UCA1在尿液沉渣中具有高特异性和敏感性,这 表明UCA1在膀胱癌临床诊断中可作为潜在的肿瘤标记物。但是,IncRNA和其他生物分子的 不同作用导致疾病的精确发病机理还不是很清楚。最近几年,研究者已做出很大的努力来 鉴别IncRNA和疾病之间的联系,这些研究不仅有助于我们理解疾病发生的分子机制,而且 也能促进人类疾病在IncRNA水平上的诊断、治疗、防治等生物标记物的识别。很多存储与 IncRNA有关的生物数据(IncRNA序列,表达谱,生物标注等)的数据库也已经被建立起来,但 是,仅仅一些IncRNA和疾病的联系被实验所证实,并且被公开报道,因此,基于这些可用的 生物数据发展有效的计算方法来预测潜在的IncRNA和疾病之间的联系就显得非常重要。

【发明内容】

[0004] 本发明提供一种推断IncRNA和疾病联系的方法,其能更准确的预测出IncRNA和疾 病的联系,并且可以大规模的一次预测出多对IncRNA-疾病之间的联系。
[0005] 本发明的技术方案如下:
[0006] -种推断IncRNA和疾病联系的方法,包括如下步骤:1)根据疾病之间的相似性分 数和已知的IncRNA-疾病之间的联系计算IncRNA之间的功能相似性分数;2)根据疾病相似 性数据、蛋白质相互作用数据、IncRNA功能相似性数据以及他们两两之间的联系构建全局 的异构网络,并正规化每个网络的边;3)信息从查询网络(疾病网络)沿着到目的网络 (IncRNA网络)的路径进行信息传播(包括网内信息传播和网间信息传播),直到信息传播到 紧邻目的网络的网络停止。重复此过程,直到所有从查询网络到目的网络的路径都被执行 一次。4)信息在目标网络内进行传播,网络稳定后每个节点的值构成一个向量,这个向量与 第3步获得的向量计算皮尔逊相关系数,然后按照这个相关系数进行降序排名,值越大,说 明此IncRNA与疾病的相关性越强。
[0007] 有益效果:本发明提出了一种推断IncRNA和疾病之间联系的通用计算框架,在本 框架中,任意数量的异构网络都可以集成到此模型中。与现有的技术相比,现有的方法至多 考虑2种实体网络,而本发明可以集成多种生物实体数据到全局网络中,所以本发明由于应 用了较多的生物信息从而能有效提高预测的准确性。同时,通过正规化网络的邻接矩阵来 降低网络拓扑结构的影响。由于集成了蛋白质相互作用信息以及蛋白质与IncRNA和疾病的 关系信息,本发明可以推断出不能仅仅根据IncRNA-疾病之间关系得到的联系。而且,本方 法不但能推断出和疾病有关的IncRNA信息,也能推断出和IncRNA有关的疾病信息。
【附图说明】
[0008] 图1为本发明实施例整个过程的流程示意图。
[0009] 图2为留一验证下本发明实施例与其他方法性能比较的R0C曲线。
[001 0]图3为5折验证下本发明实施例与其他方法性能比较的R0C曲线。
[0011] 图4在不同数据预处理情况下本发明实施例与其他方法性能比较的折线图。
【具体实施方式】
[0012] 下面将结合附图和实施例对本发明做进一步详细说明。
[0013] 本发明的主要流程为:1)根据疾病之间的相似性分数和已知的IncRNA-疾病之间 的联系计算IncRNA之间的功能相似性分数;2)根据疾病相似性数据、蛋白质相互作用数据、 IncRNA功能相似性数据以及他们两两之间的联系构建全局的异构网络,并正规化每个网络 的边;3)信息从查询网络(疾病网络)沿着到目的网络(IncRNA网络)的路径进行信息传播 (包括网内信息传播和网间信息传播),直到信息传播到紧邻目的网络的网络停止。重复此 过程,直到所有从查询网络到目的网络的路径都被执行一次。4)信息在目标网络内进行传 播,网络稳定后每个节点的值构成一个向量,这个向量与第3步获得的向量计算皮尔逊相关 系数,然后按照这个相关系数进行降序排名,值越大,说明此IncRNA与疾病的相关性越强。
[0014] 其原理是通过在IncRNA相似性网络、蛋白质相互作用网络、疾病相似性网络,以及 这些实体网络两两间的作用或者关系网络中传递信息从而计算IncRNA和疾病之间的相关 性,最终对相关性进行优先排序并预测IncRNA和疾病之间的联系。本发明提供了一种预测 IncRNA-疾病之间联系的框架,任何一个新的生物实体网络都可以被集成到此全局网络中, 只需这个实体网络和全局网络中的其它两个网络存在连接即可。本发明也无需借助已有的 IncRNA和疾病之间的联系即可进行预测,有效解决了生物实验的盲目性和成本高的问题。 [0015] 如图1所示,本发明实施例从LncRNADisease数据库中下载了 1102个实验验证的 IncRNA-疾病之间的联系,剔除掉非人类的和重复数据后,最终得到包含178个IncRNA和169 个疾病构成的392个不同联系。Driel与他的合作者采用文本挖掘的方法获得了5080个疾病 的相似性分数,本方案从其网站上下载此疾病相似性数据并把IncRNA-疾病关系中的169个 疾病对应到此5080个疾病上。从HPRD数据库中下载了包含8919个蛋白质的32331个蛋白质 相互作用数据;从NPInter网站上下载了 IncRNA-基因的相互作用数据,并筛选出了和 IncRNA-疾病中178个IncRNA有关的1052个IncRNA-基因相互作用数据。
[0016]根据上面的数据,具体实施包括以下步骤:
[0017]步骤1:构建LncRNA功能相似性网络。根据5080个疾病的相似性,通过和两个 IncRNA有联系的两个疾病集合计算这两个IncRNA之间的相似性,即通过下面的公式计算出 两个IncRNA的相似性:
[0018]
[0019] 其中,lncRNAl和lncRNA2分别代表两个lncRNA,Di和D 2分别表示和这两个IncRNA有 关联的集合,m和η分别表示DdPD2*疾病的个数,Sim(d,D)表示疾病d和一组疾病D的相似性 分数,即疾病d和一组疾病D中每个疾病相似性分数的最大值。
[0020] 步骤2:根据IncRNA功能相似性矩阵,蛋白质相互作用矩阵,疾病相似性矩阵,以及 它们之间的关系数据构造全局异构网络。用W表示全局网络中任一子网的邻接矩阵,然后根 据下面的公式分别正规化子网(IncRNA功能相似性网络、蛋白质相互网络、疾病相似性网络 以及这些实体之间的关系网络)的权重:
[0022]其中,W(i,j)表示W矩阵中第i行,第j列的元素;D(i,i)是W矩阵中第i行元素的和。 [0023]步骤3:5080个疾病构成的相似性网络作为查询网络,依次对疾病集合中的每一个 疾病,把其值置为1,其余置为〇,然后交替进行网内信息扩散和网间信息传递,网内的信息 扩散公式如下:
[0024] Fi = aff,Fi_1+(l-a)Y
[0025] 其中,Y是节点的先验值,ae(〇,l)是权重系数,代表先验知识的重要性。网间信息 传递公式为:
[0027] 其中,neigbor(n)是与下一个网络中当前节点η直接连接的节点,φ(Χ)和φ(?)分别 表示节点X和节点η的值。把LncRNA网络作为目标网络,则沿着一条路径的信息传递过程直 到信息传到紧邻目标网络的网络时停止。
[0028] 步骤4:在全局网络中,假如从查询网络(疾病网络)到目标网络(IncRNA网络)共有 1条路径(这里1 = 2),沿着每条路径信息传播完成后,则紧邻目标网络的网络中每个节点都 被赋予一个值。这些节点的值以向量形式表示,并乘以此网络到目标网络的正规化邻接矩 阵,这样,通过1条路径的信息传播,最终会得到1个向量,然后把这1个向量连接在一起,产 生一个向量,记为?,。在目标网络中的节点通过网内信息扩散也将获得一个值,并以向量t 表示,重复t向量1次,得到一个向量f .。.
[0029] 步骤5:计算向量#和向量f的皮尔逊相关系数:
[0030] .s =corr{\\i ?
[0031 ]把此相关系数向量按照降序排列,就得到跟此疾病相关IncRNA的重要性的排序。 [0032]本发明的有效性验证:
[0033] 通过实现留一验证和5折验证来对本发明进行性能评估。在留一验证中,392个实 验验证的IncRNA-疾病之间的联系,依次去掉其中一个并当作测试样例,剩余的作为训练 集。在5折验证中,把所有IncRNA-疾病之间的联系随机分成5份,每次其中一份用作测试集, 剩余的4份用作训练集。首先用留一验证评估了在不同数据预处理下的性能,如表1所示,其 中,LncRDNetFlow-3N代表全局网络包括传递网络即蛋白质相互作用网络,LncRDNetFlow-2N代表全局网络不包括蛋白质相互作用网络,用ROC曲线下面的面积(AUC)定量评估这两种 网络环境下不同数据预处理时本发明的性能。从表1中可以看出,几乎在每种数据预处理 下,LncRDNetFlow-3N都要好于LncRDNetFlow-2N,即蛋白质相互作用网络的添加能够改善 本发明的性能,这说明通过集成更多其它种类的生物数据可以提高本发明的预测效果。 [0034]为了更进一步评估本发明的性能,本发明也与其它目前最先进的方法进行了比 较,如图2、图3和图4所示。验证结果表明,本发明LncRDNetFlow-3N的性能均优于其它目前 最先进的方法。
[0035] 表1.不同数据预处理下两种网络配置的AUC值
【主权项】
1. 一种推断IncRNA和疾病联系的方法,其特征在于,包括如下步骤: 步骤1、根据获得的疾病之间的相似性分数和已知的IncRNA-疾病之间的联系计算 IncRNA之间的功能相似性分数; 步骤2、根据获得的疾病相似性数据、蛋白质相互作用数据、步骤1得到的IncRNA功能相 似性数据W及他们两两之间的联系构建全局的异构网络,并正规化每个网络的边; 步骤3、信息从疾病网络构成的查询网络沿着到IncRNA网络构成的目的网络的路径进 行信息传播,直到信息传播到紧邻目的网络的网络停止,重复此过程,直到所有从查询网络 到目的网络的路径都被执行一次; 步骤4、信息在目标网络内进行传播,网络稳定后每个节点的值构成一个向量,运个向 量与步骤3获得的向量计算皮尔逊相关系数,然后按照运个相关系数进行降序排名,值越 大,说明此IncRNA与疾病的相关性越强。2. 根据权利要求1所述的推断IncRNA和疾病联系的方法,其特征在于,步骤1具体为:根 据获得的疾病之间的相似性,计算一种疾病和一组疾病中每个疾病相似性的最大值,即运 种疾病和运组疾病的相似性分数,然后通过下面的公式计算出两个IncRNA的相似性:(1) 其中,IncRNA巧日lncRNA2分别代表两个IncRNA, Di和化分别表示和运两个IncRNA有关联 的集合,m和η分别表示化和化中疾病的个数,Sim(d,D)表示疾病d和一组疾病D的相似性分 数。3. 根据权利要求2所述的推断IncRNA和疾病联系的方法,其特征在于,步骤2具体为:用 W表示全局网络中任一子网的邻接矩阵,然后根据下面的公式正规化此子网边的权重:其中,W(i,j)表示W矩阵中第i行,第j列的元素;D(i,i)是W矩阵中第i行元素的和。4. 根据权利要求3所述的推断IncRNA和疾病联系的方法,其特征在于,步骤3具体为:疾 病网络作为查询网络,对于疾病集合中的任一个疾病,把其值置为1,其余置为0,然后交替 进行网内信息扩散和网间信息传递,网内的信息扩散公式如下: Fi = aW'Fi-i+(l-a)Y 其中,Y是节点的先验值,ae(〇,l)是权重系数,代表先验知识的重要性,网间信息传递 公式为:其中,neigboHn)是与下一个网络中当前节点η直接连接的节点,φ:(Χ〇和拇《)分别表示 节点X和节点η的值,把LncRNA网络作为目标网络,则沿着一条路径的信息传递过程直到信 息传到紧邻目标网络的网络时停止。5. 根据权利要求4所述的推断IncRNA和疾病联系的方法,其特征在于,步骤4具体为:在 全局网络中,假如从查询网络到目标网络共有1条路径,沿着每条路径信息传播完成后,贝U 紧邻目标网络的网络中每个节点都被赋予一个值,运些节点的值W向量形式表示,并乘W 此网络到目标网络的正规化邻接矩阵,运样,通过1条路径的信息传播,最终会得到1个向 量,然后把运1个向量连接在一起,产生一个向量,记为采;在目标网络中的节点通过网内信 息扩散也将获得一个值,并W向量t表示,重复t向量1次,得到一个向量?;计算向量I和向量 ?的皮尔逊相关系数: 'V 二(YA'T( V、/ ) 把此相关系数向量按照降序排列,就可得到跟此疾病相关IncRNA的重要性的排序。
【文档编号】G06F19/18GK106096331SQ201610406670
【公开日】2016年11月9日
【申请日】2016年6月12日
【发明人】邓磊, 张敬普, 张祖平
【申请人】中南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1