一种生物关系网络信息建模方法与系统

文档序号:32385246发布日期:2022-11-30 05:59阅读:136来源:国知局
一种生物关系网络信息建模方法与系统

1.本发明涉及医学组分分析技术领域,更具体地,涉及一种生物关系网络信息建模方法与系统。


背景技术:

2.研究表明人类疾病不是由单个分子缺陷引起的,而是由多种分子介质之间的复杂相互作用驱动的,使用图表和/或生物网络分析人类疾病在精准肿瘤学领域中发挥着极其关键的作用。目前,研究人员普遍采用图来表示复杂网络,并以图论的方法来研究它们。对于生物分子网络而言,图中的节点表示生物分子,边表示生物分子之间的调控、相互作用等各种关系。生物分子包括基因、蛋白质等。
3.生物网络可以分为两大类,一类是基于证据的分析网络,依赖特定的分析相互作用的实验证据,如ppi网络、代谢网络、调控网络(转录因子-基因网络,非编码rna-基因网络)。另一类是统计推断网络,它基于统计推断,依赖于通过统计分析建立的组件之间的相互作用,例如,一种是“共表达网络”,基因基于与感兴趣的疾病相关的统计显著相关或反相关(取决于潜在问题)表达谱连接,如wgcna。另一种统计生成的网络是“遗传网络”。
4.对于网络的分析,主要是识别网络模块或重要节点,目前也有方法基于生物网络进行癌症驱动模块以及识别生物标志物,如基于生物网络和亚细胞定位数据识别癌症驱动模块方法(如专利申请公开号cn112259163)。研究者们也通常基于网络选择重要的模块或网络签名,根据网络的节点与边构成子网络,并建立这些子网络与疾病的特征建立联系,从而得到代表特定疾病的重要“模块”。然后,基于这些模块中节点的表达信息进行后续的问题分析,或者基于网络将节点相互信息转换网络转换为矩阵进行后续癌症特征分析,如预后亚型聚类。
5.在现有技术中,虽然生物网络分析逐渐受到重视,并常用于疾病的相关问题分析。但这些分析通常存在以下问题:
6.(1)忽略了网络信息。大多利用生物网络进行分析的方法只是利用网络中的具有重要意义的节点或模块中的节点,而忽略了网络中节点之间的相互作用,因此,这些方法只能称为基于节点集的方法,而不是真正的基于网络分析的方法。
7.(2)节点表达谱要求完整。对于网络分析中节点的利用要求每个节点都具有表达谱,对于个别节点若不存在表达谱会在网络忽略。所以基于一些问题以及数据完备的要求或针对公开数据进行分析时,通常会使用一些数据量大或信息完整的组学数据,而使得一些难制备的组学数据或公开数据库中收录较少的组学在研究中被忽略,如获取代谢组学数据需要高成本仪器且存在敏感性可变和高波动性,也很少在大型多组学计划中收集,如肿瘤基因组图谱(tcga)等。
8.(3)缺乏冗余信息考虑。在对于节点相互关系分析中,忽略了会使维数增加,使得信息量大而增加计算负担或使得信息冗余的节点相互关系分析,因为网络中通常一个节点与多个节点相互作用。然而这一点在研究中被忽略。
9.上述技术问题使得在分析实际临床中的方法较为局限,据目前已发表的文献来看,尚没有一个解决方案实现基于网络中部分节点表达谱缺失的关系矩阵的构建并降低冗余信息的方法。


技术实现要素:

10.本发明的目的是克服上述现有技术的缺陷,提供一种生物关系网络信息建模方法与系统。
11.根据本发明的第一方面,提供一种生物关系网络信息建模方法。该方法包括以下步骤:
12.利用组学数据构建图结构的生物网络,该生物网络的节点反映组学数据类别,边连接反映节点之间的相关性,并且所述生物网络的节点包含有表达谱节点和无表达谱节点;
13.基于所述生物网络计算相对关系矩阵,所述相对关系矩阵反映与正常样本的相对值;
14.利用自编码器对所述相对关系矩阵进行降维,获得降维后的特征;
15.根据特征表达的重要程度,对降维后的特征进行筛选,进而利用筛选出的特征进行诊断与预后分析。
16.根据本发明的第二方面,提供一种生物关系网络信息建模系统。该系统包括:
17.生物网络构建模块:用于利用组学数据构建图结构的生物网络,该生物网络的节点反映组学数据类别,边连接反映节点之间的相关性,并且所述生物网络的节点包含有表达谱节点和无表达谱节点;
18.关系矩阵表征模块:用于基于所述生物网络计算相对关系矩阵,所述相对关系矩阵反映与正常样本的相对值;
19.特征降维模块:用于利用自编码器对所述相对关系矩阵进行降维,获得降维后的特征;
20.诊断与预后分析模块:用于根据特征表达的重要程度,对降维后的特征进行筛选,进而利用筛选出的特征进行诊断与预后分析。
21.与现有技术相比,本发明的优点在于,所提供的生物关系网络信息建模方法,根据网络中节点的连接,对所有节点进行相关性表征,并结合节点表达谱转换成节点相关性矩阵,进而利用机器学习方法对矩阵特征进行特征降维以较少冗余特征,利用降维后特征进行后续的临床问题分析,从而解决了生物网络信息利用以及冗余信息的去除问题。
22.通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
23.被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
24.图1是根据本发明一个实施例的生物关系网络信息建模方法的流程图;
25.图2是根据本发明一个实施例的生物关系网络信息建模的过程示意图。
具体实施方式
26.现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
27.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
28.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
29.在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
30.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
31.结合图1和图2所示,所提供的生物关系网络信息建模方法包括以下步骤:
32.步骤s110,对生物组学数据进行预处理,并确定对应的表达谱信息。
33.根据需要分析的问题,选择组学数据,判断组学数据是否具有表达谱,如是,则进行归一化处理。通过这种方式,可将生物组学数据的类别作为网络节点,并确认各节点的表达谱信息,包括有表达谱和无表达谱两种情况。
34.步骤s120,构建图结构的生物网络,并确定节点类型以及节点之间的连接关系。
35.具体地,根据开放存取数据库中节点的生物关系节点来确定节点之间的连接关系,以构建组学网络或称为生物网络,该网络是无向网络。例如,根据蛋白质与蛋白质之间存在相关性,可构成蛋白质-蛋白质网络(ppi);根据蛋白质与代谢物的反应关系构成代谢蛋白质网络(mpi);mrna与非编码rna之间存在调控关系,可构成调控网络。
36.因此,所构建的生物网络节点可以是mrna、蛋白质、代谢物或其他类型。进而,根据节点之间的相关性进行边连接,所述相关性包括生物相关性、表达相关性、结构相关性或其他类型的相关性。
37.优选地,也可加入节点间的相似性对节点的连接边进行网络调整,如根据节点结构间相似性或表达相似性。
38.步骤s130,根据所构建的生物网络计算反映节点间关系的相对关系矩阵。
39.在此步骤s130中,根据生物网络的连接结构,以及表达谱信息构建关系矩阵,具体包括以下步骤:
40.步骤s131,计算网络关系向量
41.例如,计算网络中连接的节点a及节点b的相关性分数rs,以对两者的生物联系进行表征,计算如下:
42.rs=log2(m+2)
43.其中,m表示中间节点ci的个数,即节点a与节点b可通过共同的ci直接连接。此外,一种类型的组学信息除了与同组学的信息有相互作用关系外,还与其他类型的组学信息有相互作用,如蛋白质与蛋白质之间有相互作用关系,同时蛋白质还与代谢物有相互作用关系,所以m并不局限于一种类型的组学节点。
44.步骤s132,计算关系矩阵
45.例如,将网络中边的相关性(即节点与节点间连接相关性)与其对应的具有表达谱的节点的表达值相乘,由此将节点表达谱转换成一个边矩阵,同时增加了特征数量。即矩阵列为样本,矩阵的行由原来的节点转换为节点与节点相连的边,矩阵中的元素分别代表边在网络中的表征得到定量关系与对应节点表达谱的乘积。
46.步骤s133,计算相对关系矩阵
47.由于通常情况下组学信息在正常组织与肿瘤组织中的表达会有所不同,所以基于肿瘤组织与正常组织计算肿瘤组织相当于正常组织的关系矩阵。首先,计算边关系矩阵中正常样本取均值,则得到正常样本的各相连的节点构成的边的关系均值向量,再将边关系矩阵中的癌症样本分别减去向量中的对应相同的边的元素,最后对相同的重复的边特征取行均值,从而得到一个相对于正常组织的网络节点相对关系矩阵(即相对关系矩阵)。
48.需注意的是,相同的重复的边存在是因为考虑了部分节点的表达谱缺失,所以网络构建后会存在以下连接情况:无表达谱节点与有表达谱节点相连;有表达谱节点与有表达谱节点相连;无表达谱节点与无表达谱节点相连。
49.因为本发明所计算的相对关系矩阵还需要节点表达谱的参与,所以对于无表达谱节点与无表达谱节点相连的情况,在计算节点间相关性时考虑,即会考虑其作为中间节点,但在计算相关性矩阵(即关系矩阵和相对关系矩阵)时忽略。
50.而对于有表达谱节点与有表达谱节点相连的情况,会使得同一条边相关性元素分别与两个节点的表达谱相乘,所以对这种情况计算相关性矩阵时相同边取行均值。
51.综上,在该步骤s130中,基于网络节点连接关系以及节点的表达谱转换成边关系矩阵,有利于更好的表征节点之间的相关性。
52.步骤s140,利用自编码器对相对关系矩阵进行特征降维,获得降维后的特征。
53.自编码器是一种无监督的前馈、非循环神经网络,整体上包括输入层、多层隐藏层和输出层。例如,输入层以维度为n的x作为输入,通过连续的隐藏层对x进行变换,输出x的重构x',其中x'与x具有相同的维度。
54.在一个实施例中,使用pytorch框架实现了一个具有三个隐藏层(分别为512、256和516个节点)的自动编码器,学习率为0.001,将癌症样本的关系矩阵作为自动编码器框架输入,自动编码器的瓶颈层从组学数据中生成新特征。设定batchsize与epoch进行模型训练。epoch是指学习算法在整个训练数据集中的迭代,batch size是每一次迭代训练的样本数。
55.步骤s150,对降维后的特征进一步进行特征筛选,进而进行诊断与预后分析。
56.自编码器将初始特征数量减少到从瓶颈层获得的若干个新特征后,可根据分析的具体问题进行特征筛选,如通过单因素cox分析选择与预后相关的特征,以进一步保证特征对于分析问题的有效性,利用筛选的新的特征进行疾病问题预后分析或疾病特征的分类分析预测。通过特征筛选能够保留重要特征,在几乎不影响表征效果的情况下,提升了计算效率。
57.相应地,本发明还提供一种生物关系网络信息建模系统,用于实现上述方法的一个方面或多个方面。例如,该系统包括:数据预处理模块,用于对生物组学数据进行预处理,并确定对应的表达谱信息;生物网络构建模块,用于利用组学数据构建图结构的生物网络,该生物网络的节点反映组学数据类别,边连接反映节点之间的相关性,并且所述生物网络
的节点包含有表达谱节点和无表达谱节点;关系矩阵表征模块,用于基于所述生物网络计算相对关系矩阵,所述相对关系矩阵反映与正常样本的相对值;特征降维模块,用于利用自编码器对所述相对关系矩阵进行降维,获得降维后的特征;诊断与预后分析模块,用于根据特征表达的重要程度,对降维后的特征进行筛选,进而利用筛选出的特征进行诊断与预后分析。所涉及的各模块可采用软件、专用硬件、处理器或fpga实现。
58.在不违背本发明精神和范围的前提下,本领域技术人员可对上述实施例进行适当的变型,例如,可采用其他结构的自编码器,本发明对自编码器的具体结构、层数、训练参数等不进行限制。
59.综上所述,本发明具有以下技术效果:
60.1)本发明将生物网络信息与表达谱相结合,并利用深度学习方法减少冗余信息,能够应用于分析癌症特征和临床问题。一方面通过关系矩阵的转换,将原来的特征进行特征扩展,有利于丰富原来的网络节点表达谱特征。另一方面,利用深度学习进行特征降维,减少了冗余特征。因此,兼顾特征表达的有效性和计算效率。
61.2)本发明针对生物网络信息的利用,弥补部分节点表达谱缺失的问题。节点表达谱缺失问题使得一些组学或节点在研究中被忽略。但在本发明的方案中,对于一些节点,尽管没有表达谱,依然可以根据网络而表征出一些节点信息用于特征分析。如,代谢组学,其对癌症的发展具有关键性作用,可以构造代谢质-蛋白质网络进行癌症特征的分析,探索代谢对代谢物对癌症发展的具体影响。
62.3)本发明通过网络节点的关系表征与节点表达谱融合转成网络边关系矩阵进行癌症特征的分析,不仅可以融合多种组学节点的信息特征,并且不受所有节点表达谱必须完备的限制,还能对原来的特征进行扩展。此外,利用计算机和信息技术对冗余特征进行减少及保留重要特征,并且除了丰富对癌症分析的信息之外还可以探索多层次信息对癌症发展的影响。
63.本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
64.计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
65.这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计
算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
66.用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++、python等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
67.这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
68.这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
69.也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
70.附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
71.以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也
不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1