一种基于动态网络图分析的时间序列数据处理方法

文档序号:9687798阅读:1004来源:国知局
一种基于动态网络图分析的时间序列数据处理方法
【技术领域】
[0001] 本发明属于生物数据分析技术领域,是一种利用动态网络分析对代谢组学时间序 列数据进行处理,W确定复杂疾病(如肝癌)发生的前瞻性潜在生物标志物的新方法。
【背景技术】
[0002] 肝癌是常见的恶性肿瘤之一,死亡率高居恶性肿瘤的第二位,全世界平均每年大 约有600,000人死于肝癌。肝癌通常起源于慢性肝病,且大部分与肝硬化相关。由于肝癌的 发生设及众多因素的复杂相互作用(如遗传、病毒及环境等),因此致病机理尚不明确。肝癌 的预后较差,常常确诊时病人已处于癌症的晚期。目前,常规的肝癌诊断技术有超声、影像 学和甲胎蛋白(AFP)等。然而,确诊时可做根治性治疗的肝癌患者仅有30%。常用的生物标 志物AFP其灵敏度有限,特异性也较低。而且肿瘤进展相对较快,存在早期诊断困难,治愈率 低等难题。手术切除和肝移植是当前根治性治疗肝癌最常用的办法。然而,肝癌病人术后复 发及转移相当常见,术后五年生存率为30 % -40 %。因此,深入研究肝癌发生发展所设及的 致病机理,发现肝癌的前瞻性标志物,W便通过早期诊断改善患者预后效果,提升术后五年 生存率。
[0003] 作为生物化学反应中的中间体和终端产物,代谢物在连接生命体系的不同生物途 径及保持正常生理功能中起到了重要作用。代谢组学是对生命机体由生理、病理刺激和基 因修饰等产生的代谢物的质和量的动态变化的研究。作为系统生物学的重要组成部分,代 谢组学在诸多领域(疾病研究,药物研究,植物研究等)得到了广泛应用。随着分离分析技术 的快速发展,代谢数据具有海量、多维、结构复杂等特点。如何从中挖掘出反映研究问题本 质的关键代谢成分,寻找区分不同生物样本的差异性潜在标志物已成为代谢组学研究的问 题之一。
[0004] 代谢本身是一个动态过程,从动态的角度研究代谢组,通过代谢物随疾病发生、发 展的动态变化的分析对复杂疾病进行深入分析,有利于疾病致病机理、早期诊断和个性化 治疗的研究。同时,在复杂的生命过程中,代谢成分之间相互关联、相互作用,W反映生物体 的生理、病理变化。在受到外界刺激或环境变化时,不同代谢物之间的相互关联性也会发生 改变。因此分析生命过程中代谢成分之间的相互关联、构建代谢网络、研究代谢网络的动态 变化可W更全面地掲示疾病的发生、发展过程,从而更利于疾病诊断、治疗等方面的研究。 代谢组学时间序列数据常常表现出样本数少,变量数多W及时间点稀疏等特性,许多经典 的时间序列算法并不适合于代谢组学时间序列数据的研究。
[0005] 本发明从代谢网络动态变化的角度分析代谢组学时间序列数据,发现复杂疾病的 预警信息。引入非重叠区域比率(NOR)来衡量代谢物之间的比值在疾病发展过程中的动态 变化,根据比值在前后时间点上的变化构建动态网络。代谢物的比值可W反应将其中一种 代谢物通过一条或多条代谢通路转变为另一种代谢物的过程。

【发明内容】

[0006] 本发明提供一种基于动态网络图分析的时间序列数据处理方法,是基于变量比值 的NOR随时间的变化构建动态代谢网络,能够更切实有效的反映生命机体生理和病理的变 化。同时,使用动态浓度分析和拓扑结构分析两种分析方法寻找疾病发生的前瞻性潜在生 物标志物。
[0007] 本发明采用的技术方案如下:
[000引一、静态分析
[0009] 噪音或无关变量常常影响代谢组学数据分析的效果,若代谢组学时间序列数据中 疾病经历了化种不同的状态,那么在病程中任意两个不同阶段无区分能力或区分能力弱的 代谢变量通常为噪音或与所研究问题无关的特征,应当被删除。本发明根据时间序列数据 中的化种不同的状态建立化(化-1)/2个两类子问题,从每一个子问题中确定具有一定区分 能力的特征用来构建代谢网络。
[0010] 本发明利用代谢变量之间比值的有效范围的变化来分析代谢物之间关系的变化。 令F=也,f2,…,fm}为特征集合,其中m表示变量的个数。fit(1 y ^,1 < t卽)为变量fi在 第t个时间点上的含量,N为时间点的数量。特征fi,。的比值变量ru在时间点t上的有效范 围定义为:
[0011]
(1)
[001^ 公式(1)中而,饰.分别表示比值变量rijt的有效范围的上、下界;丫取值为 1.732,W保证rijt的有效范围至少含有2/3的样本;Wijt和oijt分别表示比值变量rijt的均值 和标准差。比值变量rut在相邻两个时间点上有效范围的变化存在Ξ种情况:
[0013] (l)rut在相邻两个时间点上的有效范围存在部分重叠;
[0014] (2)rijt在一个时间点上的有效范围完全包含于其在另一个时间点的有效范围内;
[0015] (3)rut在相邻两个时间点上的有效范围不存在重叠部分。
[0016] 但情况(2)没有明确反映出代谢通路反应的变化趋势,所W本发明仅考虑其它两 种情况并使用如下公式计算比值变量在相邻时间点上的NOR:
[0017] N0R(rijt) =化 uAt2)/max{Lti,Lt2} (2)
[001引公式(2)中
|N0R(rijt)|越大,表示该 比值在相邻时间点的变化越大。
[0019] 二、网络构建
[0020] (1)输入静态分析后所得到的特征子集。
[0021] (2)对输入的特征子集中的任意两个变量fi山在每个时间点上构建比值变量rijt。
[0022] (3)根据公式(1)计算每个比值变量rut的有效范围E(rijt)。
[0023] (4)根据比值变量rut的有效范围E(rut),使用公式(2)计算该比值变量在相邻两 个时间点上的NOR值。
[0024] (5)如果rijt的NOR值大于等于τ,则该相邻两时间点所对应网络图中两个变量fi,fj W红边相连。反之,NOR值小于等于-τ,则网络图中两个变量fi,W绿边相连。
[0025] (6)输出在两个相邻时间点上建立的网络图DN-K1 y如-1)。
[0026] Ξ、网络分析
[0027] 为确定复杂疾病发生的前瞻性潜在生物标志物,本发明从两个角度对动态网络进 行分析:动态浓度分析和拓扑结构分析。
[002引(1)动态浓度分析
[0029] 动态浓度分析研究疾病发展过程中代谢物之间的比值的变化趋势。由于生命过程 是运动的,在复杂疾病(如恶性肿瘤)恶化前,一定存在一些预警信号。为发现运些预警信 号,本发明探索复杂疾病恶化(对应时间序列数据中的时间点Ts,0<s含N)前的某些连续时 间点(不失一般性,假设为Ne (0<Ne<N)个连续时间点)。如果比值变量的有效范围在连续Ne个 时间点上沿着同一个方向变化(如连续升高或连续降低),则表明随着疾病的发展代谢活动 是持续素乱的。因此,为寻找疾病发生的预警信息,本发明分析网络图DN-i(s-Ne<i<s-l) 并将颜色相同的边提取出来,运些沿着同一个方向持续变化的比值(即:边)预示着疾病的 恶化,即是所确定的疾病恶化的预警信息。
[0030] (2)拓扑结构分析
[0031] N个时间点产生N-1个网络图。网络拓扑结构也会随疾病的发生、发展而变化。如果 网络DN-t (1 ^ t<N)的边数较多,则表示有大量的化学反应其反应速率加快,机体处于相对 剧烈的生命活动阶段。所W,具有边数最多的网络DN-t可W表明病程发展到了关键时期,其 所对应的时间点可W表示为复杂疾病的早期阶段。且网络图中,度最大的节点往往位于生 命化学活动中的枢纽位置,是疾病发生发展的关键因素。因此,在拓扑结构分析中,本发明 关注于具有边数
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1