一种基于动态网络图分析的时间序列数据处理方法_2

文档序号:9687798阅读:来源:国知局
最多的网络图并且着重分析度数最大的k含1个节点。运些节点及其与之相 连的节点作为复杂疾病早期诊断的潜在性标志物。
[0032] 本发明从网络的角度分析代谢组学队列数据,分析变量之间的相互联系,根据变 量之间关联性的动态变化构建代谢网络,并通过动态浓度变化和网络拓扑结构的变化分析 确定疾病(例如恶性肿瘤)发生的预警信息。弥补了采用静态分析方法处理代谢组学时间序 列数据忽略特征动态变化信息的缺点。而且,相对致力于发现单分子标志物的算法,本发明 考察变量间的相互关系随时间的变化情况,分析、确定疾病发生改变的关键节点,从而更有 助于对疾病致病机理的研究,为疾病的早期诊断和预后研究奠定基础。
【具体实施方式】
[0033] W下是结合技术方案所给的具体实施例。
[0034] 实施例:基于血清代谢轮廓的肝病预警性标志物筛选。
[0035] (1)大鼠血清样本的收集和预处理。
[0036] 利用二乙基亚硝胺诱导大鼠逐步发癌。发现集包含10只对照组大鼠和7只模型组 大鼠。从第8周化)到第20周化),每隔2周采集一次血清样本,7个时间点,共有119个血清样 本。此外,本生物实验还包含由另外6只模型组大鼠组成的独立测试集。第18周取运6只大鼠 的肝脏组织用来做组织学检查W确定是否发癌。所W测试集中含有6个时间点,共36个血清 样本。
[0037] (2)在发现集中共有3种肝病(Ns = 3),Ti为典型的肝炎期化),Τ2到T4为肝硬化阶 段,Τ5到Τ7为肝癌阶段,其中Τ2和Τ5为过渡阶段,Τ4和Τ7为典型的肝硬化期(CIR)和肝癌期 化 CC)。
[003引 (3)建立3个两类子问题化vs.CIR,H VS.肥C,CIR VS.肥C)。
[0039] (4)利用SVM-WE来分析运些两类子问题,去除噪音或无关变量。相关参数设定:50 次5倍交叉验证,线性核函数,惩罚因子为1。
[0040] (5)将SVM-RFE在每个子问题上选出来的特征子集取并,构成新的特征集合用来后 续动态网络图的构建。
[0041] (6)对新的特征集合中的任意两个变量fi,fj在每个时间点上构建比值变量且计算 每个比值变量的有效范围。
[0042] (7)利用比值变量的有效范围计算相邻两个时间点上的NOR值,若NOR大于等于 0.85,则相应的两个变量W红边相连,反之,若小于等于-0.85,则W绿边相连。输出6个网络 图
[0043] (8)T4为典型的肝硬化期,T5和T6分别为癌症的过渡阶段和发展阶段,为发现肝癌 的前瞻性生物信息,动态浓度方法分析该Ξ个时间点所对应的网络图DN-4和DN-5,将具有 相同颜色的边及其对应的比值变量提取出来,构成特征子集S1。
[0044] (9)DN-4为边数最多的网络图。拓扑结构分析方法将DN-4中度最大的节点及其与 之相连的特征所构成的比值变量筛选出来,构成特征集合S2。
[0045] (10)四个比值变量LPC 18:1/FFA 20:5,LPC 20:3-isomer2/FFA 20:5,LPC 16:0/ FFA 20:5和PC 34:2/FFA 20:5同时被动态浓度分析和拓扑结构分析筛选出来。使用曲线下 面积(AUC)进一步来表征运四个比值变量的区分能力。表1给出了运4个比值变量的R0C曲线 分析结果,在发现集上AUC值最高可达0.980,验证集上最高为0.983。
[0046] 表1R0C分析结果
[0047]
【主权项】
1. 一种基于动态网络算法对时间序列数据进行分析,其特征在于以下步骤: 步骤1:静态分析 根据时间序列数据中的Ns种不同的状态建立Ns(Ns-l)/2个两类子问题,从每一个子问 题中确定具有一定区分能力的特征用来构建代谢网络;利用代谢变量之间比值的有效范围 的变化来分析代谢物之间关系的变化;令F = {f 1,f2,…,fm}为特征集合,其中m表示变量的 个数;fit(l < i <m,l < GN)为变量fi在第t个时间点上的含量,N为时间点的数量;特征fi, fj的比值变量n j在时间点t上的有效范围定义为:公式(1)中,;,%'分别表示比值变量rljt的有效范围的上、下界;γ取值为1.732,以 保证:rijt的有效范围至少含有2/3的样本;yijt和〇ijt分别表不比值变量rijt的均值和标准差; 比值变量rijt在相邻两个时间点上有效范围的变化存在三种情况: (1) rljt在相邻两个时间点上的有效范围存在部分重叠; (2) rijt在一个时间点上的有效范围完全包含于其在另一个时间点的有效范围内; (3) rljt在相邻两个时间点上的有效范围不存在重叠部分; 情况(2)没有明确反映出代谢通路反应的变化趋势,所以本发明仅考虑其它两种情况 并使用如下公式计算比值变量在相邻时间点上的NOR: NOR(rijt) = (Lti_Lt2)/max{Lti,Lt2} (2) 公式(2)中越大,表示该比值在 相邻时间点的变化越大; 步骤2:网络构建 (1) 输入静态分析后所得到的特征子集; (2) 对输入的特征子集中的任意两个变量fi,fj在每个时间点上构建比值变量rijt; (3) 根据公式(1)计算每个比值变量r冰的有效范围E(r1Jt); (4) 根据比值变量rljt的有效范围E(rljt),使用公式(2)计算该比值变量在相邻两个时 间点上的NOR值; (5) 如果rljt的NOR值大于等于τ,则该相邻两时间点所对应网络图中两个变量以红 边相连;反之,NOR值小于等于-τ,则网络图中两个变量ht以绿边相连; (6) 输出在两个相邻时间点上建立的网络图DN-i(l < i 5N-1); 步骤3:网络分析 (1) 动态浓度分析 动态浓度分析研究疾病发展过程中代谢物之间的比值的变化趋势;探索复杂疾病恶化 前的某些连续时间点;如果比值变量的有效范围在连续Ne个时间点上沿着同一个方向变 化,则表明随着疾病的发展代谢活动是持续紊乱的;为寻找疾病发生的预警信息,本发明分 析网络图DN-i(s-Ki〈s-l)并将颜色相同的边提取出来,这些沿着同一个方向持续变化 的比值预示着疾病的恶化,即是所确定的疾病恶化的预警信息; (2) 拓扑结构分析 N个时间点产生N-1个网络图;如果网络DN-t (1 < t〈N)的边数较多,则表示有大量的化 学反应其反应速率加快,机体处于相对剧烈的生命活动阶段;具有边数最多的网络DN-t表 明病程发展到了关键时期,其所对应的时间点表示为复杂疾病的早期阶段;在拓扑结构分 析中,本发明关注于具有边数最多的网络图并且着重分析度数最大的k 2 1个节点;这些节 点及其与之相连的节点作为复杂疾病早期诊断的潜在性标志物。
【专利摘要】本发明提供了一种基于动态网络图分析的时间序列数据处理方法,从网络的角度分析代谢组学队列数据,分析变量之间的相互联系,根据变量之间关联性的动态变化构建代谢网络,并通过动态浓度变化和网络拓扑结构的变化分析确定疾病(例如恶性肿瘤)发生的预警信息。弥补了采用静态分析方法处理代谢组学时间序列数据忽略特征动态变化信息的缺点。而且,相对致力于发现单分子标志物的算法,本发明考察变量间的相互关系随时间的变化情况,分析、确定疾病发生改变的关键节点,从而更有助于对疾病致病机理的研究,为疾病的早期诊断和预后研究奠定基础。
【IPC分类】G06F19/12
【公开号】CN105447337
【申请号】CN201510779302
【发明人】林晓惠, 黄鑫, 曾珺, 尹沛源
【申请人】大连理工大学
【公开日】2016年3月30日
【申请日】2015年11月13日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1