一种代谢组学数据融合优化处理方法与流程

文档序号:11386949阅读:546来源:国知局
一种代谢组学数据融合优化处理方法与流程
本申请涉及医学数据信息挖掘领域,更具体地涉及一种代谢组学数据融合优化处理方法。
背景技术
:随着精准医学时代的到来,疾病的准确分类对于制定个性化和精准化的治疗方案极为重要。代谢组学是继基因组学和蛋白组学后的一种相对较新的组学技术,该技术目的在于尽可能多得检测生物样品中的小分子代谢物,从而反映生物体在不同环境下(比如疾病发生发展过程、药物/饮食干预等)的代谢变化情况。代谢组学技术可以在代谢物层面反映生物体个性化的差异,因此,该技术可以实现临床疾病的分型和分类。代谢组学可以产生大量的数据信息,而且这些数据可以来源于不同的生物样品,还可以来源于不同的分析平台,但是我们不可忽视任何来源的数据,因为其中包含我们所需要病人信息。数据融合技术可以将不同来源的数据进行整合,从而实现更加准确的疾病分型和分类。不同来源的数据具有不同的特征,因此,在选择数据前处理方法上也不可一概而论。但是,目前存在许多不同的数据前处理方法,如何根据不同数据特征选择最佳的数据前处理方法是数据分析领域的一个热点问题。另外,数据融合并不是简单地将数据叠加一起,融合不同来源数据中重要信息将减少数据量,提高数据处理速度,但是,如何从不同来源的数据中选择重要信息也是数据分析领域的一个备受关注的问题。技术实现要素:为解决当前存在的上述问题,本申请提出了一种代谢组学数据融合优化处理方法本发明所采取的技术方案如下:一种代谢组学数据融合优化处理方法,包括以下步骤:1)将关于多个病人的不同来源的代谢组学数据分别转换成多个代谢数据矩阵;2)利用实验设计方法分别优化不同来源的代谢组学的数据最佳前处理方法,通过优化后的数据最佳前处理方法对应处理步骤1)中的代谢数据矩阵,结合分类模型找出贡献较大的代谢物数据;3)将步骤2)找出贡献较大的代谢物数据融合转换成重要代谢数据矩阵;4)利用实验设计方法优化重要代谢数据矩阵的数据最佳前处理方法,通过优化后的数据最佳前处理方法处理步骤3)中的重要代谢数据矩阵,结合分类模型对不同的病人进行分型和分类。优选地,步骤1)中代谢组学数据的来源为血液、尿液、粪便、汗液、心脏组织、肾脏组织、肝脏组织、胃肠道组织中的一种或多种,所述代谢组学数据通过核磁共振波谱仪、液质联用仪、气质联用仪、红外光谱仪、紫外光谱仪、拉曼光谱仪中的一种或多种得到。优选地,步骤2)中具体包括以下步骤:步骤2-1.通过实验设计方法选择不同数据前处理方法的组合方式;步骤2-2.分别对步骤1)得到的代谢数据矩阵按步骤2-1中的组合方式进行数据前处理;步骤2-3.将数据前处理后得到的数据输入分类模型,通过实验设计方法建立分类模型性能参数和不同数据前处理方法之间的关系,评价分类模型性能,分析不同前处理对分类模型性能参数的影响;步骤2-4.通过实验设计方法最大化分类模型性能参数,选择最佳数据前处理方法组合;步骤2-5.采用步骤2-4所得的最佳数据前处理方法组合,对步骤1)得到的代谢数据矩进行数据前处理,输入分类模型,筛选出对疾病分型分类贡献最大的代谢物数据。优选地,步骤4)中具体包括以下步骤:步骤4-1.通过实验设计方法选择不同数据前处理的组合方式;步骤4-2.将步骤3)得到的代谢数据矩阵按步骤4-1中的组合方式进行数据前处理;步骤4-3.将数据前处理后得到的数据输入分类模型,通过实验设计方法建立分类模型性能参数和不同数据前处理方法之间的关系,评价分类模型性能,分析不同前处理对分类模型性能参数的影响;步骤4-4.将步骤3)得到的代谢数据矩阵按步骤4-3优化的最佳前处理方案进行数据前处理,输入分类模型,建立基于代谢组学数据的病人分类模型。优选地,所述实验设计方法为响应面分析、混合设计、d优化设计、拉丁方设计、交叉设计、配对设计、析因设计中的一种或多种。优选地,所述数据前处理方法为归一化、标准化、数据转置、数据缩放、数据平滑、数据集成中的一种或多种。优选地,分类模型为线性判别分析模型、偏最小二乘判别分析模型、人工神经网络模型、支持向量机模型、随机森林模型、决策树模型、模糊聚类分析模型中的一种或多种。优选地,评价分类模型性能通过拟合系数、预测性能、分类准确率、p值、受试者工作特征(roc)曲线中的一种或多种。优选地,对疾病分型分类贡献最大的代谢物数据根据分类模型输出的每个代谢物的权重或者贡献度,自定义设置阈值进行筛选。本发明的有益效果如下:融合不同来源的代谢组学数据,可以增加数据信息量,提高对疾病的分型和分类准确性,能够辅助医生更加精准地为病人制定个性化治疗方案。本发明与现有方法相比,具有以下优点:(1)数据前处理对于代谢组学数据分析至关重要,但是面对多种多样的前处理方法,逐一尝试必将费时费力,而且不同前处理方法间还存在交互效应,因此,运用传统的方法难以确定最佳的数据前处理方案。本发明利用实验设计方法设计不同前处理组合方案,一方面节省优化时间,另一方面还考虑不同方法之间的交互效应。(2)本发明以分类模型性能为导向,利用实验设计方法建立与不同数据前处理方法间的关系,通过最大化分类模型性能参数确定最佳数据前处理方案。与传统方法相比,本发明提出的方法可以更加准确更有目的性地优化代谢组学数据前处理方案。(3)本发明首先优化不同来源的代谢组学数据的前处理方案,并通过分类模型筛选重要代谢物,最后融合筛选出的重要代谢物。与简单地将不同来源数据叠加的方法相比,本发明提出的方法融合关键数据信息并滤去无用信息,从而降低数据维度,提高分类模型的运算速度。(4)本发明还优化了融合后代谢组学数据的最佳前处理方案,更进一步提高分类模型的性能。(5)可以根据本发明,编辑程序并开发相应的软件来实施。附图说明图1为本发明所提出的代谢组学数据融合优化处理方法的示意流程图。图2为不同来源的代谢组学数据转换成的代谢数据矩阵统一格式。图3为基于分类模型的重要代谢物的选择,其中贡献度值大于2.0的代谢物作为重要代谢物。具体实施方式下面结合附图对本发明的实施方式进行详细描述。图1展示本发明所提出的一种代谢组学数据融合优化处理方法的示意流程图。参考图1,该方法包括:步骤1:将关于多个病人的不同来源的代谢组学数据分别转换成矩阵。不同来源的代谢组学数据可以是来源于不同的生物样品,比如血液、尿液、粪便、汗液、心脏组织、肾脏组织、肝脏组织、胃肠道组织,也可以是来源于不同的分析技术,比如核磁共振波谱仪、液质联用仪、气质联用仪、红外光谱仪、紫外光谱仪、拉曼光谱仪。但是,这些数据都要分别转换成统一的矩阵格式,如图2所示,每一行是一个病人的相关信息,其中第一列为病人编号,第二列为病人分组,之后为代谢物数据。步骤2:利用实验设计方法分别优化不同来源的代谢组学数据最佳前处理方法,结合分类模型找出贡献较大的代谢物数据。实验设计方法可以根据具体实际情况选择不同方法,比如响应面分析、混合设计、d优化设计、拉丁方设计、交叉设计、配对设计、析因设计;另外,数据前处理方法也可以根据实际情况选择使用,比如归一化、标准化、数据转置、数据缩放、数据平滑、数据集成。步骤2具体包括以下步骤:步骤2-1:通过实验设计方法选择不同数据前处理的组合方式。例如,优化3种不同的数据前处理方法的组合方案,每种前处理方法考虑3种不同的计算方式,即归一化(a1,b1和c1)、数据转置(a2,b2和c2)以及数据缩放(a3,b3和c3)。采用传统的正交实验,27种不同的组合方案需要被尝试,但是假如选用实验设计方法,比如d优化设计,只需尝试7次不同的数据前处理组合方案,如表1所示。表1不同数据前处理的组合方式前处理组合归一化(f1)数据转置(f2)数据缩放(f3)模型性能参数(p)1c1b2a3n12c1a2b3n23b1c2c3n34b1b2b3n45b1a2a3n56a1c2b3n67a1a2c3n7步骤2-2:分别对不同来源的代谢组学数据按步骤2-1中的方式进行数据前处理。步骤2-3:将前处理后的数据输入分类模型,分析不同前处理对分类模型性能参数的影响。如表1所示,经不同数据前处理组合方案处理过的数据会产生不同的分类模型性能参数。例如,通过实验设计方法建立分类模型性能参数(p)和不同数据前处理方法(f1,f2和f3)之间的关系,如公式1所示,其中α、β、γ、δ、θ和μ表示模型系数,ε表示模型残差,f1·f2、f1·f3和f2·f3表示不同数据前处理方法之间的交互效应,该公式中的数据前处理方法可以是归一化、标准化、数据转置、数据缩放、数据平滑、数据集成中的多种组合。分类模型也可以根据实际情况选择使用,比如线性判别分析模型、偏最小二乘判别分析模型、人工神经网络模型、支持向量机模型、随机森林模型、决策树模型、模糊聚类分析模型;另外,模型性能评价可以选择拟合系数、预测性能、分类准确率、p值、受试者工作特征(roc)曲线。公式1p=α·f1+β·f2+γ·f3+δ·(f1·f2)+θ·(f1·f3)+μ·(f2·f3)+ε步骤2-4:通过实验设计方法最大化分类模型性能参数,选择最佳数据前处理方法组合,如公式2所示,其中α、β、γ、δ、θ和μ表示模型系数,ε表示模型残差,f1·f2、f1·f3和f2·f3表示不同数据前处理方法之间的交互效应,该公式中的数据前处理方法可以是归一化、标准化、数据转置、数据缩放、数据平滑、数据集成中的多种组合,max表示最大化运算命令。公式2max(p)=α·p1+β·p2+γ·p3+δ·(p1·p2)+θ·(p1·p3)+μ·(p2·p3)+ε步骤2-5:采用步骤2-4优化所得的最佳数据前处理方法组合,对代谢组学数据进行前处理,输入分类模型,筛选出对疾病分型分类贡献最大的代谢物数据。贡献最大的代谢物数据可以根据分类模型输出的每个代谢物的权重或者贡献度,自定义设置阈值进行筛选。例如,如图3所示,贡献度值大于2.0的代谢物作为重要代谢物被筛选,进行下一步的数据融合。步骤3:将从不同来源的代谢组学数据中筛选出的重要代谢物数据转换成同一个矩阵。步骤4:再次利用实验设计方法优化融合后的代谢组学数据最佳前处理方法,结合分类模型对不同的病人进行分型和分类,为医生制定个性化的治疗策略提供参考,具体包括以下步骤:步骤4-1:通过实验设计方法选择不同数据前处理的组合方式,同步骤2-1。步骤4-2:将融合后的代谢组学数据按步骤4-1的方式进行数据前处理。步骤4-3:将前处理后的数据输入分类模型,并通过实验设计方法确定最佳数据前处理方案,同步骤2-3。步骤4-4:将融合后的代谢组学数据按步骤4-3优化的最佳前处理方案进行数据前处理,输入分类模型,建立基于代谢组学数据的病人分类模型。本领域技术人员可以根据上述方法,编辑程序并开发相应的软件来实施。融合不同来源的代谢组学数据,可以增加数据信息量,提高对疾病的分型和分类准确性,能够辅助医生更加精准地为病人制定个性化治疗方案。本发明的实施方式与现有方法相比,具有以下优点:优点1:数据前处理对于代谢组学数据分析至关重要,但是面对多种多样的前处理方法,逐一尝试必将费时费力,而且不同前处理方法间还存在交互效应,因此,运用传统的方法难以确定最佳的数据前处理方案。本发明利用实验设计方法设计不同前处理组合方案,一方面节省优化时间,另一方面还考虑不同方法之间的交互效应。优点2:本发明以分类模型性能为导向,利用实验设计方法建立与不同数据前处理方法间的关系,通过最大化分类模型性能参数确定最佳数据前处理方案。与传统方法相比,本发明提出的方法可以更加准确更有目的性地优化代谢组学数据前处理方案。优点3:本发明首先优化不同来源的代谢组学数据的前处理方案,并通过分类模型筛选重要代谢物,最后融合筛选出的重要代谢物。与简单地将不同来源数据叠加的方法相比,本发明提出的方法融合关键数据信息并滤去无用信息,从而降低数据维度,提高分类模型的运算速度。优点4:本发明还优化了融合后代谢组学数据的最佳前处理方案,更进一步提高分类模型的性能。本领域的技术人员可以理解,虽然本申请是通过描述具体实施方式来阐述本发明,但是实施方式中一些具体的方法是非限制性的,,比如实验设计方法、前处理方法、分类模型、模型性能评价标准、代谢物筛选标准等,可以根据具体需求和条件进行修改和替换。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1