一种基于算法流的复杂多变量数据处理方法

文档序号:10512186阅读:157来源:国知局
一种基于算法流的复杂多变量数据处理方法
【专利摘要】本发明公开了一种基于算法流的复杂数据处理方法,适合于“三高”数据(高维、高通量与高复杂度)分析处理与信息提取挖掘,属于分析化学计量学领域。本发明通过对数据处理流程的整合与优化,实现智慧型的数据分析与信息挖掘,即通过构造包含不同数据处理方法的流程优化组合,包括数据批载入、预处理、特征选择、模型构建与未知样本预测等,设置方法参数,再将待分析数据“注入”算法流中(训练集、校正集、验证集和预测集等),实现“大数据”的快速便捷,准确智能分析。特别地,算法流构造的变化,可实现复杂数据的一键处理和多模型处理,数据处理方法及参数对分析结果的影响,以及相同数据处理方法(算法流)对不同类型数据集处理的影响等,真正达到个性化数据及数据处理方法的智慧优化组合。
【专利说明】
一种基于算法流的复杂多变量数据处理方法
技术领域
[0001]本发明涉及基于算法流的复杂多变量数据处理方法,属于分析化学中的化学计量学领域。具体来说是在对需要处理的复杂多变量数据,从数据载入到数据预处理,从关键特征选择到模型构建与泛化的整个流程进行整合和优化,创建复杂多变量数据处理的算法流,实现数据的快速智慧处理。实际复杂高通量数据的分析,仅需往算法流中添加目标数据即可实现一键处理和多模型分析等智能化的数据处理和信息挖掘。
【背景技术】
[0002]复杂多变量数据处理与信息提取挖掘,强烈依赖数学、统计学、人工智能、化学与生物信息学,以及化学计量学方法的应用及发展,尤其是化学及生物相关领域的“大数据”处理,更是需要借助于计算快速智能、结果准确可靠,可适应于“三高”数据分析的基础性算法(高维、高通量和高复杂度),这也是数据处理的关键所在。数据处理的过程往往非常繁琐复杂,以色谱和光谱等分析仪器数据的处理为例,通常包含复杂信号平滑,强噪声和背景干扰下的峰检测,多组份重叠影响的自动解卷积,含成百上千复杂组份海量样本的智能保留时间漂移校准,关键变量的选择与优化,各类数据库及检索策略,完全未知小分子的结构鉴定,大规模数据与分析结果的可视化,模式识别与分类,定量模型与模型评价算法等。
[0003]快速准确地挖掘数据信息并获取分析结果,是数据拥有者和数据分析工作者梦寐以求的事情。然而传统上的数据分析是非常费时费力的事情,一方面需要人工优化组合各种各样的数据处理方法,而某一子类的数据处理,便涉及不同的具体算法,甚至不同数据处理算法的使用顺序或算法参数,亦对结果产生显著影响。获得理想的结果,就需要不断地试错,导致大量的时间浪费。特别是数据处理的顺序流程,即前一次方法的处理结果输出作为后一方法的输入,延长数据处理的等待时间。另一方面,数据处理的标准模式通常需要载入已知信息样本,以此建立稳健可靠模型,再将模型作用于已知的验证集样本或未知的预测集样本等。传统上逐步选择数据处理算法和实际数据的方法,导致数据分析过程漫长而复杂,而且很难实现智能快速。以构造y = f(X)模型为例,f和X的多样性均使得传统方法无法真正实现“大数据”智慧处理与信息提取的需要。比如光谱、色谱以及质谱等数据处理方面的软件,都是按照上述传统方法设计、组织架构并实施的,包括当前国际主流的化学计量学分析软件,例如The Unscrambler和S頂CA等,操作异常耗时复杂,每个数据处理方法需要不断重复操作、人工寻找最优的方法组合。
[0004]基于算法流的复杂多变量数据处理,可广泛应用分析仪器所产生数据的分析处理与信息提取挖掘(如色谱、质谱和光谱等),同时亦可用于网络和互联网“大数据”,以及诸如制药、烟草、酿酒、农业、食品、石化、环境、质监、生物等制造和服务业数据的分析处理,应用范围广泛,前景良好。

【发明内容】

[0005]本发明在于提供一种复杂多变量数据处理算法流(以下简称算法流)。通过该算法流可简化复杂数据处理过程,仅需将数据处理过程中需要的各种方法,包括数据预处理、特征选择以及系列建模方法等预先添加(设计)到算法流中,并设定相应的优化参数,即可对各种复杂数据实现一键处理和多模型处理,忽略单次处理一组数据所需的繁琐操作流程,提高数据处理效率,从而节约成本、提高效益。其核心点包括:1),任意添加或移除复杂多变量数据处理算法并设置算法参数,自由排列算法的调用顺序,创建包括一个或多个数据处理步骤的算法流;2),可在应用算法流时对其进行修改或各方法运行顺序的调换;3),“注入”待分析处理数据(建模、验证与预测)到数据处理算法流中,按算法流中各方法的时间先后顺序依次运行程序,获得每步运算的中间结果和最终计算结果;4),通过对算法流的不同构造,实现复杂数据的一键处理和多模型处理,数据处理方法及其参数设置对数据分析结果的影响,以及相同数据处理方法(算法流)对不同类型数据集处理结果的影响,实现个性化数据及其数据处理方法的优化组合。
[0006]本发明与传统数据处理方法相比,优越性明显。首先,通过本发明所述的算法流可集成任意的数据处理方法,显著优于传统方法单独运行不同数据处理方法,不断重复调用各种方法和被分析数据的问题,减少并优化操作流程;其次,本发明可将数据处理方法参数设置集成在算法流中,可通过方法参数的改变与模型结果的比较,实现参数的寻优与方法的组合优化;特别地,通过本发明所述算法流可实现智慧型的一键数据处理与多模型分析处理等,这也是复杂多变量数据处理迄今的最大难点之一。
[0007]相对于传统数据处理软件难于解决的“多方法、难优化、海量数据、流程复杂、操作繁琐”等问题,本发明提供了很好的解决方法,在复杂高通量数据信息挖掘中具有良好应用前景。
[0008]针对复杂多变量数据处理中时刻遭遇的繁琐和重复性分析,本发明通过实现对数据处理方法的整合,即通过任意选择所需的数据处理方法到灵活变化的算法流中,在处理不同的目标数据时,仅需将其“注入”算法流中即可实现对复杂高通量数据的处理,避免传统上采用单个方法的分析,均需人工手动设置方法参数,逐个添加数据,且无法达致输入数据后的快速智能分析。本发明通过将所需方法集成在算法流中,实现快速、便捷的方法选择,并设定相应参数,特别适合于固定方法与流程的复杂数据分析处理,比如基于某一标准对产品与服务进行质量评估或检验监测等的日常性分析,真正解放繁琐重复的劳动。
【附图说明】
[0009]图1,传统的复杂多变量数据处理模式与基于算法流的智慧型数据处理模式。
[0010]图2,基于算法流的复杂多变量数据处理算法流的构造示例。图中区域I集成了各类数据处理方法;区域2显示已经加入到算法流中的方法,可通过增加、删除、顺序调换等实现对算法流的修改;区域3为区域2中当前被选方法的参数设置;区域4则动态显示算法流的状态。
[0011]图3,实现基于算法流的智慧型数据处理,即通过选择目标算法流,并选择“注入”算法流中待分析的多变量数据,包括数据训练集、校正集,干扰集,验证集和预测集等,根据算法流的构造,完成对目标数据的分析处理。
[0012]图4,一个实际近红外数据示例。
【具体实施方式】
[0013]实施例:下面以一个小麦的近红外光谱数据的分析处理为例,说明本发明所述的复杂多变量数据处理算法流及其使用方法。
[0014]根据本发明所述算法流的构造,通过预先添加或移除不同的多变量数据处理方法,并设置添加到算法流中的方法参数,任意排列算法顺序,创建算法流。图1示意传统复杂多变量数据处理模式与基于算法流的智慧型数据处理。一般地,多变量数据的分析处理需要经过众多分析步骤,比如近红外数据的分析处理,通常包括数据快速(批)载入,平滑与求导,背景扣除和基线校正等预处理操作以提高数据质量,并经过变量选择寻找与目标待建模组份关联性高的特征变量,最后优选方法建立、评价并泛化模型,即采用已经建立好的模型,对完全未知的样本进行分类,回归或决策预测。传统数据处理方法需要逐步运行上述每个步骤所涉及的方法,获得运算结果,并用于下一阶段的分析处理。然而数据处理步骤多,甚至一个步骤包括多个具体分析方法及参数区间变化,使得操作异常复杂;而基于算法流的数据处理方法,则仅需设置算法流便无需再进行任何其他深度干预,便可直接获得对数据的分析处理结果;与此同时,可对数据处理算法流中所包含的算法进行任意修改,并往数据处理算法流中“注入”待分析处理的建模、验证或预测数据,便可获得每步运算的中间结果和最终计算结果。
[0015]基于算法流的构造模式,图2显示了一个实际数据处理系统中典型算法流的构造方式。使用者可任意调用各种数据处理方法,编辑相应参数,调节方法运行顺序,实现对数据的快速智能分析。通过图2所述方法构建的算法流,具有良好的迀移性,即可将算法用于不同数据的分析处理与信息挖掘,与此同时实现算法流的比较和方法的组合优化。图3则示意往图2所建算法流中添加待分析处理的数据,实现数据处理。
[0016]图4为一个实际的小麦近红外数据图形。基于算法流对多变量数据的分析处理,可按照图2和图3所述的过程,添加数据处理方法,选择合适算法参数,快速实现对数据的分析,方法的选择包括但不限于:1),数据预处理,减半差值、一般插值、数据转置、数据加噪声、样本标准化、变量标度化、标准正态变换、Quantile标准化、数据运算、平滑、求导、背景扣除、漂移校正、多元散射校正、正交信号校正、去趋势化;2),变量选择,;不加权方法,加权方法,Fisher比法,逐步回归分析法,特征投影重要性,选择性比,无信息变量消除,蒙特卡洛无信息变量消除,移动窗口偏最小二乘,S-Plot法,克争自适应重加权米样,随机青蛙,间隔影响分析;3),探索性分析,主成份分析、HCA聚类、K-means聚类;4),分类分析,K最近邻分析、PCA-MD、簇类独立软模式分析、偏最小二乘-判别分析、正交偏最小二乘-判别分析、支持向量分类机;5),回归分析,主成份回归、多元线性回归、偏最小二乘、正交偏最小二乘、支持向量回归机。
[0017]通过运行上述方式所构造的算法流,并添加图4所示的实际数据于算法流中,SP可获得运行每个算法所得到的中间结果及最终模型结果,同时包括表格和图形的输出形式,实现复杂多变量数据的快速便捷,一键处理与多模型分析,以达致智慧型的数据分析需求。
【主权项】
1.一种基于算法流的复杂多变量数据处理方法,其特征在于包含以下步骤: a.依照使用者需求,预先任意选择(添加或移除)不同类别和用途的多变量数据处理算法,设置算法参数,自由排列、调换算法的运行顺序,创建包含数据处理各步骤的算法流; b.算法流中所包含的算法可修改(添加或移除)、可调节顺序、可修改算法参数; c.往算法流中任意选择/分配待分析处理的数据,依据算法流的顺序设计运行各个算法,获得每个算法运算的中间结果和最终结果; d.算法流中数据的分配及调用包括建模数据集,校正数据集、干扰数据集、验证数据集,以及预测数据集; e.算法流中具体数据处理算法及建模方法的选择,参数的不同设置实现一键数据处理,快速、智慧多模型分析,以及数据处理结果的比较和优化。2.根据权利要求书I所述的复杂多变量数据处理算法流,其特征在于集成了海量数据处理方法,大类主要包含:数据批载入方法、预处理方法、特征选择方法、探索分析方法、分类与回归方法、未知数据的验证和预测,以及智能决策等。3.根据权利要求书I所述的数据处理算法流中的方法,其特征在于可灵活编辑算法流中所包括的数据处理方法,使用者可任意选择所需方法添加到算法流中,并可对算法流中的方法进行添加、删除和调序操作,实现方法的自由优化组合。4.根据权利要求书I所述算法流参数的设置,其特征在于可对算法流中的方法进行合理、默认的参数设置,每种方法的参数设置都有预先的科学限定,防止使用者因参数设置不当而造成数据处理结果不合理。5.根据权利要求书2所述的选择不同数据处理方法子类,其特征在于应用算法流得到的数据处理结果中,包含各方法的图表中间结果、最终结果以及方法评价指标。6.根据权利要求书3所述算法流中的方法选择,其特征在于适合应用于数据处理有关的软件(如化学计量学与生物信息学软件),以及将软件中数据处理方法集成在算法流中,方便用户快速便捷使用,减少对数据处理方法的频繁调用与对数据的频繁选择。7.根据权利要求书4所述对算法流的处理,其特征在于可实现对数据的一键处理,即实现数据处理方法及其参数设置都已在算法流中提前创建,在处理实际数据时,只需将算法流应用于待处理的不同种类、不同被处理目标数据,即可一键得到最终的数据分析结果。8.根据权利要求书4所述对算法流的处理,其特征在于通过在算法流中选择多个建模方法,则可实现数据多模型分析,以及在选择相同预处理或特征选择方法的情况下,可实现多个模型的同时分析,生成各模型的处理结果。9.根据权利要求书4所述对算法流参数的设置,可通过比较是否添加某一算法,或改变算法参数对模型结果的影响,实现算法流中方法的组合优化与参数寻优。
【文档编号】G06F17/30GK105868206SQ201510030208
【公开日】2016年8月17日
【申请日】2015年1月21日
【发明人】曾仲大, 陈爱明
【申请人】大连达硕信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1