用于工业中的性能指标的基于数据的优化的方法和系统与流程

文档序号：16037018发布日期：2018-11-24 10:09阅读：268来源：国知局

本专利申请要求2017年5月15日提交的印度申请第201721009012号的优先权。前述申请的全部内容通过引用并入本文中。

本文中实施方式总体上涉及数据分析的领域，并且具体地涉及用于优化加工和制造业的关键性能指标的系统和方法。

背景技术

诸如生产率、产品质量、能源消耗、正常运行时间百分比、排放水平等的指标用于监测制造业和加工厂的表现。当今工业面临着实现雄心勃勃的生产目标、最大限度地降低能耗、满足排放标准和定制其产品的挑战，同时还要应对原材料质量和其他影响参数例如环境温度、湿度等的广泛变化。工业努力通过调整已知对性能指标有影响或起作用的若干参数来不断改进其性能指标。当加工涉及有限数量的变量时，这是容易的。但是，大多数工业处理由串联和/或并联的许多单元组成，并且涉及数千个变量或参数。在这种情况下识别影响关键性能指标(kpi)和(它们的)最优水平的变量并非易事，并且这样做会需要大量时间和专业知识。诸如统计技术、机器学习和数据挖掘等的数据分析方法具有解决这些复杂的优化问题的潜力，并且可用于分析工业数据并发现更新的操作域(regimeofoperation)。

识别影响kpi的相关变量是与处理数据分析相关联的挑战。这是由于工业处理中的大量变量以及它们之间复杂的非线性相互作用。存在几个变量(或特征)选择技术，但不存在单一变量选择技术能够识别所有相关变量，特别是在复杂的工业过程中。因此，需要一种能够选择最重要变量的更好的变量选择技术。

此外，在所有描述数据分析向制造和加工工业的应用的方法中，焦点均限于kpi、其他感兴趣的变量和来自预测模型的结果的可视化，以及/或者向最终用户提供处理建议。在最终用户的决策过程中提供的巨大帮助的其他一些输出例如对应于kpi的期望范围和不期望范围的变量的范围、不同吞吐量水平处的kpi范围等等在任何现有方法中均不作为特征。

技术实现要素：

以下内容呈现了本公开内容的一些实施方式的简化概要，以提供对于实施方式的基本理解。该概要不是实施方式的广泛概述。其并非意在标识实施方式的关键/紧要要素或描绘实施方式的范围。其唯一目的是以简化的形式呈现一些实施方式，作为下面呈现的更详细描述的序言。

考虑到的前述内容，本文的实施方式提供了用于分析来自一个或更多个工业处理单元的多个数据以用于优化工业的关键性能指标的系统和方法。

在一个方面中，以下内容呈现了用于分析来自一个或更多个工业处理单元的多个数据以优化工业的关键性能指标的系统。该系统包括具有指令的存储器、与存储器通信地耦接的至少一个处理器、多个接口和多个模块。接收模块被配置成接收一个或更多个工业处理单元的多个数据，其中所述多个数据包括原材料的特性、中间产品的特性、副产品的特性、最终产品的特性、工艺参数和处理设备的状况。单元级融合模块被配置成合并所接收的多个数据以获得一个或更多个工业处理单元中的每一个的单元式数据集，其中每个处理单元的单元式数据集包括期望的采样频率。验证模块被配置成验证一个或更多个工业处理单元的经合并的单元式数据集，其中，计算处理单元的所有变量的百分比可用性、标准差、四分位间距和不合理值的存在。数据预处理模块被配置成预处理经验证的多个数据以获得一个或更多个工业处理单元中的每一个的经预处理的数据集，其中，预处理是迭代过程，其包括以下步骤：离群值去除、缺失值插补和聚类。企业级融合模块被配置成将一个或更多个工业处理单元中的每一个的预处理数据与一个或更多个基于物理的模型的模拟变量的一个或更多个值以及来自用户的一个或更多个域输入进行集成以获得企业级数据集，其中，在考虑由于各个单元中的停留时间、一个或更多个工业处理单元之间的运输时间以及处理单元的一个或更多个传感器的响应时间引起的时间滞后的情况下将单元式数据集合并和同步。域识别模块被配置成在企业级数据集上使用一种或更多种聚类技术来识别一个或多个操作域，其中，所述一种或更多种聚类技术包括基于距离的聚类、基于密度的聚类和分层聚类。基线统计模块被配置成确定对应于企业级数据集的kpi的一个或更多个变量的范围。范围确定是基于预定义的基线统计和一个或多个操作域，其中，所确定的一个或更多个变量的范围被用于在执行分析的时间段期间生成一个或更多个kpi图。特征选择模块被配置成选择企业级数据集的一个或更多个特征以获得企业级数据集的一个或更多个选定特征的超集，其中，特征选择在所有的域式数据集和企业级数据集上被执行。模型构建模块被配置成针对每个kpi开发一个或更多个预测模型，其中，使用企业级数据集和企业级数据集的一个或更多个选定特征的超集来开发一个或更多个预测模型。优化模块被配置成使用一种或更多种优化技术基于关于一个或更多个kpi的一个或更多个预测模型和约束来优化至少一个kpi，其中，所述一种或更多种优化技术包括梯度搜索、线性编程、目标规划、模拟退火和演化算法。

在另一方面，以下内容呈现了用于分析来自一个或更多个工业处理单元的多个数据以优化工业的关键性能指标的方法。该方法包括以下步骤：接收一个或更多个工业处理单元的多个数据，其中，所述多个数据包括原材料的特性、中间产品、副产品和最终产品的特性、工艺参数和处理设备的状况；合并所接收的多个数据以获得所述一个或更多个工业处理单元中的每一个的单元式数据集；验证所述一个或更多个工业处理单元的经合并的单元式数据集，其中，计算处理单元的所有变量的垃圾值、百分比可用性、标准差和四分位间距的存在；对经验证的多个数据进行预处理以获得所述一个或更多个工业处理中的每一个的预处理的数据集，其中，预处理是迭代过程，包括步骤离群值去除、缺失值的插补和聚类；将所述一个或更多个工业处理单元中的每一个的预处理数据集与一个或更多个基于物理的模型的模拟变量的一个或更多个值以及来自用户的一个或更多个域输入进行集成以获得企业级数据集，其中，在考虑由于各个单元中的停留时间、从一个或更多个工业处理单元的材料运输时间以及处理单元的一个或更多个传感器的响应时间引起的时间滞后的情况下将单元式数据集合并和同步；在企业级数据集上使用一种或更多种聚类技术来识别一个或更多个操作域，其中，所述一种或更多种聚类技术包括基于距离的聚类、基于密度的聚类和分层聚类；基于预定义的基线统计和一个或更多个操作域来确定对应于企业级数据集的kpi的一个或更多个变量的范围，其中，所确定的一个或更多个变量的范围被用于在执行分析的时间段期间生成一个或更多个kpi图；选择企业级数据集的一个或更多个特征以获得企业级数据集的一个或更多个选定特征的超集，其中，特征选择在所有域式数据集以及企业级数据集上被执行；针对每个kpi开发一个或多个预测模型，其中，所述一个或更多个预测模型使用企业级数据集和企业级数据集的一个或更多个选定特征的超集；使用一种或更多种优化技术基于一个或更多个kpi的一个或更多个预测模型和约束来优化至少一个kpi，其中，一个或多个优化技术包括梯度搜索、线性规划、目标规划、模拟退火和演化算法。

在另一个方面，本文中的实施方式提供了包括一个或更多个指令的一个或更多个非暂态机器可读信息存储介质，所述一个或更多个指令在由一个或更多个硬件处理器执行时执行动作，所述动作包括：接收一个或更多个工业处理单元的多个数据，其中，所述多个数据包括原始材料的特性、中间产品、副产品和最终产品的特性、工艺参数和处理设备的状况；合并所接收的多个数据以获得一个或更多个工业处理单元中的每一个的单元式数据集；验证一个或更多个工业处理单元的经合并的单元式数据集，其中，计算处理单元的所有变量的百分比可用性、标准差、四分位间距和垃圾值的存在、预处理经验证的多个数据以获得一个或更多个工业处理单元中的每一个的经预处理的数据集，其中，所述预处理是迭代过程，其包括以下步骤：异常移除、缺失值插补和聚类；将一个或更多个工业处理单元中的每一个的预处理的数据集与一个或更多个基于物理的模型的模拟变量的一个或更多个值以及来自用户的一个或更多个域输入进行集成以获得企业级数据集，其中，在考虑由于各个单元中的停留时间、材料从一个或更多个工业处理单元的运输时间以及处理单元的一个或更多个传感器的响应时间引起的时间滞后的情况下将单元式数据集合并和同步；在企业级数据集上使用一种或更多种聚类技术来识别一个或更多个操作域，其中，一种或更多种聚类技术包括基于距离的聚类、基于密度的聚类和分层聚类；基于预定义的基线统计和一个或更多个操作域来确定对应于企业级数据集的kpi的一个或更多个变量的范围，其中，所确定的一个或更多个变量的范围被用于在执行分析的时间段期间生成一个或更多个kpi图；选择企业级数据集的一个或更多个特征以获得企业级数据集的一个或更多个选定特征的超集，其中，特征选择在所有域式数据集以及企业级数据集上被执行；针对每个kpi开发一个或多个预测模型，其中，所述一个或更多个预测模型使用企业级数据集和企业级数据集的一个或更多个选定特征的超集；使用一种或更多种优化技术基于关于一个或更多个kpi的一个或更多个预测模型和约束来优化至少一个kpi，其中，一个或多个优化技术包括梯度搜索、线性规划、目标规划、模拟退火和演化算法。

本领域技术人员应当理解的是，本文中任何框图表示实施本主题的原理的说明性系统的概念图。类似地，将理解的是，任何流程图、流向图，状态转换图、伪代码等表示可以基本上在计算机可读介质中表示并且由计算设备或处理器——不管是否这样的计算设备或处理器被明确示出——执行的各种过程。

附图说明

根据下面参照附图进行的详细描述将更好地理解本文中的实施方式，在附图中：

图1示出了根据本公开内容的实施方式的用于分析来自一个或更多个工业处理单元的多个数据以优化工业的关键性能指标的系统；

图2是根据本公开内容的实施方式的制造或加工工厂的示意图；

图3是示出根据本公开内容的实施方式的用于kpi的优化的方法中的步骤的示意图；

图4(a)和4(b)是描绘根据本公开内容的实施方式的使用离群值和插补技术的数据预处理的流程图；

图5是根据本公开内容的实施方式的来自数据预处理步骤的输入和输出的示意图；

图6是根据本公开内容的实施方式的来自企业级集成的输入和输出的示意图；

图7是根据本公开内容的实施方式的来自基线统计和域(regime)识别的输入和输出的示意图

图8是根据本公开内容的实施方式的特征选择的流程图；

图9(a)和9(b)是根据本公开实施方式的模型构建和区分的流程图；

图10是根据本公开内容的实施方式的来自模型构建和区分的输入和输出的示意图；

图11是根据本公开内容的实施方式的来自优化的输入和输出的示意图；以及

图12(a)和图12(b)示出了根据本公开内容的实施方式的用于分析来自一个或更多个工业处理单元的多个数据以优化工业的关键性能指标的方法。

具体实施方式

参照在附图中示出并在下面描述中详细描述的非限制性实施方式，来更充分地说明文中的实施方式及其各种特征和有利细节。文中使用的示例仅旨在便于理解其中可以实践文中的实施方式的方式，并且进一步使得本领域技术人员能够实践文中的实施方式。因此，这些示例不应被解释为限制文中实施方式的范围。

参照图1，示出了用于分析来自一个或更多个工业处理单元的多个数据以优化工业的关键性能指标的系统100。系统100包括处理器102、通信地耦接至处理器102的存储器104、多个接口106、接收模块108、单元级融合模块110、验证模块112、数据预处理模块114、企业级融合模块116、域识别模块118、基线统计模块120、特征选择模块122、模型构建模块124、优化模块126和数据管理服务器128。

在优选实施方式中，存储器104包含可由处理器102读取的指令。多个接口106包括图形用户接口、服务器接口、基于物理的模型接口和求解器接口。图形用户接口用于接收来自用户的输入，例如关注的kpi和分析时间段，并将它们转发给多个模块。服务器接口将从多个模块中的一个模块接收到的对数据的请求转发给数据管理服务器128，并将从数据管理服务器128接收到的数据转发给多个模块。基于物理的模型接口将从多个模块中的一个模块接收到的企业级融合后的集成数据集发送到可用于工业处理的基于物理的模型(如果有的话)，从基于物理的模型接收模拟变量的值并将它们转发给所述多个模块中的所述一个模块。

在优选实施方式中，接收模块108被配置为接收一个或更多个工业处理单元的多个数据，其中，所述多个数据包括原材料的特性、中间产品、副产物和最终产品的特性、处理参数和处理设备的状况。

参照图2和图3，作为示例，示出了一个假想的工业企业的示意图，其中，大多数制造和加工企业包括若干个串联或并联的单元。该企业包括生产两种产品即a和b的8个处理单元。为了生产产品a，材料流通过以下操作序列：(单元#1、单元#2、单元#3)→单元#4→单元#5→单元#6。类似地，为了生产产品b，材料流通过以下操作序列：(单元#1、单元#2、单元#3)→单元#4→单元#7→单元#8。为了优化与产品a的生产有关的kpi，例如说产品a的质量或每单位质量产品a产生的能量消耗，应该考虑来自操作序列中涉及的所有单元的数据。类似地，为了优化与产品b的生产有关的kpi，应该考虑来自操作序列中涉及的所有单元的数据。分析企业级数据而不是分析单元级数据可以更好地了解企业的运营。图3示出了对于n个处理单元中的每个处理单元，数据是从诸如企业资源规划(erp)、分布式控制系统(dcs)和实验室信息管理系统(lims)等的各种源收集的。

在优选实施方式中，单元级融合模块110被配置为合并所接收到的多个数据以获得一个或更多个工业处理单元中的每个工业处理单元的单元式数据集(unit-wisedataset)，其中每个处理单元的单元式数据集包括期望的采样频率。在合并过程中，来自所有文件或数据集的一个或更多个变量按照与采样频率相对应的特定观测id——例如每日数据的情况下的日期、小时数据的情况下的小时等——合并。如果采样频率在各种文件/数据集中不一致，则变量的值在可能的情况下进行平均。如果无法进行平均，则会整体使用相同的数据，例如，在要执行小时分析并且只有每日数据可用的情况下，则针对该特定天的所有小时使用每日数据值。在此处理结束时，获得具有与观测id对应的行并且具有与处理单元中的所有变量对应的列的单元式数据集。

在优选实施方式中，验证模块112被配置为验证一个或更多个工业处理单元的合并的单元式数据集，其中，计算处理单元的所有变量的不合理值的存在、百分比可用性、标准差和四分位距。数据质量验证是针对每个处理单元获得的单元式数据集进行的。还针对每个处理单元创建描绘变量的可用性的百分比和模式的缺失图。数据质量度量和缺失图作为输出通过用户接口发送给用户。根据数据的可用性，用户可以决定是否进行其余的分析。用户可以在执行其余的步骤之前建议删除具有非常低的可用性的一些变量。

参照图4(a)、图4(b)和图5，其中，数据预处理模块114被配置为对验证的多个数据进行预处理以获得一个或更多个工业处理单元中的每个工业处理单元的经预处理的数据集，其中，预处理是一个迭代过程，包括去除离群值、插补缺失值和聚类的步骤。考虑具有至少百分之七十的百分比可用性的变量来用于预处理，但对于材料变量例如原材料、中间产品和最终产品特性等放宽了这个条件，因为这些类型变量的缺失可能是由于较少的样本数而造成的，因为实验室分析通常只是定期执行。

从数据集中丢弃其可用性低于期望可用性并且在缺失的情况下不会遵循特定模式的材料变量。首先执行单变量离群值分析，以检测并去除数据集中的离群值，包括由于仪器失灵/故障而产生的不一致值。如果单元的生产量为零，则忽略该单元在该时间段内的所有变量。然后基于变量的百分比可用性将变量分为不同的子集。虽然使用多变量插补来用于过程参数和非季节性材料特征变量，但使用时间序列插补来用于季节性质量变量。在所有变量中的缺失被恰当地插补之后，对单元式数据集执行聚类以识别数据中存在的聚类(如果有的话)。这些聚类代表不同的操作域。然后基于所识别的聚类将每个单元式数据集划分成不同的数据集。如图4(a)和图4(b)所示，划分的数据集是通过去除离群值和插补步骤获得的。

在优选实施方式中，当聚类的数目和每个聚类中的数据点的数目不改变时，去除离群值、插补和聚类的迭代过程停止。在该步骤结束时获得单元式的经预处理的数据集。对于每个变量，去除的离群值的数量/百分比、用于插补的技术以及预处理前后的平均值、中值和标准差被作为输出呈现给用户。丢弃的变量的列表也呈现给用户。用户还可以被提供有用于可视化原始和预处理变量的趋势的选项。

在优选实施方式，参照图6，企业级融合模块116被配置为将一个或更多个工业处理单元中的每个工业处理单元的预处理数据与一个或更多个基于物理的模型的模拟变量的一个或更多个值以及来自用户的一个或更多个域输入进行集成，以获得企业级数据集，其中，在考虑由于各单元中的停留时间、一个或更多个工业处理单元之间的运输时间以及工业处理单元的一个或更多个传感器的响应时间而导致的时间滞后的情况下，将单元式数据集进行合并和同步。如果两个处理单元之间的运输时间大于数据的采样频率，则在集成之前，将处理单元中的一个处理单元的观测id偏移适当数量的时间单位。例如，如果采样频率为每日，并且其花费2天来将材料从处理单元a运送至处理单元b，则在将来自两个处理的数据集合并之前，将处理a中的数据集中的所有观测id偏移2天。

在优选实施方式中，可以将任何特定的处理单元作为用于合并来自所有处理单元的数据的基线。通常，将计算关注的kpi的处理单元作为数据集成的基线单元。在相同的中间产品来自两个或更多不同的处理单元的情况下，则考虑将来自所有这些处理单元的操作变量用于分析。然而，不是使用来自生成中间产品的所有处理单元的材料特性(尺寸分析、化学分析等)，而是使用加权平均特性。权重可以是从每个处理单元产生的中间产品的量或后续处理单元中消耗的中间产品的量。

一旦企业级数据集被准备好，它被通过基于物理的模型接口转发到可用于工业处理的基于物理的模型(如果有的话)，以用于计算模拟变量。这些是可能会影响kpi但无法在此处理中直接测量的参数。模拟变量的例子是炉的高温(>1500℃)区域的温度、反应器中的中间产品的浓度等。将模拟参数发送回企业级融合模块并添加到企业级数据集以获得用于进一步分析的集成数据集。来自企业级集成的输出包括所有变量的范围、平均值、中值和标准差以及模拟的和估计的参数的列表。

在优选实施方式中，域识别模块118被配置为对企业级数据集使用一种或更多种聚类技术来识别一个或更多个操作域，其中，一种或更多种聚类技术包括基于距离的聚类、基于密度聚类和分层聚类。

在优选实施方式中，基线统计模块120被配置为基于预定义的基线统计和一个或更多个操作域来确定企业级数据集的kpi的一个或更多个变量的范围，其中，一个或更多个变量的范围正被使用在执行分析的时间段内生成kpi的一个或更多个图。基线统计——例如kpi的时间百分比——处于期望和不期望范围内，对应于期望和不期望的kpi范围的变量范围、不同吞吐量水平的kpi范围以及kpi与集成的数据集中的其他变量之间的相关性系数被计算并通知给用户。用户可以被给出用于在执行分析的时间段内生成kpi和集成数据集中所有变量的趋势图和箱图的选项。用户还可以生成kpi和关注的变量之间的散点图。集成数据集中的所有变量均被分为最小值和最大值之间的若干间隔。将与每个变量的每个仓(bin)相对应的kpi的值分开并计算它们的平均值。以热度图的形式描绘与所有变量的仓/间隔相对应的kpi的平均值并通知给用户。

在优选实施方式中，特征选择模块122被配置为选择企业级数据集的一个或更多个特征，以获得企业级数据集的一个或更多个选定特征的超集，其中，所述特征选择是对所有域式数据集以及企业级数据集来执行的。集成数据集根据域识别步骤中确定的域的数量来分为两个或更多数据集。

可以理解的是，使用图8所示的两阶段特征选择方法来选择重要特征。在第一阶段，从各种特征选择方法中获得重要特征。该阶段涉及调整k倍交叉验证和特征选择算法中可用的参数以获得重要特征。特征选择方法可以是基于模型的方法，例如随机森林、多变量自适应回归样条、监督主成分分析、逐步回归和支持向量回归，或者是非基于模型的方法，例如关联挖掘和时间序列聚类。在第二阶段，将从单个特征选择技术中获得的重要特征的列表组合起来以获得重要特征的单个“超集”。这通过使用几何平均评分方法通过所有技术对确定的前25个特征进行评分来获得。针对特征i的得分计算如下：

ni是选择第i个特征的方法的频率或数量；以及

ri,k是第k个方法中特征i的排序(rank)。

重要特征的超集与它们相对于域式数据集和集成数据集的kpi的重要性得分一起被通知给用户。用户被给出用于添加附加特征或从超集中删除现有特征的选项。对于每个数据集，还向用户显示平行坐标图。

参照图9(a)和图9(b)，系统100的模型构建模块124被配置为在训练数据集上为每个kpi开发一个或更多个预测模型，其中，一个或更多个预测模型使用企业级数据集和企业级数据集的一个或更多个选定特征的超集。应该理解的是，使用三步模型构建方法。第一步涉及使用基本模型构建算法来构建预测模型。一个或更多个预测模型包括逐步回归、主成分回归、多变量自适应回归样条、独立分量回归、套索回归、克立格、随机森林、偏最小二乘、梯度提升树、广义线性建模、线性和非线性支持向量机和人工神经网络。第二步涉及调整模型构建参数以优化模型的预测性能。使用测试数据集来评估模型的预测性能，并且以预测的均方根误差(rmse)、预测的平均绝对误差(mae)、akaike信息标准(aic)、修正的akaike信息标准(aicc)和贝叶斯信息标准(bic)和命中率(具有给定预测准确性的点的百分比)来表达预测性能，如图10所示。将会理解的是，如果在任何情况下没有预测模型符合rmse和/或mae，则用户被给出用于回到特征选择的选项——其中附加变量或变换变量可以被添加到重要的变量的超集中，并重复模型构建步骤。

第三步涉及模型辨别和选择，其中对于集成数据集和域式数据集，选择了均方根误差和平均绝对误差的值低于用户指定的值的前三的预测模型。针对前三的模型评估了健壮性得分(rs)并且将健壮性得分用于模型辨别。随机生成了包含模型中包括的所有变量的值的至少一万个数据点，并将其用于预测kpi。然后使用以下确定每个模型的健壮性得分：

具有大于95％的最高健壮性得分的预测模型被选择用于敏感性分析和优化。基于方差的敏感性分析被执行以评估kpi对模型中的变量的单位变化的敏感性。获得了模型中的每个变量的敏感性得分，得分越高表示kpi的值随变量的值的单位变化改变越大。可以理解的是，如果所有三个预测模型的健壮性得分低于95％，则用户可以修改重要特征的超集并重复模型构建步骤。

将理解的是，当较新/未来数据用于预测并且“自学”选项被提供给用户以提高预测模型的准确度时，模型的预测性能可能随时间而降低。对于自学，将用于开发模型的原始数据和用于较新时间段的数据进行组合，并且对组合的数据集重复模型构建步骤。可以定期(例如每周或每月)自动地触发自学，或者可以由用户基于与模型或较新数据集有关的统计测量来触发自学。与模型有关的统计测量可以是模型性能指标，如均方根误差、平均绝对误差、赤池(akaike)信息准则，校正赤池信息准则、贝叶斯信息准则或命中率，而与较新数据集相关的统计测量可以是较新数据与原始数据的平均百分比偏差或原始数据集与较新数据集之间的多变量距离。

在优选的实施方式中，优化模块被配置成使用一种或更多种优化技术基于关于一个或更多个kpi的一个或更多个预测模型和约束来优化至少一个kpi，其中，一种或更多种优化技术包括梯度搜索、线性规划、模拟退火和演化算法。

参照图11，下述优化的示意图：将待用预测模型中使用的变量的约束优化的kpi用作来自用户的输入并且确定产生kpi的最优水平的变量的值。当kpi中的任何一个需要优化时，问题在于使kpi最小化或最大化，并且解决方案由导致最小/最大kpi的变量的值组成。当需要同时优化两个或更多个kpi时，问题在于使成本函数(例如，成本函数＝0.6kpi1+0.4kpi2-1.2kpi3)最小化，并且该解决方案由用于处理的帕累托最优(pareto-optimal)操作点的集合组成。多kpi优化的成本函数是使用用户分配给每个kpi的权重构建的。使用了几种优化技术，例如梯度搜索、线性规划、目标规划、模拟退火和演化算法等遗传算法。优化问题经由求解器接口转发给单目标或多目标优化算法的优化求解器，例如基于规则的、基于模糊逻辑的和基于梯度的求解器。从求解器收到的解决方案被处理并通知给用户。来自优化步骤的用户输出包括：产生最优kpi和kpi的最优值的变量的值、帕累托最优操作点的集合以及这些点处的kpi的值、以及帕累托最优操作点的图。

参照图12(a)和图12(b)，一种用于分析来自一个或更多个工业处理单元的多个数据以优化工业的关键性能指标(kpi)的方法400。

在步骤402中，其中接收模块接收一个或更多个工业处理单元的多个数据，其中，所述多个数据包括原材料的特性、中间产品的特性、副产品和最终产品的特性、处理参数、环境、市场需求、原材料的可用性和处理设备的状况。

在步骤404中，其中单元级融合模块合并所接收的多个数据，以获得一个或更多个工业处理单元中的每一个的单元式数据集，其中，每个处理单元的单元式数据集包括期望的采样频率。

在步骤406中，其中验证模块验证一个或更多个工业处理单元的合并的单元式数据集，其中，计算了处理单元的所有变量的不合理值、百分比可用性、标准差和四分位距的存在。

在步骤408中，其中数据预处理模块预处理经验证的多个数据，以获得一个或更多个工业处理单元中的每一个的预处理的数据集，其中，预处理是包括离群值去除、缺失值的插补和聚类的步骤的迭代过程。从数据预处理模块到用户的输出包括以下的列表：丢弃的变量、针对每个变量去除的离群值的数量和百分比、用于插补每个变量中的缺失值的技术、在预处理前后每个变量的平均值、中值和标准差、以及预处理前后所有变量的趋势图。

在步骤410，其中企业级融合模块将一个或更多个工业处理单元中的每一个的预处理数据与一个或更多个基于物理的模型的模拟变量的一个或更多个值和来自用户的一个或更多个域输入进行集成以获得企业级数据集，其中，在考虑到由于各单元中的停留时间、一个或更多个工业处理单元之间的运输时间以及处理单元的一个或更多个传感器的响应时间而导致的时间滞后的情况下，将单元式数据集合并并且同步。从企业级融合模块到用户的输出包括以下的列表：模拟参数、以及集成数据集中的所有变量的范围、平均值、中值和标准差。

在步骤412中，域识别模块使用对企业级数据集的一种或更多种聚类技术来识别一个或更多个操作域，其中，一种或更多种聚类技术包括基于距离的聚类、基于密度的聚类以及分层聚类。

在步骤414处，基线统计模块基于预定义的基线统计和一个或更多个操作域来确定对应于企业级数据集的kpi的一个或更多个变量的范围，其中，所确定的一个或更多个变量的范围用于在执行分析的时间段期间生成kpi的一个或更多个图。从基线统计模块到用户的输出包括kpi在期望和不期望范围内的时间段的百分比、对应于kpi的期望和不期望范围的变量的范围、在不同生产力水平下的kpi的范围、kpi与其他变量之间的相关系数、kpi与其他变量的趋势图和箱线图、kpi与感兴趣变量之间的散点图、以及kpi的平均值的热度图。

在步骤416，特征选择模块选择企业级数据集的一个或更多个特征，以获得企业级数据集的一个或更多个选定特征的超集，其中，对所有域式数据集以及企业级数据集执行了特征选择。从特征选择模块到用户的输出包括特征的超集以及它们对于域式数据集和集成数据集的重要性得分以及特征的平行坐标图。

在步骤418，模型构建模块为每个kpi开发一个或更多个预测模型，其中，一个或更多个预测模型使用企业级数据集以及企业级数据集的一个或更多个选定特征的超集。从模型构建和辨别模块到用户的输出包括:所有预测模型的性能指标、基于rmse和mae开发的前三的预测模型、前三个模型的健壮性得分、健壮模型中所有变量的敏感性得分。除此之外，从模型构建和辨别模块到用户的输出还包括kpi的实际值和预测值的趋势图、kpi的实际值与预测值的散点图以及健壮模型中绝对误差与所有变量的残差图。

在最后的步骤420，优化模块使用一种或更多种优化技术基于关于一个或更多个kpi的一个或更多个预测模型和约束来优化至少一个kpi，其中，一种或更多种优化技术包括梯度搜索、线性规划、模拟退火和演化算法。从优化模块到用户的输出包括产生最优kpi(帕累托最优操作点)的变量的值、kpi的最优值以及帕累托最优操作点的图。

所写说明书描述了本文的主题，以使任何本领域技术人员能够制造和使用这些实施方式。主题实施方式的范围由权利要求书限定，并且可以包括本领域技术人员想到的其他修改。如果这些其他修改具有与权利要求书的字面语言并没有不同的相似元素，或者如果它们包括与权利要求书的字面语言无实质区别的等效元素，则这些其他修改意图在权利要求书的范围内。

一种用于执行处理和制造工厂的性能指标的基于数据的优化的系统和方法。该系统包括用于收集和合并来自工业处理单元的数据、对数据进行预处理以去除离群值和缺失的模块。此外，系统根据数据生成定制输出并识别影响给定处理性能指标的重要变量。该系统还为包括重要特征的关键性能指标构建预测模型，并确定用于在用户干预最少的情况下优化关键性能指标的操作点。尤其是，该系统接收来自用户的、关于待优化的关键性能指标的输入，并且向用户通知来自分析中的各种步骤的输出，这些输出有助于用户有效地管理该分析并且采取合适的操作决策。

本文中的本公开内容的实施方式解决性能指标优化的未解决的问题，以除对从具有不同的格式和记录频率的各种源接收到的工业数据的预处理之外还监测制造工业和处理工厂的性能。

然而可以理解的是，保护范围延伸至这样的程序，并且还有其中具有消息的计算机可读装置；当程序在服务器或移动设备或任何合适的可编程设备上运行时，这种计算机可读存储装置包含用于实现该方法的一个或更多个步骤的程序代码装置。该硬件设备可以是可以被编程的任何种类的设备，包括例如诸如服务器或个人计算机等或其任何组合的任何类型的计算机。该设备还可以包括下述装置，所述装置可以是例如硬件装置(例如像专用集成电路(asic)、现场可编程门阵列(fpga))或硬件装置和软件装置的组合(例如asic和fpga)或者其中有软件模块的至少一个存储器和至少一个微处理器。因此，该装置可以包括硬件装置和软件装置。本文中描述的方法实施方式可以用硬件和软件来实现。该设备还可以包括软件装置。替选地，可以在不同的硬件设备上例如使用多个中央处理单元(cpu)实现这些实施方式。

本文中的这些实施方式可以包括硬件和软件元素。以软件实现的实施方式包括但不限于固件、常驻软件、微代码等。由本文描述的各种模块执行的功能可以在其他模块或其他模块的组合中实现。为了该描述的目的，计算机可用或计算机可读介质可以是能够包括、存储、传送、传播或输送供指令执行系统、装置或设备使用或与其结合使用的程序的任何装置。

介质可以是电、磁、光、电磁、红外、或半导体系统(或装置或设备)或传播介质。计算机可读介质的示例包括半导体或固态存储器、磁带、可移除计算机磁盘、随机存取存储器(ram)、只读存储器(rom)、刚性磁盘和光盘。光盘的当前示例包括致密盘只读存储器(cd-rom)、致密盘读/写(cd-r/w)和数字视频光盘(dvd)。

适合于存储和/或执行程序代码的数据处理系统将包括通过系统总线直接或间接耦接到存储器元件的至少一个处理器。存储器元件可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储装置以及提供至少一些程序代码的临时存储的高速缓存存储器，以便减少在执行期间必须从大容量存储装置检索代码的次数。

输入/输出(i/o)设备(包括但不限于键盘、显示器、定点设备等)可以被直接或通过中间i/o控制器耦接到系统。网络适配器也可以耦接到系统，以使数据处理系统能够通过中间私人或公共网络耦接到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是当前可用类型的网络适配器中的几个。

用于实践本实施方式的代表型硬件环境可以包括根据本文中的实施方式的信息处理/计算机系统的硬件配置。本文中的系统包括至少一个处理器或中央处理单元(cpu)。cpu通过系统总线与各种设备(如随机存取存储器(ram)、只读存储器(rom)和输入/输出(i/o)适配器)互连。i/o适配器可以连接到诸如磁盘单元和磁带驱动器的外围设备或者系统可读的其他程序存储设备。系统可以读取程序存储设备上的发明性指令并遵循这些指令来执行本文中的实施方式的方法。

该系统还包括将键盘、鼠标、扬声器、麦克风、和/或诸如触摸屏设备(未示出)的其他用户接口设备连接到总线以收集用户输入的用户接口适配器。另外，通信适配器将总线连接到数据处理网络，并且显示适配器将总线连接到显示设备，该显示设备例如可以被实现为诸如监视器、打印机或发送器的输出设备。

参照各种实施方式呈现了前面的描述。本申请所属领域和技术的普通技术人员将理解，可以在并不有意地脱离原理、精神和范围的情况下实践所描述的结构和操作方法的变更和改变。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：文卡塔拉曼纳·伦卡纳;罗汉·潘德亚;拉扬·库马尔;阿尼鲁达·潘达;马赫什·梅纳姆;斯里·哈沙·尼斯塔拉;普拉迪普·拉托尔;贾亚斯里·比斯瓦斯
技术所有人：塔塔顾问服务有限公司
我是此专利的发明人

上一篇：一种水稻-油菜轮作高效施肥方法与流程
上一篇：一种围墙切割平移装置的使用方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。