用于处理在连续工艺中获得的数据的智能工厂平台的制作方法

文档序号:13934931阅读:129来源:国知局
用于处理在连续工艺中获得的数据的智能工厂平台的制作方法

相关申请的交叉引用

本申请要求于2017年9月1日提交的申请号为10-2016-0112865的韩国申请、于2017年9月2日提交的申请号为10-2016-0113151的韩国申请、于2017年9月2日提交的申请号为10-2016-0113506的韩国申请以及于2017年9月2日提交的申请号为10-2016-0113516的韩国申请的优先权,这些申请的全部内容通过引用并入本文。

本公开涉及工厂数据处理,更具体地,涉及对在连续工艺中获得的数据的处理。



背景技术:

用于利用原材料生产成品的多个工序连续执行,且各工序的输出产物彼此结合并提供给后续工序,或者改变特定工序的输出产物的状态并将状态改变的产物提供给后续工序。以这种方式,将工序彼此关联的生产方法称为连续工艺生产方法。使用连续工艺生产方法的代表性行业的例子包括钢铁工业、能源工业、造纸工业、炼油工业等。

在使用连续工艺生产方法的行业中,与使用单一工艺生产方法的工业不同,由于原材料或中间产品高速移动,所以数据获取时间段短且数据量大。此外,由于产品是在包括很多噪音、灰尘、水等的工厂环境中生产的,所以经常发生测量错误,并且取决于作业方法,中间商品彼此组合或者材料的位置发生移动。

因此,使用连续工艺生产方法的行业需要实时处理大量数据并通过数据间的关联来处理在相应工序中生成的数据的系统。

然而,在公开号为10-2015-0033847的韩国专利公布(发明名称:基于实时工厂情况的数字工厂生产能力管理系统,于2015年4月2日公布)中公开的传统工厂数据处理系统(例如,钢材数据处理系统)处理和分析在单一工艺中生成的数据,因此,无法实时处理在连续工艺中生成的大量数据,也不能分析在各个工序中生成的数据之间的相关性。



技术实现要素:

因此,本公开旨在提供一种智能工厂平台,其基本上消除了由于相关技术的限制和缺点而引起的一个或多个问题。

本公开的一个方面旨在提供一种用于处理在连续工艺中获得的数据的智能工厂平台。

本公开的另一方面涉及提供一种控制用于处理在连续工艺中获得的数据的处理单元的负载的方法。

本公开的另一方面涉及提供一种基于分布式文件系统来存储在连续工艺中获得的数据的方法。

本公开的另一方面涉及提供一种将在连续工艺中获得的数据分类为负载数据和空载数据以对数据进行处理的方法。

本公开的另一方面涉及提供一种按照预定数据量单位将在连续工艺中获得的数据进行划分和存储的方法。

本公开的另一方面涉及提供一种并行执行将在连续工艺中获得的数据处理成文件的操作的方法。

本公开的另一方面涉及提供一种基于存储从连续工艺中获得的数据的队列服务器是否正常运行而接收和存储所获得的数据的方法。

本公开的另外的优点和特征将在某种程度上通过下面的描述来阐述,并且在某种程度上对于本领域普通技术人员来说通过查阅以下内容时容易明白,或可以由本领域普通技术人员从本公开的实施中获悉。通过在书面说明书和权利要求书以及附图中特别指出的结构可以实现和获得本公开的目的和其它优点。

为了实现这些和其它优点并且根据本公开的目的,如本文所实施和广泛说明的那样,提供了一种用于处理在连续工艺中获得的数据的智能工厂平台,所述连续工艺包括第一工序和第一工序之后的第二工序。所述智能工厂平台包括:分布式并行处理系统,包括至少一个处理单元,所述至少一个处理单元通过将工序标识(id)映射到从连续工艺收集的收集数据而生成映射数据,并对所述映射数据进行分类以生成分类数据,工序id限定了产生收集数据的工序,并且分类数据被生成用于从不同工序收集的收集数据之间的关联处理;和大数据分析系统,用于关于工序id而存储所述分类数据。

应当理解,对本公开的上述一般描述和以下详细描述都是示例性和说明性的,旨在对所要求保护的公开提供进一步解释。

附图说明

附图被包括用于提供对本公开的进一步理解并被并入且构成本申请的一部分,附图示出了本公开的实施方式,并且与说明书一起用于解释本公开的原理。在附图中:

图1图示出根据本公开的实施方式的智能工厂架构;

图2是示出根据本公开的实施方式的中间件系统的配置的框图;

图3图示出包括多个处理单元和多个队列存储器的中间件系统的配置;

图4是详细图示出根据本公开的实施方式的分布式并行处理系统的配置;

图5图示出包括多个处理单元和多个存储器的分布式并行处理系统;

图6是示例性地示出应用于数据映射和分类作业的分布式并行处理方法的概念图;

图7图示出三重存储器的结构。

图8详细图示出根据本公开的实施方式的大数据分析系统的配置。

图9是详细图示出根据本公开的另一实施方式的大数据分析系统的配置;和

图10图示出负载数据和空载数据的示例。

具体实施方式

现在将详细参考本公开的示例性实施方式,其示例在附图中示出。在整个附图中将尽可能地使用相同的附图标记来指代相同或相似的部件。

在下文中,将参照附图详细描述本公开的实施方式。

说明书中描述的术语应当理解如下。如本文所使用的那样,未指明个数时也旨在包括复数形式,除非上下文另有明确指示。术语“第一”和“第二”用于将一个元件与另一个元件区分,这些元件不应受这些术语的限制。

还应当理解,当在本文中使用时,术语“包括”和“具有”是指出存在所述特征、整体、步骤、操作、元件和/或部件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、部件和/或其组合。

术语“至少一个”应被理解为包括相关列出项当中的一个或多个的任何组合和所有组合。例如,“第一项、第二项和第三项中的至少一个”的含义表示从第一项、第二项和第三项中的两个以上提出的所有项的组合,以及第一项、第二项或第三项。

图1图示出根据本公开的实施方式的智能工厂架构。

如图1所示,根据本公开的实施方式的智能工厂架构可以包括数据收集系统1、网络系统2和智能工厂平台1000。

数据收集系统1收集在连续工艺中生成的数据。连续工艺可以表示如下工艺:其中连续执行用于利用原材料生产成品的多个工序,并将各个工序的输出产物彼此组合并提供给后续工序,或改变特定工序的输出产物的状态并将状态改变的产物提供给后续工序。连续工艺的代表性实例可以包括钢材工艺。在下文中,为了便于说明,将连续处理设定为钢材工艺进行说明。

钢材工艺可以包括各种工序,例如炼铁工序、炼钢工序、连续铸造工序和轧制工序。数据采集系统1可以收集在进行各种工序例如炼铁工序、炼钢工序、连续铸造工序和轧制工序的操作中产生的微数据。这里,微数据可以是从各传感器获得的数据本身,并且可以表示原始数据。在下文中,为了便于说明,可以将在连续工艺中得到的微数据称为收集数据。

数据收集系统1可以包括用于收集在连续工艺中产生的数据的多个测量仪器、传感器和致动器。数据采集系统1还可以包括可编程控制器(p/c)、可编程逻辑控制器(plc)和分布式控制系统(dcs),其集成或控制从测量仪器、传感器和致动器获得的数据。

网络系统2将收集数据传送给智能工厂平台1000。网络系统2可以包括网络线缆、网关、路由器、接入点(ap)等。

智能工厂平台1000通过网络系统2接收收集数据。智能工厂平台1000可以处理收集数据,基于所处理的收集数据来确定设备、材料等是否正常,并针对所存储的数据提供搜索和分析服务。

在实施方式中,如图1所示,根据本公开的智能工厂平台1000可以包括中间件系统100、分布式并行处理系统200和大数据分析系统300。

中间件系统100可以对收集数据进行预处理。中间件系统100可以与级别0到级别2的设备连接。

为了提供更详细的描述,参考图2,中间件系统100可以包括接口单元110和队列服务器120。此外,中间件系统100还可以包括中间件管理器130和队列管理器140。

接口单元110可以对收集数据进行预处理,用于对这些收集数据进行关联处理。接口单元110可以将收集数据标准化以对收集数据进行预处理。为此,接口单元110可以包括解析单元112、标准化单元113、过滤单元114和传输单元115中的至少一个。

解析单元112可以对收集数据进行解析以生成解析数据。收集数据具有的结构中可以具有重复的包括多个项目id的组标识(id)、收集时间和多个测量值。在这种情况下,每个项目id用于识别测量属性,并且可以是表示已经测量了设备、材料和产品的属性中的哪个属性的值,并且例如可以是温度或湿度。组id可以是将一些项目按照位置或按照特定工艺中的工序进行分组的代表值。组id可以包括收集时间。

当以具有重复的组id、收集时间和多个测量值的结构(不单独分类)接收收集数据时,解析单元112可以基于预定布局解析收集数据,以对收集数据进行关联处理。

解析单元112可以通过组id解析收集数据,并且可以将多个测量值与组id中包括的多个项目id匹配,以生成具有包括单个项目id、收集时间和单个测量值的结构的解析数据。

解析单元112可以基于收集数据全文的消息布局来解析收集数据。

标准化单元113可以将解析数据标准化以生成标准化数据。标准化单元113可以根据每个解析数据的预定标准转换准则将在每个解析数据中包括的项目id转换成标准项目id,并且可以将每个解析数据中包括的测量值的单位和数字进行整合,从而将解析数据标准化。在这种情况下,预定标准转换准则可以包括由各个传感器的项目id设置的标准项目id,以及每个标准项目id的基准单位和数字。

标准化单元113可以将每个解析数据中包括的项目id转换成标准化项目id,从而使具有相同测量属性的数据具有相同的项目id。

标准化单元113可以对解析数据进行预处理,从而使解析数据当中具有相同测量属性的一些数据具有相同的标准项目id,从而使得能够基于标准项目id对在连续工艺中获得的数据进行关联处理。

过滤单元114可以根据预定过滤标准从标准化数据当中选择要存储在队列服务器120中的标准化数据。例如,可以基于标准化数据的种类来预先设置等级,并且过滤单元114可以基于等级来选择要存储在队列服务器120中的标准化数据。在实施方式中,可以基于关于标准化数据的标准项目id的重要性来确定等级。过滤单元114可以将所选择的标准化数据发送给传输单元115。

传输单元115可以将从过滤单元114提供的标准化数据存储在队列服务器120中。传输单元115可以按照组id或标准项目id将标准化数据存储在队列服务器120的队列存储器121中。

传输单元115可以基于多个队列存储器121的负载来将标准化数据存储在负载小的队列存储器121中。在另一实施方式中,如果在多个队列服务器120当中预先设置待由工厂或工序将标准化数据存储于其中的队列服务器120,则传输单元115可以将标准化数据存储在预先针对相应的标准化数据而设置的队列服务器120中。

传输单元115可以基于接口单元110的操作模式来确定是否存储标准化数据。具体地,当接口单元110的操作模式是正常模式时,传输单元115可以周期性地将标准化数据存储在队列服务器120中,而当接口单元110的操作模式为待机模式时,传输单元115可以停止存储标准化数据。在这种情况下,可以基于在所述多个队列服务器120当中正常运行的队列服务器的数量来确定接口单元110的操作模式。

接口单元110还可以包括数据合并单元116。数据合并单元116可以合并收集数据以将合并的收集数据传送给解析单元112,从而增强数据处理性能。在一个实施方式中,数据合并单元116可以合并以特定时间间隔(例如,0.1秒、1分钟等)接收的收集数据。

根据连续工艺的特性,可以以非常短的周期(例如,5ms至20ms)将收集数据传送给解析单元112。因此,数据合并单元116可以立即将需要监控的收集数据(其未被合并)传送给解析单元112,并且可以以特定的时间间隔合并其它采集数据,以将合并的收集数据传送给解析单元112。

在这种情况下,可以基于收集数据的重要性来设置收集数据是否需要监控。例如,当出现错误时,可以将从需要立即采取行动的设备或材料获得的收集数据设置为需要监控的收集数据。

在一个实施方式中,中间件系统100还可以包括中间件管理器130和队列管理器140,用于管理接口单元110的操作模式。

在中间件管理器130中,操作检查单元131可以确定队列服务器120的操作是否是正常操作,并且模式管理单元132可以确定接口单元110的操作模式。

因此,接口单元110的有效性增加,并且当队列服务器120发生错误时,可以进行主动动作以防止接口单元110的二次错误。

操作检查单元131可以确定所述多个队列服务器120是否正常运行。在一个实施方式中,操作检查单元131可以基于对测试信号的响应来确定所述多个队列服务器120是否正常运行。当没有提供对测试信号的响应或者没有从相应的队列服务器120接收到预定响应时,操作检查单元131可以确定相应的队列服务器120没有正常运行。

模式管理单元132可以基于所述多个队列服务器120中的每一个的操作状态来确定接口单元110的操作模式。模式管理单元132可以将接口单元110的操作模式传送给接口单元110。

在一个实施方式中,模式管理单元132可以基于所述多个队列服务器120当中的正常运行的队列服务器120的数量来确定接口单元110的操作模式。具体地,模式管理单元132可以将从数据收集系统1接收的收集数据的数量和正常运行的队列服务器120的数量进行比较,并且当接收的收集数据的数量不超过正常运行的队列服务器120的数量时,模式管理单元132可以确定接口单元110的操作模式为正常模式。在这种情况下,收集数据的量可以表示实时接收的收集数据的量和周期性接收的收集数据的量的平均值。

例如,模式管理单元132可以如下表1所示来确定接口单元110的操作模式。

[表1]

当模式管理单元132确定接口单元110的操作模式为正常模式时,接口单元110可将标准化数据存储在所述多个队列服务器120中的预定队列服务器120中。当模式管理单元132确定接口单元110的操作模式为警告模式时,接口单元110可以将标准化数据存储在除操作异常的队列服务器120之外的队列服务器120中。当模式管理单元132确定接口单元110的操作模式为待机模式时,接口单元110可以停止接收收集数据并停止存储标准化数据。

在这种情况下,警告模式可以表示所述多个队列服务器120中的一些队列服务器120未正常运行的操作模式,但是接口单元110能够实时地将标准化数据存储在其它队列服务器120中。当所述多个队列服务器120中的两个以上正常运行时,模式管理单元132可以将操作模式确定为警告模式。可以设置队列管理单元140以与所述多个队列服务器120中的每一个对应。

队列管理单元140可以管理与所述多个队列服务器120中的每一个相对应的元数据,并且可以检查所述多个队列服务器120是否正常运行。为此,队列管理单元140可以包括元数据管理单元141。

元数据管理单元141可以管理与相应的队列服务器120的队列存储器121对应的元数据。例如,元数据管理单元141可以管理诸如配置信息(例如基本规范信息、访问信息、主题和分区)等的元数据,并且可以基于元数据将关于主题和要在其中存储数据的分区的信息提供给接口单元110。

当所述多个队列服务器120中的一些未正常运行时,接口单元110可以利用队列服务器120的元数据来快速检测可进行数据存储的队列服务器120的位置,以存储解析数据。

在对标准化数据进行实时处理之前,队列服务器120可临时存储标准化数据。为此,队列服务器120可以包括至少一个队列存储器121。

队列存储器121可以是用于将标准化数据存储一定时间的存储器,并且可以基于磁盘而不是内存来存储数据,以防止数据丢失。存储数据的队列存储器121的空间可以根据主题划分,并且队列存储器121可以将同一主题中的分区划分成多个分区,从而允许对数据进行并行处理。

可以设置多个队列服务器120,并且可以使所述多个队列服务器120成簇。在这种情况下,如果传输单元115将标准化数据存储在所述多个队列服务器120之一中,则在其它队列服务器120中可以存储相同的标准化数据。

在一个实施方式中,可以针对分布式并行处理系统200从队列服务器120获取的每个数据组而为存储在队列服务器120中的标准化数据分配唯一的组id。因此,可以通过唯一的组id来管理数据获取地址,因此,可以以顺序读写数据的队列形式来存储和提供数据。

在这种情况下,可以根据数据收集系统1的规模和工厂的物理位置,通过添加接口单元110来更多地实现多个接口单元110,并且为了高可用性(ha),可以以双重结构来实现每个接口单元110。

此外,当完成收集数据的标准化时,接口单元110可以从所述多个队列服务器120当中选择一个队列服务器120,并且可以将标准化数据存储在所选择的队列服务器120中。在这种情况下,可以从多个规则当中选择用于选择要存储标准化数据的队列服务器120的准则,例如,可以选择负载最小的队列服务器120,可以顺序地选择队列服务器120,或者可以针对从其获取收集数据的每个传感器而预先选择并存储用于存储标准化数据的队列服务器120。

此外,每个接口单元110可以包括中间件管理器130。多个中间件管理器130中的每一个可以确定所述多个队列存储器120是否正常运行,并且可以确定相应的接口单元110的操作模式。

分布式并行处理系统200可以对从中间件系统100传送的标准化数据进行处理。在一个实施方式中,分布式并行处理系统200可以生成映射数据(其中将标准化数据映射到工序id),并且可以在每个工序中对映射数据进行分类,用于对在每个工序中收集的收集数据进行关联处理。

为了详细描述,参考图4,分布式并行处理系统200可以包括处理单元210和存储器220。

处理单元210可以将工序id映射到标准化数据以生成映射数据,并且可以对映射数据进行分类,从而使得能够对诸如制造-设备-质量的区域间数据进行关联分析。此外,处理单元210可以预测在收集周期中间或由于没有传感器而没有获得数据的情况下遗漏的遗漏数据。

为此,处理单元210可以包括获取执行单元211、工序映射执行单元213、数据校正执行单元215和数据分类执行单元216中的至少一个。此外,处理单元210还可以包括设备错误感测执行单元217和质量错误感测执行单元218。

在一个实施方式中,图4所示的多个执行单元211至218可以分别以分布于处理单元210并实现它们的功能的应用来实现。这些应用可以在处理单元210中生成工作空间,并且可以生成多个线程,从而执行针对执行单元211至218中的每个所分配的相应功能。

获取执行单元211可以从中间件系统100的队列存储器121读取标准化数据,并且可以将标准化数据存储在存储器220中。获取执行单元211可以记住先前用于搜索所述多个队列存储器121的数据而获得的位置信息,因而可以读取与先前读取的数据挨着的数据。

在这种情况下,当接口单元110按照组id或标准项目id将标准化数据存储在队列存储器121中以用于对在连续工艺中获得的收集数据进行关联处理时,获取执行单元211可以通过组id或标准项目id读取存储在队列存储器121中的标准化数据。

工序映射执行单元213可以将由获取执行单元211读取的标准化数据映射到工序id从而生成映射数据,工序id用于识别从中获得标准化数据的工序。

在一个实施方式中,工序映射执行单元213可以将执行每个工序的设备的设备id映射到标准化数据以生成第一映射数据,或者可以将由该设备处理的材料的材料id映射到标准化数据或第一映射数据以生成第二映射数据。为此,映射执行单元213可以包括设备映射执行单元213a和材料映射执行单元213b。

设备映射执行单元213a可以将从其获得标准化数据的设备的设备id映射到标准化数据,以生成第一映射数据。设备映射执行单元213a可以基于收集标准化数据时的收集时间或关于从其获得标准化数据的传感器的属性信息,获得要映射到标准化数据的设备id。在一个实施方式中,设备id可以是为每个设备分配的设备编号。

材料映射执行单元213b可以将由从其获得相应的标准化数据的设备处理的材料的材料id映射到从存储器220读取的相应标准化数据或由设备映射执行单元213a生成的第一映射数据以生成第二映射数据。材料映射执行单元213b可以基于用于指示在每个工序中执行的作业的作业指示信息来获得通过从其获得相应标准化数据的设备所生成的材料的材料id,并且可以将所获得的材料id映射到第一映射数据。

在一个实施方式中,材料id可以是为每种材料分配的材料编号。

标准化数据可以包括在材料的经处理状态下收集的负载数据和在材料的未处理状态下收集的空载数据。材料映射执行单元213b可以将映射到设备id的负载数据立即存储在分类数据存储器222中。在这种情况下,负载数据和空载数据可以分开存储在分类数据存储器222中。

数据校正执行单元215可以添加从映射数据中遗漏的数据来校正映射数据。数据校正执行单元215可以利用与最靠近应当从中收集遗漏数据的区域的位置对应的映射数据以及与最接近遗漏发生时间的收集时间对应的映射数据来校正遗漏的数据。

在一个实施方式中,数据校正执行单元215可以将映射数据中包括的收集时间与预定收集周期匹配,从而校正映射数据。例如,当以20ms的收集周期存储连续工艺数据时,数据校正执行单元215可以将收集时间为15:01:11:0005ms的映射数据的收集时间校正为15:01:11:000ms,且可以将收集时间为15:01:11:0050ms的映射数据的收集时间校正为15:01:11:0040ms。

数据分类执行单元216可以对映射数据或校正的映射数据进行分类,从而对相应工序的数据进行关联处理。

数据分类执行单元216可以按照材料单元将按时间顺序映射到相同材料id的映射数据进行分类,以生成第一分类数据,以用于对在连续工艺中获得的收集数据进行关联处理。

数据分类执行单元216可以关于在对应于相同材料id的材料中的、从中收集相应数据的收集位置而对第一分类数据进行分类,以生成第二分类数据。

在这种情况下,可以基于材料的长度、材料的移动速度和收集数据的收集周期中的至少一个来确定收集位置。例如,数据分类执行单元216可以基于通过将收集周期与材料的移动速度相乘而获得的值以及材料的总长度来确定每个周期中在材料中的、从中收集收集数据的收集位置。因此,数据分类执行单元216可以将第一分类数据分类为在材料中沿一个方向在特定位置测量的数据。

数据分类执行单元216可以基于在每个材料中以预定间隔设置的基准点之间的举例以及第二分类数据的收集位置来计算每个基准点处的测量值,并且可以基于所计算的测量值在每个基准点处生成基准数据,用于对以不同周期从第一工序和第二工序收集的收集数据进行关联处理。

数据分类执行单元216可以沿一个方向对基准点处的基准数据和第二分类数据顺序地进行分类。在一个实施方式中,所述一个方向可以是材料的长度方向、材料的宽度方向和材料的厚度方向中的至少一个。

在下文中,将详细描述数据分类执行单元216在材料中沿长度方向对基准数据进行分类的示例。

可以沿已在第一工序中处理的第一材料的长度方向以一定间隔布置多个第一基准点,并且可以沿已在第二工序中处理的第二材料的长度方向以一定间隔布置多个第二基准点。在这种情况下,与第一材料对应的第一材料id可以被映射到第一基准点处的第一基准数据,并且与第二材料对应的第二材料id可以被映射到在第二基准点处的第二基准数据。因此,基于第一材料id和第二材料id,第一基准数据和第二基准数据可以在针对每种材料而映射到材料id的材料系谱图(未示出)中彼此关联。

也就是说,多个材料id可以在材料系谱图中作为系谱类型关联,因此通过参考材料系谱图,基于分配给通过依次经历第一工序和第二工序而生成的材料的材料id,各个工序的映射数据可以彼此关联。

数据分类执行单元216可以将沿如上所述的材料的长度方向存储的第二分类数据和基准数据存储在存储器220中。

如上所述,处理单元210可以将诸如设备id或材料id等的工序id映射到标准化数据,并且可以对映射数据进行分类,从而使得能够对在连续工艺中获得的收集数据进行关联处理。

设备错误感测执行单元217可以从设备映射执行单元213a接收第一映射数据,并且可以基于预定的设备错误确定标准来确定设备是否正常。当确定结果确定在特定设备中出现了错误时,设备错误感测执行单元217可以将确定结果存储在存储器220中。

质量错误检测执行单元218可以基于根据由数据分类执行单元216分类的第二分类数据而预先确定的质量错误确定标准来确定质量是否正常。当确定结果确定在特定材料的质量中出现了错误时,质量错误检测执行单元218可以将确定结果存储在存储器220中。

在一个实施方式中,质量错误感测执行单元218可以通过诸如平均值预测和第二分类数据错误等的操作来生成要被用作质量错误确定方程式的基准的宏数据,并且可以将第二分类数据置换为质量错误确定方程式从而根据置换结果来确定是否发生质量错误。

在上述实施方式中,上面已经描述了分布式并行处理系统200可以通过使用一个处理单元210和一个存储器220来对标准化数据进行映射和分类。然而,在修改的实施方式中,分布式并行处理系统200可以通过使用多个处理单元210a至210c和多个存储器220来对标准化数据进行映射和分类,如图5所示。

在下文中,将参照图4和图5描述根据修改的实施方式的分布式并行处理系统。

图5图示出包括多个处理单元和多个存储器的分布式并行处理系统200。分布式并行处理系统200可以包括多个处理单元210a至210c、多个存储器220a至220c以及执行单元管理器230。

用于对标准化数据进行映射和分类的多个执行单元211至218中的一个或多个可以被分配给多个处理单元210a至210c。所述多个处理单元210a至210c可以对获取执行单元211、设备映射执行单元213a、材料映射执行单元213b、数据校正执行单元215、数据分类执行单元216、设备错误感测执行单元217和质量错误感测执行单元218中的至少一个进行分配和并行处理以执行并行处理,并且可以将最终结果数据存储在存储器220中,从而实时处理从中间件系统100传送的标准化数据。

在一个实施方式中,多个处理单元210a至210c可以被配置为簇集结构。如上所述,所述多个处理单元210a至210c可以具有簇集结构,因此,当在特定处理单元中发生错误时,正在具有错误的特定处理单元中执行的执行单元211至218可以移动到另一个处理单元,从而确保可用性。

所述多个存储器220可以存储由所述多个处理单元210a至210c处理的数据。在一个实施方式中,为了提高处理性能并确保出现错误时的可用性,所述多个存储器220可以具有类似于上述队列存储器120的簇集结构。

可以以双重结构设置所述多个存储器220以实现高可用性(ha)。也就是说,所述多个存储器220中的每一个可以包括主实例m和从实例s。在这种情况下,在第一存储器220a中包括的主实例m和在第二存储器220b中包括的从实例s可以成对运行,并且在第二存储器220b中包括的主实例m和在第一存储器220a中包括的从实例s可以成对运行。

可以将存储在从实例s中的分类数据备份为脚本形式的文件,用于在发生错误时恢复分类数据。在这种情况下,脚本形式文件可以表示将与数据写入或读取关联的命令与数据一起存储的文件。

可以将每个存储器220的主实例m和从实例s配置为单线程形式,并且对于每次写入和读取,实例和端口可以彼此分离。

在下文中,将参照图6作为示例描述对将标准化数据进行映射和分类的操作执行分布式并行处理的方法。

如图6所示,由于获取执行单元211被分配给第一处理单元210a,所以通过执行获取执行单元211,第一处理单元210a可以允许获取执行单元211访问队列存储器121、获取标准化数据和将所获取的数据存储在第一存储器220a的主实例m中。在这种情况下,也可以将数据复制并存储到第二存储器220b的从实例s中。由于设备映射执行单元213a和材料映射执行单元213b被分配给第二处理单元210b,所以通过执行设备映射执行单元213a,第二处理单元210b可以将设备id映射到从第二存储器220b的从实例s或第一存储器220a的从实例s读取的标准化数据,并且通过执行材料映射执行单元213b,第二处理单元210b可将材料id映射到标准化数据或设备id所映射的第一映射数据。

由于数据校正执行单元215和数据分类执行单元216被分配给第三处理单元210c,所以第三处理单元210c可以执行数据校正执行单元215以校正从映射数据当中遗漏的映射数据,并且可以执行数据分类执行单元216以按照材料单元对映射数据或校正的映射数据进行分类,并将分类的映射数据存储在第二存储器220b的主实例m中。在这种情况下,也可以将数据存储在第一存储器220a的从实例s中。

在上述实施方式中,已经描述了:由于所述多个存储器220被配置为双重结构,所以在第一存储器220a中包括的主实例m和在第二存储器220b中包括的从实例s成对运行,且在第二存储器220b中包括的主实例m和在第一存储器220a中包括的从实例s成对运行。

然而,在这种实施方式中,主实例m和从实例s可以各自被实现为单线程,因此当第一存储器220a的主实例m出现故障时,在第一存储器220的主实例m正常化之前,第二存储器220b的从实例s在故障时间内不能服务于所有写入操作和读取操作。

因此,在修改的实施方式中,如图7所示,存储器220可以实现为三重结构。具体地,根据修改的实施方式的每个存储器220可以包括主实例m、第一从实例s1和第二从实例s2。

在第一存储器220a中包括的主实例m与第二存储器220b和第三存储器220c中的每一个的第一从实例s1可以成对运行。因此,当数据被写入第一存储器220a中包括的主实例m中时,数据也可以被复制并存储到第二存储器220b和第三存储器220c中各自的第一从实例s1中。

此外,第二存储器220b中包括的主实例m可以与第三存储器220c中包括的第一从实例s1及第一存储器220a中包括的第二从实例s2成对运行。因此,当数据被写入第二存储器220b中包括的主实例m中时,数据也可以被存储在第一存储器220a中包括的第一从实例s1中和第三存储器220c中包括的第二从实例s2中。

此外,第三存储器220c中包括的主实例m和分别在第一存储器220a及第二存储器220b中包括的第二从实例s2可以成对运行。因此,当数据被写入第三存储器220c中包括的主实例m中时,数据也可以被复制并存储在分别在第一存储器220a和第二存储器220b中包括的第二从实例s2中。

执行单元管理器230可以将多个执行单元211至218分配给多个处理单元210a至210c。此外,执行单元管理器230可以根据分配给第一处理单元至第三处理单元210a至210c的执行单元211至218的执行、基于第一处理单元至第三处理单元210a至210c中的每一个的负载量,将所述多个执行单元211至218重新分配给所述多个处理单元210a至210c。

执行单元管理器230可以包括执行单元存储器232、分配顺序确定器234和分配器236。

用于执行对标准化数据进行映射和分类操作的所述多个执行单元211至218可以存储在执行单元存储器232中。

分配顺序确定器234可以在分配器236将所述多个执行单元211至218分配给处理单元210a至210c中的每个之后确定关于处理单元210a至210c的资源使用信息,并且可以确定重新分配所述多个执行单元211至218的分配顺序,从而使得能够控制处理单元210a至210c的负载量。在一个实施方式中,分配顺序确定器234可以确定将所述多个执行单元211至218重新分配的分配顺序,从而能够使得处理单元210a至210c的负载量相等。这里,分配顺序的确定可以表示:确定供执行单元211至218中的每一个重新分配的处理单元210a至210c。

在另一个实施方式中,分配顺序确定器234可以基于以初始分配的执行单元的执行为根据的系统资源的使用模式和系统资源的平均值当中的至少一个来确定分配所述多个执行单元211至218的分配顺序。在这样的实施方式中,系统资源可以包括处理单元210a至210c中的每一个的cpu使用率、内存使用量、网络通信量和磁盘输入/输出吞吐量中的至少一个。

分配器236可以基于由分配顺序确定器234确定的分配顺序将所述多个执行单元211至218分配给所述多个处理单元210a至210b。

具体地,分配器236可以将存储在执行单元存储器232中的多个执行单元211至218任意地分配给处理单元210a至210c。随后,当预定空闲时段开始时,分配器236可以收集分配给处理单元210a至210c中的每一者的多个执行单元211至218,并且可以将所收集的执行单元211至218存储在执行单元存储器232中,而当空闲时段结束时,分配器236可以基于由分配顺序确定器234确定的分配顺序将多个执行单元211至218分配给处理单元210a至210c中的相应处理单元。

大数据分析系统300可以将由分布式并行处理系统200分类的分类数据存储在大数据存储空间中。此外,大数据分析系统300可以管理数据以防丢失,并且可以提供针对历史数据的搜索功能。在下文中,将参照图8详细描述根据本公开的实施方式的大数据分析系统300。

图8详细图示出根据本公开的实施方式的大数据分析系统300的配置。大数据分析系统300可以包括数据处理单元310、大数据存储器320和查询处理单元330。

数据处理单元310可以对分类数据和错误感测结果执行分布式并行处理,并且可以包括完成事件接收单元311、分类数据获取单元312、存储器队列313、文件创建单元314和错误感测数据接收单元315中的至少一个。

完成事件接收单元311可以监控分布式并行处理系统200的存储器220,并且当新存储完成事件时,完成事件接收单元311可以将完成事件传送给分类数据获取单元312。

当从完成事件接收单元311传送完成事件时,分类数据获取单元312可以搜索与存储器220中的完成事件对应的数据,并将所找到的分类数据存储在存储器队列313中。在一个实施方式中,通过使用在完成事件中包括的关键字信息,分类数据获取单元312可以检查与完成事件对应的存储器2110数据被存储在哪个分区和目录中,因此可以搜索在存储器220中存储的数据并将所找到的数据存储在存储器队列313中。

在将读取的数据存储在大数据存储器320中之前,存储器队列313可以将由分类数据获取单元312读取的数据临时存储在存储器中。文件创建单元314可以创建包括存储在存储器队列313中的数据的物理文件,并且可以将文件存储在大数据存储器320中。

错误感测数据接收单元315可以监控分布式并行处理系统200的存储器220,并且当存储新的错误感测结果时,错误感测数据接收单元315可以将新的错误感测结果存储在存储器队列313中。

大数据存储器320可以存储由文件创建单元314创建的文件。大数据存储器320可以基于分布式文件系统来实现。

大数据存储器320可以配置有主节点320a和数据节点320b。主节点320a可以将由大数据分析系统300创建的大量文件存储在多个数据节点320b中、创建和管理用于搜索数据节点320b中所存储的数据的作业并管理元数据。

这里,所述作业可以表示用于处理从查询处理单元300接收的查询从而搜索数据节点320b中所存储的数据的单元。

元数据可以包括存储在数据节点320b中的文件的位置和文件名、存储文件的块id和服务器的存储位置。例如,当文件创建单元314创建文件时,文件的位置和文件名可以存储在元数据中,并且在相应的文件大于块大小因而被分成存储在三个不同的服务器中的五个块的情况下,还可以将15个块id和每个服务器的存储位置存储在元数据中。

在执行搜索存储在数据节点320b中的数据的作业时,当对每个作业执行分配并且装载特定文件的数据时,元数据可以用作关于数据的位置信息。

由大数据分析系统300创建的大量文件可以存储在数据节点320b中。数据节点320b可以设置有多个,并且多个数据节点320b中的每个可以包括历史数据存储器322和模型存储器324。

在每个数据节点320b中包括的历史数据存储器322除了由文件创建单元314创建的文件之外,还可以实时地存储由数据收集系统1收集的大量收集数据。在一个实施方式中,可以将由文件创建单元314创建的文件单独存储在关系数据库(rdb)中。

模型存储器324可以存储为确定材料或产品的质量所必需的质量确定模型和错误预测模型。

查询处理单元330可以是搜索存储在大数据存储器320中的数据并将找到的数据返回的元件,并且可以包括查询接收单元332、查询执行单元336和查询结果传输单元338中的至少一个。查询处理单元330还可以包括查询调度单元334。

查询接收单元332可以从用户接收查询,并且可以解释所接收的查询语句。

查询执行单元336可以将通过查询接收单元322接收的查询传送给大数据存储器320,以允许执行查询,并且因此可以从大数据存储器320获得查询执行结果。

查询结果传输单元338可以将从大数据存储器320获得的作为查询执行结果的数据传送给已请求相应查询的用户。

如果通过查询接收单元332接收到的查询由多个较低查询组成,则查询调度单元334可以将接收到的查询分类到每个较低查询中,并且可以将分类的查询传送给查询执行单元336。

图9是详细图示出根据本公开的另一实施方式的大数据分析系统300的配置。

如图9所示,大数据分析系统300可以包括数据处理单元310、大数据存储器320和查询处理单元330。大数据存储器320和查询处理单元330与图8中所示的元件相同,因此,省略其详细描述。在下文中,将仅描述与图8中所示的元件不同的数据处理单元310的元件。

根据本公开的另一实施方式的数据处理单元310可以包括完成事件接收单元311、第一分类数据获取单元312a、第二分类数据获取单元312b、数据划分单元312c、存储器队列313、多个文件创建单元314a至314h以及错误感测数据接收单元315中的至少一个。

完成事件接收单元311、存储器队列313和错误感测数据接收单元315的功能与图8所示的元件的功能相同。因此,省略其详细描述。

第一分类数据获取单元312a可以从存储器220读取映射到设备id和材料id的负载数据。在负载数据中,如图10所示,发生数据变化,并且负载数据具有数据变化宽度大的特性。例如,当粗轧机(rm)或精轧机(fm)在厚板加工中处理轧制板时获得的温度数据或平整度数据可对应于负载数据。

第二分类数据获取单元312b可以从存储器220读取未映射到设备id和材料id的空载数据。如图10所示,由于在没有执行作业的状态下测量空载数据,所以空载数据具有连续生成相同值的特性。例如,在粗轧机(rm)或精轧机(fm)在厚板加工中没有处理轧制板的状态下获得的温度数据或平整度数据可对应于空载数据。

第一分类数据获取单元312a和第二分类数据获取单元312b可以各设置有多个,从而更加提高处理速度。

在这种情况下,在存储器220中,可以将负载数据存储在第一存储区(未示出)中,可以独立于负载数据而将空载数据存储在第二存储区(未示出)中。

此外,当发生完成在第一存储区中存储负载数据的事件时,完成事件执行单元311可以将该事件传送给第一分类数据获取单元312a,以允许第一分类数据获取单元312a从第一存储区读取负载数据。此外,当发生完成在第二存储区存储空载数据的事件时,完成事件执行单元311可以将该事件传送给第二分类数据获取单元312b,以允许第二分类数据获取单元312b从第二存储区读取空载数据。

通过使用在完成事件中包括的关键字信息,第一分类数据获取单元312a或第二分类数据获取单元312b可以检查与完成事件对应的第一存储区数据或第二存储区数据存储在哪个分区和目录中,因此可以读取存储在第一存储区中的负载数据或存储在第二存储区中的空载数据。

在上述实施方式中,第一存储区和第二存储区可以各自以队列形式实现。可以将事件存储在第一存储区和第二存储区中的队列空间中,并且完成事件接收单元311可以从队列空间获取事件。因此,即使完成事件接收单元311出现故障,如果完成事件接收单元311被恢复,则可以优先处理之前正在进行处理的事件,从而防止事件丢失。

此外,在上述实施方式中,文件创建单元314a至314n中的每个可以创建包括负载数据的文件,并且可以将文件记录在历史数据存储器322的负载数据表(未示出)中。此外,文件创建单元314a至314n中的每个可以创建包括空载数据的文件,并且可以将文件记录在历史数据存储器322的空载数据表(未示出)中。

数据划分单元312c可以通过预定数据量单位将由第一分类数据获取单元312a读取的负载数据或由第二分类数据获取单元312b读取的空载数据进行划分,并且可以将所划分的负载数据或空载数据存储在存储器队列313中。

根据本公开的另一实施方式的大数据分析系统300通过使用数据划分单元312c由预定数据量单位将数据进行划分原因是因为如果将海量数据同时传送给存储器队列313,则出现内存不足,因此系统将出现故障。

文件创建单元314a至314n可以创建包括存储在存储器队列313中的数据的物理文件。如图9所示,由于根据本公开的另一实施方式的大数据分析系统300利用多个文件创建单元314a至314n来实现,所以多个文件创建单元314a至314n可以并行地执行文件创建作业,从而提高文件创建作业的速度。在这样的实施方式中,文件创建单元314a至314n可以被簇集。

如上所述,根据本公开的实施方式,可以实时处理在连续工艺中获得的数据,此外,可以处理海量数据。

此外,根据本公开的实施方式,可以基于根据对分配给每个处理单元的执行单元的执行的系统资源使用信息来控制每个处理单元的负载,从而增强系统处理性能。

此外,根据本公开的实施方式,存储器可以通过一个主实例和两个从实例被重复三次,从而增加存储器的可用性。

此外,根据本公开的实施方式,可以基于分布式文件系统将在连续工艺中获得的数据存储在大数据存储器中,因此可以实时地处理所获得的数据。

此外,根据本公开的实施方式,可以将在连续工艺中获得的数据分为负载数据和空载数据并对其进行处理,从而提高文件搜索速度并缩短查询执行时间。

此外,根据本公开的实施方式,可以通过预定数据量单位对在连续工艺中获得的数据进行划分和存储,从而防止发生存储器队列的内存不足。

此外,根据本公开的实施方式,可以设置多个将在连续工艺中获得的数据处理成文件的文件生成单元,从而进一步提高处理速度。

对于本领域技术人员显而易见的是,在不脱离本公开的精神或范围的情况下,可以对本公开进行各种修改和变。因此,本公开旨在涵盖对本公开的修改和变化,只要它们在所附权利要求及其等同方案的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1