自主混合分析建模平台的制作方法

文档序号:23067969发布日期:2020-11-25 17:55阅读:168来源:国知局
自主混合分析建模平台的制作方法

相关申请的交叉引用

本申请要求于2018年1月26日提交于美国专利商标局的美国临时申请62/622,743的优先权,该申请的全部公开内容据此以引用方式并入。



背景技术:

对于工程师或数据分析员,从不同数据集构建模型可花费一定时间,例如,花费若干小时熟悉数据、寻找可能相关性以及适合特定问题陈述的候选模型和特征。在一些情况下,在分析员可从他们已知的技术中决定解决方案之前可执行模型实现、训练和验证的若干耗时迭代。



技术实现要素:

本文描述了用于实现自主混合分析建模平台的方法和装置。在一个实施方案中,分析框架可提供机器学习、深度学习、概率和混合物理技术的综合目录。在某些实施方案中,可经由图形用户界面(gui)接收对数据集的一个或多个数据标签的选择。数据标签可对应于数据集中的数据,并且数据可包括训练数据和测试数据。还可经由gui接收对一种或多种分析模型构建技术的选择。然后,数据处理器可使用训练数据构建多个分析模型。一种或多种所选择的分析模型构建技术中的每一种分析模型构建技术可用于构建至少一个分析模型。在构建多个分析模型之后,数据处理器可使用测试数据计算多个分析模型中的每一个分析模型的性能。基于所计算的多个分析模型中的每一个分析模型的性能,gui可显示多个分析模型中的每一个分析模型的比较。

还描述了存储指令的非暂态计算机程序产品(即,物理地体现的计算机程序产品),该指令当由一个或多个计算系统的一个或多个数据处理器执行时,致使至少一个数据处理器执行本文的操作。类似地,还描述了计算机系统(例如,本文所述的建模平台),该计算机系统可包括一个或多个数据处理器和耦接到一个或多个数据处理器的存储器。存储器可暂时地或永久地存储致使至少一个处理器执行本文所述的一个或多个操作的指令。此外,方法可由单个计算系统内或者分布在两个或更多计算系统之间的一个或多个数据处理器来实现。此类计算系统可连接,并且可经由包括网络(例如,互联网、无线广域网、局域网、广域网、有线网络等)上连接的一个或多个连接,经由多个计算系统中的一个或多个计算系统之间的直接连接等,交换数据和/或命令或其他指令等。

本文所述主题的一个或多个变型的细节在以下的附图和描述中阐述。根据说明书和附图以及权利要求书,本文所述主题的其他特征和优点将显而易见。

附图说明

通过参考以下结合附图的描述可更好地理解本文的实施方案,其中相似的附图标记指示相同或功能上类似的元件,其中:

图1是图形用户界面(gui)的示例性布局,使用户能够选择数据标签和分析模型构建技术以用于构建多个分析模型;

图2是图1的gui的第一示例性布局,其显示所生成的分析模型的比较;

图3是图1的gui的第二示例性布局,其显示所生成的分析模型的比较;并且

图4是功能框图,其示出自主混合分析建模平台的示例性操作。

应当理解,上文引用的附图未必按比例绘制,从而呈现说明本公开的基本原理的各种优选特征的一定程度的简化表示。本公开的具体设计特征,包括例如具体尺寸、取向、位置和形状,将部分地由特定预期应用和使用环境确定。在各个附图中,相似的附图标记指示相似的元件。

具体实施方式

当前主题涉及自主混合分析建模平台(下文称为“建模平台”)。当前主题的一些具体实施包括提供机器学习、深度学习、概率和混合物理技术的综合目录的分析框架。分析框架受益于数据科学家和工程师的已建立的用户基础,并且可利用其自己的知识基础帮助定义要在上传的数据的类型上采用的正确分析模板。自主混合分析机可建议不同的方法-分类、ann、贝叶斯混合模型-并且基于可用的标签和数据类型设置输入/输出参数。构建在框架中语义知识捕获模型中的智能可用于设置并行模型构建,从而以最小的用户交互将最佳执行模型集返回到用户,并且准备好部署。

在一些具体实施中,当前主题可实现:通过拖放或数据库连接方法从用户提供的数据集中自主选择输入/输出变量,其中手动选择可用的输入和输出;自主建议要在所提供的数据集上构建的模型,其中手动向下选择可扩展联合混合分析平台中提供的可用方法;从向下选择的一组技术中构建自主并行模型以用于基于性能的进一步模型排名;基于每个所选择的输出的性能进行单个模型排名,带有模型性能比较功能;基于所有所选择的输出的性能进行总体模型排名,带有模型性能比较功能;和/或通过直接比较所构建的所有模型的实际输出和预测输出来评估模型质量。

建模平台图形用户界面(gui)的实施方案在下文中讨论。应当理解,以下所述和附图所示的gui是出于展示目的而提供的。如本领域的普通技术人员将理解,gui的特征可以与本权利要求书的范围一致的任何合适的方式修改。因此,以下所述和附图所示的gui的任何方面都不应视为限制本公开的范围。

图1是gui100的示例性布局,其使用户能够选择数据标签和分析模型构建技术以用于构建多个分析模型。可构建任何类型的分析模型,包括但不限于预测模型、分类器模型、图像识别模型、自然语言处理模型、人工智能模型等。这些模型可应用于任何种类的应用,诸如工业设备监测、天气预测、股票价格预测、图像识别等。

初始地,可选择建模平台可操作的数据集200(参见图4)。在一些实施方案中,数据集200可预生成,并且可从各个位置诸如本地计算机或数据库、远程服务器等检索。数据集200可包含任何种类的数据。例如,数据集200可包含源于与特定工业机器相关的一系列测量结果(例如,传感器数据)的数据。然而,应当理解,包含在任何给定数据集200内的数据并不限于此。

此外,包含在数据集200中的数据可被分成一个或多个类别。例如,数据集200可分为两个类别:用于训练分析模型的训练数据,以及用于测试和验证已训练的分析模型的测试数据。下文将更详细地描述训练数据和测试数据。

在选择数据集200之后,gui100可在数据集200内显示数据标签的数据标签字段102。数据标签可对应于数据集200中包含的数据。更具体地,每个数据标签可表示包含在数据集200中的对应数据的名称或标题。数据标签可由字符、数字、符号或它们的任何组合构成。如图所示,数据标签选择字段102可包括指示数据集200中每个数据标签名称的“名称”列,以及指示每个可用数据标签的绝对相关性的“绝对相关性”(或“abs.corr.”)。

使用数据标签选择字段102,用户可选择特定数据标签以用于构建分析模型。gui100可向用户呈现以任何合适的方式(诸如复选框、按钮、滑块等)选择所需数据标签的能力。

相关矩阵106可帮助用户选择最佳数据标签以用于分析模型构建。详细地,相关矩阵106可表示数据集200中每个数据标签之间相关性的数学表达式。数据标签之间的相关性可指示数据集中的一个或多个数据标签如何相互关联,以及改变数据标签会影响另一个数据标签的程度。

相关性的量可以以各种方式示出。例如,在一些实施方案中,相关性可被描绘为色标内的颜色或色标内的阴影,如图1所示。1.在其他实施方案中,相关性可由数值示出。数据标签之间的较高系数可指示一个数据标签可用于预测另一个数据标签,而数据标签之间的较低系数可指示一个数据标签不太可能成功预测另一个数据标签。

又如,语义知识可用于计算数据标签之间的相关性。例如,使用语义模型数据库300(参见图4),建模平台可评估数据标签(例如,“vtcd_reg”、“start”、“hsr”、“hours”等)以估计不同数据标签之间的可能相关性。建模平台可识别,例如数据标签“hours”对应于与时间相关的数据。因此,建模平台可估计数据标签“hours”和与时间数据相关联的另一个数据标签之间的相关性为高。

gui100还可包括分析模型构建技术选择字段104。可预定义在分析模型构建技术选择字段104中列出的分析模型构建技术中的每一种分析模型构建技术。各种分析模型构建技术为本领域已知的,并且可列出任何合适的分析模型构建技术,包括但不限于回归技术及其变型。

使用分析模型构建技术选择字段104,用户可选择任何数量的分析模型构建技术。每种所选择的分析模型构建技术可用于构建分析模型。因此,随着分析模型构建技术选择字段104中选择的分析模型构建技术的数量增加,所生成的分析模型的数量也可增加。

补充信息字段108和110可显示涉及所选择的数据标签、所选择的分析模型构建技术的附加信息,或者涉及所利用的数据集、分析模型构建技术等的任何其他信息集合。

在以上述方式选择数据标签和分析模型构建技术时,用户可通过选择激活构建特征112来发起多个分析模型的构建。激活构建特征112可以是按钮,如图1所示。或任何其他合适的gui特征。

在对激活构建特征112进行激活时,建模平台可自动构建多个分析模型。根据本领域已知的机器学习、深度学习和/或混合物理学技术,可使用对应于所选择的数据标签的数据训练分析模型。更具体地,如前所述,可将对应于所选数据标签的数据分类成训练数据和测试数据,并且可使用对应于所选择的数据标签的数据中的训练数据训练分析模型。在图1的示例中,用于训练分析模型的数据标签被示出为包括“vtcd_reg”、“start”、“hsr”、“hours”和“ctd”。

此外,可使用所选择的分析模型构建技术构建分析模型。每个所选择的分析模型构建技术可用于构建至少一个分析模型。在图1的示例中,用于构建分析模型的分析模型构建技术被示出为包括“回归”、“pce”、“bhm”和“ann”。

每个构建的分析模型可基于所选择的用于训练和测试模式的数据标签以及基于所选择的分析模型构建技术而变化。基于特定应用,某些分析模型构建技术在构建准确分析模型方面可能比其他技术更有效。当手动评估分析模型的性能时,如常规所执行的,过程可能困难且耗时。然而,本文所述的建模平台可使评估过程自动化,并且通过向用户提供图形比较来显著地减少模型评估时间,该图形比较指示在给定特定应用下的最佳(和最差)执行分析模型。

就这一点而言,图2是gui100的第一示例性布局,其显示所生成的分析模型的比较。图3是gui100的第二示例性布局,其显示所生成的分析模型的比较。在构建多个分析模型之后,建模平台可使用数据集200中对应于所选择的数据标签的数据计算多个分析模型中的每一个分析模型的性能。如前所述,可将与所选择的数据标签对应的数据分类成训练数据和测试数据,并且可使用与所选择的数据标签对应的数据中的测试数据测试分析模型。

可基于各种参数确定构建的分析模型的性能。在一个示例中,可计算每个分析模型的误差可能性(例如,均方根误差(rmse)),由此具有较低rmse的分析模型比具有较高rmse的分析模型可能更准确地执行,并且因此排名更高。

就这一点而言,gui100可显示各种可视化以展示所有构建的分析模型之间的相对性能。例如,gui100可显示分析模型比较条形图114,该比较条形图比较以上述方式构建的分析模型的性能。具体地,条形图114相对于每个所选择的数据标签可示出使用每个所选择的分析模型构建技术构建的分析模型的rmse。在图2的示例中,示出了使用分析模型构建技术“bhm”构建的分析模型对于数据标签“vtcd_reg”具有最低rmse,使用分析模型构建技术“bhm”构建的分析模型对于数据标签“ctd”具有最低rmse,并且使用分析模型构建技术“bhm”和“回归”构建的分析模型对于数据标签“报废”具有最低rmse。这种可视化可使用户能够基于特定数据标签快速理解最有效的分析模型构建技术。

类似地,gui100可显示提供类似见解的分析模型比较表116。在分析模型比较表116中,每个构建的分析模型可基于其计算的rmse排号。分析模型比较表116可指示每个分析模型的名称、用于构建分析模型的技术以及分析模型的rmse。此外,分析模型比较表116可包括“视图”特征,其中可显示关于特定分析模型的信息,从而允许用户进一步详细评估每个模型。

如图3所示,gui100可显示分析模型绘图118,其中用户可选择要分别分配给x轴和y轴的数据标签。基于所选择的数据标签,可将点映射在分析模型绘图118上,以指示使用所选择的分析模型构建技术中的每一个分析模型构建技术构建的分析模型的性能(例如,rmse)。

此外,gui100可显示分析模型度量表120,该分析模型度量表示出与表格形式的每个构建的分析模型相关联的度量列表。例如,分析模型度量表120可示出度量,诸如平均百分比误差、最大百分比误差、最小百分比误差等。用户可利用上述自动生成的比较可视化中的每一个比较可视化通过gui100快速确定给定数据集200和数据标签的最佳分析模型。

图4是功能框图,其示出了建模平台的示例性操作400。如图所示,建模平台的操作可从选择数据集200开始。如上所述,数据集200可预生成,并且可从各个位置诸如本地计算机或数据库、远程服务器等检索。数据集200可包含任何种类的数据。例如,数据集200可包含源于与特定工业机器相关的一系列测量结果(例如,传感器数据)的数据。

建模平台操作可行进至部分402,由此可通过gui100向用户呈现用于基于所选择的数据集训练和测试分析模型的数据标签。建模平台可自动评估可用数据标签中的每一个可用数据标签之间的相关性。例如,语义知识可用于计算数据标签之间的相关系数。使用语义模型数据库300,建模平台可评估数据标签(例如,“vtcd_reg”、“start”、“hsr”、“hours”等)以估计不同数据标签之间的可能相关性。语义模型数据库300可在操作期间更新,以包括学习的关于使用特定数据标签的信息。在自动评估数据标签之后,用户可选择或验证要用于构建分析模型的可用数据标签。

建模平台操作可行进至部分404,由此建模平台可在所选择的数据标签中自动选择输入和输出变量组。建模平台所选择的输入和输出数据可根据所利用的分析模型构建技术而变化。

建模平台操作可行进至部分406,由此可通过gui100向用户呈现用于使用所选择的数据标签作为训练和测试数据构建分析模型的分析模型构建技术。各种分析模型构建技术为本领域已知的,并且可列出任何合适的分析模型构建技术,包括但不限于回归技术及其变型。建模平台可使用语义模型数据库300中存储的信息,基于所选择的数据标签自动建议一种或多种最佳分析模型构建技术。用户可验证所建议的分析模型构建技术,或者从任何可用的分析模型构建技术中选择一种技术。

建模平台操作可行进至部分408,由此建模平台可使用部分408中选择的分析模型构建技术构建多个分析模型。在部分402中选择的数据标签可用于训练和测试分析模型。

每种分析模型构建技术可用于构建至少一个分析模型。随着分析模型构建技术的数量增加,分析模型的数量也可增加。因此,分析模型的构建可并行执行,如图4所示。类似地,所有分析模型的性能评估可并行执行,从而优化建模平台的性能。

本文所述的主题提供了许多技术优点。例如,在一些具体实施中,当前主题向分析开发者提供自主平台以在单个统一平台中探索其数据集,从而避免silo分析具体实施和部署。每种分析可自主提供性能度量,从而帮助开发者理解并且对最合适的技术排名以解决建模问题。

在一些具体实施中,当前主题可为有利的,因为其可包括利用云部署以并行化模型构建;以自主方式利用可扩展联合混合分析和机器学习平台的基础结构;和/或将模型构建和部署时间从几个月减少到几分钟。在一些具体实施中,当前主题包括云环境中的自主建模平台,从而允许用户更方便地生成高级分析模型并且部署它们,而不需要编码。

本文所述主题的一个或多个方面或特征可在数字电子电路、集成电路、专门设计的专用集成电路(asic)、现场可编程门阵列(fpga)计算机硬件、固件、软件和/或它们的组合中实现。这些各个方面或特征可包括一个或多个计算机程序中的具体实施,该计算机程序在包括至少一个可编程处理器的可编程系统上可执行和/或可解释,该具体实施可为专用或通用的,耦接以从存储系统、至少一个输入装置和至少一个输出装置接收数据和指令,并且将数据和指令发射到存储系统、至少一个输入装置和至少一个输出装置。可编程系统或计算系统可包括客户端和服务器。客户端和服务器一般彼此远离,并且通常通过通信网络交互。客户端和服务器的关系由于在相应计算机上运行计算机程序并且彼此具有客户端-服务器关系而产生。

这些计算机程序(也可称为程序、软件、软件应用程序、应用程序、部件或代码)包括用于可编程处理器的机器指令,并且可以以高级过程语言、面向对象的编程语言、功能编程语言、逻辑编程语言和/或以汇编语言/机器语言来实现。如本文所用,术语“机器可读介质”是指用于向可编程处理器提供机器指令和/或数据的包括接收机器指令作为机器可读信号的机器可读介质的任何计算机程序产品、设备和/或装置,诸如例如,磁盘、光盘、存储器和可编程逻辑装置(pld)。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。机器可读介质可非暂态地存储此类机器指令,诸如例如,非暂态固态存储器或磁性硬盘驱动器或任何等同的存储介质将会做的那些。另选地或附加地,机器可读介质可以以瞬态方式存储此类机器指令,诸如例如,处理器高速缓存或与一个或多个物理处理器内核相关联的其他随机存取存储器将会做的那些。

为了提供与用户的交互,本文所述主题的一个或多个方面或特征可在计算机上实现,该计算机具有用于向用户显示信息的显示装置(诸如例如,阴极射线管(crt)或液晶显示器(lcd)或发光二极管(led)监视器)以及通过其用户可向计算机提供输入的键盘和指向装置(诸如例如,鼠标或轨迹球)。还可使用其他种类的装置来提供与用户的交互。例如,提供给用户的反馈可为任何形式的感官反馈(诸如例如,视觉反馈、听觉反馈或触觉反馈),并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。其他可能的输入装置包括触摸屏或其他触敏装置,诸如单点或多点的电阻式或电容式触控板、语音识别硬件和软件、光学扫描仪、光学指针、数字图像捕获装置以及相关联的解释软件等。

在上述说明书和权利要求中,短语诸如“至少一个”或“一个或多个”可在元件或特征的结合式要素列表之后出现。术语“和/或”也可出现在两个或更多个要素或特征的列表中。除非在短语用于其中的上下文中另有暗示或与该上下文明确地矛盾,否则此类短语旨在表示单独地列出的要素或特征中的任一者或者所列举要素或特征中的任一者与其他列举的要素或特征中的任一者的组合。例如,短语“a和b中的至少一个”、“a和b中的一个或多个”以及“a和/或b”各自旨在表示“a单独、b单独或a和b一起”。类似的解释也旨在用于包括三个或更多项目的列表。例如,短语“a、b和c中的至少一个”、“a、b和c中的一个或多个”以及“a、b和/或c”各自旨在表示“a单独、b单独、c单独、a和b一起、a和c一起、b和c一起、或a和b和c一起”。此外,上文和权利要求书中使用的术语“基于”旨在表示“至少部分地基于”,以使得未述及的特征或元件也是允许的。

本文所述的主题可体现在系统、设备、方法和/或制品中,这取决于所需配置。在前面描述中阐述的具体实施不表示与本文所述的主题一致的所有具体实施。相反,它们仅是与所述主题相关的方面一致的一些示例。尽管上文已详细描述了少数变型,但其他修改或添加是可能的。具体地,还可提供除本文阐述的那些之外的特征和/或变型。例如,上述具体实施可涉及所公开特征的各种组合和子组合和/或以上公开的若干另外特征的组合和子组合。此外,附图中所描绘的和/或本文所述的逻辑流程不一定需要所示特定次序或顺序以实现所需结果。其他具体实施可在以下权利要求书的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1