自动模式不匹配检测的制作方法

文档序号：11530778阅读：192来源：国知局

背景技术：

对大量的数据或所谓的大数据的处理以收集有价值的见解涉及首先转换数据。通过一个或多个作业的创建、调度和执行，数据被转换成用于由商业智能端点(诸如仪表板)公布或使用的可用形式。在该上下文中，作业是数据上的包括一个或多个变换操作的工作单元。通常，作业由数据开发人员、数据架构师、商业智能架构师等手动编码。此外，开发人员或类似个体的任务是确保作业所使用的数据以作业可接受的方式被构造。

技术实现要素：

以下呈现简化的发明内容，以便提供对所公开主题的一些方面的基本理解。本发明内容不是广泛的概述。它不旨在标识关键/重要要素或描绘所要求保护的主题的范围。其唯一目的在于以简化形式呈现一些概念，作为稍后呈现的具体实施方式的前序。

简要描述，本主题公开涉及自动模式不匹配检测。响应于用户将数据集连接到可视创作界面的工作空间上的作业，模式匹配过程被发起。模式匹配过程标识数据集模式与作业期望的模式的元素之间的匹配并且检测数据集模式与作业期望的模式的元素之间的不匹配。可以基于指示对应关系强度和预定阈值的度量来检测不匹配。检测到的不匹配可以被呈现给可视创作界面的一部分内的用户。此外，用户可以以使得不匹配能够被解决的方式与检测到的不匹配交互。

为了前述和相关目的的实现，本文结合以下描述和附图描述了要求保护的主题的某些说明性方面。这些方面指示可以实践主题的各种方式，所有这些方式都旨在处于所要求保护的主题的范围内。当结合附图考虑时，从下面的详细描述中其他优点和新颖特征可以变得显而易见。

附图说明

图1是可视创作系统的框图。

图2是代表性模式匹配组件的框图。

图3是代表性匹配标识部件的框图。

图4是示例性可视创作界面的屏幕截图。

图5是具有展示不匹配的面板的示例性可视创作界面的屏幕截图。

图6是具有示出不匹配的解决的面板的示例性可视创作界面的屏幕截图。

图7是检测和解决模式不匹配的方法的流程图。

图8是模式匹配的方法的流程图。

图9是对模式匹配进行分类的方法的流程图。

图10是示出适于本主题公开的各方面的操作环境的示意性框图。

具体实施方式

下面的细节大体上涉及自动模式不匹配检测和解决。流水线包括其中第一作业的输出可选地向第二作业提供输入的一个或多个相关作业的集合。例如，一个或多个输入数据集可以被连接到使用输入数据集的作业，执行数据变换操作，并产生输出数据集。输入数据集的模式可以与作业的模式(或者换句话说，该作业期望的模式)不同。在成功执行作业之前，需要解决这些差异。如本文提供的，可以在数据源连接到作业之后自动确定数据集模式和作业模式之间的差异。结合交互式可视工作空间，图解地将数据源连接到作业可以发起能够将模式元素分类为匹配或不匹配的模式匹配过程。模式的元素是否与作业期望的模式匹配或不匹配可以基于对应关系强度和预定阈值，其中对应关系强度是作为一个或多个因素的函数而被计算的置信度度量，一个或多个因素包括但不是限于元素数据类型和名称。不匹配可以在具有可视工作空间的上下文中被呈现，并且使得用户能够解决该不匹配。例如，与数据集和作业两者相关联的模式元素可以被呈现具有与匹配元素可视地区分的不匹配元素。用户随后可以使用与数据源和作业模式元素匹配的一个或多个姿势图形化地解决不匹配。与要求用户指定针对输入数据集和使用作业的模式元素的所有匹配相反，通过展示模式不匹配并允许其容易的纠正，模式匹配因此被简化或者更高效地进行。

现在参考附图更详细地描述本主题公开的各个方面，其中贯穿附图相同的附图标记通常指代相同或对应的元素。然而，应当理解，附图和与其有关的详细描述并不旨在将所要求保护的主题限制于所公开的特定形式。相反，意图在于涵盖落入所要求保护的主题的精神和范围内的所有修改、等同物和备选物。

首先参考图1，示出了可视创作系统100。可视创作系统100包括工作空间组件110、源组件120、目标组件130和模式匹配组件140。工作空间组件110被配置为通过提供交互式可视工作空间或画布来启用作业和流水线的图解创作，其中流水线包括其中第一作业的输出可选地向第二作业提供输入的一个或多个相关作业的集合。例如，数据集可以被表示为圆柱体并且通过箭头被连接到使用数据集并且产生经修改的数据集的作业。基本上，用户可以绘制数据集和作业之间的关系图。这导致直观的体验，其节省关于理解关系并最终指定流水线的时间。此外，模式匹配组件140被配置为自动标识模式不匹配，并且使得能够解决数据源和作业之间的所标识的不匹配。

源组件120被配置为产生用于作业创作的可用数据源或数据集(包括数据的集合)的可视表示。任意数据集可以由源组件120获取并使其可用，包括基本上任何格式(例如，表格、文件、流……)或结构(例如，结构化的、非结构化的、半结构化的)的本地数据源和基于云的数据源。换句话说，源组件120被配置为展示异构数据源。可以通过由源组件120提供的搜索和导入功能使数据的集合可用。另外，源组件120可以被配置为自动监控用户或实体帐户等并且使可访问的数据源可用。由源组件120渲染的数据源是交互式的，并且可以被用作针对一个或多个作业的输入。例如，使用姿势(诸如拖放)，来自源区域的数据源可以被添加到工作空间。

目标组件130被配置为提供可视位置以在所有变换已被应用之后显示最终数据集。这些数据集随后可以由应用(诸如分析应用)公布或使用。作业或一系列作业的结果可以从工作空间中被拖放到目标可视区域中。

工作空间组件110被配置为启用包括一个或多个变换操作的作业和包括其中第一作业的输出可选地向第二作业提供输入的一个或多个相关作业的集合的流水线的可视创作。特别地，工作空间组件110被配置为通过工作空间上的图的方式来促进作业和流水线构造。例如，用户可以通过将数据源的可视表示从源拖放到用户界面的工作空间窗格或面板来获取数据源。例如通过从数据源绘制箭头到作业以指示数据源提供作业使用的输入并且在其上执行一个或多个数据变换操作(例如，排序、分组、轴转、分割、过滤……)，该数据源可以被连接到先前创作的作业(例如，利用数据预览和/或手动编码而被自动创建)。另外，经变换的输出的表示可以被链接到工作空间上的作业的表示。作为结果，从数据源接收输入并输出反映作业的一个或多个变换操作的应用的新数据源的作业的图被显示。

模式匹配组件140被配置为标识数据源和作业之间的模式元素的匹配以及不匹配。匹配和不匹配可以基于作为一个或多个因素的函数来计算的置信度度量和与一个或多个预定阈值相比较来被自动确定。在一个实例中，可以针对数据集和作业的模式元素获取诸如元素类型和元素名称的因素。基于此，代表“匹配”的强度或更一般地模式元素之间的对应关系强度的置信度量可以被计算。然后置信度度量可以与指示不匹配、匹配或两者之间的某种情况的一个或多个阈值进行比较。通过与一个或多个阈值的比较，数据源的模式元素可以关于与作业相关联的模式元素被分类。例如，如果两个模式元素之间的最高置信度度量小于百分之五十(50％)，则不匹配可以被标识。相比之下，如果最高置信度度量高于百分之五十(50％)，则匹配可以被标识。当然，第三选择可以是不确定是否存在不匹配或匹配。例如，高于百分之七十(70％)的置信度度量，则匹配可以被认为存在，低于百分之五十(50％)则不匹配可以被认为存在，而百分之五十和百分之七十(50-70％)之间可以被分类为不确定等。

图2描绘了表示性模式匹配组件140。模式匹配组件包括模式获取组件210、匹配标识组件220、配置组件230和可视化组件240。模式获取组件210从数据源和作业获取模式，其中作业模式对应于作业所期望的模式。数据集模式和作业模式可以从源或作业被接收或检索，或者备选地通过分析数据源或作业来确定。匹配标识组件220被配置为将一组模式元素分类为匹配或不匹配等。

将注意力短暂地转到图3，示出了代表性匹配标识组件220。匹配标识组件220包括类型组件310、名称组件320、学习组件330和置信度组件340。类型组件310被配置为确定模式元素之间的类型匹配和不匹配。更具体地，类型组件310被配置为标识包括基本类型(例如，整数、实数、布尔……)和复合类型(例如，数组、集合、记录、对象……)的模式元素数据类型，并且基于类型来确定哪些模式元素匹配和不匹配。名称组件320被配置为基于模式元素名称来确定模式匹配和不匹配。如果模式元素包括相同或相似的名称(例如，在同义词的词典中列出)，则模式元素可以被视为是名称匹配。相反，如果模式元素包含不同的名称，则模式元素可以被认为是名称不匹配。学习组件330被配置为基于来自一个或多个用户的交互来学习匹配和不匹配。例如，如果用户先前指示第一元素与第二元素匹配，则随后当再次遇到第一元素和第二元素时，学习元件330可以被用于指示匹配。置信度组件340被配置为生成捕获模式元素之间的对应关系强度的置信度度量。在一个实例中，可以产生表示模式元素之间的百分比匹配或不匹配的值。例如，第一个元素和第二个元素以百分之七十(70％)的置信度匹配。此外，置信度组件340可以在生成置信度度量中获取并使用来自类型组件310、名称组件320和学习组件330的输入。例如，如果两个模式元素具有相同的数据类型和名称，则存在元素匹配的高可能性。相比之下，如果数据类型和名称中的一个或多个不相似，则存在匹配的较小可能性和不匹配的较高概率。

返回到图2，纠正组件230被配置为促进不匹配的解决。如果模式元素之间存在不匹配，则纠正组件230提供允许用户纠正这些不匹配的机制，使得数据集的整个模式与作业所期望的模式匹配。根据实施例，不匹配可以被呈现，并且用户可以通过将数据源的模式元素与匹配的作业的模式元素相映射来图形化地纠正不匹配。这可以通过相对于彼此定位匹配模式元素(例如，在表的相同行中)或通过绘制连接匹配元素的线来完成。备选地，可以通过代码规范的方式来执行这种映射。

可视化组件240被配置为呈现关于可视创作系统100的上下文中的模式不匹配检测和解决的可视化。在一个实例中，可视化组件240可以渲染模式元素匹配以及不匹配的可视表示。例如，可视化组件240可以生成并呈现接近与作业模式元素的潜在匹配的数据集的模式元素。此外，图形化表示可以指示两个模式元素是匹配还是不匹配。例如，绿色的点和/或勾选框可以用于指示匹配的高概率，而红色的点和/或勾选框可以用于表示不匹配的高概率。当然，可以呈现附加的图形来表示匹配和不匹配之间的至少一个中间立场，其中置信度量在匹配或不匹配的置信度度量之间，附加的图形例如由黄色的点和/或问号表示。在另一实例中，可视化组件240可以提供交互式可视机制来纠正不匹配。作为示例，模式元素可以被选择、拖动并将其放置到与匹配的模式元素相对应的新位置中。备选地，可以绘制线来连接匹配的模式元素。此外，在从用户接收到用于解决不匹配的输入时，可以更新模式元素的可视显示以反映所作的改变，并且可以显示匹配的指示。因此，用户可以迭代地解决不匹配，直到不存在不匹配。

图4-6是示出与包括模式匹配组件140的可视创作系统100相关联的各种可视化方面的示例性屏幕截图。这些屏幕截图旨在辅助关于本公开的方面的清楚和理解，并且不旨在限制所要求保护的主题。应当理解，所提供的屏幕截图仅仅描绘了一个实现。图形元素和文本的各种其他组合和布置被设想并且旨在落入所附权利要求的范围内。此外，应当理解，也可以采用各种声音来在创作流水线、包括模式不匹配的标识和解决中辅助用户。

图4是可以由可视创作界面100产生的可视创作界面400的屏幕截图。如图所示，该界面包括三个面板，源面板410、工作空间面板420和公布面板430。源面板410呈现多个可用数据源412，并且使得源能够被添加或者从中删除。应当理解，源面板410中描绘的数据源412可以是任意数据源。例如，一些数据源412可以与本地数据相关联，而其他数据源与网络或云数据存储库相关联。此外，数据源412可以具有基本上任何结构或格式。工作空间面板420提供数据源和作业的交互式图解示图。如图所示，诸如提供购买建议的作业被表示为立方体422。立方体422被连接到被表示为第一圆柱体424的数据集。根据一个实现，数据集表示可以从源面板410被拖放。具有箭头的线将第一圆柱体424连接到指示从源到作业的从左到右的数据流的立方体。此外，作业的输出被表示为第二圆柱体426，并且与从立方体422到第二圆柱体426的线和箭头连接，描绘了第二圆柱体表示作业的输出。在执行所有期望的变换之后，公布窗格430提供被公布或可使用的数据源的可视表示。在将表示数据集的第一圆柱体连接到表示工作空间面板420中的作业的立方体422时，例如通过绘制将第一圆柱体424连接到立方体422的线428，模式匹配过程可以被发起并且图5的屏幕截图可以产生。

图5是可以由可视创作系统100产生的可视创作界面500的屏幕截图。可视创作界面500与可视创作界面400的相似之处在于其包括如之前所描述的源面板410和工作空间面板420。此外，在用户将数据源连接到作业之后，模式匹配面板510在工作空间420的上下文中、或者原地被呈现。数据源到作业的连接可以触发关于数据源模式和由作业期望的模式的匹配和不匹配的确定，以及模式匹配面板510的生成以至少显示结果。模式匹配面板510包括表520和按钮530以接受映射。表520包括三列。第一列对应于数据源模式元素。第三列对应于作业模式元素，而第二列捕获对应关系信息。利用数据集模式元素、作业模式元素和模式元素是不匹配还是匹配的可视指示符522来填充行。

这里，第一列对应于“全球人口统计”数据集的模式元素，并且第三列对应于针对“游戏内购买推荐”作业的预期的和可接受的模式。每一行包括模式元素名称和数据类型，连同存在不匹配(由被线包围的字母“x”表示)还是匹配(由被线包围的勾选框表示)的指示。在五个所显示的行中，两行示出模式元素之间的不匹配。特别地，“积分”被示为与“游戏得分”不匹配，并且“得分”被示为与“xbox积分”不匹配，所有这些具有类型号。在这种情况下，“积分”与“xbox积分”匹配，并且“得分”与“游戏得分”匹配。为了纠正该不匹配，用户可以选择如540所示的“积分”元素，拖放包括“xbox积分”元素的行中的元素。该动作的结果被提供在图6中。

图6是可以由可视创作系统100产生的可视创作界面600的屏幕截图。与图5的界面500类似，界面600包括源面板410、工作空间面板420和模式匹配面板510。这里，模式匹配面板通过在包括“xbox积分”元素的行中将“积分”元素拖放到由“得分”元素占据的位置中而产生。注意，“积分”元素在由“得分”元素所占据的点中的放置导致“得分”元素代替包括“游戏得分”的行中的“xbox积分”元素。现在表520被更新为反映导致所有模式元素匹配的新映射。因此，利用一个简单的姿势(即拖放)，不匹配被解决。随后，用户可以选择按钮530来接受该映射，并且启用由该作业进行的成功处理。

已经关于几个组件之间的交互描述了前述系统、架构、环境等。应当理解，这样的系统和组件可以包括其中指定的那些组件或子组件、所指定的组件或子组件中的一些组件或子组件、和/或附加组件。子组件也可以被实现为通信地耦合到其他组件而不是被包括在父组件内的组件。此外，一个或多个组件和/或子组件可以被组合成单个组件以提供聚合功能。系统、组件和/或子组件之间的通信可以根据推和/或拉模型来实现。组件还可以与为了简洁起见而未在本文中具体描述、但是本领域技术人员已知的一个或多个其它组件交互。

此外，上述公开的系统的各个部分以及下面的方法可以包括或采用人工智能、机器学习、或基于知识或规则的组件、子组件、过程、手段、方法或机制(例如，支持向量机、神经网络、专家系统、贝叶斯信念网络、模糊逻辑、数据融合引擎、分类器……)。这样的组件尤其可以使由此执行的某些机制或过程自动化，以使得系统和方法的一部分更具适应性以及高效和智能化。作为示例而非限制，学习组件330可以采用这样的机制来基于先前的交互和其他上下文信息来确定或推断不匹配或匹配。

鉴于上述示例性系统，可以参考图7-9的流程图更好地理解根据所公开的主题可以实现的方法。尽管出于简化解释的目的，方法被示出和描述为一系列的框，但是要理解和意识到，所要求保护的主题不受框的顺序的限制，因为一些框可以以不同的顺序发生和/或与本文所描绘和描述的其他框同时发生。此外，可以不需要所有示出的框来实现下文描述的方法。

参考图7，示出了检测和解决模式不匹配的方法700。在参考标记710处，接收指示数据集(例如，独立数据源、作业的输出……)到作业的连接的信号。在交互式图解创作环境中，在用户将数据集的表示连接到作业的表示时(例如通过绘制连接两者的线)，信号可以被生成并且随后被接收。

在接收到信号之后，模式元素匹配以及不匹配可以被确定。更具体地，将数据集模式的元素与作业模式的元素进行比较，作业模式描述针对向作业输入的数据的期望的模式。可以在元素的特征(例如，名称、类型……)之间进行比较，以尝试找到元素之间的最佳“匹配”或对应关系。具有高于阈值的置信度量(表达元素之间的对应关系的强度)的元素可以被分类为匹配。具有低于阈值的置信度度量的元素可以被分类为不匹配。换句话说，模式元素之间的匹配可以被执行为基于对应关系的强度来标识模式元素之间的最佳匹配，并且随后如果对应关系的强度小于用于匹配的预定阈值，则匹配可以被重新分类为不匹配。

在标记730处，不匹配和可选的匹配被显示。根据一个实施例，可以在工作空间的上下文中或者原地显示不匹配，使得用户不必将上下文或焦点从一个窗口切换到另一个窗口以查看流水线图和模式不匹配两者。根据具体实施例，可以以表格形式传送模式信息，其中第一列包括数据集模式的元素，第三列包括作业模式的元素，以及第一列和第三列之间的第二列指示元素是否匹配。此外，置信度度量可以被显示为具有基于各种因素指示匹配的强度的指示。

在参考标记740处，接收关于不匹配的改变输入。换句话说，接收与进行至少一个改变以补救不匹配相关联的信号。在一个实施例中，可以在交互式图形化用户界面中呈现模式不匹配，使得可以进行改变以解决不匹配。例如，用户可以将模式元素从第一位置拖放到与匹配相对应的第二位置。备选地，可以绘制线以连接匹配的模式元素。无论实现如何，用户都可以使用简单的姿势来执行模式匹配，例如在自动匹配未执行的情况下。这简化了模式匹配的过程，因为以对于用户自动的方式消除了大量工作。如果不匹配的问题存在，则可以将不匹配展示给用户进行解决。

图8描绘了模式匹配800的方法。在参考标记810处，接收，与数据集相关联的模式被接收、检索、或以其他方式获得或获取。如果可用，则数据集模式可以从源被获取。备选地，可以基于数据集的分析来自动确定或推断该模式。在标记820处，针对输入的作业模式被接收、检索、或以其他方式获得或获取。作业模式捕获针对向作业输入的数据的期望的模式。该模式可以从作业中被获取或者从作业中被自动确定或推断。在830处标识数据集模式和作业模式的匹配元素。模式定义数据的形状或结构，并且模式元素是模式的部分，其可以包括名称和类型等。匹配元素包括基于各种模式元素特征或特性(诸如元素名称)来在两个模式之间标识相同或相似的元素。相似性可以以各种不同的方式被测量，并且相似度可以变化。因此，可以建立阈值，其定义何时是匹配(诸如当相似度大于预定值时)。在参考标记840处，不匹配元素被标识。不匹配元素是不符合匹配存在的相似性或置信度的阈值的元素。因此，不符合预定阈值的匹配被标识为不匹配。

图9是对模式匹配进行分类的方法900的流程图。在参考标记910处，执行类型匹配。这里，包括相同数据类型的、例如来自数据集模式和作业模式的元素被确定。以这种方式，可以基于诸如字符串、数字、日期时间等数据类型来执行匹配的基本形式。在由图4和图5的屏幕截图示出的示例中，“积分”可能与“游戏得分”匹配，因为它们都具有类型号。

在标记920处，执行名称匹配。在这种情况下，分析来自两个模式的元素，以标识具有相同或相似名称的模式元素。同义词词典可以被创建并用于理解两个元素是否因为它们具有相同的名称或名称同义词而相关。在关于图4和图5的屏幕截图中，“xbox积分”是“积分”的同义词，并且“游戏得分”是“得分”的同义词。采用除类型匹配之外的名称匹配与仅采用类型匹配或名称匹配中的仅一种匹配相比提供更细粒度的匹配标识。

在参考标记930处，采用机器学习来辅助匹配。机器学习可以基于先前的交互来学习元素之间的关系。例如，如果用户先前与系统交互或以其他方式指示数据集的模式元素或字段“得分”映射到作业的模式元素或字段“游戏得分”，则这可以被记录并且随后当相同用户或不同用户寻求将数据源连接到作业时被利用。此外，学习组件可以概括事实，使得“得分”和“游戏得分”被解释为同义词，或者甚至进一步地使得包括“得分”的任何模式元素名称被视为同义词。

在参考标记940处，基于预定置信度阈值将元素分类为匹配或不匹配。更具体地，可以基于类型、名称或机器学习中的一项或多项来确定被指派给每组元素的置信度度量。例如，具有相同类型和相同名称的元素与元素仅共享类型或名称之一的情况相比将具有匹配存在的更高水平的置信度。此外，可以向共享类似但不相同的名称的元素指派小于名称相同的情况下的置信度度量的置信度度量。类似地，可以向共享相关或等同的数据类型而不是相同数据类型的元素指派小于被指派给相同类型的置信度度量的置信度度量。通常，可以为每个“匹配”元素集合指派置信度度量或得分。随后，可以基于预定的置信度阈值将元素集合分类为匹配或不匹配。例如，具有百分之七十(70％)或更大的置信度度量的元素对(意味着系统是百分之七十(70％)确定或更加确定匹配存在)可以被分类为匹配，而具有小于百分之七十的置信度度量的对将被分类为不匹配。换句话说，元素之间的匹配的强度决定了其被视为匹配还是不匹配。当然，其他分类是可能的，并且阈值可以改变。作为示例，元素对可以被指派指示置信度测量的颜色，包括其中置信度度量大于百分之八十(80％)的绿色，其中度量在百分之八十(80％)和百分之五十(50％)之间的黄色，以及其中度量小于百分之五十(50％)的红色。

作业与数据集连接以在数据集上执行变换。然而，数据集的模式与作业期望的架构之间通常存在差异。无法解决这些差异，作业执行可能会失败或产生错误的结果。这可以通过计算数据集和作业的模式元素之间的对应关系强度的度量来解决。然后，对应关系的强度可以与一个或多个预定阈值进行比较，以自动标识匹配以及不匹配。随后可以向用户通知模式不匹配。此外，提供了一种机制，以使得用户能够解决模式元素之间的不匹配。例如，用户可以通过与利用图形化用户界面呈现的模式元素的表示交互来正确地映射模式元素。作为结果，状态改变从不匹配模式生效为匹配模式。

主题公开支持执行或被配置为执行关于模式不匹配检测的各种动作的各种产品和过程。接下来是一个或多个示例性方法和系统。

一种方法包括在界面的第一部分中的显示器上呈现工作空间上的数据集的表示，该工作空间被配置为支持利用图表来创作流水线，其中流水线包括其中第一作业的输出可选地向第二作业提供输入的一个或多个相关作业的集合；响应于工作空间上的数据集的表示到作业的表示的连接来发起模式不匹配检测的执行；以及在界面的第二部分中的显示器上呈现数据集和作业之间的一个或多个模式不匹配的表示。该方法还包括通过将数据集的模式元素和作业的模式元素之间的对应关系强度的度量与预定阈值进行比较来执行模式不匹配检测。该方法还包括在显示器上在界面的第三部分中呈现数据集模式的一个或多个元素以及作业模式的一个或多个元素的表示。该方法还包括在接口的第三部分中的显示器上呈现数据集模式的一个或多个元素中的第一元素与来自作业模式的一个或多个元素的第二元素之间的对应关系强度的可视指示。该方法还包括基于对应关系强度与预定阈值的比较来呈现不匹配的可视指示。该方法还包括基于对应关系强度与预定阈值或不同预定阈值的比较来呈现匹配的可视指示。该方法还包括接收与关于界面的第二部分纠正一个或多个不匹配之一相关联的信号。该方法还包括接收选择不匹配的第一模式元素的信号，将第一模式元素从其原始位置拖动，以及将第一模式元素放置在由第二模式元素占据的目标位置中。该方法还包括将第二模式元素自动移动到第一模式元素的原始位置。

一种方法包括采用被配置为执行存储在存储器中的计算机可执行指令的至少一个处理器来执行以下动作：借助于图形化用户界面工作空间来检测输入数据集到作业的连接，图形化用户界面工作空间被配置为支持流水线的图解创作，流水线包括其中第一作业的输出可选地向第二作业提供输入的一个或多个相关作业的集合；通过将数据集和作业的模式元素之间的对应关系强度的度量与预定阈值进行比较来确定数据集和作业的模式元素之间的一个或多个不匹配；以及在工作空间的上下文中呈现一个或多个不匹配。该方法还包括基于数据类型或名称比较中的至少一个来确定模式元素之间的对应关系强度。该方法还包括基于对应关系强度与预定阈值或不同预定阈值的比较来标识输入数据集和作业的模式元素之间的一个或多个匹配。该方法还包括可视地区分匹配与不匹配。该方法还包括接收信号以将输入数据集的模式元素指派给作业的不同模式元素。所述方法还包括接收关于一个或多个不匹配之一的可视表示的模式元素的选择、拖动操作和放置操作。

系统包括耦合到存储器的处理器，该处理器被配置为执行存储在存储器中的以下计算机可执行组件：第一组件，被配置为呈现用于图解地创作流水线的可视工作空间，该流水线包括其中第一作业的输出可选地向第二作业提供输入的一个或多个相关作业的集合；第二组件，被配置为响应于工作空间上的数据集的表示到作业的表示的连接，基于数据集和作业的模式元素之间的对应关系强度的度量与预定阈值的比较，标识数据集和作业的模式元素之间的一个或多个模式不匹配；以及第三组件，被配置为呈现数据集和作业之间的一个或多个模式不匹配。第三组件还被配置为在工作空间的上下文中呈现不匹配。第二组件还被配置为至少基于模式元素的数据类型和名称来确定数据集的模式元素与作业的模式元素之间的对应关系强度。该系统还包括被配置为启用不匹配模式元素的图形化重新指派的第四组件。第四组件还被配置为支持与不匹配模式元素的可视表示的拖放交互。

系统包括耦合到存储器的处理器，该处理器被配置为执行存储在存储器中的以下计算机可执行组件：第一组件，被配置为借助于图形化用户界面工作空间来检测输入数据集到作业的连接，图形化用户界面工作空间被配置为支持流水线的图解创作，流水线包括其中第一作业的输出可选地向第二作业提供输入的一个或多个相关作业的集合；第二组件，被配置为通过将数据集和作业的模式元素之间的对应关系强度的度量与预定阈值进行比较来确定数据集和作业的模式元素之间的一个或多个不匹配；以及第三组件，被配置为在工作空间的上下文中呈现一个或多个不匹配。系统还包括被配置为基于数据类型或名称比较中的至少一个来确定模式元素之间的对应关系强度的组件。该系统还包括被配置为基于对应关系强度与预定阈值或不同预定阈值的比较来标识输入数据集和作业的模式元素之间的一个或多个匹配的组件。该系统还包括被配置为接收信号以将输入数据集的模式元素指派给作业的不同模式元素的组件。该系统还包括被配置为接收关于一个或多个不匹配之一的可视表示的模式元素的选择、拖动操作和放置操作的组件。

词语“示例性”或其各种形式在本文中用于意指充当示例、实例或说明。本文描述为“示例性”的任何方面或设计不一定被解释为比其他方面或设计优选或有利。此外，示例仅出于清楚和理解的目的而被提供，并且不旨在以任何方式限制或约束所要求保护的主题或本公开的相关部分。应当理解，各种范围的无数附加或备选示例可能已经被呈现，但是出于简洁的目的而已被省略。

如本文所使用的，术语“组件”和“系统”及其各种形式(例如，组件、系统、子系统……)旨在指代计算机相关的实体、硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于在处理器上运行的过程、处理器、对象、实例、可执行文件、执行的线程、程序和/或计算机。作为说明，在计算机上运行的应用和计算机两者都可以是组件。一个或多个组件可以驻留在过程和/或执行的线程内，并且组件可以被本地化在一个计算机上和/或分布在两个或更多个计算机之间。

在本说明书和所附权利要求书中使用的连接“或者”旨在意指示包含的“或者”而不是排他的“或者”，除非从上下文另行指示或明确。换句话说，“x”或者“y”旨在意指“x”和“y”的任何包含性排列。例如，如果“‘a’采用‘x’”、“‘a’采用‘y’”或者“‘a’采用‘x’和‘y’两者”，则在任何上述情况下，“‘a’采用‘x’或‘y’”被满足。

此外，在术语“包括”、“包含”、“具有”、“含有”或变体以其形式被用在详细描述或权利要求书中的意义上，以与术语“包括”当在权利要求中被用作过渡词时“包括”被解释的类似方式，这些术语旨在是包含性的。

为了提供用于所要求保护的主题的上下文，图10以及下面的讨论旨在提供其中可以实现主题的各个方面的合适环境的简要、通用的描述。然而，合适的环境仅仅是示例，并不旨在暗示对使用范围或功能的任何限制。

尽管可以在一个或多个计算机上运行的程序的计算机可执行指令的通用上下文中描述以上公开的系统和方法，但是本领域技术人员将认识到，这些方面也可以与其他程序模块等组合来被实现。通常，程序模块包括执行特定任务和/或实现特定抽象数据类型的例程、程序、组件、数据结构等。此外，本领域技术人员将理解，可以利用各种计算机系统配置来实施上述系统和方法，包括单处理器、多处理器或多核处理器计算机系统、微型计算设备、大型计算机以及个人计算机、手持计算设备(例如，个人数字助理(pda)、电话、手表……)、基于微处理器的或可编程消费者或工业电子设备等。方面也可以在分布式计算环境中实施，其中任务由通过通信网络链接的远程处理设备执行。然而，所要求保护的主题的一些(如果不是全部)方面可以在独立的计算机上实施。在分布式计算环境中，程序模块可以位于本地和远程存储器设备中的一个或两者中。

参考图10，示出了示例性通用计算机或计算设备1002(例如，台式计算机、膝上型计算机、平板、手表、服务器、手持、可编程消费者或工业电子设备、机顶盒、游戏系统、计算节点……)。计算机1002包括一个或多个处理器1020、存储器1030、系统总线1040、大容量存储设备1050和一个或多个接口组件1070。系统总线1040至少通信地耦合上述系统组成部分。然而，应当理解，以其最简单的形式，计算机1002可以包括耦合到存储器1030的一个或多个处理器1020，其执行各种计算机可执行动作、指令和或存储在存储器1030中的组件。

处理器1020可以利用通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其他可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件或被设计为执行本文所描述的功能的任何组合来实现。通用处理器可以是微处理器，但是备选地，处理器可以是任何处理器、控制器、微控制器或状态机。处理器1020也可以被实现为计算设备的组合，例如dsp和微处理器的组合、多个微处理器、多核处理器、与合dsp核心结合的一个或多个微处理器、或任何其他这样的配置。在一个实施例中，处理器可以是图形处理器。

计算机1002可以包括或以其他方式与各种计算机可读介质交互以促进计算机1002的控制来实现所要求保护的主题的一个或多个方面。计算机可读介质可以是可以由计算机1002访问的任何可用介质，并且包括易失性和非易失性介质，以及可拆卸和不可拆卸介质。计算机可读介质可以包括两种不同的和相互排斥的类型，即计算机存储介质和通信介质。

计算机存储介质包括以用于诸如计算机可读指令、数据结构、程序模块或其他数据的信息的存储的任何方法或技术实现的易失性和非易失性、可拆卸和不可拆卸介质。计算机存储介质包括存储设备，诸如存储器设备(例如，随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)……)、磁存储设备(例如，硬盘、软盘、磁带盒、磁带……)、光盘(例如，紧凑盘(cd)、数字多功能盘(dvd)……)、和固态设备(例如，固态硬盘(ssd)、闪存驱动器(例如，卡、棒、键驱动器……)……)、或者任何其他类似的介质，其存储(与传输或通信相对的)由计算机1002可访问的期望的信息。因此，计算机存储介质排除经调制的数据信号。

通信介质体现计算机可读指令、数据结构、程序模块或诸如载波或其它传输机制的经调制的数据信号中的其他数据，并且包括任何信息传递介质。术语“经调制的数据信号”是指以将信息编码在信号中的方式来使其特征中的一个或多个被设置或更改的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、rf、红外和其它无线介质的无线介质。

存储器1030和大容量存储设备1050是计算机可读存储介质的示例。取决于计算设备的确切配置和类型，存储器1030可以是易失性的(例如，ram)、非易失性(例如，rom，闪存……)或两者的某种组合。作为示例，包括用于把诸如在启动期间在计算机1002内的元件之间传送信息的基本例程的基本输入/输出系统(bios)可以被存储在非易失性存储器中，而易失性存储器可以充当外部高速缓存存储器，以促进处理器1020的处理等。

大容量存储设备1050包括用于相对于存储器1030存储大量数据的可拆卸/不可拆卸的、易失性/非易失性计算机存储介质。例如，大容量存储设备1050包括但不限于一个或多个设备，诸如磁盘或光盘驱动器、软盘驱动器、闪存、固态驱动器或记忆棒。

存储器1030和大容量存储设备1050可以包括操作系统1060、一个或多个应用1062、一个或多个程序模块1064和数据1066，或者使其存储于其中。操作系统1060作用为控制和分配计算机1002的资源。应用1062包括系统和应用软件中的一个或两者，并且可以通过程序模块1064和存储在存储器1030和/或大容量存储设备1050中的数据1066来利用操作系统1060对资源的管理以执行一个或多个动作。因此，应用1062可以根据由此提供的逻辑将通用计算机1002转换成专用机器。

所要求保护的主题的全部或部分可以使用标准编程和/或工程技术以产生软件、固件、硬件或其任何组合来实现，以控制计算机来实现所公开的功能。作为示例而非限制，可视创作系统100或其部分可以是应用1062的一部分，或构成应用1062的一部分，并且包括存储在存储器和/或大容量存储设备1050中的一个或多个模块1064和数据1066，其功能当由一个或多个处理器1020执行时可以被实现。

根据一个特定实施例，处理器1020可以对应于片上系统(soc)或类似体系结构，在单个集成电路基板上包括或换句话说集成硬件和软件。这里，处理器1020可以包括一个或多个处理器以及至少类似于处理器1020和存储器1030的存储器等。传统处理器包括最少量的硬件和软件，并广泛依赖于外部硬件和软件。相比之下，处理器的soc实现更加强大，因为它将硬件和软件嵌入其中，硬件和软件启用具有对外部硬件和软件的最小依赖或不依赖于外部硬件和软件的特定功能。例如，可视创作系统100和/或相关联的功能可以被嵌入在soc架构的硬件内。

计算机1002还包括通信地耦合到系统总线1040并促进与计算机1002的交互的一个或多个接口组件1070。作为示例，接口组件1070可以是端口(例如，串行、并行、pcmcia、usb、firewire……)或接口卡(例如，声音、视频……)等。在一个示例实现中，接口组件1070可以被体现为用户输入/输出接口，以使得用户能够通过一个或多个输入设备(例如，诸如鼠标的定点设备、轨迹球、触针、触摸板、键盘、麦克风、操纵杆、手柄、卫星天线、扫描仪、相机、其他计算机……)，例如借助于一个或多个姿势或语音输入将命令和信息输入到计算机1002中。在另一示例实现中，接口组件1070可以被体现为输出外围接口，以将输出供应到显示器(例如，lcd、led、等离子……)、扬声器、打印机和/或其它计算机。更进一步地，接口组件1070可以被体现为网络接口，以启用诸如通过有线或无线通信链路的与其他计算设备(未示出)的通信。

以上已经描述的内容包括所要求保护的主题的方面的示例。当然，出于描述所要求保护的主题的目的不可能描述组件或方法的每个可设想的组合，但是本领域普通技术人员可以认识到所公开的主题的许多进一步的组合和排列是可能的。因此，所公开的主题旨在涵盖落在所附权利要求的精神和范围内的所有这样的改变、修改和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：P·阿迪拉;C·斯托姆;A·J·配亚科克;A·内兹;C·科里斯
技术所有人：微软技术许可有限责任公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。