数据流探索的制作方法_5

文档序号：9932628阅读：来源：国知局

个或多个注释。在一些实施例中，信息的提取或推导可包括计算该数据流的相关度量。一旦被计算，该度量可被包括作为与数据流有关的信息的一部分(也被称为"数据流信息"）。
[0141] 在框606,存储与数据流有关的信息。对于一些实施例，与数据流有关的信息可在框604中对数据流中的数据的预分析期间被生成。存储与数据流有关的信息可包括将信息存储在或者将信息保存在持久数据存储系统（诸如关系或非关系数据库系统（例如， PostgreSQL))、文件系统上的一个或多文件（例如，逗号分隔值[CSV]文件）、或者文档存储系统(例如，Etherpad或Wiki)中。持久数据存储可使用计算机可读介质来促进信息的存储。
[0142] -旦被存储，与数据流有关的信息可W促进后续的数据流分析、信息的导出（例如，导出到过程外部的第=方系统或服务）、或数据流处理的优化的方式来组织。例如，在各实施例中，高速缓存数据库表可被用于存储来自源数据库表中的数据流信息的整体或部分副本(例如，是与高速缓存数据库表相同的存储系统的一部分的其它数据库表）。高速缓存数据库表中的复制的数据流信息可按照改善数据流分析过程的各步骤的分析速度的方式重新组织，并且可在源数据库表被修改时自动重新编译。可由高速缓存数据库表改善的示例数据流分析过程包括与数据流分析结果的交互式可视化有关的那些过程。
[0143] 在框608,基于与数据流有关的信息来分析数据流。对于一些实施例，与数据流有关的信息可W是在框604处生成的并且在框606处存储的信息。取决于实施例，对与数据流有关的信息的分析可准许用户（例如，操作人员）或软件系统（例如，第=方软件系统)获得对数据源和数据客户端之间的数据流的详细理解。在各种实施例，分析与数据流有关的信息可包括:提供与数据流有关的信息(例如，原始或经格式化的形式)供用户查看;生成与数据流有关的信息的交互式或非交互式可视化(例如，Sank巧示图）；提供组织与数据流有关的信息的特征(例如，W标记来分组、概要统计、制表等）；基于与数据流有关的信息来标识数据流的数据模式（即，数据流模式检测、使用描述性统计，诸如平均值、方差等）；使用与数据流有关的信息来对数据流进行手动或自动标记；使用与数据流有关的信息来对数据流 (或数据流实体)进行注释(例如通过添加到信息）；W及使用脚本或命令行接口（CLI)来执行对与数据流有关的信息的分析。在基于与数据流有关的信息分析数据流时，分析可将信息视为所设及的与数据流有关的数据标记、注释、W及实体。在一些实施例中，数据流模式检测可包括检测周期/定期事件，诸如每当查询执行在一天中的时间重叠时变慢的查询的运行时间之间的相关性。
[0144] 在框610,呈现基于与数据流有关的信息来分析数据流的结果。对于一些实施例，所呈现的结果可通过对框608处的对与数据流有关的信息的分析来提供。如本文中进一步详细描述的，分析与数据流有关的信息可包括提供与数据流有关的信息供用户查看，或更具体地，生成与数据流有关的信息的交互式或非交互式可视化。相应地，在一些实施例中，呈现分析数据流的结果可包括向用户呈现与数据流有关的信息、或者呈现经生成的与数据流有关的信息的可视化供人类用户查看(例如，通过基于web的界面）。对于一些实施例，与数据流有关的信息的交互式可视化可使得用户能够查看(例如，从数据源到数据客户端的）数据流的可视表示并且与该可视表示交互。对于可视化的示例用户交互可包括对可视化中呈现的数据流的分组或过滤。通过运类用户交互，用户可例如根据电子邮件发件人或根据公司部口来对可视化中呈现的电子邮件数据流进行分组。在运样做时，用户可W能够确定特定电子邮件发件人或公司部口已发送了多少电子邮件(例如，在一给定时间段上）。
[0145] 在各实施例中，生成的可视化的呈现可通过呈现给用户的图形用户界面(GUI)来促进。另外，GUI可促进对于生成的可视化的探索和分析。取决于实施例，GUI可被实现为基于web的界面(例如，基于AJAX的界面）、独立应用的用户界面、或诸如此类。
[0146] 在框612,优化将来数据流的处理。在各实施例中，优化可基于与（累积的当前或过去的)数据流有关的信息的分析，运可在框608中执行。
[0147] 取决于实施例，可提供促进将信息导出到数据流分析过程600外部的过程的应用编程接口（API)。例如，通过外部分析脚本实现的外部过程可使用API来检索在框606存储的与数据流有关的信息。
[0148] 在框614,导出与数据流有关的信息。对于一些实施例，导出的信息可W是框606存储的信息。在一些实施例中，信息可被导出W供在数据流分析过程600外部使用。例如，与数据流有关的信息可被导出给数据流分析过程外部的软件(例如，第=方软件），用户可使用该软件W供附加分析或报告目的。另外，在一些实施例中，与数据流有关的信息的导出可包括W良好定义的格式(例如，CSV或XML文件)来提供信息，其中该格式可促进信息由独立于数据流分析过程600的过程使用。W此方式，数据流分析过程600可使信息可供各个查询引擎使用。
[0149] 在框616,导出分析数据流的结果。对于一些实施例，所导出的结果可W是在框608 处的对数据流的分析而生成的结果。在某些实施例中，结果的导出可包括导出在数据流的分析期间生成的可视化的(静态)副本。另外，在一些实施例中，结果的导出可包括生成或W 其它方式提供到结果的链接(例如，通用资源位址[URL])。运一链接可准许数据流分析过程 600外部或独立于数据流分析过程600的系统或过程能够访问该结果。例如，在结果W链接的形式导出的情况下，数据流分析过程600外部且独立于数据流分析过程600的基于web的 Wiki系统可将该链接包括在Wiki页面的内容中，或使用该链接来将结果的副本合并到Wiki 页面的内容中（例如，并入可视地表示在链接的结果中的数据流的屏幕截图的副本）。
[0150] 图7提供了为了可视化用作数据源的数据库表和用作数据客户端的数据库用户之间的多个数据库数据流而生成的Sankey示图716的屏幕截图700。取决于实施例，Sank巧示图716可被生成为数据流的静态可视化，或者被生成为用户交互式可视化，借此，用户交互可导致对Sankey示图716的动态改动。根据一些实施例，所描绘的Sankey示图可通过图5中描述的数据流可视化模块502来生成。
[0151] 如所示出的，Sank巧示图716包括表示数据库数据流的路径的线706和708, W及表示根据标记(例如，父标记或子标记）来分组的实体的节点710、712和714。具体来说，节点 710表示提供数据流的数据的数据库表的分组。该数据库表分组包括与"根据数据库类型"、 "根据Dev服务器"、W及"根据企业服务器"有关的父标记。节点712表示根据与生成该数据流的数据库查询相关联的标记来分组的数据流。线706a和708a代表来自根据与"根据数据库类型"标记有关的标记来分组的表的数据库数据流（W及数据库数据流动的量）。在线 706a代表与基于"根据性能"有关的标签被分组在一起的数据库查询相关联(例如，响应于其生成的)数据库数据流(W及数据库数据流动的量)的同时，线708a代表与基于"根据工作簿"有关的标签被分组在一起的数据库查询相关联(例如，响应于其生成的）数据库数据流 (W及数据库数据流动的量）。
[0152] 节点714表示接收来自数据流的数据的数据库用户的分组。线706b和708b代表去往根据与"根据部1'了'有关的标记来分组的数据库用户的数据库数据流（W及数据库数据流动的量）。在线706b代表与基于"根据性能"有关的标签被分组在一起的数据库查询相关联 (例如，响应于其生成的）数据库数据流（W及数据库数据流动的量）的同时，线708b代表与基于"根据工作簿"有关的标签被分组在一起的数据库查询相关联(例如，响应于其生成的）数据库数据流（W及数据库数据流动的量）。对于一些实施例，缺乏与任何标记的关联性的那些实体(例如，数据源、数据主题、或数据客户端）可在Sankey示图716中被分组为未标记 (例如，"未标记的表V味标记的查谢'、或"未标记的用户'）。
[0153] 如本文中描述的，线706和708的厚度可可视地提供与线706和708所表示的一个或多个数据流相关联的测量。在一些实施例中，厚度可与测量值成比例（例如，厚度随测量值增加而增加）。厚度所表示的测量的示例可包括但不限于执行计数、总执行时间、平均执行时间、标准偏差执行时间、返回的行的数量、返回的行的平均数量、返回的行的标准偏差数量、错误的数量、错误的平均数量、错误的标准偏差数量、数据大小、数据的平均大小、W及数据的标准偏差大小。系统可独立地向底层度量应用一类聚合或变形运算符(例如，平均值、标准偏差等），运取决于用户选择、配置、或其它手段。在其它实施例中，线的可视特性 (可包括厚度、样式、颜色、诸如此类)可用作为与线所表示的数据流有关的测量值的可视表 /J、- O
[0154] 在图7中，数据流探索客户端（例如104)处的用户可使用捜索栏702a、702b和702c 来捜索并选择与Sankey示图716有关的标记。具体来说，用户可使用捜索栏702a来执行对于标记的基于文本的捜索并从捜索结果中选择与数据库表有关的标记。类似地，用户可使用捜索栏70化来执行对于标记的基于文本的捜索并从捜索结果中选择与数据库查询有关的标记。同样，用户可使用捜索栏702c来执行对于标记的基于文本的捜索并从捜索结果中选择与数据库用户有关的标记。在一些实施例中，对于与一组实体(例如，所有数据库表、所有数据库查询、或所有数据库用户)有关的标记的选择可具有将Sankey示图716中所表示的不与被选择的标记相关联的那些实体滤除的效果（例如，调整节点和线W反映对实体的过滤）。当在Sankey示图716中选择了针对数据库表、数据库查询、或数据库用户的标记时，被选择的标记可分别被显示在基于标记的过滤器栏704a、704b和704c中。当还未针对一组实体(例如，数据库表、数据库查询、或数据库用户)选择标记时，对应的基于标记的过滤器栏 704可保持空白。另外，当已分别在不止一个实体分组中选择了标记时(例如，已为数据库表选择了标记并且已为数据库用户选择了另一标记），Sankey示图716可根据混合的标记选择描绘线和节点W反映数据流。例如，在图7中，Sank巧示图716反映了基于为每一个选择标记叮ableau"(例如，如基于标记的过滤器栏704a-704c所指示的）来对于数据库表、数据库查询、W及数据库用户中的每一个的过滤。
[0155] 在一些实施例中，用户可：（a)选择实体而非标记，运将可视化限制为仅与被选择的实体有关的数据流;或者(b)为每一个实体类型选择多个标记或实体，并且可制作指定运些多个被选择的标记或实体如何影响被可视化的数据流的布尔表达式：（例如，对于标记A、 B和C，用户可能希望将可视化的数据流限制为仅仅那些使得表达式A AND(B OR C)为真的数据流，或者使得表达式(NOT A)AND B为真的数据流）。当不止一个表达式被跨S个不同栏 704定义时，表达式的混合规范可确定Sankey示图716上显示的线和节点。在一些实施例中， Sankey示图716可通过选择显示或隐藏列(及其相关联的实体类型）来示出两个列。例如，数据库查询可被隐藏不被看到，并且数据流可被可视为将数据源直接连接到数据客户端。
[0156] 如本文中描述的，在一些实施例中，标记可根据标记分层结构来组织。在被选择的标记是标记分层结构的一部分的情况下，不与被选择的标记相关联的实体可被滤除出 Sankey示图716(例如，调整节点和线来反映对实体的过滤），并且被选择的标记可相对于与该被选择的标记相关联的实体分组(即没有被滤除的实体分组)而被展开。将被选择的标记相对于没有被滤除的实体分组展开可包括将该实体分组根据与被选择的标记相关联并由其展开的子标记划分成实体子分组。当运发生时，节点710、712和714根据当前选择的标记的子标记(运可被指示在基于标记的过滤器栏704a-c之一中）被调整W反映实体的子分组。
[0157] 在用户已选择了针对实体类型的多个标记/实体、并且制作了包括所述标记/实体的用于过滤被可视化的数据流的布尔表达式的情况下，用户还可指定那些标记中要处于它们的可视化的"顶部"的一个标记(例如，A、B或C)(例如，其子标记被显示为节点710、712或 714的标记）。如本文中描述的，对于用于可视化的顶部标记的选择可W不是对于被可视化的数据流的唯一过滤器。例如，如W上提到的，布尔表达式提供了一个附加过滤级别。例如，参考图8,用户可能正可视化"根据数据库类型"（顶部标记)的子标记，如屏幕截图800所示，并且额外地排除了所有"化class-vertica"流(在运种情况下，节点可从710中消失）。被用在运一示例中的示例布尔表达式将是"根据数据库类型"AND NOT"化class-vedica"。替代地，用户可排除"化class-vertica"和"化class-csv"数据流两者（在运种情况下，运些节点可都从710中消失）。示例布尔表达式将是根据"数据库类型"AND NOT("dbclass-vertica" OR"dbclass-csv")。此外，用户可仅包括"化class-excel"数据流(在运种情况下，所有其它节点可从710中消失）。示例布尔表达式将是"根据数据库类型"AND"dbclass-excer。
[0158] 为了说明，图8提供了当与标记分层结构相关联的特定标记被选择用于数据库表时的Sankey示图716的屏幕截图800。具体来说，屏幕截图800反映了当"根据数据库类型"标记被选择并（根据标记分层结构）展开成相关联的子标记"dbclass-postgres"、"^class-vertica"、"dbclass-sqlserver"、"dbclass-hadoophive"、"dbclass-mysql"、"dbclass-firebird"、"dbclass-excel"、"dbclass-csv"、"dbclass-dataengine"、"dbclass-msaccess"、W及"化class-msolap"时的Sankey示图716。如所示出的，基于标记的过滤器栏 704a被更新W反映对于"根据数据库类型"标记的选择。另外，表示数据库表的节点710被根据"根据数据库类型"标记的子标记来分组。另外，表示数据库表和数据库用户之间经过数据库查询的数据流的线也在Sankey示图716中被调整。
[0159] 图9提供了包括关于与数据库数据流有关的正则查询的详细测量的表(也被称为 "制表视图"）的屏幕截图900。根据一些实施例，所描绘的表可W是数据流制表模块504所生成的表。如本文中所描绘的，该表可W或可W不与数据流的另一可视化(例如，Sank巧示图）分开地呈现。在表W另一可视化呈现的情况下，表可与该另一可视化同步，使得呈现的信息与可视化中描绘的数据流相关或至少相关联。
[0160] 在一些实施例中，屏幕截图900中描绘的表可与Sankey示图（例如716)结合呈现。例如，数据流的表和Sankey示图可通过共同的web页面界面来呈现。当表连同Sankey示图一起被呈现时，他们各自显示的信息可从共同的数据流事务子集中推导出。该共同子集可W 受对过滤器和观察窗的选择影响。例如，用户可选择数据库数据流的子集(例如，与S化查询事务有关），使得被选择的子集中的每一个数据库数据流：（a)具有其查询的被标记为 "化class-sqlserver"或者其后代(诸如"化-ALP炉）中的任何一个的表中的至少一个；（b) 具有其相关联的被标记为"普通"的正则查询(其恰好不具有后代）；^及山）"构建者"，如其相关联的用户。通过对数据库数据流的子集的选择，制表视图和Sankey示图可用作数据库数据流的两个可视化。
[0161] 屏幕截图900中的表描绘了一个正则查询"SELECT FROM r化其已被标记了多个标记，其中有"Oil r和"Sheet 1"。对于运一特定数据集(其设及服务器中的数据库数据流），运些标记可意味着该正则查询是在创建名为"Oil r的上下文W及创建名为"Sheet r的图表时被遇到的。虽然该正则查询没有被示为被标记为"Variety_r即"Oil r的祖先标记(例如因为没有进行过运类直接标记），但是如果用户想要设置对于标记"Variety_r 的视图窗（例如，Sank巧示图716)，则该正则查询将仍然被包括在生成的流中，并因此被包括在正则查询的制表中，从而导致其行示出该组标记，如屏幕截图900中示出的。
[0162] 在一些实施例中，表可呈现与数据流有关的不同类型的信息。例如，在面向用户的视图中，表可概括被选择的子集中的所有数据流，运些数据流根据与那些数据流相关联的用户来分组。在另一示例中，在面向表/查询的视图中，表可概括被选择的子集中的所有数据流，运些数据流根据正则查询来分组。屏幕截图900中描绘的表描绘了面向查询的视图下的表的示例。在另一示例中，在面向错误的视图中，表可概括遇到错误的所有数据流，运些数据流根据错误码来分组。

完整全部详细技术资料下载

当前第5页1 2 3 4 5 6