量化数据质量的探试的制作方法_3

文档序号：9221676阅读：来源：国知局

-5:59PM之间所收集的数据可以被划分为15分钟时间片，在6:00PM-9:59PM之间所收集的数据可以被划分为10分钟时间片，以及在10:00PM-11:59PM之间所收集的数据可以被划分为30分钟时间片。在该示例中，时间片大小至少部分基于在一天中历史数据被收集的时间，并且随后在24小时的时段上时间片的大小是变化的。然而，要理解的是，时间片的大小可以基于特性的任何适当组合。例如，考虑历史数据304包括表示访问互联网服务的新用户的数据和表示双向通信事件的数据的情况。与访问互联网服务的新用户相关联的数据可以被划分为12小时时间片，而表示双向通信事件的数据可以针对双向通信事件的持续时间而被划分为I分钟时间片。因而，时间片模块306可以基于被分时间片的数据的一个或多个特性而将历史数据304分割为时间片，并且可以可替换地或附加地创建固定或变化大小的时间片。
[0032]探试计算模块308针对时间片模块306所生成的每一个时间片计算一个或多个探试。通过示例而非限制，可以计算任何适当类型的探试，诸如计数、求和、平均、基数、记录的实际测量的持续时间、记录组的平均测量的持续时间、柱状图等。另外，(多个)探试可以存储在任何适当的单元和/或格式中，诸如原始值、百分比值、归一化值等。在一些情形中，(多个)探试还可以基于与(多个)客户端的硬件和/或OS平台相关联的子类别等来划分和存储，诸如通过区域进行划分。可替换地或附加地，可以针对每一个时间片生成多个探试。在一些情形中，所生成的(多个)探试的类型可以基于所分析的数据的类型。例如，与追踪通过互联网服务的呼叫访问相关联的数据可能生成“服务访问计数”探试或“不同用户数目”探试，而与具体呼叫或具体用户相关联的数据可能生成“呼叫持续时间”探试和/或“用户呼叫计数”探试。
[0033]预报模型生成模块310基于探试计算模块308所生成的探试来生成一个或多个预报。通过示例而非限制，可以使用任何适当类型的预报模型，诸如Holt-Winters模型、高斯分类器模型、线性预测模型、移动平均模型、加权移动平均模型、外推模型、趋势估计模型等。生成(多个)预报之后，预报模型生成模块310可以将模型存储在模型贮藏室312中。出于说明性目的，模型贮藏室312被示出为驻留在数据探试引擎302内。然而，要了解和理解的是，模型贮藏室312可以驻留在数据探试引擎302的外部而不脱离所要求保护的主题的范围。例如，模型贮藏室312可以驻留在与数据探试引擎302分离的硬件上，并且数据探试引擎302的块(诸如模块310、318、320和/或322)可以被配置为将模块存储到外部硬件和/或从外部硬件提取模块。
[0034]一旦基于历史数据304所生成的(多个)预报已经被存储在模型贮藏室312中，数据探试引擎302就将(多个)预报与到来的数据314比较，如以下进一步讨论的。在一些实施例中，到来的数据314包括与历史数据304中所存储的类似的数据，其示例在上文描述。另外，到来的数据314可以由数据探试引擎302以任何适当的方式接收，诸如通过图1的通信云110和/或图2的云208。到来的数据314可以以任何适当的方式来接收，例如“实时”(当相关联的事件发生时)、以数据组，和/或通过询问数据库等来接收。例如，图1的最终用户终端102(a)可以被配置为在事件发生时将到来的数据314转发给托管数据探试引擎302的(多个)服务器104和/或将到来的数据314存储在数据探试引擎302外部的数据贮藏室中。因而，到来的数据314可以被直接传送给数据探试引擎302和/或从数据贮藏室询问。此处，图3图示了由数据探试引擎经由流处理模块316直接接收到来的数据314。为了进一步说明，考虑网络等待时间被监测的情况。基于历史数据，设定预期:对于8:00AM-10:00AM的时间，美国的网络业务量将具有200毫秒(msec.)的平均等待时间，其中标准计划误差为10%。要了解的是，这些值是出于讨论的目的，并且绝不意图限制所要求保护的主题的范围。通过实时监测到来的数据，相关联的网络业务量等待时间被测量为具有2秒的平均等待时间，其落在可接受的10%误差范围之外。如以下进一步讨论的，该监测机制可以被用来将从预期行为的偏离告知该感兴趣方。
[0035]在一个或多个实施例中，流处理模块316 “实时”捕获到来的数据314并且将数据存储在相关联的存储器中。尽管图3将流处理模块316图示为捕获到来的数据314，但是要了解的是，通过示例而非限制，数据可以以其它方式来捕获，诸如通过查询数据贮藏室。
[0036]时间片计数器模块318与流处理器模块316可操作地耦合并且被配置为将到来的数据314分离和/或分割成区段和/或块，诸如与上文参照时间片模块306和历史数据304所描述的那些类似的区段。在一些情形中，时间片计数器模块318可以基于与到来的数据314相关联的数据类型来确定(多个)区段大小，并且相应地改变(多个)区段大小。可替换地或附加地，(多个)区段大小可以基于与数据相关联的预报类型。例如，一些实施例可以从模型贮藏室312和/或存储在模型贮藏室312中的(多个)预报询问区段大小，并且使用该信息来设定或调整到来的数据314如何被时间片计数器模块318划分。这使得能够基于使用相同测量时间所生成的度量实现到来的数据314与(多个)预报之间的更均衡比较，如以下进一步描述的。
[0037]在划分到来的数据314之后，数据探试引擎302将当前到来的数据与诸如存储在模型贮藏室312中的一个或多个预报模型相比较。例如，在一些实施例中，时间片计数器模块318可以在当前到来的数据上生成一个或多个探试，诸如与由探试计算模块308所生成的那个类似的探试。在一些实施例中，时间片计数器318可以是与时间片模块306相同的模块。在其它实施例中，时间片计数器318是与时间片模块306分离的模块。可替换地或附加地，时间片计数器模块318可以将当前到来的数据发送给探试计算模块308以计算附加的探试。如上文的情形中，时间片计数器318可以以多个方式来划分到来的数据314(例如相同数据集可以针对要根据数据集生成的每一个探试以不同方式被划分若干次)。质量评分模块320表示施行到来的数据(和/或相关联的探试)与预报模型之间的这种比较、并且计算量化该比较的“预报质量度量”的功能性。通过示例的方式而非限制，质量评分模块320可以计算预报值与从到来的数据314所生成的值之间的变化值以作为两个值如何紧密地匹配的指示符。要了解和理解的是，可以使用其它类型的预报质量度量来量化该比较和/或(多个)预报而不脱离所要求保护的主题的范围，诸如差异百分比、偏差频率、标准偏差程度、与所利用的时间窗口相关联的时间序列、预报模块对实际数据的平均偏差、计算误差的高斯分布等。可替换地或附加地，可以在数据的不同范围和/或时间片上使用相同算法以作为测量算法的准确度的方式，和/或可以在不同预报模型上利用不同算法以确定哪个预报得出更准确的结果。在一些实施例中，预报质量度量可以与一个或多个阈值相比较。除其它之外，这可以自动化如何确定预报的质量。可替换地或附加地，质量评分模块320可以将评分过程的结果发布给一个或多个请求、订阅和/或接收队列。
[0038]如果用来量化预报的预报质量度量指示该预报在可接受的容限内是准确的，则一些实施例更新存储在模型贮藏室312中的(多个)预报模型，诸如通过使用模型更新器模块322。类似于预报模型生成模块310，模型更新器模块322从到来的数据314和/或一个或多个预报模型生成(多个)预报。在一些实施例中，模型更新器模块322可以通过相加/累积信息到存储在模型贮藏室312中的预报来基于现有模型进行构建。可替换地或附加地，模型更新器模块322利用最新生成的那些来代替和/或覆写存储在模型贮藏室312中的(多个)预报。然而，如果预报质量度量指示预报并不如期望那样准确，则数据探试引擎302可以以不同方式处理到来的数据。
[0039]考虑比较预报质量度量和一个或多个阈值的上述示例。在至少一个实施例中，多个阈值可以被用来标识状态类型，例如“绿”状态、“黄”状态和/或“红”状态。第一阈值可以被限定为指示可接受的误差容限和/或考虑预报模型具有产品和/或系统的(多个)准确预测行为的情况(诸如到来的数据小于预报的2%变化)。第二阈值可以被限定为指示警报或“黄”状态，即预报模型比“绿”状态较不准确但仍在可接受的容限内(诸如大于2%变化，但小于10%变化)。与“红”状态相关联的第三阈值可以被限定为指示预报模型与期望的相比要不准确得多(例如大于10%变化)。在“绿”状态的情形中，相关联的到来数据可以如上文所讨论那样进行处理。然而，在标识“黄”和/或“红”状态的情形中，一些实施例触发质量事件，诸如可以引起附加处理的质量事件324。
[0040]在一个或多个实施例中，质量事件324向(多个)感兴趣的用户生成潜在问题的告知和/或警报，该用户继而可以在早期阶段自动地和/或前摄地识别(多个)问题。例如，考虑创建柱状图的情况。基于过去的数据，生成预报，其预测30%用户将位于北美洲，和/或25%用户将使用特定O

完整全部详细技术资料下载

当前第3页1 2 3 4 5