使用窗口周期标识事件的时滞指标的制作方法

文档序号：11935295阅读：242来源：国知局

本发明涉及事件预测，更具体地说，涉及使用窗口周期标识事件的时滞指标。

背景技术：

事件预测是一种数据分析应用，其旨在基于分析历史和其它数据来预测未来事件。通常，频繁并且定期发生的事件比不频繁并且不定期发生的事件更容易预测。这是因为使用时间模式的传统关联规则挖掘不太可能预测此类不定期的事件。

技术实现要素：

根据本发明的第一方面，一种标识待预测事件的时滞指标的方法包括：接收包括因素指示的信息，所述因素是不同于所述待预测事件的事件；使用处理器标识其中所述事件与所述因素在统计上相关的窗口周期；在所述窗口周期的持续时间内收集数据，所述数据指示所述因素和所述事件的出现；以及基于分析所述数据，标识所述事件对所述因素的时滞依赖性。

根据本发明的第二方面，一种用于标识待预测事件的时滞指标的系统包括：输入接口，其被配置为接收包括因素指示的信息，所述因素是不同于所述待预测事件的事件；以及处理器，其被配置为：标识其中所述事件与所述因素在统计上相关的窗口周期；在所述窗口周期的持续时间内收集数据，所述数据指示所述因素和所述事件的出现；以及基于分析所述数据，标识所述事件对所述因素的时滞依赖性。

根据本发明的第三方面，一种计算机程序产品包括指令，当所述指令由处理器处理时，导致所述处理器实现一种标识待预测事件的时滞指标的方法。所述方法包括：接收包括因素指示的信息，所述因素是不同于所述待预测事件的事件；标识其中所述事件与所述因素在统计上相关的窗口周期；在所述窗口周期的持续时间内收集数据，所述数据指示所述因素和所述事件的出现；以及基于分析所述数据，标识所述事件对所述因素的时滞依赖性。

通过本发明的技术实现其它特性和优点。在此详细描述了本发明的其它实施例和方面，并且它们被视为要求保护的本发明的一部分。为了更好地理解本发明以及优点和特性，请参考说明书和附图。

附图说明

在说明书结尾处的权利要求中具体指出并明确要求保护了被视为本发明的主题。现在将仅通过实例的方式并参考附图描述本发明的优选实施例，这些附图是：

图1是根据本发明各实施例的用于基于标识时滞指标来执行事件预测的系统的框图；

图2是根据本发明各实施例的基于标识和使用窗口周期来标识事件的时滞指标的方法的过程流；

图3示出根据本发明各实施例的用于标识窗口周期的示例性数据集；

图4示出根据本发明的一个实施例的窗口周期；

图5示出根据本发明的另一个实施例的窗口周期；

图6示出根据本发明的一个实施例的用于在两个示例性候选因素中标识因素的样本表；以及

图7示出根据本发明的一个实施例的用于标识时滞依赖性的样本表。

具体实施方式

如上所述，不频繁并且不定期的事件可能难以预测。这些事件是随机的并且没有明显的时间模式。此外，它们的出现具有不确定性，并且通常取决于其它因素。因此，可以查找同现(co-occurrence)型关系的传统关联规则挖掘或相关性分析可能在预测不频繁并且不定期的事件方面是有限的。这些事件高度依赖于两种类型的模式，可以预先知道有关它们的信息。一种类型的模式是计时。例如，一盒黄油可能在购买一个月内过期，从而有助于预测何时将购买另一盒黄油。另一种类型的模式是与待预测事件相关的其它因素。例如，汽车被盗可能是与预测盗窃相关的因素，因为在盗窃中经常使用被盗汽车。如果仅使用同现或时间一致性建立关系，则因素可能与实际上与它们无关的事件关联。另一方面，可能未标识因素，尽管它们确实影响事件预测。发明人已发现，在窗口周期内准确地标识因素和事件之间的统计关系(同时减少假相关)。在此详述的系统和方法的各实施例涉及标识相关窗口周期以及使用该窗口周期标识时滞指标以便用于事件预测。即，各实施例详述了基于来自因素的时滞来开发事件预测公式，该因素是不同于感兴趣事件的与感兴趣事件相关的事件。

图1是根据本发明各实施例的用于基于标识时滞指标来执行事件预测的系统110的框图。系统110包括输入接口112以便从源130接收信息。信息可以以无线方式接收，或者可以通过网络120接收。信息可以包括现有知识、调查信息、或专业知识、历史事件信息或相关因素信息。信息指示或者可以用于标识感兴趣因素。如下面详述的，部分或全部信息用于标识其中可标识事件102与感兴趣因素(多个)103之间的统计相关性的窗口周期101。部分或全部信息然后用于标识时滞指标(应用于因素的规则)以便预测事件102。即，根据一个实施例，可以针对在接收的信息中标识为因素103的(已知)因素103，确定窗口周期101和时滞指标。根据另一个实施例，可以通过确定窗口周期101以及确定哪个候选因素103与事件最密切相关，尝试两个或更多(潜在)因素103。下面进一步讨论这两个实施例。部分或全部数据可以存储在系统110的一个或多个存储设备113中，以便由一个或多个处理器115在处理时使用。处理器115可以标识窗口周期101，以便在窗口周期101内收集样本数据并将样本数据存储在存储设备113中。处理器115还标识时滞依赖性，以便在存储设备113中构建知识库，存储设备113还可以维护实时事件102和实时相关因素103的数据库。输出接口117促进输出包括窗口周期101和时滞指标信息(事件预测规则)的数据以便进一步处理，或者基于处理器115的处理促进输出事件预测信息。输出可以通过显示器提供给操作者，或者以无线方式或通过网络传输到另一个系统。系统110的组件(112、113、115、117)可以通过公共总线共享数据，或者可以以其它方式互连。

图2是根据本发明各实施例的基于标识和使用窗口周期101来标识事件102的时滞指标的方法的过程流。在方框210，接收信息包括现有知识、调查信息、或专业知识、历史事件信息或相关因素信息中的任何或全部信息。现有知识包括有关事件102的信息和有关一个或多个潜在因素103的信息。调查信息和专业知识例如可以有助于选择候选因素103。历史事件信息和相关因素信息用于确定窗口周期101，如下面详述的那样。在方框210接收的信息还可以包括做出预测(在方框250)所需的当前或实时信息。如上所述，接收的信息(方框210)可以涉及两个实施例之一。

根据一个实施例，所述信息基于从源130接收的现有知识、调查、专业知识或其它信息，标识因素103。根据该实施例，针对(已知)因素103，在方框220确定窗口周期101(如下面详述的)。确定窗口周期之后，在方框230在窗口周期101内收集因素103和事件102的样本将促进分析(不执行在方框235的处理)。在方框240，该分析促进标识事件102对因素103的时滞依赖性(并且因此标识事件预测规则)。在方框250，预测事件102基于所标识的时滞依赖性(事件预测规则)以及有关因素103的历史或实时出现的信息(方框210)。即，根据一个实施例，可以根据历史可用数据进行验证。在一个备选实施例中，可以使用实时数据进行验证(即，向新出现的因素应用时滞依赖性)。实时验证的实用性可以更大或更小，具体取决于窗口周期101的持续时间(即，当窗口周期101相对长时，使用实时信息进行验证可能不切实际)。基于在方框260验证预测，在方框270补充信息包括补充与相关的因素103和事件102有关的知识库。

根据一个备选实施例，所述信息标识两个或更多候选因素103(或因素103的集合)。针对所有候选因素103，执行在方框220确定窗口周期101以及在方框230在窗口周期101内收集样本的过程。然后在方框235标识感兴趣因素103。在方框235标识因素103之后，在方框240标识时滞依赖性(和对应的事件预测规则)的过程以及后续过程(250-270)与上述实施例相同。下面详述每个过程。首先详述确定窗口周期101(方框220)。

图3示出根据本发明各实施例的用于标识窗口周期101的示例性数据集。示例性时间线310被示出具有(历史)事件102Y和因素103X的出现时间。如所指出的，给定事件102(例如，入室盗窃)的因素103(例如，汽车被盗)可以是已知因素103。此外，可以在时间线310上使用多个候选因素103。即，因素103X可以是多种类型的因素(例如，汽车被盗、枪支被盗)，它们可能潜在地与感兴趣事件102Y(例如，入室盗窃)相关。在图3中的时间线310上标记一组事件102Y1、Y2、Y3、Y4的出现时间(例如，四次入室盗窃的时间)，并且通过在事件102Y1和Y4之间散布的所有其它标记指示一个或多个因素103的出现时间(例如，十一次汽车被盗的时间或者七次汽车被盗和四次枪支被盗的时间)。将给定事件102Y和紧跟事件102之后的因素103X之间的时间间隔标记为GF，并且将给定事件102Y和紧接事件102之前的因素103X之间的时间间隔标记为GP。根据一个备选实施例，其中事件102具有硬结束(下面进一步描述)，给定事件102Y与因素103X和事件102Y之前的硬结束之间的时间间隔为GP。对于给定的一组事件102Y{Y1,Y2,…,Yi}和给定的一组因素103X{X1,X2,…,Xj}，GF和GP的总数为i-1(以事件Y开始和结束的持续时间内)。在图3所示的实例中，i为4，j为11，并且GF和GP的总数为i-1或3，如图所示。用于计算窗口周期101的a 104、b 105、c 106和d 107的值基于GF和GP的i-1值的汇总统计(假设正态分布)，如下所示：

Tyn和Tym是两个事件的出现时间，其中Tyn是后出现的事件。a 104、b 105、c 106和d 107中的每一个值都可以加上或减去标准偏差。可以根据现有知识确定标准偏差值。下面参考图4和5，针对两个不同实施例解释使用a 104、b 105、c 106和d 107确定窗口周期。

图4示出根据本发明的一个实施例的窗口周期101。根据图2中所示的实施例，没有c 106(没有硬结束，以便c＝0)，如下面进一步解释的那样。事件102之间的总时间周期(软开始到软结束)由d 107给出，如等式3指示的那样。如等式1指示的，事件102和紧跟之后的因素103之间的平均间隔或间距(平均GF)由a 104给出。因素103的出现开始是待计算值的窗口周期101。如等式2指示的，因素103和后续事件102之间的平均间隔或间距(平均GP)由b 105给出。因为使用可用历史数据计算a104、b 105和d 107的值(使用等式1、等式2、等式3，其中等式2提供b 105，其中没有c 106或c＝0)，所以可以根据以下等式计算窗口周期101：

d-(a+b) [等式4]

图5示出根据本发明的另一个实施例的窗口周期101。图5中所示的实施例包括持续时间c 105，其表示事件102的最后结束(硬结束)。例如，当待预测事件102是购买黄油时，先前购买的黄油的到期日期将提供c106。如图4中所示的实施例指示的，用作窗口周期101扩展的最后结束可能不适用于特定事件102。如有关图3的讨论中所指出的，当感兴趣事件102具有硬结束时，GP为b+c。在这种情况下，等式2提供b 105和c 106的和，并且窗口周期101由以下等式给出：

d-(a+b+c) [等式5]

已知窗口周期之后，从接收的信息(图2，方框210)中收集事件102和因素103出现的样本(图2，方框230)或者实时收集，以便分析和确定事件102对因素103的时滞依赖性(图2，方框240)，如下面详述的那样。根据一个实施例，在方框240确定时滞依赖性之前，从候选因素103之中选择因素103作为最密切相关的因素103。首先讨论该实施例。

图6示出根据本发明的一个实施例的用于在两个示例性候选因素103之中标识因素103的样本表610。图6示出根据所述实施例的在方框235的处理，其中在从源130接收的信息中标识多个(潜在)因素103。尽管出于解释目的在图6中示出两个候选因素103(因素1和因素2)，但可以考虑其它候选因素103(在方框220确定窗口周期101时以及在方框235的处理时，以便标识与感兴趣事件102最密切相关的候选因素103)。样本表610包括在三个窗口周期101-1、101-2、101-3内，感兴趣事件102以及候选因素103(因素1和因素2)的出现数量。窗口周期101之间的时间是间隔a 104。在求和表620中对候选因素103(因素1和因素2)的出现数量进行求和。求和表620指示在获得样本的窗口周期101内，第一候选因素103(因素1)比第二候选因素103(因素2)出现次数多。基于此，将第一候选因素103(因素1)标识为要用于预测事件102的因素103，因为它与事件102更密切相关。在图2中所示的过程流的该阶段(在完成方框235之后)，已标识窗口周期101，并且还标识单个因素103(无论从一开始知道因素103还是在方框235确定因素103)。接下来详述标识事件102对因素103的时滞依赖性(方框240)。

图7示出根据本发明的一个实施例的用于标识时滞依赖性的样本表710。当已知单个因素103与感兴趣事件102相关时，不生成图6中所示的样本表610和求和表620。但是，可以使用在样本表610中收集的样本确定时滞依赖性。出于解释目的，讨论与一个感兴趣因素103(例如，根据参考图6的讨论标识的因素103(因素1))关联的样本表710和相关性表720，而不是样本表610以及与样本表610和因素103(因素1)对应的相关性表。在图7中所示的实例中，假设窗口周期101为7天。因此，对于样本表710中指示的每个事件日期，示出在事件102的当天以及七天之前的每一天的因素103出现(由“1”指示)。基于样本表710中指示的因素103出现，生成相关性表720，其指示在实例中的七天窗口周期101的每一天，因素103和事件102之间的相关性。可以例如使用皮尔森R相关性来量化相关性，如图7中所示。在备选实施例中，可以使用另一种类型的相关性(例如，克拉默V相关性)。使用窗口周期101的相关性表720中指示的相关性之中的最高相关性来确定时滞依赖性。在此示例性情况中，因为七天的窗口周期101中的“5天前”指示最高相关性值，所以时滞依赖性被确定为五天。基于时滞指标(因素103出现)，事件预测由以下等式给出：

factor_occurrence+a+time_lag [等式6]

从因素103的出现时间，上面参考相关性表720讨论的持续时间a 104和时滞指示预测的事件102的出现。对于上面讨论的实例，事件102之前的五天导致因素103与事件102之间的最高相关性。因此，在此示例性情况中，等式6中的time_lag将为5。在确定窗口周期101(图2，方框220)的过程中，将使用等式1确定a 104的值。

在此使用的术语只是为了描述特定的实施例并且并非旨在作为本发明的限制。如在此使用的，单数形式“一”、“一个”和“该”旨在同样包括复数形式，除非上下文明确地另有所指。还将理解，当在此说明书中使用时，术语“包括”和/或“包含”指定了声明的特性、整数、步骤、操作、元素和/或组件的存在，但是并不排除多个其它特性、整数、步骤、操作、元素、组件和/或其组合的存在或增加。

下面权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它元件相组合地执行该功能的结构、材料或操作。出于示例和说明目的给出了对本发明的描述，但所述描述并非旨在是穷举的或是将本发明限于所公开的形式。在不偏离本发明的范围和精神的情况下，对于所属技术领域的普通技术人员来说许多修改和变化都将是显而易见的。实施例的选择和描述是为了最佳地解释本发明的原理和实际应用，并且当适合于所构想的特定使用时，使得所属技术领域的其它普通技术人员能够理解本发明的具有各种修改的各种实施例。

在此示出的流程图只是一个实例。在此描述的这些图或步骤(或操作)可以存在许多变化而不偏离本发明的精神。例如，可以按不同的顺序执行步骤，或者可以添加、删除或修改步骤。所有这些变化都被视为要求保护的本发明的一部分。

尽管描述了本发明的优选实施例，但所属技术领域的技术人员应该理解，可以在现在和将来进行各种落入下面权利要求范围的改进和增强。这些权利要求应该被解释为维护对最初描述的本发明的正确保护。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李莉;刘璇;董维山;马春洋;邢嵩华
技术所有人：国际商业机器公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。