一种基于等价类的重复任务过程发现方法

文档序号:9396896阅读:145来源:国知局
一种基于等价类的重复任务过程发现方法
【技术领域】
[0001] 本发明涉及数据处理领域,更具体地,涉及一种基于等价类的重复任务过程发现 方法。
【背景技术】
[0002] 当前,基于分布式计算、物联网和服务计算等环境的各类信息系统,都存在大量记 录业务执行过程的日志数据。过程挖掘技术通过分析这些日志,发现有价值的知识,帮助改 进原有业务流程。过程发现是过程挖掘的核心技术,即如何从日志发现业务过程模型。通常 业务模型包括顺序、并行、选择、循环、非自由选择、隐含任务和重复任务等控制流结构。控 制流结构挖掘能力,即从事件日志中构造能描述活动执行关系的过程模型,是衡量过程发 现技术的核心指标。
[0003] 佩特网(Petri net)理论是过程发现技术生成模型的主流表示方法。工作流网 (Workflow Petri net,WF-net)是指用来表示过程模型的控制流维度的Petri net,控制流 维度是指支持业务过程建模的构造块,如顺序、选择、并行和循环等结构。当采用WF-net表 示一个业务过程模型,那么业务活动采用变迀、活动间的因果依赖关系采用库所和连接弧 表不。结构化工作流网(Structured Workflow Petri net,SWF-net)是 WF-net 的一个子 类。如果一个WF-net不是合理的SWF-net,那么过程模型可能不正确执行和不能准确反映 日志的事件序列。
[0004] 基于WF-net的方法通过拓展任务次序依赖关系来识别常见过程结构。可发现合 理的结构化WF-net (SWF-net)。WF-net算法一般分为提取、推导和构建阶段。重复任务是 指在过程模型中具有相同名称的不同变迀。现有重复任务发现方法研究多采用预处理、处 理中和处理后的方法,在预处理阶段提取和推导出任务次序依赖关系,识别重复任务,然后 对日志中的重复任务更名,处理中阶段采用WF-net算法构建WF-net模型,处理后阶段再恢 复重复任务原名称。
[0005] 现有技术中,李嘉菲提出的方法1是采用机器学习技术,通过比较给定任务的直 接前驱和后继任务表(P/S表),识别重复任务,算法可在包含顺序、并行、选择结构的日志 中发现重复任务,但不能处理包含短循环结构的日志。算法没有证明生成模型是SWF-net, 因此结果可能不合理。陈信敏提出方法2采用扩展方法来处理包含重复任务和非自由选择 结构的日志,但仍没有解决方法1的问题。顾春琴和叶小虎提出方法3和4,引入了包围任 务概念,认为被相同前驱和后继包围的轨迹序列中出现的任务都不是重复任务,虽然能识 别部分包含短循环结构的日志,但没有考虑同名任务出现在不同轨迹,且没有处理多个前 驱和后继的包围情况,算法正确性也没有证明。
[0006] 上述方法1不能解决包含短循环结构的重复任务识别问题,原因在于机器学习的 启发规则能力不足,此外由于没有采用形式化理论来表示生成模型,因此挖掘结果可能不 合理;方法2通过扩展启发规则来识别非自由选择结构,但仍没有解决方法1的不足;方法 3和4只能处理部分情形的短循环和重复任务发现问题,原因在于没有考虑重复任务出现 在不同执行轨迹的情形,且没有处理多个前驱和后继的包围情况。

【发明内容】

[0007] 本发明为克服上述现有技术所述的至少一种不足,提供一种基于等价类的重复任 务过程发现方法,可从包含顺序、并行、选择、短循环结构和重复任务的业务过程日志数据 中,发现正确、合理的业务过程模型。该方法具有解决较高的处理包含短循环结构、多前驱 后继和重复任务过程发现问题的能力,且该方法能保证挖掘结果是正确合理的。
[0008] 为解决上述技术问题,本发明的技术方案如下:
[0009] 实现本发明的技术思路是:通过扩展事件次序关系定义,提出等价类划分同一任 务子集的判定定理,在预处理阶段,通过把具有正确依赖次序关系的同名事件划分为同一 任务等价类子集,在处理中阶段采用短循环过程发现算法生成WF-net模型,在处理后阶段 对不同的同一任务子集重命名,以达到消除重复任务的目标。
[0010] 一种基于等价类的重复任务过程发现方法,读取标准的业务过程XES文件,采用 次序依赖关系定义和判定定理检测重复任务,输出采用WF-net表示的业务过程模型; [0011] 采用次序依赖关系定义和判定定理检测重复任务的具体过程如下:
[0012] (1)从XES日志W中提取任务集合T_W ;
[0013] (2)从XES日志W中提取首任务集合T_I和末任务集合T_0 ;
[0014] (3)根据次序依赖关系定义从T_W、Τ_Ι和Τ_0提取任务间的次序依赖关系;
[0015] (4)初始化多次任务集合Τ_Μ和T_C ;
[0016] (5)初始化重复任务日志W_D和任务集合T_D ;
[0017] (6)根据次序依赖关系定义建立同结构任务集合ST_D ;
[0018] (7)根据同一任务子集判定定理检测和更名重复任务,运行方法Discovery ;
[0019] (8)采用第三方过程发现方法构建WF-net模型;
[0020] (9)对WFnet _旲型恢复重复任务名称;
[0021] (10)结束;
[0022] 所述步骤(7)中方法Discovery的具体步骤如下:
[0023] (7. 1)读入重复任务日志W_D、任务集合1^)、多次任务集合T_M和同结构任务集合 ST_D ;
[0024] (7. 2) T_M中是否还有未检测任务t ;
[0025] (7· 2· 1)没有未检测任务t,跳转至步骤(7. 3);
[0026] (7.2.2)有未检测任务t,则建立未检测任务t的同名事件集合,并对每个同名事 件构建前驱/后继表,即P/S表;把P/S表的每个元素初始化为集合,选取任意两个集合,采 用同一任务集合判定定理进行比较,如果两个集合为同一任务集合则合并,直到不能合并 为止,结果保存至同一任务集合X ;如果X中的元素个数大于1个,说明存在重复任务,就对 W_D中,未检测任务t的同名事件进行更名操作;跳转至步骤(7. 2. 1);
[0027] (7. 3)输出新的日志W_D和任务集合T_D。
[0028] 与现有技术相比,本发明技术方案的有益效果是:
[0029] 与方法1和方法2相比,本发明采用的检测重复任务方法是依据同一任务判定定 理,这保证了挖掘得到的模型必定是正确合理的,而且当挖掘其他更复杂的结构时,只要引 入新的定理,那么方法的挖掘能力就能提高,而且挖掘结果的合理性得到保证,本方法的扩 展性更好;
[0030] 与方法3和方法4相比,本发明提出了包括短循环和并行结构的同结构定义,并提 出了非局部依赖关系和局部依赖关系的判定同一任务定理规则,可处理多个前驱和后继的 包围情况。
【附图说明】
[0031] 图1为实现为软件插件的系统模型示意图。
[0032] 图2为本发明的流程图。
[0033] 图3为本发明步骤中方法Discovery的流程图。
【具体实施方式】
[0034] 附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附 图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0035] 对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解 的。下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0036] 实现本发明的技术思路是:通过扩展事件次序关系定义,提出等价类划分同一任 务子集的判定定理,在预处理阶段,通过把具有
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1