一种基于ROUGE指标和LOF算法的业务流程不频繁行为挖掘方法

文档序号:37298274发布日期:2024-03-13 20:46阅读:13来源:国知局
一种基于ROUGE指标和LOF算法的业务流程不频繁行为挖掘方法

本发明涉及过程挖掘领域,具体涉及一种基于rouge指标和lof算法的业务流程不频繁行为挖掘方法。


背景技术:

1、业务流程是组织或企业的活动按照特定顺序和步骤进行描述和规范化的过程,旨在提高效率、控制成本和可持续发展。过程挖掘旨在从事件日志中提取有关业务流程的相关信息,以实现业务流程的发现、一致性和增强。过程挖掘从企业现有的系统日志中发现、监控和优化,提升企业的运行效能。传统的挖掘技术主要专注于挖掘事件日志中频繁出现的行为,旨在提取、分析和展示实际业务过程的主要执行情况和模式。为快速了解事件日志的整体信息,多数挖掘方法简单的将不频繁行为视为噪声去除,以降低模型的复杂性。然而,这样忽略了不频繁行为所包含的重要信息。

2、不频繁行为是指在整个事件日志中,频率较低且和多数活动差异较大的一连串活动。不频繁行为包含着重要的系统信息,反映了特殊的性质、隐藏的规律、潜在的风险等。在实际系统中这些行为可能是某些特定条件下才会执行的操作,也可能是突发性的事件。例如,在金融机构的贷款申请过程中,存在少数高风险获得贷款的实例。在大学职工差旅费用报销事件中,有一部分未成功报销的实例。进行不频繁行为挖掘,能够发现隐藏的业务机会和创新点,提升企业的竞争力和效益。不频繁行为包含着关键的系统信息和潜在的风险,忽略可能导致遗漏重要的业务机会或潜在问题。通过对不频繁行为进行挖掘和分析,可以发现其中蕴含未被发掘的关键信息,从而更好地理解业务运转的模式,并针对性地采取措施进行优化和改进。它弥补了传统数据挖掘技术关注频繁模式的局限性,为解决实际问题提供了更多可能。因此,对不频繁行为进行挖掘是很有必要的。

3、目前业务流程中不频繁行为挖掘方法可大致划分为四类:

4、(1)基于聚类的方法。将提取出的事件日志特征进行聚类分析,将相似的行为归为一类。对每条轨迹进行检查,根据设定的阈值,选择是否加入形成的簇中。聚类结束后未被加入簇中的行为,即为筛选出的不频繁行为。使用聚类检测不频繁行为可以应对多种不频繁行为类型和分布。聚类的效果受到参数设置的影响,参数不合适会导致挖掘结果不准确或不稳定。

5、(2)基于自动机的方法。首先将事件日志中的案例抽象为自动机。然后从自动机中筛选出不频繁的转换,从而筛选出不频繁行为。比如异常检测,欺诈检测等。建立一个抽象的过程中记录在日志中的行为作为一个自动机(有向图)。此自动机捕获日志中事件标签之间的直接跟随依赖关系,用于筛选出业务流程中的不频繁行为。这种方法可以有效地处理事件日志中的序列数据,也可以灵活地定义不频繁行为的条件和阈值。但是,需要设计合适的自动机结构和参数,需要人工干预或者先验知识。自动机在处理大规模数据时会面临状态爆炸问题,导致计算复杂度增加,挖掘模型的效率下降。

6、(3)基于依赖关系的方法。这种方法通过分析活动之间的依赖关系来识别不频繁行为,例如直接依赖、间接依赖、长距离依赖等。然后根据依赖关系的强度或类型来过滤不频繁行为。文中提出了一种基于频繁模式和数据依赖关系的有效不频繁行为识别方法。对于每个子序列和其后继活动,计算条件依赖概率。即在特定数据依赖条件下,该子序列直接后继该活动的概率。基于依赖关系进行不频繁行为检测,可以更好地反映流程的逻辑结构。但也存在一些缺点,如依赖关系难以量化、过滤可能忽略重要因果关系、保留可能导致模型冗余等。

7、(4)基于统计学的方法。一种统计学方法是基于假设检验的方法。首先,将给定的事件日志转换为相关矩阵,记录每对直接后继事件的出现次数。对于每对事件,根据用户指定的参数,进行单侧二项式检验,判断它们是否应该被视为不频繁行为。可以识别不频繁行为的异常值或显著性差异,有助于理解不频繁行为的模式和规律。但同时统计学方法通常基于一定的假设或模型,如果数据不符合假设或模型,会导致结果不准确。


技术实现思路

1、针对现有技术存在的问题,本发明提供了一种基于rouge指标和lof算法的业务流程不频繁行为挖掘方法。

2、本发明采用以下的技术方案:

3、一种基于rouge指标和lof算法的业务流程不频繁行为挖掘方法,包括以下步骤:

4、步骤1:获取数据集data,从数据集data中获取事件日志l,事件日志l中包括多个轨迹数据和轨迹数据对应的发生频率及轨迹长度。

5、步骤2:根据事件日志l计算轨迹数据的距离矩阵。

6、步骤3:对轨迹数据的距离矩阵的每一列进行升序排列,找出每个轨迹数据的第x个最近的点,两者之间距离称为临近距离,记录在数组x_distances中。

7、步骤4:获得每个轨迹数据的可达性矩阵。

8、步骤5:对于每个轨迹数据,计算其x个最近邻轨迹数据的局部可达密度。

9、步骤6:计算每个轨迹数据的lof值。

10、步骤7:设定一个阈值t,每个轨迹数据的lof值与阈值比较,判断轨迹数据是否为不频繁行为。

11、优选地,步骤2具体包括以下步骤:

12、步骤2.1:调用相似度计算函数getrougescore()计算任意两条轨迹数据i和j之间的距离。

13、具体过程为:

14、步骤2.1.1:计算两条轨迹数据i和j的相似度指标rouge-n得分,以及rouge-l得分,具体公式为:

15、

16、其中,l表示一个事件日志数据集;i表示事件日志集中一条轨迹;gramn代表轨迹中n个连续活动的序列;∑countmatch(gramn)表示在i和j两条轨迹中同时出现gramn的个数,gount(gramn)表示轨迹i中出现gramn的个数;公式(1)中n取1为rouge-1得分,n取2为rouge-2得分。

17、rouge-l得分的计算公式为:

18、

19、

20、

21、其中,i和j分别表示两条轨迹;|i|和|j|分别表示轨迹i和j的长度;slcs用于计算两条轨迹中相同的最长子序列;β是一个超参数;rlcs和plcs分别表示最长公共子序列的召回率和准确率;rouge-l指标通过将rlcs和plcs综合考虑,从而评估两条轨迹间的相似度。

22、步骤2.1.2:计算两条轨迹数据i和j间相似度getrougescore(i,j),计算公式为:

23、getrougescore(i,j)=rouge_1*w1+rouge_2*w2+rouge_l*w3    (5)。

24、其中,w1、w2和w3均为权重。

25、步骤2.1.3:计算轨迹数据i和j之间的距离distances[i,j]。

26、distances[i,j]=1-getrougecore(i,j)          (6)。

27、步骤2.2:重复步骤2.1,计算得到所有轨迹数据间的距离,得到轨迹数据的距离矩阵。

28、优选地,步骤4具体包括以下步骤:

29、步骤4.1:对于轨迹数据i,找出轨迹数据i的x个最近邻轨迹数据j。

30、步骤4.2:得到轨迹数据i的第x个近邻距离x_distances[j],计算轨迹数据i与x个最近邻轨迹数据j的可达距离reach_dist,公式为。

31、reach_dist=max(x_distances[j],distances[i,j])           (7)。

32、步骤4.3:计算得到所有轨迹数据的可达距离,形成可达性矩阵reachability_matrix。

33、优选地,步骤5具体包括:

34、对于轨迹数据i,计算其与x个最近邻轨迹数据的局部可达密度local_reachability_density,公式为:

35、

36、其中,freqi为轨迹数据i的发生频率,reachability_matrix,axis=1表示可达性矩阵reachability_matrix按照列计算。

37、优选地,步骤6具体包括:

38、对于轨迹数据i,轨迹数据的lof值计算公式为:

39、

40、其中,local_reachability_density[j]表示轨迹数据i的x个最近邻轨迹数据j的局部可达密度,表示轨迹数据i的x个最近邻轨迹数据的局部可达密度的平均值。

41、优选地,步骤7具体包括:

42、若一个轨迹数据的lof值大于等于阈值t,则该轨迹数据为不频繁行为轨迹;若一个轨迹数据的lof值小于阈值t,则该轨迹数据为频繁行为轨迹。

43、本发明具有的有益效果是:

44、本发明提出的一种基于rouge指标和lof算法的业务流程不频繁行为挖掘方法,从事件日志中提取事件轨迹、频率和标签等信息,并借鉴机器翻译领域的评估指标rouge作为轨迹之间的相似度度量指标,通过改进的lof算法来挖掘不频繁行为。该方法综合考虑了局部密度、频率信息和轨迹之间的相似性。通过使用真实的事件数据评估,并与聚类中的两种方法进行比较实验。实验结果表明,该方法能够快速处理海量事件日志,从中准确地识别出不频繁行为,提供可靠的不频繁行为挖掘结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1