一种规律挖掘和执行系统及其方法

文档序号:6336903阅读:136来源:国知局
专利名称:一种规律挖掘和执行系统及其方法
技术领域
本发明所谈及的规律挖掘和执行系统及其方法,尤其适用于金融交易复杂事件 潜在风险行为规律挖掘与识别,能够从存在多维量化属性、海量交易数据、风险行为模 式隐蔽等诸多场景发现规律、提取规则,进而对正在进行的事件进行规则匹配。
背景技术
通常,事件流被设置为存在一定关系的一系列的先后发生的事件集合。在事件 流中往往会呈现一种规律,如在典型的金融交易往往包含交易类型、账户、交易时间、 交易前验事件等元素,一次交易被理解为一次事件,往往在N个具有一定特征的事件先 后发生后会加剧随后发生事件的风险度等指标。目前,大多数商业产品或开源工具处理这种场景往往采用RETE算法作为其核 心算法。规律在软件中往往被表示为规则,在不可否认RETE算法在规则执行领域经典 地位的同时,RETE算法存在一定的缺点,首先RETE算法使用了 β存储区存储已计算 的中间结果,以空间换取时间,从而加快系统的速度。然而β存储区根据规则的条件与 事实的数目而成指数级增长,所以当规则与事实很多时,会耗尽系统资源,这样负载是 否会令服务器崩溃将会成为一个隐患,基于JAVA编写的处理算法中GC的运行具有不可 控性也会导致程序失去响应,使程序吞吐量瞬间下滑;此外,对于RETE算法而言大部 分的condition需要是不变的,也就是说基本信息需要保持稳定不变,而大部分现存基于 RETE算法的商业产品或开源工具采用xml配置或规则语言进行设置,这无疑进一步加剧 了规则的自学习能力的缺失;最后在算法实现上,事实的删除与事实的添加顺序相同, 除了要执行与事实添加相同的计算外,还需要执行查找,开销很高。现有技术的金融交易处理的基本步骤如图1所示。现行的商业产品一般思路为通过AI技术学习规则后,然后用RETE算法执行规 则,也就是说规则的学习和执行采用了两个解决方案,在设计上仅仅是对已有经典算法 的调用从而形成的商业解决方案,两者之间存在一定的隔离,没有一种统一的设计思想 融汇其中,这样就导致了规则生成后,为了让规则执行引擎执行,需要额外再加一层, 给软件带来了不必要的复杂性,该层负责将规则描述为RETE算法的执行引擎能够识别 的一种形式,这样无疑增加了系统的编写成本、维护成本,在增加系统复杂度的同时也 造成了系统资源的浪费,综上规则学习和执行隔离的算法存在效率和执行上的损耗。 如果能在规则产生的同时就能生成规则执行引擎就能理解的算法将在众多方面提高效 率,因此一种有别于RETE算法的新型算法亟待出现。

发明内容
本发明的规律挖掘和执行系统避开RETE算法及其定义语言,建立一套全新的 复杂事件规律提取和匹配执行方法。为存在多维量化属性的简单事件提供一种挖掘K 维风险规律识别机制,为复杂事件提供基于自动机相似度模型同时触发多规则的处理机制,为即将发生的事件提供实时风险预估等商业服务。为了实现上述发明目标,本系统 提供了一套根据数据库中的交易数据检索出风险行为规律并能根据提取出的规律对实时 交易进行风险评估的方法。本系统中所指的规则是指提取出现风险事件的规律,这种规律在软件中抽象为 规则,当待验事件再度表现出类似的规律,在软件中即表现为匹配某一种或某几种规 则,本系统将会智能的分析其与已有规则的相似度,进而得出风险值。整个系统的主要模块如图4所示。本发明的金融交易复杂事件潜在风险规律挖 掘和执行系统包括五个模块1事件识别模块;2事件元素编码、量化数据离散化模块;3规律提取模块;其包括3.1简单事件规律提取子模块;3.2复杂事件规律提取子模块;3.3习惯行为识别模块4规则库及维护模块;5规则匹配模块;其包括5.1简单事件规则匹配子模块;5.2复杂事件规则匹配子模块;5.3习惯行为判定模块。其中,模块1:所述“事件识别模块”,本模块输入为历史交易数据和当前执 行事件,输出为输入事件的类别及其事件对象或对象集。本模块对交易数据库中或即 将到来的事件进行定性分类,本系统中事件种类分为三类,1.简单事件;2.复杂事件; 3.习惯事件。简单事件为该事件通过向历史交易数据库进行采集时未能获得滑动窗口机 制所要求的事件数目或未能取得完整的语意上下文的事件,简单的说就是与该事件相关 联的历史事件不足即较孤立的事件称为简单事件;复杂事件是能够按照滑动窗口的要求 生成完整的语意上下文,并能构建DFA(Deterministic Finite Automation)的基本事件集, 即有序列的基本事件集合。需要说明的是,在本系统中首先要取出在历史交易数据库中 已被定义为风险事件,然后以该事件为终点,逆时间序取出与该事件同账户的某时间额 度或数量额度内的相关交易,能够构成完整上下文的事件集合称为复杂事件。在本系统 中简单事件及复杂事件的最末事件为历史数据库中已被认定为风险的事件。习惯事件为 该账户在历史交易中所表现出的一种共性行为。另外需要说明的是基本事件,其为历史 数据中的一次交易。一般来说简单事件是一个基本事件,而一个基本事件可能为一个简 单事件,也可能为复杂事件中的一个组成元素。模块2:所述“事件元素编码、量化数据离散化模块”,本模块的输入为所述 事件识别模块的对象或对象集,输出为输入对应的二进制字符串。本模块采用本系统特 有编码方式“基于编辑距离的差异编码”(编辑距离,又称Levenshtein距离,是指两 个字符串之间,由一个转成另一个所需的最少编辑操作次数),为配合该种编码方式,本 系统提出了一种编码方式,称为“编辑编码”,该编码的思想是在现实世界中相邻的属 性值经过该种编码后所生成的二进制串之间的编辑距离也相邻,现实世界中逻辑距离为N的两属性值经编码后其对应的二进制串编辑距离也为N。除将属性进行编码外,本模 块还负责将量化的数据进行离散化,也就是对连续的属性值进行分段标记。模块3:所述“规律提取模块”,共包括两个子模块简单事件规律提取模块 和复杂事件规律提取模块模块3.1 简单事件规律提取模块针对历史数据库中的被标记为风险的简单事件 进行的规律发现。其目的为发现在风险简单事件中各属性值的出现情况,简言之即为对 属性值的频繁项集挖掘。主要通过采用基于优化(矩阵化)的FP树(Frequent-Pattern Tree, 一种已存在的针对Apriori算法在频繁项集挖掘时提出的优化方法)的Apriori算法 (一种已存在的在频繁项集挖掘领域的经典算法)对风险事件样本学习来产生规则,该 方法避免了大量候选项的产生,减少了内存的使用,提高了执行效率,经测试较原生的 Apriori算法执行时间降低了一个数量级。模块3.2:复杂事件规律提取模块针对蕴含时间逻辑的历史事件序列,发现前后 事件之间的逻辑关系及属性值变化,进而挖掘规律,并经进一步编码后形成含有通配符 的规律二进制串。复杂事件的终点事件是已经被识别的风险事件。针对该模块系统提出 了全新的算法自动机逆向老化构建算法(如图11所示),它能够按照自动机理论,首 先利用最末事件构建自动机终点,然后向前发现自动机始点,并对事件属性进行编辑编 码,进而形成事件的编码,然后通过对比前后事件相应属性位,并判断各属性的重要程 度,最终得出前后事件的逻辑关系,从而完成了对事件集(复杂事件)的二进制编码。同时该复杂事件还能针对某些属性位产生差异编码,即能够逆向跟踪某属性位 的属性值变化的轨迹,根据差异生成编码,如地域位等。历史数据库中将会记录最终事 件,该模块是本系统重点介绍的一块模块。需要说明的是,对于同交易类型的二进制编 码串中各属性位的位置是固定的。本子模块是发明的核心内容之一。模块4:所述“规 则库及维护模块”,分为简单事件规则库维护和复杂事件规则库维护。前者主要负责对 在历史交易库中有风险的简单事件进行频繁项集挖掘后,对结果的整理和维护。本模块 的主要部分在复杂事件规则库的维护上,即对已有针对复杂事件的规则的数量求精和精 度合并。随着时间的积累,规则会越来越多,数据库中记录将会越来越多,为避免规则 蕴含和规则重合现象的产生,本模块在新规则存到规则库之前通过与已有规则的对比来 决定新规则对规则库产生的影响和定期根据某规则被执行的情况及其误判率(后验事件 检验)来修正规则库。前者主要流程如图5所示,其中需要说明的是计算与既有规则的类 欧氏距离(本系统在欧式距离基础上赋予各标量不同影响系数),是通过计算同类型下每 个相应属性位之间的编辑距离,再依据属性位在二进制串中的位置将会产生基于编辑距 离的向量,继而计算新规则与已有规则之间的欧式距离。另外需说明4.规则维护部分, 由于本系统中产生的规则二进制串含有通配符,因此即使与已有规则类欧氏距离小于阈 值可能只是部分匹配,此处在实践中发现该种情况往往是已有规则蕴含规则的情况,每 条规则的最终目标是单一化影响属性,如果某条规则对应的二进制串在匹配过程中某几 个属性位往往同时出现或仅仅匹配某一个属性位,则表明其他属性位可能对结果而言所 占权重较小,将会调整对属性位的权重,即每个属性对应的影响因子,当足够小时将会 在该属性位用通配符代替之,从而精化影响属性位。在规则执行模块中,每个复杂事件 在执行之前会匹配已有规则,然后将会根据规则将会给出风险值,通过对比该风险值和该事件实际的结果进行规则修正。这样能够使规则的预估与实际的执行结果产生比较, 进而修正规则预估值、影响属性,甚至能够删除某些规则。模块5:所述“规则匹配模块”共包括两个子模块,简单事件规则匹配模块和 复杂事件规则匹配模块。规则匹配作用是对正在发生的事件进行风险预估。模块5.1:简单事件规则匹配模块较简单,当前事件如果被判定为简单事件,则 会与规则库中简单事件规则(风险频繁项集)进行对比,根据当前事件的属性值与频繁项 集的匹配程度,给出风险预估。模块5.2:复杂事件规则匹配模块是本系统的核心模块,其作用在于根据风险事 件规则对当前事件给出风险预估。首先本系统取滑动窗口范围内的同账户事件形成事件 集,当前事件作为事件集最终事件,根据自动机逆向老化构建算法,生成当前事件对应 的复杂事件的二进制编码。然后再与已有规则进行匹配,该过程亦从事件编码终点开始 与规则终点开始,逆向匹配已有规则。再根据本系统提出的自动机相似度距离算法,该 算法通过计算二进制串对应属性位而生成差异向量,根据此向量及向量各值权重能够计 算出一种二字符串之间的类欧式距离,最终能够求解与已有规则的距离,进而得到阈值 距离范围内的匹配规则集,该规则集为当前事件所触发规则集合,亦称为冲突规则集。 在判断每条规则对当前事件产生的影响时,系统提出了一种多维影响度衰减模型,该数 学模型经试验证明,它能够很好的模拟某影响随前文中提到的距离而衰减的程度,并在 需预估风险的事件处产生叠加效果的数学模型,该模型妥善的处理了某事件同时触发多 条规则情形。本子模块是本发明的核心模块之一。特别说明,本系统中还有一类特殊的事件,称为习惯事件。此事件是针对账户 的,也就是说该行为规则是特有的,而不像简单事件、复杂事件的行为规则是共有的, 因此不具备普适性。而且习惯行为规则是确认无风险的,称安全规则。而其他两种规 则是预估风险度的,也成为风险规则。习惯事件的规则挖掘类似于复杂事件规则挖掘, 也是取出某用户滑动窗口内的多个事件,形成事件集,通过逆向自动机构建算法,能够 发现事件集中各事件的类似程度,前文中提及的基于差异的编辑编码,当连续发生某一 阈值数量内的多个相似的无风险的事件时将会被系统识别成该用户的习惯事件。进行规 则匹配时,会首先判断当前行为是否为习惯事件,若为用户首次或前几次匹配该习惯行 为,仍会继续进行风险规则匹配,但会降低风险预估。如果某习惯行为经匹配过多次, 且经事后验证确无风险,则认定该习惯行为挖掘正确,此时再次匹配习惯行为后系统将 会认定为安全,直接转向无风险,如图10所示。需要说明的是,通过本发明的规律挖掘和执行系统,在实际实现时不仅能够挖 掘历史事件的规律形成规则,用户还能够指定具有特定或差异属性事件序列而直接制定 规则。其中核心模块为模块2 (事件元素编码、量化数据离散化模块)、模块3.2 (复杂 事件规律提取子模块)和模块5.2 (复杂事件规则匹配子模块),此亦为本系统中重点描述 对象。它包含了自动机逆向老化构建算法、自动机相似度距离计算、复杂事件多规则冲 突解决算法等本系统中的主要思想。本发明的金融交易复杂事件潜在风险规律挖掘和执行方法包括如下步骤步骤(1)对历史事件中已被标记为风险的事件按其与前验事件的关系进行分类,进而识别复杂事件;如果风险事件和与之相关的前验事件集能够组合成为具有一定 差异变化或集合大小大于某阈值则该事件集形成复杂事件;步骤(2)对所述步骤(1)中提取的复杂事件的每个事件进行编码,进而将事 件集编码成为有序的编码集,在加入操作符之后完成复杂事件的粗粒度编码;在进行挖 掘规律之前首先检验该事件是否与已有规则匹配,如果匹配程度高则转向规则库维护模 块,对与之匹配的规则进行精度修正、关键属性精化等操作;否则转向步骤(3);步骤(3)根据所述步骤(2)中的粗编码进一步精化该串,将其规则化,包括对 事件间操作符的界定、关键属性的取舍、前后事件间关键属性的属性值的通配替换、自 动机起点确定,在该步骤中也会记录某一状态自循环的次数。该过程由模块3.2结合本发 明提出的核心算法之一自动机逆向老化构建算法实现,该条规则对应的复杂度为末次事 件(即已被认定为风险的时候)的风险值。该过程中也会记录某一状态自循环的次数;每条规则还能根据对应属性位属性值上的变化进行差异编码,如地域位等,事 件终点中地域A编码为0000,逆向构建时发生第一次地域位改变时编码为0001,即针对 变化的编码。当自动机构建完成后该复杂事件被识别为一段二进制编码,至此历史数据 库中复杂事件对应的规则挖掘完成。步骤(4)系统正常运行时,将会监听新事件的到达,并判断当前事件与历史 事件能否构成复杂事件;当新事件到达时,系统将当前事件作为终点事件,然后向历史 数据库进行查询操作,如果能够形成事件集并能被识别为复杂事件则转向下一步;当前 事件与邻近事件存在属性值差异或事件集容量大于某一阈值且当前事件非习惯事件时, 则识别为复杂事件;步骤(5)对据当前事件所形成的复杂事件进行编码;当前事件作为复杂事件 终点,逆向构造当前复杂事件对应的二进制编码;步骤(6)根据所述步骤(5)中构造的二进制串与现有规则库进行匹配;通过复 杂事件规则匹配子模块完成基于自动机相似度规则距离量化,同时触发多规则时多维影 响度计算等相对复杂的操作。经过上述计算后,系统将会给调用者返回风险值,至此当 前事件的规则匹配完成。用户可以根据此风险值确定相关行为,如阻断交易、追加认证 或信任放行等操作。其中,在所述步骤(1)中设置用于获取事件流上下文的事件模型,包括首先,本系统以账户为对象,形成针对某账户的事件集合,对于每个事件的表 示为 E=(Eid,EType, ACCID, Ecode),其中Eid 用来唯一标示事件的id,相当于数据库中的主键;EType 统一的用来标示该事件所属类型,一个事件类型包含多个事件实例,本 系统的挖掘都是基于交易类型的,因此所有的行为模式识别都是在EType维度上进行规 约的。一个事件类型对应的事件属性序列是统一的;ACCID 为账户id,由于本系统进行复杂事件处理时,正在进行的事件与前验 事件的关系的建立通过本标示来实现,即通过该属性来确定当前事件的上下文;Ecode 每个事件包含很多个能够刻画对象特征发生网络地址、位置、时间、交 易金额等数据,这些信息应该按照预定的顺序被记录在E中。但是由于数据格式的不一致性,某些属性值的不可穷举性,因此需要一个特有模块对事件的各个关键属性进行编 码,该过程包含属性的裁剪精化等功能,将能够影响结果的属性数最小化。对于事件编 码,根据各个事件的影响属性数值规约,然后进行顺序编码,若为非关键影响属性位或 涵盖属性值以“?”占位。设置状态(标示为事件)之间转换的操作符,其中包括逻辑操作符设置一且操作符(Π ),为二元运算符。El Π Ε2(Ε1、Ε2为简单事件,DFA 中标记为状态)表示El、Ε2都发生的复杂事件,无时序;设置二 或操作符(U ),为二元运算符。El U Ε2表示El、Ε2至少一个发生 的复杂事件,无时序;时间操作符设置三时序运算符(一),为二元运算符。El—Ε2表示El发生后Ε2才发 生复杂事件;设置四时限运算符(δ ),与其他运算符结合使用。El δ (T) — Ε2表示El发 生后在T时间内Ε2也发生复杂事件。做完如上设置之后,需对历史交易数据库中的事件进行分类,首先提取有风险 的历史事件,逆时间序向前提取同账户事件,如果能够形成有上下文语意的事件集,即 复杂事件,作为下一个步骤的输入。若未能生成事件集那么则构成有风险的简单事件。本系统中蕴含的算法可在包含复杂事件的系统中,不仅局限于金融系统,能够 智能挖掘发现复杂事件规律,并对即将发生的事件进行规则匹配,并合理的给出一个评 估值。


参考附图可以更好的理解本系统,这些附图只是用于示例,而并不是对本系统 的限制,其中图1所示为现有技术金融交易发生的一般性流程。图2所示为本发明在业务流程中发生作用的部位;图3所示为本系统的载体程序部署图;图4所示为系统主要模块及数据流程;图5所示为提取复杂事件规则中逻辑流程;图6是图4的细化,所示为系统的全貌;图7所示为系统对于复杂事件规律的挖掘和规则匹配的过程;图8所示为从历史样本中学习规则的一般性步骤的视图;图9所示为复杂事件如何进行规律规则化的处理流程的描述性视图;图10所示为当发生新事件时,本系统进行规则执行的一般流程;图11所示为本系统的核心算法之一自动机逆向老化构建算法的流程图;图12所示为对实时复杂事件规则执行;图13所示为影响度曲线应当表现出的一般性趋势;图14所示为本系统所采用的数学模型其曲线的拟合程度;
图15所示为本系统的另一核心算法多维影响强度衰减的数学模型。
具体实施例方式本系统针对事件流的规律挖掘和执行需要上下文信息的特殊需求,提出了一种 用于复杂处理机制来从历史固化事件中获取和分析上下文的算法和系统。在本系统中用户的每次交易被理解为一次事件,事件包含事件属性。按发生 时间区分事件分为两种,一种是已经固化到数据中的历史事件,另一种是正在进行中事 件,前一类主要作为挖掘规则的学习样本,后者是监控的对象,利用已经学习到的规则 对实时事件进行风险度评估等操作。按事件与历史事件的关系划分又可以划分为两种, 一种是简单事件和复杂事件。前者是指与历史事件关系较少,不能形成完整语意的孤立 事件,复杂事件是指当前事件与历史事件有前后关系的事件集合。约定以账户为对象,形成针对某账户的事件集合,对于每个事件的表示为E = (Eid, EType, ACCID, Ecode),其中Eid 用来唯一标示事件的id,相当于数据库中的主键;EType 统一的用来标示该事件所属类型,一个事件类型包含多个事件实例,本 系统的挖掘都是基于交易类型的,因此所有的行为模式识别都是在EType维度上进行规 约的。一个事件类型对应的事件属性序列是统一的;ACCID 为账户id,由于本系统进行复杂事件处理时,正在进行的事件与前验 事件的关系的建立通过本标示来实现,即通过该属性来确定当前事件的上下文;Ecode 每个事件包含很多个能够刻画对象特征发生网络地址、位置、时间、交 易金额等数据,这些信息应该按照预定的顺序被记录在E中其次,设置了状态(标示为事件)之间转换的操作符,其中包括逻辑操作符设置一且操作符(η ),为二元运算符。El η Ε2(Ε1、Ε2为简单事件,DFA 中标记为状态)表示El、E2都发生的复杂事件,无时序;设置二 或操作符(U ),为二元运算符。El U E2表示El、E2至少一个发生 的复杂事件,无时序;时间操作符设置三时序运算符(一),为二元运算符。El — E2表示El发生后E2才发 生复杂事件;设置四时限运算符(δ ),与其他运算符结合使用。El δ (T) — Ε2表示El发 生后在T时间内Ε2也发生复杂事件。为配合系统实施共将系统分为5个模块如图4所示。1事件识别模块;2事件元素编码、量化数据离散化模块;3规律提取模块;其包括3.1简单事件规律提取子模块;3.2复杂事件规律提取子模块;3.3习惯行为识别模块
4规则库及维护模块;5规则匹配模块;其包括5.1简单事件规则匹配子模块;5.2复杂事件规则匹配子模块;5.3习惯行为判定模块。本系统实施步骤如下步骤 (1)对历史事件中已被标记为风险的事件按其与前验事件的关系进行分 类,进而识别复杂事件;如果风险事件和与之相关的前验事件集能够组合成为具有一定 差异变化或集合大小大于某阈值则该事件集形成复杂事件;步骤(2)=对所述步骤(1)中提取的复杂事件的每个事件进行编码,进而将事 件集编码成为有序的编码集,在加入操作符之后完成复杂事件的粗粒度编码;在进行挖 掘规律之前首先检验该事件是否与已有规则匹配,如果匹配程度高则转向规则库维护模 块,对与之匹配的规则进行精度修正、关键属性精化等操作;否则转向步骤(3);此处的匹配程度是通过程序中的自动机相似度距离算法实现的,该算法描述如 下自动机相似度距离算法该算法作用于模块4规则库及维护模块中挖掘出的新规则与已有规则进行合并 及求精过程中,及模块5.2复杂事件规则匹配子模块中计算对当前事件能够产生影响的规 则有哪些。该算法具体步骤如下首先在其使用域的上下文中,本算法用来比较规则对应的二进制字符串之 间或复杂事件对应的二进制串之间的距离计算。本算法在进行两二进制字符串距离计 算时,分两种情况运算符相似度和事件相似度。如前所述,两二进制串的比较自串 尾开始,逆向对比,当较短串所代表的事件集比对结束后,本次匹配结束。由于每个 事件编码对应位置所代表的属性值是相同的,因此首先应得到对应属性位上的差异, 继而得出事件操作符的差异度,最终得出两二进制串的距离。因此首先应该对字符串 中每个事件进行针对属性值的切割,最终形成事件属性向量。举例来说,某复杂事件 El 对应编码为 0000001100010000,00000001,0000001100001011。其中第一个事件为 0000001100010000,其中每四位代表一个事件属性,依次为支付方式,时间,地点,金 额该事件,对应的属性向量为ElV1 (0000,0011,0001,0000)。相同方式完成对第二个 事件的向量转化,即E1V2(0000,0011,0000, 1011),最终完成对整个复杂事件中所有 事件的编码工作。与之相比较的二进制串所标记的规则E2 (0001001100010000,0000 ? 1,0001001100001111)亦类似完成转化,假设经编码后其向量为E2V: (0001,0011, 0001,0000),E2V2 (0001, 0011,0000,1111)。其次通过如下公式
Dis(EltEI)
权利要求
1.一种规律挖掘和执行系统,其特征在于所述系统包括五个模块事件识别模块;事件元素编码、量化数据离散化模块;规律提取模块;规则库及维护模块;规则匹配模块;其中,所述规律提取模块还包括三个子模块简单事件规律提取子模块、复杂事件 规律提取子模块、习惯行为识别模块。
2.如权利要求1所述的规律挖掘和执行系统,其中,所述事件识别模块的输入,为历 史交易数据和当前执行事件,输出为输入事件的类别及其事件对象或对象集;所述事件识别模块对交易数据库中或即将到来的事件进行定性分类,分为三类简 单事件、复杂事件、习惯事件。
3.如权利要求1所述的规律挖掘和执行系统,其中,所述事件元素编码、量化数据离 散化模块,其输入为所述事件识别模块的对象或对象集,输出为输入对应的二进制字符 串;所述事件元素编码、量化数据离散化模块使用特有编码方式基于编辑距离的差异 编码;除将属性进行编码外,该模块还负责将量化的数据进行离散化,也就是对连续的 属性值进行分段标记。
4.如权利要求1所述的规律挖掘和执行系统,其中,所述简单事件规律提取模块,通 过采用基于优化的FP树的Apriori算法对风险事件样本学习来产生规则,针对历史数据库 中的被标记为风险的简单事件进行的规律发现,其目的为发现在风险简单事件中各属性 值的出现情况,即为对属性值的频繁项集挖掘。
5.如权利要求1所述的规律挖掘和执行系统,其中,所述复杂事件规律提取模块,针 对蕴含时间逻辑的历史事件序列,发现前后事件之间的逻辑关系及属性值变化,进而挖 掘规律,并经进一步编码后形成代表规则的含有通配符的规律二进制串,所述规则是规 律提取后的表示形式。所述复杂事件规律提取模块采用自动机逆向老化构建算法,能够按照自动机理论, 首先利用最末事件构建自动机终点,然后向前发现自动机始点,并对事件属性进行编辑 编码,进而形成事件的编码,然后通过对比前后事件相应属性位或属性位的属性值,并 判断各属性的重要程度及属性值之间的涵盖程度,最终得出前后事件的逻辑关系,完成 通配替换后完成对事件集的二进制编码。同时,所述复杂事件规律提取模块还能针对某些属性位产生差异编码,即能够逆向 跟踪某属性位的属性值变化的轨迹,根据差异生成编码,历史数据库中将会记录最终事 件。
6.如权利要求1所述的规律挖掘和执行系统,其中,所述规则库及维护模块,执行简 单事件规则库维护和复杂事件规则库维护;执行简单事件规则库维护,主要负责对在历 史交易库中有风险的简单事件进行频繁项集挖掘后,对结果的整理和维护;执行复杂事 件规则库,是对已有针对复杂事件的规则的数量求精和精度合并;随着时间的积累,规则会越来越多,数据库中记录将会越来越多,为避免规则蕴含和规则重合现象的产生,所述规则库及维护模块,在新规则存到规则库之前通过与已有 规则的对比来决定新规则对规则库产生的影响和定期根据某规则被执行的情况及其误判 率来修正规则库;其中,在决定新规则对规则库产生的影响时,是通过计算同类型下每个相应属性位 之间的编辑距离,再依据属性位在二进制串中的位置将会产生基于编辑距离的向量,继 而计算新规则与已有规则之间的含影响系数的欧式距离。
7.如权利要求1所述的规律挖掘和执行系统,其中,所述规则匹配模块包括三个子模 块简单事件规则匹配子模块、复杂事件规则匹配子模块、习惯行为判定模块;
8.如权利要求7所述的规律挖掘和执行系统,其中,所述简单事件规则匹配模块,当 前事件如果被判定为简单事件,则会与规则库中简单事件规则进行对比,根据当前事件 的属性值与频繁项集的匹配程度,给出风险预估;所述复杂事件规则匹配模块,根据风险事件规则对当前事件给出风险预估;首先取 滑动窗口范围内的同账户事件形成事件集,当前事件作为事件集最终事件,根据自动机 逆向老化构建算法,生成当前事件对应的复杂事件的二进制编码;然后再与已有规则进 行匹配,从事件编码终点开始与规则终点开始,逆向匹配已有规则;再根据本系统提出 的自动机相似度距离算法,该算法通过计算二进制串对应属性位而生成差异向量,根据 此向量及向量各值权重能够计算出一种二字符串之间的类欧式距离,最终能够求解与已 有规则的距离,进而得到阈值距离范围内的匹配规则集,该规则集为当前事件所触发规 则集合,即冲突规则集。
9.一种通过如权利要求1-8之一的规律挖掘和执行系统,进行规律挖掘和执行方法, 其特征在于包含以下步骤步骤(1)对历史事件中已被标记为风险的事件按其与前验事件的关系进行分类, 进而识别复杂事件;如果风险事件和与之相关的前验事件集能够组合成为具有一定差异 变化或集合大小大于某阈值则该事件集形成复杂事件;步骤(2)对所述步骤(1)中提取的复杂事件的每个事件进行编码,进而将事件集编 码成为有序的编码集,在加入操作符之后完成复杂事件的粗粒度编码;在进行挖掘规律 之前首先检验该事件是否与已有规则匹配,如果匹配程度高则转向规则库维护模块,对 与之匹配的规则进行精度修正、关键属性精化等操作;否则转向步骤(3);步骤(3)根据所述步骤(2)中的粗编码进一步精化该串,将其规则化,包括对事件 间操作符的界定、关键属性的取舍、前后事件间关键属性的属性值的通配替换、自动机 起点确定,在该步骤中也会记录某一状态自循环的次数;步骤(4)系统正常运行时,将会监听新事件的到达,并判断当前事件与历史事件 能否构成复杂事件;当新事件到达时,系统将当前事件作为终点事件,然后向历史数据 库进行查询操作,如果能够形成事件集并能被识别为复杂事件则转向下一步;当前事件 与邻近事件存在属性值差异或事件集容量大于某一阈值且当前事件非习惯事件时,则识 别为复杂事件;步骤(5)对据当前事件所形成的复杂事件进行编码;当前事件作为复杂事件终 点,逆向构造当前复杂事件对应的二进制编码;步骤(6)根据所述步骤(5)中构造的二进制串与现有规则库进行匹配;通过复杂事件规则匹配子模块完成基于自动机相似度规则距离量化,同时触发多规则时多维影响度 计算等相对复杂的操作。
10.如权利要求9所述的潜在风险规律挖掘和执行方法,其中,在所述步骤(1)中设 置用于获取事件流上下文的事件模型,进一步包括如下步骤步骤A),本系统以账户为对象,形成针对某账户的事件集合,对于每个事件的表示 为 E= (Eid, EType, ACCID, Ecode),其中Eid用来唯一标示事件的id,相当于数据库中的主键;EType 统一的用来标示该事件所属类型,一个事件类型包含多个事件实例,本系 统的挖掘都是基于交易类型的,因此所有的行为模式识别都是在EType维度上进行规约 的;一个事件类型对应的事件属性序列是统一的;ACCID 为账户id,由于本系统进行复杂事件处理时,正在进行的事件与前验事件 的关系的建立通过本标示来实现,即通过该属性来确定当前事件的上下文;Ecode 每个事件包含很多个能够刻画对象特征发生网络地址、位置、时间、交易 金额等数据,这些信息应该按照合理的方式被记录在E中;但是由于数据格式的不一致 性,需要对事件的各个关键属性进行编码,包含属性的裁剪精化,将能够影响结果的属 性数最小化;对于事件编码,根据各个事件的影响属性数值规约,然后进行顺序编码, 若为非影响属性位或涵盖属性值以“?”占位;步骤B),设置状态(标示为事件)之间转换的操作符,其中包括逻辑操作符 设置一且操作符(η ),为二元运算符。Ε1ΠΕ2(Ε1、Ε2为简单事件,DFA中 标记为状态)表示El、Ε2都发生的复杂事件,无时序;设置二 或操作符(U ),为二元运算符。El U Ε2表示El、Ε2至少一个发生的复 杂事件,无时序; 时间操作符设置三时序运算符(一),为二元运算符。El—Ε2表示El发生后Ε2才发生复 杂事件;设置四时限运算符(S),与其他运算符结合使用。El δ (T) —Ε2表示El发生后 在T时间内Ε2也发生复杂事件。步骤C),对历史交易数据库中的事件进行分类,首先提取有风险的历史事件,逆时 间序向前提取同账户事件,如果能够形成有上下文语意的事件集,即复杂事件,作为下 一个步骤的输入;若未能生成事件集那么则构成有风险的简单事件。
全文摘要
一种金融交易复杂事件潜在风险规律挖掘和执行系统,其特征在于所述系统包括五个模块事件识别模块;事件元素编码、量化数据离散化模块;规律提取模块;规则库及维护模块;规则匹配模块。
文档编号G06F17/30GK102012918SQ201010560989
公开日2011年4月13日 申请日期2010年11月26日 优先权日2010年11月26日
发明者张行, 张鑫, 王凯玺, 王志伟 申请人:中金金融认证中心有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1