发现带有噪声的模式的系统和方法

文档序号:6355438阅读:178来源:国知局
专利名称:发现带有噪声的模式的系统和方法
技术领域
本发明涉及发现长项序列中的有效模式,并且更具体地涉及一种识别带有噪声的序列中的有效模式的系统和方法。
背景技术
随着存储和使用大量数据,发现并理解大的数据集中的有效模式变为更加重要。在许多新领域中以及在现有技术的许多新应用中,有效模式的发现更为重要。在R.Agrawal等的“Mining association rules between sets ofitems in Large database”(Proc.ACM SIGMOD Conf.onManagement of Data,207-216,1993)文章中提出把对模式的支持(出现次数)看成是有效性的度量。如Agrawal等人的文中所讨论那样,输入是一组事务,每个事务包含一组项。一组项的有效性是通过含有该组项的事务数量确定的。
由于存在噪声,一个符号可能由一些其它符号错误表示。这种替代可能阻止识别出某模式的出现,并且接着大大降低对该模式的支持。从而,噪声可能“掩盖”常见的模式。这种现象普遍地存在于许多应用中。
例如,在生物医学研究中,氨基酸的突变是生物环境中研究的普遍现象。某些突变被证明在常规环境是按不可忽略概率出现的并且对生物体的生物功能产生很小的改变。例如人体内的氨基酸N可能由于对行为很小影响突变到D。在这种意义下,不应把这些氨基酸看成是完全独立的。
在性能分析领域中,许多系统监视应用涉及收集并分析取连续数值的属性。一种处理数据的常见方法是把域量化成多个分类。如果某属性的真值接近量化边界,观测值落入相邻的分类中并用一个不同的标记表示的可能性相当大。希望在数据挖掘处理中能够考虑到这种类型的失真。例如,在消费者行为中,消费者在超市中常常因为各种原因,例如所需产品缺货或错放,消费者常常购买和他们所希望的略微不同的产品和牌子。项目匹配中模糊能揭露出消费者的真实购买意图。
当模式为很长,时该问题成为关键性问题,因为长模式的出现更会由噪声引起失真。通常,如果把氨基酸作为分析的粒度,基因表达式的长度可高达数百个链。一些临床研究表明,氨基酸N、K和V分别相对地更可能突变到D、R和I。突变后的对应基因表达式可能和标准表达式不同。把它们看成该标准表达式的可能(退化)出现要比把它们当成完全独立的基因表达式更为合理。

发明内容
从而,需要一种在考虑噪声影响下发现有效模式的系统和方法。还需要一种新的说明发现有效模式中的数据的突变或者自然发生变化的度量标准。
一种用于确定数据序列中的模式的系统和方法建立一个相容性矩阵,该矩阵提供一个项目的实际出现和在该数据序列的每个项目中该项目或者其它项目的观测出现之间的概率。生成候选模式。这些候选模式包含该数据序列中的项目。对照该数据序列检验这些候选模式以便根据该相容性矩阵确定匹配值,并且根据带有超过一阈值的匹配值的候选模式组确定各有效匹配。
在替代的系统和方法中,项目可以包括符号并且可以构建相容性矩阵,包括构建一个确定数据序列中的任何二个符号之间的匹配的矩阵。该相容性矩阵可包括行和列并且该相容性矩阵中各个条目和一个行及一个列对应。二个项目之间的匹配值可包括0和1之间的数。
可对照该数据序列检验各候选模式以便根据该相容性矩阵确定匹配值。对于一个模式P和一个符号序列S,这可包括通过相对于S中每个带有1个符号的子序列S′聚集P确定P相对于S的总匹配值。该确定P相对于S的总匹配值可包括通过取该数据序列的每个位置处的符号之间的匹配值的乘积确定P和S′之间的匹配值。
可以通过试验或专家见解确定一个项目的实际出现的概率。项目可包括符号,并且可利用层次法产生候选模式,该方法中在每一层上对候选模式中考虑的符号总数量添加一个附加的符号。如果一候选模式的所有子模式满足阈值,这些候选模式可包括一个有效模式。根据各个具有超过一阈值的匹配值的候选模式确定有效匹配,从而对于每个候选模式,对照该输入序列验证该候选模式的匹配值以确定一组满足该阈值的模式。
从下面连同各附图阅读的示范实施例的详细说明,本发明的这些和其它目的、特征和优点会变得清楚。


参照各附图在下面的优选实施例的说明中详细地说明本发明,附图中图1描述一个依据本发明的相容性矩阵的例子;图2是一个框/流程图,其示出一种依据本发明的根据匹配模型发现有效模式的系统/方法;图3是一个框/流程图,其示出一种依据本发明的用来寻找用于图2的框201的单候选模式的系统/方法;图4是一个框/流程图,其示出一种依据本发明的用来为图2中的框203收集每个候选模式的匹配的系统/方法;以及图5是一个框/流程图,其示出一种依据本发明的用来为图2中的框205产生下一层的候选模式的系统/方法。
具体实施例方式
本发明提供一种在考虑噪声影响下发现数据中的有效模式的系统和方法。本发明提供一种新的说明发现有效模式中的数据的突变或自然发生的变化的度量标准。本发明允许模式匹配中的某种灵活性。用于模式的现有技术模型典型地只考虑数据中的准确模式匹配。本发明提供一种更灵活的允许模式匹配中的模糊性的模型。包含一个相容性矩阵以便能清楚地表示符号替代中的似然性。该矩阵中的每个项对应一对符号(x,y)并且表示观测到y下x为真值的条件概率。本发明还提供一种发现满足某最小匹配阈值的模式的有效方法。
应理解图1-4示出的各个部分可以按各种形式的硬件、软件或它们的组合实现。这些部分最好用软件在一个或多个具有处理器、存储器和输入/输出接口的适当编程的通用数字计算机上实现。该软件最好以可以包含在某软件应用中的编程代码实现。
现参照其中用相同的数字代表相同的或相似的部分的各附图,并且初始参照示出依据本发明的相容性矩阵100的示范例子的图1。相容式矩阵100建立观测和该观测的基础本质之间的自然桥梁或连接。从而把每个观测到的符号解释为一组按不同概率出现的符号。例如,观测到的d1对应d1、d2和d3分别按概率0.9、0.05和0.05的真实出现。类似地,把观测到的符号组合看成一组按不同程度出现的模式。从而建议用一种以下称为“匹配”的新的度量标准量化模式的有效性并且把它定义为观测到的序列中的某模式的“累积出现量”。
对于一个序列模式p=(p1,p2,…,p1),p对1个符号或项目(d1,d2,…,d1)的序列S的匹配是S来自P的概率。从而,P对S的匹配为C(p1,d1)×C(p2,d2)×…×C(p1,d1),其中C(p,d)是d在模式p中的相容性。一模式中的“不介意”位置用“*”标志。很清楚C(*,d)=1。对于带有超过1个符号的序列S,对于S中的每1个相继的符号S′,计算P和S′之间的匹配,并且P和S之间的总匹配是P和所有可能的S′之间的匹配的和。对于一个模式P和一个符号序列S,P对S的总匹配是P对S中的每个带有1个符号的子序列S′的聚集。P和S′间的匹配定义为每个位置处符号间的匹配的乘积。
模式的匹配表示若不存在噪声期望“实际支持”。可以通过经验性试验得到相容性矩阵。例如,对于氨基酸的突变,专家可以利用临床试验确定二种氨基酸间的突变的概率。在其它例子中,可以利用营销试验确定对商标名或产品类型的优选选择,或者可以利用专家见解估计概率,等等。
如图1中所示,相容性矩阵100包括多个条目100。该矩阵中的每个条目表示条件概率P(真值|观测值)。例如,若观测到符号d1,则在0.9的概率下真值为d1。另一方面,在0.05的概率下,真值可为d2。矩阵示意性地示出四个项目或符号d1、d2、d3和d4的概率;但是,矩阵100可包括任何数量的项目。
参照图2,图中示出一种依据本发明的一个实施例的挖掘序列模式的系统/方法。为1个位置的序列模式进行挖掘,这些模式满足一个最小匹配阈值。在框2 01,生成一组包括一个(1)符号(用C1表示)的候选模式(C),其余1-1个位置填以表示“不介意”位置的“*”。会参照图3更详细地对此加以解释,把计数器j初始化为1。在框202,进行检查以判定Cj是否为空,若Cj不为空,在框203找出这些模式在候选组Cj中的匹配值。在框204,将匹配值满足一最小匹配阈值的模式Xj添加到组Lj中。根据Lj,在框205产生一个新的候选模式组(Cj+1)。Cj+1包括各个带有j+1个非“*”符号的模式。继续该进程,直到在框202中判定Cj+1(或第一次迭代中Cj)是空的。
可以通过一个简单的例子解释图2。一个数据集或输入序列具有一个长的符号序列(例如一百个)。希望确定该输入序列中的有效模式。在该例子中,模式可包括一个、二个、三个或四个符号(例如,1=4)。同样在该例子中,可能的符号组包括a、b、c和d。在框201中,C1产生各个带有一个符号的候选模式,例如,C1的所有的单符号模式包括(a,*,*,*),(b,*,*,*), (c,*,*,*)和(d,*,*,*)。由于Cj(C0为该情况)是非空的(存在至少一个的单符号模式),处理在框203中继续。在框203,为每个候选模式收集匹配值。匹配值量化一个模式的有效性并且用观测到的序列中的一个模式的“累积出现量”定义。如果它的所有子模式满足一个最小匹配阈值,该模式是候选的。对于每个候选模式,对照输入序列验证该模式的确切匹配,并且确定满足该最小匹配阈值的模式组。
对于数据集的输入序列中的1个符号的序列模式p=(p1,p2,…,p1)(例如1个相继符号),p对1个符号的序列S(本例中第一次迭代时一个符号)的匹配为S来自P的概率。从而,P对S的匹配为(p1,d1)×C(p2,d2)×…×C(p1,d1),其中C(pi,di)是di在模式pi中的相容性,而i=1,2,…,1。在本例中,d1=a,d2=b,d3=c和d4=d。模式中的“不介意”位置用“*”标记。对于多于1个符号的序列S,对S中的每1个相继符号S′,计算P和S′之间的匹配,并且P和S之前的总匹配是P和所有可能的S′之间的匹配的和(见图3)。来自相容性表的概率(例如见图1)组合到匹配值中以提供灵活性,如前面说明那样。
一旦确定匹配值,把具有大于一阈值的匹配值的候选模式Cj确定为有效模式和用X表示,并且在框204把它们添加到存储有效模式的Lj中,在本例中,(a,*,*,*),(b,*,*,*)是有效的,因为它们的匹配值超过匹配阈值。把有效模式组X=(a,*,*,*),(b,*,*,*)添加到Lj中。
然后,在框205中生成新的候选模式组。这是通过首先检查是否所有的“低层”模式都在L中。通过对上面的例子当j=3时对此作出演示。如果低层模式(a,b,*,*),(a,*,c,*)和(a,b,*,*)是有效的,即在L中,则(a,b,c,*)(高层模式)是一个候选模式并且插入到C3中。从而,C3是非空的。当该方法循环回到框202时,C3是非空的并且因此该方法继续。但是,如果三个模式(a,b,*,*),(a,*,c,*)和(a,b,*,*)中的一个不是有效的,即不在L中,则(a,b,c,*)不是候选并且不插入到C3中。从而,如果C3是空的,则该方法终止。
在这种方式下,依据本发明对输入序列提供更加灵活的模式分析,图2的结果作为输出的组L,其包括该数据集(输入序列)中的所有有效模式。L有益地不仅提供准确匹配的序列而且提供具有高匹配概率的但出于某种原因,例如噪声或环境突变,不是准确匹配序列的序列。
参照图3更详细地说明图2的框201中的单符号候选模式的生成。在框301中,对于输入序列(来自该数据集)中的每个不同的符号S,在框302中生成一个带有1个位置的模式。对于这次迭代,除了第一个位置为S外所有其它位置为“*”。在下个以及以后的迭代中,根据有效匹配值生成候选模式C。框201代表初始化,以便开始对有效模式的搜索。
参照图4,依据图2的框203对每个候选模式C进行匹配值的收集。在框401,把变量m设置为0。在框402,对于输入序列中的称为窗口Y的每1个相继符号,在框403中用输入序列中的1个符号和P之间的匹配增大变量m。在一个例子中,如果候选模式包括两个符号和两个“*”,窗口Y每次沿着输入序列移动1个符号并且进行该窗口中的符号和该模式P中的符号之间的匹配比较。
参照图5更详细地说明图2的框205中的生成新的候选模式组C3+1。在框501中,Cj+1被初始化为空。Ci+1可潜在地是j+1个非“*”符号新生成的候选模式组。对于每个带有j+1个非“*”符号的可能模式P(框502),如果P的所有子模式满足该最小匹配阈值(框503),即都在L中,则在框504中把P插入到Cj+1中。如果当并且仅当对于每个位置i,p′i=pi或pi=*,则p′=(p′1,p′2,…,p′1)是p=(p1,p2,…,p1)的子模式。
工业可应用性依据本发明的在大数据集中的模式发现可用在许多应用中,例如包括计算生物研究、消费者行为分析、系统性能分析等。在噪声环境下,观测到的序列可能不准确地反映基础行为。例如,人体中的氨基酸N有可能在很小影响蛋白质的生物功能下突变成D。观测中出现D可以和适当方式下来自N的可能突变相关。本发明相容性矩阵提供一种与观测到真实基础值的概率联系。还提供一种新的度量标准“匹配”以捕获对无噪声环境下所期望的模式的“真实支持”。
在说明了一种用来发现带有噪声的模式的系统和方法的各优选实施例(它们只是示范性的而不是限制性的)后,应注意,业内人士根据上面的讲授可以做出各种修改和改变,从而应理解,在附属权利要求书所概述的本发明的范围和精神内,可对所公开的本发明的各具体实施例做出改变。在按专利法所要求的详细和特殊性说明本发明下,所要求的并且希望受到专利法保护的专利范围在附属权利要求书中阐述。
权利要求
1.一种确定数据序列中的模式的方法,特征在于建立一个相容性矩阵(100),该矩阵提供一个项目的实际出现和在该数据序列的每个项目中该项目或者其它项目观测出现之间的概率;生成候选模式(201),这些候选模式包含该数据序列中的项目;对照该数据序列检验这些候选模式以便根据该相容性矩阵确定匹配值(203);以及根据带有超过某阈值的匹配值的候选模式组确定各有效匹配(204)。
2.权利要求1所述的方法,其中这些项目包括符号,并且其中建立相容性矩阵包括建立一个矩阵从而确定该数据序列中的任何两个符号之间的匹配。
3.权利要求1所述的方法,其中该相容性矩阵包括行和列并且该相容性矩阵中的每个条目和一个行以及一个列对应。
4.权利要求1所述的方法,其中两个项目之间的匹配值包括0和1之间的一个数。
5.权利要求1所述的方法,其中对照该数据序列检验各候选模式以便根据该相容性矩阵确定匹配值包括对于一个模式P和一个符号序列S,通过相对于S中的每个带有1个符号的子序列S′聚集P,确定P相对于S的总匹配值。
6.权利要求5所述的方法,其中确定P相对于S的总匹配值包括通过取该数据序列的每个位置处的符号之间的匹配值的乘积确定P和S′之间的匹配值。
7.权利要求1所述的方法,其中通过试验和专家见解之一确定一个项目的实际出现的概率。
8.权利要求1所述的方法,其中项目包括符号,并且生成候选模式包括利用层次法生成候选模式,在该方法中在每一层上对候选模式中考虑的符号总数添加一个附加的符号。
9.权利要求8所述的方法,其中候选模式的所有子模式都满足该阈值,这些候选模式可包括一个有效模式。
10.权利要求8所述的方法,其中根据具有超过一阈值的匹配值的各候选模式确定有效匹配包括对每个候选模式,对照该输入序列验证该候选模式的匹配值以确定一组满足该阈值的模式。
11.一种实现权利要求1-10中的任一方法的计算机系统。
全文摘要
一种用于确定数据序列中的模式的系统和方法(图1)建立一个相容性矩阵(100),该矩阵提供一个项目的实际出现和该数据序列的每个项目中该项目或者其它模式的观测出现之间的概率。生成候选模式(201)。这些候选模式包含该数据序列中的项目。对照该数据序列检验这些候选模式以便根据该相容性矩阵确定匹配值(203),并且根据带有超过某阈值的匹配值的各候选模式确定各有效匹配。
文档编号G06F19/00GK1498387SQ02806878
公开日2004年5月19日 申请日期2002年3月22日 优先权日2001年3月22日
发明者伟 王, 王伟, 渝, 杨炯, P·S-L·渝 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1