一种可变间隙条件下周期模式挖掘方法

文档序号:33193568发布日期:2023-02-04 09:55阅读:46来源:国知局
一种可变间隙条件下周期模式挖掘方法

1.本发明属于电数字数据处理技术领域,尤其涉及一种可变间隙条件下周期模式挖掘方法。


背景技术:

2.随着大数据时代的到来,模式匹配技术(又称字符串匹配技术)已被广泛应用到生物信息学、空气质量监测、数据流挖掘、信息检索与过滤、网络入侵检测等重要领域。近年来,随着传感器网络技术的发展、生物信息学领域的进步以及互联网的普及,人们获取数据的能力显著提高,数据量呈现爆发式的增长。为此,寻求更加高效的模式匹配算法,成为学术界重新关注的焦点。
3.日常天气的预报,需要在收集大量的气象观测数据的基础上,对数据进行处理,找出规律,而这些规律往往是由具有周期性的数据模式体现。
4.早期研究对带有单一的固定的长度的通配符的模式匹配问题进行研究,后续研究者们逐渐向带有多个可变长度的通配符的模式匹配方向进行探索:如模式为固定长度的通配符的模式,其中是通配符,每个符号能匹配1个任意字符;而模式t[2,4]a[3,6]ct,为带有多个可变长度的通配符的模式,t和a之间可以匹配2到4个不确定的字符,a和ct之间可以匹配3到6个不确定的字符。后续的研究又扩展到一般间隙条件、一次性条件、重叠条件、近似匹配条件等模式挖掘条件。
[0005]
序列模式挖掘概念,其核心工作是在序列中找到支持度大于指定阈值的高频项,即频繁模式,针对频繁模式的研究重点出现在目标序列串上的分布频数,无法表征出现在整个目标序列串上的分布位置情况:出现的分布位置规律同样是模式匹配的重要性质之一,其重要性在生物遗传物质研究、信息检索分析等领域尤为突出。
[0006]
模式匹配是指在一个相对长的序列串s查找与相对较短的模式p同或者近似的子序列,其中序列串s以及模式p必须采用相同的字母表。
[0007]
在挖掘过程中,候选模式会根据字符的数量、种类和给定的字符间隙确定,并且随着模式中确定字符数量的增加,会造成模式生长的过程中候选模式数量的指数级增长,如果直接逐个计算,开销过大;对于庞大的气象数据而言,一般的模式匹配技术所消耗的时间非常长,且不能够达到精确目的,也不能满足一些特殊的模式匹配需求。


技术实现要素:

[0008]
针对现有技术中的上述不足,本发明提供的一种可变间隙条件下周期模式挖掘方法,通过字符间隙约束和出现间隙约束的剪枝方法,解决了传统模式匹配下引入字符间隙约束条件导致的耗时长和精确度不足的问题。
[0009]
为了达到上述发明目的,本发明采用的技术方案为:
[0010]
本发明提供一种可变间隙条件下周期模式挖掘方法,包括如下步骤:
[0011]
s1、获取通过气象数据传感器得到的数据序列串s,并利用字符集σ构造数据序列
串s的哈希表ht;
[0012]
s2、定义候选模式p,并基于哈希表ht构建候选模式p的中间产物;
[0013]
s3、判断构建候选模式p的中间产物过程中是否存在字符charj满足字符间隙剪枝条件,若是则进入步骤s4,否则进入步骤s5;
[0014]
s4、判定候选模式p为非周期模式,并对候选模式p进行字符间隙剪枝,且返回步骤s2;
[0015]
s5、重复步骤s2至步骤s4,得到所有满足出现间隙约束的候选模式p,并记录、存储和输出各满足出现间隙约束约束的候选模式p,完成可变间隙条件下周期模式挖掘。
[0016]
进一步地,所述数据序列串s的表达式如下:
[0017]
s=s0s1s2…
sis
i+1
…sn-2sn-1
,si∈σ
[0018]
其中,s0表示第0位数据序列字符,s
n-1
表示第n-1位数据序列字符,si表示第i位数据序列字符,i为自然数,σ表示符号集,n表示数据序列串s的长度。
[0019]
进一步地,所述哈希表ht的键key存储字符,哈希表ht的值value储存该类字符在数据序列串中所有出现的位置。
[0020]
进一步地,所述候选模式p的表达式如下:
[0021]
p=p0[min0,max0]p1[min1,max1]p2[min2,max2]

[0022]
pj[minj,maxj]

pn′‑2[minn′‑2,maxn′‑2]pn′‑1,maxj≥minj[0023]
其中,p0表示候选模式p的第0位的字符,pj表示候选模式p的第j位的字符,[minj,maxj]表示第j位的字符与第j+1位的字符间的字符间隙约束,minj表示第j位的字符与第j+1位的字符间的最小距离,maxj表示第j位的字符与第j+1位的字符间的最大距离,p
j+1-p
j-1为字符间隙,minj和maxj均为整数,n

为大于等于3的自然数。
[0024]
进一步地,所述步骤s2包括如下步骤:
[0025]
s21、提取哈希表ht中第0位数据序列字符p0的所有位置value
p0

[0026]
s22、分别对第0位数据序列字符的各位置查找位于[position-min
cg
,position+max
cg
]区间内的第1位数据序列字符p1,并构建候选模式p下的若干第一中间产物occurrence(p0p1),完成第一轮循环,其中,position表示第0位数据序列字符的位置,min
cg
表示最小相邻出现距离,max
cg
表示最大相邻出现距离;
[0027]
s23、查找各第一中间产物occurrence(p0p1)的最后一位数据序列字符的字符间隙约束范围内的p2,并构建第二中间产物occurrence(p0p1p2),完成第二轮循环;
[0028]
s24、重复步骤s23的方法,直至某轮循环未产生任何中间产物。
[0029]
进一步地,所述字符间隙剪枝条件的判断条件的表达式如下:
[0030][0031]
其中,表示存在,st表示使得,表示数据序列串s中字符charj的出现次数,ls表示数据序列串s的长度,n

表示候选模式p中确定字符的数量,max
og
表示出现间隙范围最大值。
[0032]
进一步地,所述字符间隙剪枝包括如下步骤:
[0033]
a1、定义第一候选模式pa中存在第一字符char
x
,且第一字符char
x
位于第一数据序
列串s
x
上的第一位置position(char
x
)y,则定义其相邻的第二字符char
x+1
匹配字符间隙约束区间;
[0034]
所述第二字符char
x+1
匹配字符间隙约束区间的表达式如下:
[0035]
[position(char
x
)
y-min
cg
,position(char
x
)
y-max
cg
]
[0036]
a2、针对position(char
x
)
y-min
cg
≤0或position(char
x
)
y-max
cg
≤0,则对应将position(char
x
)
y-min
cg
或position(char
x
)
y-max
cg
的值取0;
[0037]
a3、针对position(char
x
)
y-min
cg
》n
″′‑
1-position(char
x
)y,得到则任意以position(char
x
)y开始或在其顺序之后的出现均直接跳过字符间隙剪枝判断,其中,n
″′
表示第一数据序列串s
x
的长度;
[0038]
a4、针对第二字符char
x+1
匹配字符间隙约束区间内查找不到字符char
x+1
,则第一候选模式pa和第一候选模式pa的任意超模式不满足字符间隙约束,对第一候选模式pa和第一候选模式pa的任意超模式进行剪枝。
[0039]
进一步地,所述步骤a3中出现的定义如下:
[0040]
存在长度为m的位置索引序列i,使得其满足出现条件约束,则位置索引序列i为候选模式p在数据序列串s中的一个出现;
[0041]
所述位置索引序列i的表达式如下:
[0042]
i=《i0,i1,

,i
m-2
,i
m-1

[0043]
其中,i0表示第0位的索引序列元素,i
m-1
表示第m-1位的索引序列元素;所述出现条件约束的表达式如下:
[0044][0045]ij-1
≠ij[0046]
min
j-1
≤i
j-1-i
j-1≤max
j-1
[0047]
0≤j≤m-1,0≤i-(j-1)≤n-1
[0048]
其中,表示第i位数据序列字符的第j处位置索引,pj表示第j位的字符,i
j-1
表示第j-1位的索引序列元素,ij表示第j位的索引序列元素,min
j-1
表示第j-1位的字符与第j位的字符间的最小距离,max
j-1
表示第j-1位的字符与第j位的字符间的最大距离。
[0049]
进一步地,所述步骤a4中的超模式定义如下:
[0050]
定义长度为l的第一候选模式pa中与长度为l+m

的第二候选模式pb,若第一候选模式pa中任意位的字符均有序对应存在相同的字符于第二候选模式pb的同位处,则第一候选模式pa为第二候选模式pb的子模式,第二候选模式pb为第一候选模式pa的超模式;
[0051]
所述第一候选模式pa和第二候选模式pb的表达式如下:
[0052]
pa=a0a1…al-1
[0053]
pb=b0b1…blbl+1
…bl+m
′‑2b
l+m
′‑1[0054]
其中,a0表示第一候选模式pa的第0位的字符,a
l-1
表示第一候选模式pa的第l-1位的字符,b0表示第二候选模式pb的第0位的字符,b
l+m
′‑1表示第二候选模式pb的第l+m
′‑
1位的字符,l为非零的自然数,m

为大于或等于1的正整数。
[0055]
进一步地,所述步骤s5中的出现间隙约束的定义如下:
[0056]
对于候选模式p的任意相邻出现之间的出现间隙og均满足出现间隙约束,则候选模式p为周期模式;
[0057]
所述出现间隙约束的表达式如下:
[0058]
[min
og
,max
og
]
[0059]
其中,min
og
表示出现间隙范围最小值。
[0060]
本发明的有益效果为:本发明提供的一种可变间隙条件下周期模式挖掘方法,包含了具有字符间隙约束和出现间隙约束的剪枝方法;在传统模式匹配问题中,引入字符间隙约束条件可以使得问题求解更加灵活,但也会增加问题的难度,本发明在字符间隙约束条件的基础上,再引入出现间隙约束条件,能够使得模式匹配技术更加高效和准确。
附图说明
[0061]
图1为本发明实施例中一种可变间隙条件下周期模式挖掘方法的步骤流程图。
[0062]
图2为本发明实施例中给定模式a[0,2]c在序列s中的所有出现。
[0063]
图3为本发明实施例中在确定字符数量n=2,字符间隙和出现间隙[0,2]条件下对序列s的模式挖掘详细过程示意图。
具体实施方式
[0064]
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0065]
实施例1
[0066]
如图1所示,在本发明的一个实施例中,本发明提供一种可变间隙条件下周期模式挖掘方法,包括如下步骤:
[0067]
s1、获取通过气象数据传感器得到的数据序列串s,并利用字符集σ构造数据序列串s的哈希表ht;
[0068]
所述数据序列串s的表达式如下:
[0069]
s=s0s1s2…
sis
i+1
…sn-2sn-1
,si∈σ
[0070]
其中,s0表示第0位数据序列字符,s
n-1
表示第n-1位数据序列字符,si表示第i位数据序列字符,i为自然数,σ表示符号集,n表示数据序列串s的长度;
[0071]
所述哈希表ht的键key存储字符,哈希表ht的值value储存该类字符在数据序列串中所有出现的位置;
[0072]
s2、定义候选模式p,并基于哈希表ht构建候选模式p的中间产物;
[0073]
所述步骤s2包括如下步骤:
[0074]
s21、提取哈希表ht中第0位数据序列字符p0的所有位置
[0075]
s22、分别对第0位数据序列字符的各位置查找位于[position-min
cg
,position+max
cg
]区间内的第1位数据序列字符p1,并构建候选模式p下的若干第一中间产物occurrence(p0p1),完成第一轮循环,其中,position表示第0位数据序列字符的位置,min
cg
表示最小相邻出现距离,max
cg
表示最大相邻出现距离;
[0076]
s23、查找各第一中间产物occurrence(p0p1)的最后一位数据序列字符的字符间隙约束范围内的p2,并构建第二中间产物occurrence(p0p1p2),完成第二轮循环;
[0077]
s24、重复步骤s23的方法,直至某轮循环未产生任何中间产物。
[0078]
所述候选模式p的表达式如下:
[0079][0080]
其中,p0表示候选模式p的第0位的字符,pj表示候选模式p的第j位的字符,[minj,maxj]表示第j位的字符与第j+1位的字符间的字符间隙约束,minj表示第j位的字符与第j+1位的字符间的最小距离,maxj表示第j位的字符与第j+1位的字符间的最大距离,p
j+1-p
j-1为字符间隙,minj和maxj均为整数,n

为大于等于3的自然数;
[0081]
s3、判断构建候选模式p的中间产物过程中是否存在字符charj满足字符间隙剪枝条件,若是则进入步骤s4,否则进入步骤s5;
[0082]
所述字符间隙剪枝条件的判断条件的表达式如下:
[0083][0084]
其中,表示存在,st表示使得,表示数据序列串s中字符charj的出现次数,ls表示数据序列串s的长度,n

表示候选模式p中确定字符的数量,max
og
表示出现间隙范围最大值;
[0085]
s4、判定候选模式p为非周期模式,并对候选模式p进行字符间隙剪枝,且返回步骤s2;
[0086]
所述字符间隙剪枝包括如下步骤:
[0087]
a1、定义第一候选模式pa中存在第一字符char
x
,且第一字符char
x
位于第一数据序列串s
x
上的第一位置position(char
x
)y,则定义其相邻的第二字符char
x+1
匹配字符间隙约束区间;
[0088]
所述第二字符char
x+1
匹配字符间隙约束区间的表达式如下:
[0089]
[position(char
x
)
y-min
cg
,position(char
x
)
y-max
cg
]
[0090]
a2、针对position(char
x
)
y-min
cg
≤0或position(char
x
)
y-max
cg
≤0,则对应将position(char
x
)
y-min
cg
或position(char
x
)
y-max
cg
的值取0;
[0091]
a3、针对position(char
x
)
y-min
cg
》n
″′‑
1-position(char
x
)y,得到则任意以position(char
x
)y开始或在其顺序之后的出现均直接跳过字符间隙剪枝判断,其中,n
″′
表示第一数据序列串s
x
的长度;
[0092]
所述步骤a3中出现的定义如下:
[0093]
存在长度为m的位置索引序列i,使得其满足出现条件约束,则位置索引序列i为候选模式p在数据序列串s中的一个出现;
[0094]
所述位置索引序列i的表达式如下:
[0095]
i=《i0,i1,

,i
m-2
,i
m-1

[0096]
其中,i0表示第0位的索引序列元素,i
m-1
表示第m-1位的索引序列元素;
[0097]
所述出现条件约束的表达式如下:
[0098][0099]ij-1
≠ij[0100]
min
j-1
≤i
j-1-i
j-1≤max
j-1
[0101]
0≤j≤m-1,0≤i-(j-1)≤n-1
[0102]
其中,表示第i位数据序列字符的第j处位置索引,pj表示第j位的字符,i
j-1
表示第j-1位的索引序列元素,ij表示第j位的索引序列元素,min
j-1
表示第j-1位的字符与第j位的字符间的最小距离,max
j-1
表示第j-1位的字符与第j位的字符间的最大距离;
[0103]
a4、针对第二字符char
x+1
匹配字符间隙约束区间内查找不到字符char
x+1
,则第一候选模式pa和第一候选模式pa的任意超模式不满足字符间隙约束,对第一候选模式pa和第一候选模式pa的任意超模式进行剪枝;
[0104]
所述步骤a4中的超模式定义如下:
[0105]
定义长度为l的第一候选模式pa中与长度为l+m

的第二候选模式pb,若第一候选模式pa中任意位的字符均有序对应存在相同的字符于第二候选模式pb的同位处,则第一候选模式pa为第二候选模式pb的子模式,第二候选模式pb为第一候选模式pa的超模式;
[0106]
所述第一候选模式pa和第二候选模式pb的表达式如下:
[0107]
pa=a0a1…al-1
[0108]
pb=b0b1…blbl+1
…bl+m
′‑2b
l+m
′‑1[0109]
其中,a0表示第一候选模式pa的第0位的字符,a
l-1
表示第一候选模式pa的第l-1位的字符,b0表示第二候选模式pb的第0位的字符,b
l+m
′‑1表示第二候选模式pb的第l+m
′‑
1位的字符,l为非零的自然数,m

为大于或等于1的正整数;
[0110]
s5、重复步骤s2至步骤s4,得到所有满足出现间隙约束的候选模式p,并记录、存储和输出各满足出现间隙约束约束的候选模式p,完成可变间隙条件下周期模式挖掘;
[0111]
所述步骤s5中的出现间隙约束的定义如下:
[0112]
对于候选模式p的任意相邻出现之间的出现间隙og均满足出现间隙约束,则候选模式p为周期模式;
[0113]
所述出现间隙约束的表达式如下:
[0114]
[min
og
,max
og
]
[0115]
其中,min
og
表示出现间隙范围最小值。
[0116]
实施例2
[0117]
本发明的另一个实施例中,对于庞大的气象数据而言,一般的模式匹配技术所消耗的时间非常长,且不能够达到精确目的,也不能满足一些特殊的模式匹配需求;
[0118]
本发明不指定具体的目标模式,而是不重复地使用字符集中的字符,如长度为n的序列串s=s0s1s2…
sis
i+1
…sn-2sn-1
,si∈σ,其中σ为字符集,|σ|表示符号集的大小,给定字符集σ长度为m,由σ组成长度为n(n≤m)的候选模式p,会有种可能;
[0119]
定义确定字符数量为n的模式p,p中确定字符之间的间隙约束均为[min,max],则
称n+(n-1)*max为模式p的最大可能长度;
[0120]
给定长度为ls的目标有序序列串s,s中某字符charj的出现次数为设定出现间隙的范围是[min
og
,max
og
],给定确定字符数量为n的候选模式p,则p的最大可能长度为n+(n-1)*max
og
。则字符charj不满足出现间隙限制,因此候选模式p不满足出现间隙约束,候选模式p不是周期模式,对于候选模式p,如果模式在序列串s上的出现只有一个或没有,则称此模式不是周期模式,称此剪枝方法为出现间隙剪枝。
[0121]
如图2所示,给定序列串s=s0s1s2s3s4s5s6s7s8s9s
10
=taatcctgatc,模式串p=p0[min1,max1]p1=a[0,2]c,其中,[0,2]即为字符间隙,0表示最小字符间隙,2则表示为最大字符间隙;a[0,2]c指a和c之间可以有零个到两个通配符即a与c之间可以匹配0~2个字符。符合该字符约束条件的出现共有4个,分别是《1,4》,《2,4》,《2,5》,《8,10》,更进一步发现,其中出现《1,4》和《2,4》均在相同位置使用了s4的“c”,出现《2,4》,《2,5》均在相同位置使用了s2的“a”;
[0122]
本发明的方法能够很好解决体积庞大的序列数据处理问题,假设每个字符对应气象数据中的某个参数,给定模式串p1=a[0,2]c代表天气数据中雨的规律特征,p2=t[0,3]c代表雷电特征,通过挖掘其在天气数据序列串中的出现次数,以及占比来反应雨量和雷电强度等等。
[0123]
通过本发明,能够主动寻找所需要了解的规律特征,其实现原理就是主动给定模式出现的字符间隙和出现间隙,例如使用者想要了解公司某个产品的销售情况,并与其他公司类似产品作对比。那么就可以在市场交易数据中,对本公司产品模式p3,和对方产品模式p4进行挖掘,计算所占比例,结果一目了然;
[0124]
本发明的有益效果为:
[0125]
(1)本发明方法创新性的提出了出现间隙这一技术概念,并结合字符间隙约束条件,提出字符间隙剪枝和出现间隙剪枝两种技术,在一般间隙约束的模式匹配过程中,能够较高程度的提高模式匹配效率,解决了因间隙约束带来的求解难的问题;
[0126]
(2)本发明是在对序列串进行字符间隙剪枝后,再进行周期模式匹配和出现间隙剪枝,在多次处理后得所需要的模式,能够很好适应大容量的数据处理,同时极大的缩短了在挖掘时间,精简了计算;
[0127]
(3)本发明具有的约束条件有模式确定字符数量、字符间隙和出现间隙,能够根据实际情况设置相关匹配条件,能够精准快速的找出符合用户需求的目标模式。
[0128]
实施例3
[0129]
在本发明的一个实用实例中,设序列串s为收集处理后的气象数据,为挖掘出具有周期规律模式出现,演示在字符间隙约束为[0,2],出现间隙为约束为[0,2]的条件下挖掘周期模式的流程;
[0130]
如图3所示,给定候选模式的确定字符数量为n,如n=2时,首先满足字符间隙约束[0,2],确定字符数量的出现共有27个:ta《0,1》、ta《0,2》、tt《0,3》、aa《1,2》、at《1,3》、ac《1,4》、at《2,3》、ac《2,4》、ac《2,5》、tc《3,4》、tc《3,5》、tt《3,6》、cc《4,5》、ct《4,6》、cg《4,7》、
ct《5,6》、cg《5,7》、ca《5,8》、tg《6,7》、ta《6,8》、tt《6,9》、ga《7,8》、gt《7,9》、gc《7,10》、at《8,9》、ac《8,10》、tc《9,10》;
[0131]
对初步27个出现进行字符间隙剪枝判断:ta《0,1》中有两个字符t、a,由0位上的t开始,字符间隙约束为[0,2],在[0-0,0-2]中,因为0-2=(-2)所以,匹配1位上a的间隙约束条件为[0,0],而在序列s中,离1位a最近的在2位上,距离为0,符合条件。再由1位上a进行判断,匹配2位上a的间隙约束条件为[0,1],而序列s在间隙约束条件下离2位a最近的a在8位上,故不符合条件,于是ta《0,1》被字符间隙剪枝;
[0132]
由出现aa《1,2》判断,由1位上a开始,匹配2位a的字符间隙约束条件为[0,1],在序列s中,离2位a最近的是8位a,距离为5,不符合条件,再由前文叙述的超模式定理,由1位a组成的模式均不符合条件,aa《1,2》、at《1,3》、ac《1,4》会被字符间隙剪枝。
[0133]
而出现ac《2,4》,由2位上a开始,匹配t的字符间隙约束条件为[0,2],在序列s中,离3位t最近的是6位t,距离为2,符合条件,再由4位上c进行判断,匹配5位上c的间隙约束条件为[5-0,5-2]=[3,5],离5位上c最近的c在10位,距离为4,符合条件,故ac《2,4》通过字符间隙剪枝判断;
[0134]
出现tt《3,6》,7位g的匹配间隙约束为6》11-1-6,故tg《6,7》、ta《6,8》、tt《6,9》、ga《7,8》、gt《7,9》、gc《7,10》、at《8,9》、ac《8,10》、tc《9,10》跳过字符间隙约束;
[0135]
以上出现为例,依照剪枝判断原理类推,通过字符间隙剪枝的出现共有:ta《0,2》、ac《2,4》、ac《2,5》、tg《6,7》、ta《6,8》、tt《6,9》、ga《7,8》、gt《7,9》、gc《7,10》、at《8,9》、ac《8,10》、tc《9,10》;
[0136]
周期模式及出现间隙剪枝判断:按照公式进行判断,其中为s中某字符charj的出现次数,此例中给出的出现间隙的范围[min
og
,max
og
]为[0,2];
[0137]
本实施例例确定的模式长度为2,序列s长度为11,故在序列s中出现次数小于2.5的字符有g,而含有g的出现分别是tg《6,7》、ga《7,8》、gt《7,9》、gc《7,10》,此时还剩出现ta《0,2》、ac《2,4》、ac《2,5》、ta《6,8》、tt《6,9》、at《8,9》、ac《8,10》、tc《9,10》,而在这些出现中,只有ac和ta模式出现2次及以上,其余出现均只有1次不符合周期模式定义。故最后只有ac《2,4》、ac《2,5》、ac《8,10》、ta《0,2》、ta《6,8》符合周期模式定义;
[0138]
出现间隙判断,在ac《2,4》、ac《2,5》、ac《8,10》出现中,ac《2,5》、ac《8,10》的出现间隙为8-5-1=2,符合[0,2]出现字符间隙,而ta《0,2》、ta《6,8》的出现字符间隙为6-2-1=3,不符合[0,2]的要求,故最后ac为所要找的周期模式;
[0139]
在字符间隙约束为[0,2],出现间隙为约束为[0,2]的确定模式字符数n=2条件下的挖掘结束。
[0140]
当确定字符数量为3时,在字符间隙约束为[0,2],出现间隙为约束为[0,2]的条件下,在s上挖掘周期模式的流程如下:
[0141]
给定候选模式的确定字符数量为n,如n=3时,首先满足字符间隙约束[0,2],确定
字符数量的出现共有63个:taa《0,1,2》、tat《0,1,3》、tac《0,1,4》、tat《0,2,3》、tac《0,2,4》、tac《0,2,5》、ttc《0,3,4》、ttc《0,3,5》、ttt《0,3,6》、aat《1,2,3》、aac《1,2,4》、aac《1,2,5》、atc《1,3,4》、atc《1,3,5》、att《1,3,6》、acc《1,4,5》、act《1,4,6》、acg《1,4,7》、atc《2,3,4》、atc《2,3,5》、att《2,3,6》、acc《2,4,5》、act《2,4,6》、acg《2,4,7》、act《2,5,6》、acg《2,5,7》、aca《2,5,8》、tcc《3,4,5》、tct《3,4,6》、tcg《3,4,7》、tct《3,5,6》、tcg《3,5,7》、tca《3,5,8》、ttg《3,6,7》、tta《3,6,8》、ttt《3,6,9》、cct《4,5,6》、ccg《4,5,7》、cca《4,5,8》、ctg《4,6,7》、cta《4,6,8》、ctt《4,6,9》、cga《4,7,8》、cgt《4,7,9》、cgc《4,7,10》、ctg《5,6,7》、cta《5,6,8》、ctt《5,6,9》、cga《5,7,8》、cgt《5,7,9》、cgc《5,7,10》、cat《5,8,9》、cac《5,8,10》、tga《6,7,8》、tgt《6,7,9》、tgc《6,7,10》、tat《6,8,9》、tac《6,8,10》、ttc《6,9,10》、gat《7,8,9》、gac《7,8,10》、gtc《7,9,10》、atc《8,9,10》;
[0142]
对以上出现进行字符间隙判断:
[0143]
由于在n=2的基础上,ta《0,1》、tt《0,3》、aa《1,2》、at《1,3》、ac《1,4》、at《2,3》、tc《3,4》、tc《3,5》、tt《3,6》、cc《4,5》、ct《4,6》、cg《4,7》、ct《5,6》、cg《5,7》、ca《5,8》均被字符间隙剪枝,故由他们共同组成的超模式taa《0,1,2》、tat《0,1,3》、tac《0,1,4》、tat《0,2,3》、ttc《0,3,4》、ttc《0,3,5》、ttt《0,3,6》、aat《1,2,3》、aac《1,2,4》、atc《1,3,4》、atc《1,3,5》、att《1,3,6》、acc《1,4,5》、act《1,4,6》、acg《1,4,7》、atc《2,3,4》、atc《2,3,5》、att《2,3,6》、acc《2,4,5》、acg《2,4,7》、tcc《3,4,5》、tct《3,4,6》、tcg《3,4,7》、tct《3,5,6》、tcg《3,5,7》、tca《3,5,8》、ttg《3,6,7》、tta《3,6,8》、ttt《3,6,9》、cct《4,5,6》、ccg《4,5,7》、cca《4,5,8》、ctg《4,6,7》、cta《4,6,8》、ctt《4,6,9》、cga《4,7,8》、cgt《4,7,9》、cgc《4,7,10》、ctg《5,6,7》、cta《5,6,8》、ctt《5,6,9》、cga《5,7,8》、cgt《5,7,9》、cgc《5,7,10》、cat《5,8,9》、cac《5,8,10》、会直接被字符间隙剪枝。而剩下的tac《0,2,4》、tac《0,2,5》、aac《1,2,5》、act《2,4,6》、act《2,5,6》、acg《2,5,7》、aca《2,5,8》、tga《6,7,8》、tgt《6,7,9》、tgc《6,7,10》、tat《6,8,9》、tac《6,8,10》、ttc《6,9,10》、gat《7,8,9》、gac《7,8,10》、gtc《7,9,10》、atc《8,9,10》这些出现,根据字符间隙剪枝原则,通过的只有:tac《0,2,4》、tac《0,2,5》、acg《2,5,7》、aca《2,5,8》、tga《6,7,8》、tgt《6,7,9》、tgc《6,7,10》、tat《6,8,9》、tac《6,8,10》、ttc《6,9,10》、gat《7,8,9》、gac《7,8,10》、gtc《7,9,10》、atc《8,9,10》;
[0144]
周期模式及出现间隙剪枝判断:
[0145]
周期模式及出现间隙剪枝判断:按照公式进行判断,其中为s中某字符charj的出现次数,此例中给出的出现间隙的范围[min
og
,max
og
]为[0,2];
[0146]
本实施例例确定的模式长度为2,序列s长度为11,故在序列s中出现次数小于1.56的字符有g,而含有g的出现分别是acg《2,5,7》、tga《6,7,8》、tgt《6,7,9》、tgc《6,7,10》、gat《7,8,9》、gac《7,8,10》、gtc《7,9,10》,此时还剩出现tac《0,2,4》、tac《0,2,5》、aca《2,5,8》、tat《6,8,9》、tac《6,8,10》、ttc《6,9,10》、atc《8,9,10》,而在这些出现中,只有tac模式出现2次以上,其余出现均只有1次不符合周期模式定义。故最后只有tac《0,2,4》、tac《0,2,5》、tac《6,8,10》符合周期模式定义;
[0147]
出现间隙判断,在tac《0,2,4》、tac《0,2,5》、tac《6,8,10》出现中,tac《0,2,4》、tac《6,8,10》的出现间隙为6-4-1=1,tac《0,2,5》、tac《6,8,10》的出现间隙为6-5-1=0,符合[0,2]出现间隙,故最后tac为所要找的周期模式;
[0148]
在字符间隙约束为[0,2],出现间隙为约束为[0,2]的确定模式字符数n=3条件下的挖掘结束。
[0149]
在确定字符数量n=2的挖掘演示中,序列s中满足字符间隙约束[0,2],确定字符数量的出现共有27个,通过本发明的字符间隙剪枝后仍然剩下9个符合条件的模式出现,而通过出现间隙剪枝流程后就只剩下2个符合条件的模式出现;在n=3的挖掘演示中,序列s中满足字符间隙约束[0,2],确定字符数量的出现共有63个,通过本发明的字符间隙剪枝后仍然剩下14个符合条件的模式出现,而通过出现间隙剪枝流程后就只剩下2个符合条件的模式出现。
[0150]
可见,随着数据序列的长度和字符约束条件的变化,周期模式挖掘所要处理的对象会呈现指数倍的增长,对于本就是天文数字级别的气象数据来说,所要处理的对象便是无法想象的庞大;如果只是用一般的剪枝方法只能勉强得到本发明所演示流程中第一步后的结果,数据样本同样还是很大,无法直观看出其周期性,也无法满足使用者的真正需求,而通过使用本发明方法,能够在两次剪枝后得到具有非常直观且少量的模式出现,其高效性是其他模式匹配方法所无法比拟的。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1