本发明涉及基于机器学习的基因序列数据技术,具体是一种原核生物σ54启动子的预测方法。
背景技术:
启动子是基因的一个组成部分,控制基因表达(转录)的起始时间和表达的程度。启动子就像“开关”,决定基因的活动。启动子本身并不控制基因活动,而是通过与称为转录因子的这种蛋白质结合而控制基因活动的。转录因子就像一面“旗子”,指挥着rna聚合酶的活动。因此,启动子对于基因表达有着至关重要的作用。在原核生物中,rna全酶的σ54启动子识别并结合启动子基因转录过程中的序列。σ54启动子负责响应于环境的特异性基因的转录变化。σ54启动子通常含有两个碱性调节元件,其中一个元件在-12bp附近的tgc[at][ta],另一个是在-24bp附近的[ct]tggca[ct][ga]。并且σ54启动子的全酶在启动rna合成的时候将取决于增强子结合蛋白。一旦启动子活性异常,则可能导致基因表达的调节障碍,从而有可能导致疾病的发生。找到组织特异性启动子和某些疾病关键基因异常表达与启动子的关系可以为靶向治疗和基因治疗提供可能。也正因如此,如何精确的预测出启动子的位点成了人们研究的热点和难题。
当前的σ54启动子识别技术根据研究目标可以分为共性启动子识别技术和特异性启动子识别技术。前者的目标是在基因组中找出基因的转录起始位点和核心启动子,后者指的是寻找一组特定基因的转录因子结合位点。目前国内的研究比较偏重于特异性启动子识别技术,而国外已经成型了几个基于共性启动子识别技术的系统。从这些成果所采用的技术看,主要分成4种:基于人工神经网络(ann)(werner,
技术实现要素:
本发明的目的在于为了克服用生化试验预测原核生物σ54启动子耗时且代价过大以及单个svm预测精度不理想的缺点,提供一种原核生物σ54启动子的预测方法。这种方法预测速度快、精度高。
实现本发明目目的的技术方案是:
一种原核生物σ54启动子的预测方法,包括如下步骤:
1)数据样本编码:对sigma54promoter序列集中给定的原核生物σ54启动子正负数据样本,采用k-元组核苷酸方法进行编码,k的取值范围为1到∞,得到维度为4k的特征向量,即:假定161组正样本和161组负样本作为基准数据集s,可以用公式(1)表示为:
s=s+∪s-(1)
其中子集s+仅包含正样本即启动子序列,子集s-包含负样本即非启动子序列,而∪表示两个序列集合的并集,采用伪k-元组核苷酸来配置dna并对基因序列进行编码,最终得到具有如公式(2)所示的4k分量的向量,即:
其中
2)特征选择:采用f-score方法对编码后的数据样本进行特征选择,定义如公式(3):
其中n+表示正样本的总数,n-表示负样本的总数,
3)构造预测模型:将svm(supportvectormachine,支持向量机)作为弱预测器的基础上用adaboost方法构造预测模型,给定一个训练集样本t={(x1,y1),(x2,y2),…,(xn,yn)},其中x∈χ,空间
选用svm作为弱预测器,对训练样本进行训练,得到一个弱预测器gm(x),svm在对训练样本训练结束以后会得到一组预测值,也就是预测标签,将预测标签与给定的训练标签进行比对就可以计算gm(x)在训练样本上的分类错误率em,如公式(5):
由公式(5)可知,gm(x)在训练样本中的错误率em就是被gm(x)错误分类样本的权值之和,计算gm(x)的权重系数αm,它表示gm(x)在最终的预测模型中的重要程度,换句话说,也就是最终的预测模型是由带有权重系数的弱预测器集成的,权重系数αm表示为公式(6):
当em≤1/2时,αm≥0,并且αm会随着em的减小而增大,这就意味着分类误差率越小的弱预测器在最终的预测模型中所起的作用就越大,最重要的一点就是如何让被错误分类的样本在下一轮迭代中能被重点对待,给所有的训练样本做了编号,并且记录了被错误分类样本的编号,每个样本都有一个权值与之一一对应,更新训练样本的权值分布如公式(7):
其中zm是使得dm+1成为一个概率分布的规范化因子,它可以如公式(8)表示:
这样做的目的是为了使被弱预测器gm(x)错误分类样本的权值增大,而被正确分类样本的权值减小,进而在下一个迭代过程中,弱预测器会更关心被错误分类的样本,这里需要注意的是,迭代过程中,训练样本永远是唯一的,始终是最初的那个训练样本,只不过给这个训练样本加上了一个权重。然后再重复以上过程,直至达到预先给定的目标,
根据得到的弱预测器以及各自对应的权重因子,将它们一一对应得到公式(9)
从而得到最终的预测模型g(x),如公式(10):
4)获取一级序列信息:使用blast程序将待预测的基因序列映射到它们的基因组中,并通过设置截止阈值0.75来除去成对序列同一性≥75%的dna片段;
5)待预测基因序列编码:采用k-元组核苷酸的方法对待预测基因序列进行编码,k的取值范围为1到∞,得到维度为4k的特征向量;
6)预测:采用步骤3)得到的预测模型对步骤5)编码后的待预测基因序列进行预测,得到待预测基因序列中是否含有σ54启动子的结论。
步骤4)中所述映射为采用blast程序,并保留从-60至+20的81bp长度的一级序列,再消除冗余和避免偏差。
步骤1)中所述k为7,得到维度为47=16384的特征向量。
步骤3)中将svm作为弱预测器时采用f-score方法进行原核生物σ54启动子特征向量的特征选择,筛选出特征向量中识别度f-score>0.008的特征,再构造模型预测原核生物σ54启动子。
步骤5)中所述k为7,得到维度为47=16384的特征向量。
这种方法与现有预测技术相比,其显著优点:(1)耗时短:采用f-score特征选的方法,能够显著降低特征向量的维度,从而提高了训练以及预测的速度;(2)准确率高:自行设计基于svm弱预测器的svm-adaboost方法,能够有效地提取特征,进而提高了预测准确率。
这种方法预测速度快、精度高。
附图说明
图1为实施例中方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明内容做进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,一种原核生物σ54启动子的预测方法,包括如下步骤:
1)数据样本编码:对sigma54promoter序列集中给定的原核生物σ54启动子正负数据样本,采用k-元组核苷酸方法进行编码,k的取值范围为1到∞,得到维度为4k的特征向量,即:假定161组正样本和161组负样本作为基准数据集s:
s=s+∪s-(1)
其中子集s+仅包含正样本即启动子序列,子集s-包含负样本即非启动子序列,而∪表示两个序列集合的并集,采用伪k-元组核苷酸来配置dna并对基因序列进行编码,最终得到具有如公式(2)所示的4k分量的向量,即:
其中
2)特征选择:采用f-score方法对编码后的数据样本进行特征选择,定义如公式(3):
其中n+表示正样本的总数,n-表示负样本的总数,
3)构造预测模型:将svm(supportvectormachine,支持向量机)作为弱预测器的基础上用adaboost方法构造预测模型,给定一个训练集样本t={(x1,y1),(x2,y2),…,(xn,yn)},其中x∈χ,空间
选用svm作为弱预测器,对训练样本进行训练,得到一个弱预测器gm(x),svm在对训练样本训练结束以后会得到一组预测值,也就是预测标签,将预测标签与给定的训练标签进行比对就可以计算gm(x)在训练样本上的分类错误率em,如公式(5):
由公式(5)可知,gm(x)在训练样本中的错误率em就是被gm(x)错误分类样本的权值之和,计算gm(x)的权重系数αm,它表示gm(x)在最终的预测模型中的重要程度,换句话说,也就是最终的预测模型是由带有权重系数的弱预测器集成的,权重系数αm表示为公式(6):
当em≤1/2时,αm≥0,并且αm会随着em的减小而增大,这就意味着分类误差率越小的弱预测器在最终的预测模型中所起的作用就越大,最重要的一点就是如何让被错误分类的样本在下一轮迭代中能被重点对待,给所有的训练样本做了编号,并且记录了被错误分类样本的编号,每个样本都有一个权值与之一一对应,更新训练样本的权值分布如公式(7):
其中zm是使得dm+1成为一个概率分布的规范化因子,它可以如公式(8)表示:
这样做的目的是为了使被弱预测器gm(x)错误分类样本的权值增大,而被正确分类样本的权值减小,进而在下一个迭代过程中,弱预测器会更关心被错误分类的样本,这里需要注意的是,迭代过程中,训练样本永远是唯一的,始终是最初的那个训练样本,只不过给这个训练样本加上了一个权重。然后再重复以上过程,直至达到预先给定的目标,
根据得到的弱预测器以及各自对应的权重因子,将它们一一对应得到公式(9)
从而得到最终的预测模型g(x),如公式(10):
4)获取一级序列信息:使用blast程序将待预测的基因序列映射到它们的基因组中,并通过设置截止阈值0.75来除去成对序列同一性≥75%的dna片段;
5)待预测基因序列编码:采用k-元组核苷酸的方法对待预测基因序列进行编码,k的取值范围为1到∞,得到维度为4k的特征向量;
6)预测:采用步骤3)得到的预测模型对步骤5)编码后的待预测基因序列进行预测,得到待预测基因序列中是否含有σ54启动子的结论。
步骤4)中所述映射为采用blast程序,并保留从-60至+20的81bp长度的一级序列,再消除冗余和避免偏差。
本例中,步骤1)中所述k为7,得到维度为47=16384的特征向量。
步骤3)中将svm作为弱预测器时采用f-score方法进行原核生物σ54启动子特征向量的特征选择,筛选出特征向量中识别度f-score>0.008的特征,再构造模型预测原核生物σ54启动子。
本例中,步骤5)中所述k为7,得到维度为47=16384的特征向量。
实验例:
使用本实施例的方法得到的预测结果与目前在原核生物σ54启动子预测方面做得最好的lin他们单独使用svm的实验结果(lin,h.,etal.,ipro54-pseknc:asequence-basedpredictorforidentifyingsigma-54promotersinprokaryotewithpseudok-tuplenucleotidecomposition.nucleicacidsresearch,2014.42(21):p.12961-12972.)进行了对比,结果如表1所示:
表1与lin基于svm的实验对比结果
由表1可以看出,使用本实施例的方法在灵敏度、特异性、马修斯相关系数尤其是准确率方面都显著优于lin的实验结果。
序列表
<110>桂林电子科技大学
<120>一种原核生物σ<sup>54</sup>启动子的预测方法
<141>2017-10-20
<160>1
<170>siposequencelisting1.0
<210>2
<211>26082
<212>dna
<213>escherichiacoli
<400>2
atttacattaactcctttttttctccacgattggctcgtaccttgccgctacagtgaagc60
aagtcaagcctacaacgatacgatctcctttgttctcaccggtatctacatctggcgggc120
gaacggcgaattcgaccgtcttaataatgaagtcctgcatgatatttaacgttgaatgtt180
actgttgtcgtcaagatggcataagacctgcatgaaagagcctgcaaacacacaacacaa240
tacaaaaagcagtatttcggcgagtagcgcagcttggtagcgcaactggtttgggaccag300
tgggtcggaggttcgaatcctctctagcctccgccgtttatgcacttttatcactggctg360
gcacgaaccctgcaatctacatttacagcgcaaacattacttattattagttaaataact420
aaatccaataatctcattctggcactccccttgctattgcctgactgtacccacaacggt480
gtatgcagttaaagctattcgtgcggtgttgccttgcaagtggtccgtggattgcatatt540
gtcccgttagtggtttcaaaatgagcatgtgttaaaaatttgctaaattttgccaatttg600
gtaaaacagttgcatcacaacaggagatagcaatgacgttaccgagtgacatcctatcac660
aggattgaaagtaggggaaaatggcagggttttctctttgtgcctcatcattaccataat720
taacggaatttaagccagcattctggcgcttatcccggcatggcatgagatctgcataag780
cggaaagcgcagcaatttttgtcttatacaaagtcgccgtctggtttatttatctcatcc840
cggcgctggtggcatttgctctgccaccacgcgcaggggcgacagcgtctccatattctg900
ccgctaaacaattccccattcctggcgtatatctggctaacattcatcaatgtgatagat960
tcctctcccgcacccgtaatatcagggaatgaccccacataaaatgtggcataaaagatg1020
catactgtagtcgagagcgcgtatgcgtgatttcgagtgaagtcgcattgcgcaagaaac1080
cagcatctggcacgcgatgggttgcaattagccggggcagcagtgataatgcgcaacctg1140
aatctgaggcagcacctggcacggctgggacggaagtcgctgtcgttctcaaaatcggtg1200
gagctgcatgacaaaataatcagtacgttaccaaactattttctttattggcacagttac1260
tgcataatagtaaccagtggctcattcaccgacttagcatgataacgccttttaggggca1320
atttaaaagttggcacagatttcgctttatcttttttacggcgacacggccaaaatagcc1380
gcatctcgaaaaatcaaggagttgcaaaactggcacgattttttcatatatgtgaatgtc1440
acgcaggggatcgtcccgttaacttcctgctctctttctcgtttttcatttctggcacac1500
cgcttgcaataccttcttcgtgtagcagaaccattaccggcggaaagtgtagagaaacgc1560
gaaaaaatggcgctggcacgtaaacttaatgccttaaccatgccgcacccggaccgacgc1620
tcggtccggatgatatcgggcttgatcgtctggaacagcgtctggcagaggaaaaaatca1680
ctgaagtgatcctcgccaccaatttagtgatgaggtcatgaaagtcaatggccttaatgg1740
caaagcgaattctgcaaaagtgcatttttacgccattaatgattaaaaatctctttaata1800
acaataaattaaaagttggcacaaaaaatgcttaaagctggcatctctgttaaacgggta1860
accaattaatttccttaaataacagtaaattaaaaactggcatgatttgtgaatgtatcg1920
gcgcattaactgtcattgctggagcataacttattgaatatattgagttaatcagaatgg1980
catcctttatgcaatatgaaatgcaatgtttcatatcattttcaacatcgacattattca2040
ccgcagggataatcaacactggcacaattattgcttgtagctggcaatagttaatgggag2100
gcgatagcgaaaaaaccgcgccgtatcgaaatcaactaattccctaaggccgcctggcgc2160
ggcctgacatctccatgctcgccgtcaagtgcattatccggataacaatattctcctatc2220
caactttggcacatctattgctttgttatacaaggcaaaccctgaaactcgagattgaac2280
acgcctgtgaaaaatcctgtgcttgcaccacctgccactgcatcgttcgtgaaggttttg2340
actcactgctgccattgctcataccgttgatcgcaacggcttatggcacgcgctgacgcc2400
gcaatttttccctcgtgagctgttacatgaaagaaagtgttctgaatagagattcaatat2460
ttaagggcacggtttttgcaaccgtgttcttgtttggcctttccttatagcgggcatagt2520
tacttctgctgtgggttggaagatggcacctctccggatacgcaatggcttaatgaaatt2580
gtgatgacggatttggttagcttgtacatcaacaccaaaataaaactggcaagcatcttg2640
caatctggttgtaagtaatggcggcacttgggcagccatcgttaaacagcgtggcggcag2700
cgcctggcaaatcgtcagcgtagacagcacctatcactcctcgctgtcagtcagttattt2760
atagagtaaaaacaatcagataaaaaactggcacgcaatctgcaattagcaagacatctt2820
tttagaacacgctgaggtttgcgtcagctcatttttatctggccttgtgcactggcaatt2880
attgctgcattgacgatgggattcttttacacactcaacctgcaaacattgttaactcct2940
gctaaattgttggcgctaattatttcatgctacccggcacatagccagtagagtcagtca3000
aaacgcgccacgattcgctcgccggagtggttggcacgcagctcttctgccaccagcgcg3060
attgcctggccgctgctcaggaaatcgccccatggggttggcagtttggcttctgccaca3120
cgtttaagctgcatgaaattctccagataatgctggttcaaaccaacgtttatgaaaatg3180
aagaaataacaagcaaatggcatcattcctgcttttaccagggggatttaacatgcttat3240
gttctcttttcttacaccgcgccgataaaaaatatgcacgtttattgcatatctttcagt3300
gtgacaacttttgttcgtttgtcgcaagctccagcagtttttttcccccttttctggcat3360
agttggacatctgccaatattgctcgccataatatccaggcatgaaattaaacatttaat3420
tttattaaggcaattgtggcacaccccttgctttgtctttatcaacgcaaataacaagtt3480
gataatcagatctttataaatcaaaaagataaaaaattggcacgcaaattgtattaacag3540
ttcagcaggacaatcctgaacgcagggcgttttgctgttaaatcaatagattatttttgg3600
catgattcttgtaatgccagcaagagatttcatatttgggagagcgtaatccagacattt3660
cccggatgtcgcgttatggagcgcgggcggcaacgggcttccgttaacgattaagactgt3720
gacgagcatccggcagttgtacgcaggtgcctgatgcgacgctggcgcgtcttatcatgc3780
ctacgagcccgcgaatatttgcgagccctggcgcaaaacgacattatggaagagcaggaa3840
gcgatggcgctgacccgtgcttacactacgcttcgcgatgaacttcatgattgccggatg3900
cggcacaagtgccttatcaggcctacaggtcggcaatagttgtaggcctgataagacgcg3960
acagcgtcgaacagtgaatgataacctcgttgctcttaagctctggcacagttgttgcta4020
ccactgaagcgccagaagatatcgattgagcaccatcaccagacggacgtgtgccgggat4080
cgcaatggcaatctccccctgcaacgcgccagggcgacgcagcgaccactgtgaattaaa4140
aaattaagctgcttatttaattttctggcacgacggttgcaattatcaggacagcaaaca4200
acgaaaagagaaaacagattaataacattaactttttaaaaactggcatccgctttgcaa4260
acaagccaatacgcggctgaaaaggatatgcagtcttctgctgaattaaaagaagaaatc4320
tactttgcctggcgtctgggcgtgcattgatcctgacttaatgccgcaagttcggtcagg4380
ggcgagtagtaccagacagtttcactcatggcacttctcagcaacgctacagctggttta4440
aacgtggtttcgacaaactgggtggtgcccgcttctcgtttagctggccgttatggcata4500
acatcccgcaatttacctctgcctgacactacgcgcaccatcgtgcaaaagggctgcacc4560
acgatgtgaatgttgcaccaatatagtgcttcaatggaaacattaagcaccatgttgcct4620
acctcccctaacgcttatcgtcgtttctggcgtaaatcttgcctgcttagactaaatctt4680
tgccataagaaccaaatgcacattgttgtgaaggccgatgctgataaacaggcgctggag4740
ctgctggtgaaagcgtgccccgcaggtctgtacaagaagcagaccaaccatgtaggctgg4800
acgccgctactggaagcgattgtgcttaatgatggtggtattaaacagcaggcgattgtg4860
tttattttttatgtattcttttgtgctttcaagattatggcgtaagaaaattgcaatacg4920
attattgttgtatattcaagaagaggtagaagaaaatagtttgtatcctcaatattggca4980
ggttaattgctgtttccccgcaatttgcgctactgtagcgcgatgcgctacgcttatcag5040
gcctacaggatatctggcaacttattaaaattgcatgaacttgtaggacggataaggcgt5100
tcatctaccatgctctctgtagatgccagcgcgagcgaatgaatggcattttcatgtatt5160
aaaccctttggccgggacaagcaatcaaggccggtgacgttgtgttgacaggcacgcctg5220
atggcgtcggcccgttgcaaagcggtgatgagctgacagtcacttggcgaggttgtcgag5280
cgaggcagcaccgcggatgtgctggcatcgccgctgcatgaactcaccaaacggctgatt5340
gccggtatcaccgggcacgttgttctcatcgtcgataaaatggcatgagagttgctgtgt5400
tttagcaagagacgtcgttcagtttacacgcctgacagcgcacaaaaaaagcgcactttt5460
tgactggcacattcggctgcctcaactaggctgaaaaatggtgcgatcgtctcgatcgac5520
gcggtgcattactgcgtgaaggcgcgtggcatccgcgatgcaaccagtgccacgacaacg5580
acctctcttctaataacatccctcaagggaaaaagatccatggcatactattagcagaat5640
aatctacctacgcgagaccatgatttttacctggtgaaagcatcattggatgaaaaatcg5700
gcaacaggctggccccctgtttgcttcgcgatgcgaataaacttattatttcctcacatt5760
tttttatatttcccgccaaacctggcaagagtggtgcgattgttgctctatccccctaaa5820
ccaccggatttccgaagtggatgatgcgaaatacggcttcgtcgcctctggcacgctgaa5880
cccgcaaaaagcgcgcgttctgctgcaactggcgtgtttatcccgattttcgcgatcgca5940
gccggagtggcgcaatccctgcaatacttaaatcggtatcatgtgatacgcgagcagctt6000
attgcgacgcgaaatcgtgcgcaaaagctggcactacttttgcttataagaggatggcca6060
cagacaggtaaaagacagtgcgttagagctggggcgcaagacgctggtcacgcttggcat6120
gcatccgcatcaggcacagcgagcgcaactgcatttagggttaacggtttaaacacccag6180
cgttgccaggttggcccacgatacgatgcatccacagatagccatgcggaaagacagatt6240
tattgatctgaatccaaaagcaatgaccccggttgcatggtggatgctgcatgaagaaac6300
agtatataaaggtggcgaaaaacaattttgaggatttccttatattggtggttagtacgc6360
atgcaattaaaaatgaaattccgcgaccacaagccaaaactcccttataagtctgtggtt6420
acgtcaatagagagctttgtcacaattatctgcaaagtcatacgccgttaattgctttct6480
tgcaaagtcatacgccgttaattgctttcttttttggcgtaagcgtaagatgcttcatct6540
ggtttaaaccaaaaggattaattagaaaaaccccggtccataaggccggggttttttgca6600
tatcaattatttgcatgatgaagggaatctcatgtcagttctctaccggccatcgggtca6660
gcgtggacagcgcgctggcgtgggtacaacgctgcatgaaaggctatcgtctgccggagc6720
caatttcatgtaaaagaataaaatatctgtataaaatcatgccactggcaatctgcatca6780
actctccgggtaaacagggttaagcgctactgatgatatgcgtaatgccaagctctttgg6840
cacgggttgccacctgcatcgcctgttgctcacctttggcggtcaaaggaaatatgcctg6900
agcagcagtcagagacataactggcacgtaaggtttgcaaccactaacccaccaatagag6960
gggtagaatgctggtggcacaggcggctcatgcctttcttctctggcacggtgttctgcc7020
tgacgtagaaccagttataaagcaatttcaaagcgtaatgctgatggtttaggaatgctg7080
gtggcacaggcggctcatgcctttcttctctggcacggtgttctgcctaagccatctttt7140
taatgttaataactagttaattaaagtggcatcctcccgcatcctctctgataatgacgg7200
gatgccgggtgtggattatgtcaccaggagaaggatgaaaagtgtggcaaaccgtaatct7260
gcaaggcgtgccgctggacagcgatggcgcgccagattacccgtcatatcagcgtttcat7320
cgttggcacggaagatgcaatacccgaagtaagacaaccactggaggattatgtgttaca7380
gcgcagggtaagcgctgataaaagatggcatgatttctgctgtcagaaagggatgagcag7440
gcaaagaagaagctcctggtggtttcccttaggccctgcgaaattggcgcacatcctgcg7500
ttccacctgcgcatcgaagtgacgcaccaagcaggtagcgggggttttccccaggtcttc7560
ggattcaggcatagatcttgtttcaactatgtcgccaagccagcattcgtgcgcgctttt7620
ccccgttttttcgttcgattcacgccccggcacagctcttgcgatctgcctgccgtgcgc7680
acggccggaatgccgctgtttccgctgttttcactgcctgcgcgcactggcacagccatt7740
gcaaatacgcctggcaagacaacgacaacaggagacggcatcccacgcagccggatcgca7800
accgctccgattggcacgcaacgtgctttacatcggaccgtcggcagaggcctggacgtt7860
caatttcaatgatttaaaaatttttcgcgaactggcacgggggatgcagagaaggggtcg7920
aagcggccgctggcaggctccacagctgtacgatctctgcaatggcacgaatggcataca7980
tcgtgcttacagttgtgcggctcgcccaatcggcggagagcacacgaggccgcttcaggg8040
aacaccgacaggaggctgatccctcgcagccgcttttgcggcagggagcatgccaatgac8100
caaataaatcattcaaaaacaattacttgaataatcggcacgggtattgctcggctcttg8160
gggtaaagactctctcagccgctgtcgcgacttgtttggtggcgcggccggtaaactggc8220
acatgcattgctttatatacgacgtcacctcgaaagtattcttttaaatcaagaggttat8280
gtgtttgcctcgagtgctggcacagacgctgcattaggttcagtgcgcggacttgttcag8340
gctaataacaatgaaaacgcttaacacaactgtgttggcacgatccttgcattatatatg8400
gatgtacaaaacaggaaaggagcagaaaattgtagaaaacacacgaattcttgatttggc8460
acagaacttgcatttatataaagggaaagcaggataacatgttgatcaacaagttttttc8520
agcaaaagacaagaaaatggcatgattcttgcatttttattcatatgcgaagatatattt8580
cataacggccgcggtggaaaacctcccgcaatgcggccttttggcacgctaaatgcttgt8640
aaacggtcggccgatggtggccgggtacaatacgtcccactgacttcaatcgtctttgca8700
actggtacgacacttgctgttgtcctgctgatctgatcatcgatgccgacgcaaaacgga8760
agcgcatttacgtacatcgcagtggcgcaaatcctgctacgcgtgcgcgggcgcaaaagt8820
agaggaggctgataacgctccaataatcagggcatttgcaacttggcatagaccctgctt8880
tcgaggaagccgcttcggttcgtcgtgctctgtactgtggttgcattcgcatcatcctcg8940
ccacggcatgcaagttgctaatcttcctgaagcgcgctctaggatgatctgctgttgttg9000
ttctagttttagtgctcatgagaccctggcatgccggttgcaaagtcttggatcaagaag9060
ccgccctcccaaaacgtaatcagaagcttaaggtgccgggttagaccttggcacggctgt9120
tgctgataagcggcagcaacactgagtgagggcggcgcggaaatgagcatcatcaggcgt9180
ctgcgcgctggcacgtgacttgctcttagctgggcctaagctgacgaggcaaagggctat9240
cgcattgattgcactcgatttcacctttggcacgatacatgcgtaatcgtctaaagggcg9300
ccatagaggagaagtggaactggaagggcagatcgcttagcgcatttctggcctgactct9360
tgctacgggctgcttgtcacattgtgcttaactccaccttgtgacagcgagcggtcccaa9420
gcggcggggatggtacaagacttgctgttctcttcccaactgacgtaactttaggagaat9480
ctctccacttttgaatcgctccaggctgttggcctgcttcttgctgtccttggcgtcatc9540
gaaaagtcaaagcgaaggataaatttttaaaaaattcataaaaaatttcacaagttggaa9600
cagaacttgcttgtaaacttcacataaacgcaaaagttttttctaaataaaatttcaatt9660
tgaatcaaaacttggaacacttcttgctttaatcttttcgatgcaatattttgaaaggat9720
tcattgataacagaggtttaggtcgtgttttccgagttggcccgaccgttgctgagggag9780
gcgacgaaggcgtgtccgtcagcgccgcgaaaaatttggttaacaagatggcggcgggcc9840
gcaaatcgctccaagcgaaagcctagcttcccatccccggttccgtcggccccggcgccg9900
ccgctgtcggcccgcaggcccagagcttgcaagcccgctcgcaacccctccgtttcgccg9960
ctcttcctatttgttgattttaatggcattttagcgctggcacgaaggttgcttctgggg10020
ttgcgacgcatttgtcgcgtcagccagtgatttagcgcagctttgctggtgggcagaatt10080
ggcccggcaattgcttcaggtcctaccgagcaaaatgctcccggcctgcggcgggcgaca10140
gccgaggaaatgcaaagctggcaagcaaattgcaaaagccagtgcatcatactcccagcg10200
ttgacgaagtctacttttcatgcggttgcgaaattaacctctggtacagcatttgcagca10260
ggaaggtatcgcccaaccacgaaggtaacaacctcttttctttaaaaatcaaggctccgc10320
tctggagcgcgaattgcatcttccccctcatcccccaccgtcaacgagggggcagggatg10380
ggccgcggtagtgcaaagcaacctggcacagccttcgcaatacccctgcgagaacgcgta10440
ttttcaaccataaaaatcataagaatacataaacaggcacggctggtatgttccctgcac10500
ttctctgctggcaaacactcaacaacaggagttgaattcgcgctaactcttctgtcatcc10560
gcgagctggcacaggctgtgcttgaggcaacaactgggtttgccgcttatttaccggatc10620
aatgtttctgcacatcacgccgataagggcgcacggtttgcatggttatcaccgttcgga10680
aaacaccgcggccgagcaggagctgatccccatcacccagccgtggctggccggaaattt10740
gcaatacagggatagcgtgacctgccagatggctacacaaccatttgaaaaatattaatt10800
ttattctctggtatcgcaattgctagttcgttatcgccaccgcgcttccgcggtagaatt10860
ggggggcttggagtgcgcacctgggttggcatgcgtagtgctaatcccatccgcgggcgc10920
agtgccccccgttgcgacaagccctggaattcacttggccgcgcgtcgagcacgcgtctt10980
gctttggctcacggctcttccaaacatccacggaggattttccgattgatggtttttatc11040
gcgatttttcggcatttgcctttcggggcggcttgtgtttcgtgcgggatgtcgcgtttt11100
atttattctgctttttgtgctcgcgccgcgctggcatgctcgttgcagtcttgttcaaga11160
agctgctcccgcacagttgtcctgaccctcggtcagtatcttcaggaactcggcgggcaa11220
cgcactgccaaaccccctgtgcctagcctgccgggcttcgggatggtacggcgctcagtg11280
tttcaacgaccggtcgggcccacgcgttccacttcccccgaccggaagacaattagcaat11340
gtgcatcggcgggggcgaaggcaccgcagtggcactcgaattgctataagaaccatggct11400
ggggacgcccgacaacaggcgttcgaacaacaagaacgaactctacgtaatgccgggata11460
cccgtggcagcgatagctgtttgcctgttcgaaaatttttgggatatttccaaatatttc11520
gcgagcgggacaaacggccggaacttccctcgcagagaaaacatcctatcaccgcgatgc11580
ctacgcaacgctttgattttcaaatgaaaaaaatttaggcacgggtattgctatatctcc11640
gtcgaccgacagaaccatgacgtcatttagatgaaataaggggatcggtataagcaatgg11700
catggcggttgctagctatacgagacttaaaataaaaatagtggtttctcgcttcttaaa11760
aagaacgtcttcgttctgcttggcgttatttttgcttggaaaagtggtcactaattgcaa11820
aaaggagattcgcgatttttctttcgcgtgggcccaaaactggcacgctacgtgctttta11880
aagcatcatccctggcgatcggatgcgcgacgtcttttttcgagaagatggatttcaaac11940
tggcacgatatctgcatcatatccggcgagcgggaaaattcctgccatgcgaattattgt12000
tcgtcagctcaatcggccgcttggcacgaatcttgagagctattgagaggcagcggaacg12060
gccgccgcagccagctggaaagtggcgacgccccaaagcgagttggcacgtttgatgctt12120
aaggcaaatggatccctggcggccagacgcagcgccaaactattgatatttcgatattat12180
cctgttggcacagcgcttgcttttttggacgacgactttttactccagtgggaaagaaag12240
ccgagtagttttatttcagacggctggcacgacttttgcacgatcagccctgggcgcgca12300
tgctgttgcgcaaccgactaccttcgttccagccactcctgctgcccggcacgacttttg12360
caagatcacccggtgggccgcgcatgttgtgcgatgatttcgcgtcattatttgcgaaaa12420
ttccggttggcacgatggctgctgtagaagctgtgagcccggttaggaaccgtccgcccg12480
ccccccggcaagcccgcccggcggcgctggcatggcccttgctgcgcggttttcgggatc12540
tttccctcaacgacattttttcagccacttgggtgatcattgaaccagtggcacgaggcg12600
tgataagggatccccatcgtcccgcaaaggacgggttggtcagggcccttttgcagaggt12660
gggctcaggcgtcctggagacgcgacagcgctccgggaaagagttcggtcgcccgcccct12720
gcccgccggcggcacggtgcgggtcgtccgcgagggggcaggggtgtcgctccagggcac12780
aggccgcaacgccgggctgatgagaagactgattttacgggctcaaaagactggcacact12840
tcttgcatttataatggtgaaccctaaatagaaggaggctcggtatacctggtatgacag12900
cacccttaagagctggcatggaacttgcataataaaaggcggagtcgaaacaagaaaggt12960
gttttcagtctctttttttgtggattcaaaagctggtacggatcttgcatgatgataagg13020
gtgaatccaatgaagaaaggacgggcgcgccgggttcaccgccagcgccgtctgcagtgt13080
gaccgatacgccgcccacattactggtgtgcctgaatcgtggcacactggaagcaataaa13140
tgaagtgggcatgcacgatgcaacgatcgcgcagatcgcccgccgtgcaggcgtttctac13200
gggactgaagcgcacaatgaaaacgcgtcacctgattatgctttccttgggcggcgtgat13260
tggcacaggattattcttcaatacctttttcccgcagtatcatcccgtcacgacgtttaa13320
tagtgggcttagtggcgggagttttctcattgaacatcagggccacgccgggtgtgtggg13380
gcaacgtgaacctgcaccggtagaagaagtgaaaccagcgccggaacaaccagccgagcc13440
acaacatcctcctgtcgcattgctggaaaaattccccgctactgaaaatgccgcgaatac13500
ggttgcccatgcccgaaaagcgatccaccatacctacgagcacgatccggctgaaaccaa13560
ttttggcgatgaagtcgtcaaaaaattaggtttgaatccggatcaggtgcgcgatttaga13620
ccgggatactgcgcgcggtctgtatgctcatatgctcaatggtgaagtccctgaccttga13680
gttgggcggaagccacgagcgccatgcattgcctggtgttatcggtgacgatcttttgcg13740
atttgggaagctgccactctgcctgttcatcctgttcaacgcgctgaccaaagccggtat13800
tgaagcggccaactttccattctgcaccattgagccgaacacaggcgtcgtcgttaaggt13860
attcgaggaagcctggcccttacataccccgtttgtgattgcccggggaagtcgcagtga13920
agcgcgcgtggtcgggagtgttattcagcgcgatgacctggtgcagtacacgacaactga13980
cgatgcaaccagctccggtggtgtcctgcgcgtacttgcacaaaagcgtcataaggatat14040
gaataaattgaaatatcttatgacgcttcttatcaataatactttaccgcttccacatta14100
cgattgccgcccggatgacgaaacacccaccctgctggtggtgcacaatattagcctgcc14160
gccaggcgagtttggacgttataccgatattgccgatcaaatctgggatcatccagaaac14220
acgttttgaagagttctggtcagcggagcatctggcggcaatgtctctgagtgcctgttc14280
taactggtctaaacgggaccgcaacaccgcaatcggcgcgggtgcaggggcattaggtgc14340
ctgcaccacagtcactccagcttataaagataacggcacacgcagtggtccttgcgttga14400
aggaggcccggataacgtccctaaacgctccactcttaaaagccgttccgatgttgaact14460
ggaacgtcaattcaccttcaaacattcaggtcagagctgcattgtaccgttgctggacgt14520
actgctggtgctgttgctgatctttatggcgacagcgcccatcatcacccagagcgtgga14580
atttgccagctttgcggctgtcgaagttcagtcaacgccagaaggccaacaaaaagtcgg14640
tacaatcagtgctaacgcgggagctcgcgttgtagatatcgccgttaaaggcggaaaaat14700
tgctgctatcggtcaggatctgggcgatgcaaaagaagttattgatgtgctcggggcggc14760
ggtgacacctgttgatggtgcattgctcggagatgtagtcacggttgaggcggcagagac14820
atttaccatcgcatctgatgacctgtggatcgagagtttagcgatccaacaattacacac14880
cacggcaaatttacccaacatgcacctgataagtcgcgtcagcggcgcatcaggcatcgg14940
ttgtcggatgcgacgctatgcgtcttatccgacctacagttcagtcgcgtcaattggcgc15000
gaacgcacacattggtcctttttgtatcgttggaccccatgtcgaaattggtgagggtac15060
cgtactagaagcgttcaaaacccaaatcagcaaaatacgcacgggtcgtgcttctcccag15120
cctgctggatggcattgtcgtggaatacttctcttctgccaacgccttagcgttgcaggc15180
aaaacagtatggcgattttgatcgctatgtcctggccctctcctggcactggaaaaaccg15240
tcctgaaaagccagacggcagacgggctgtattacgcagtcaggtacttgaactgcatgg15300
catcagccacaacaccacctatcttggttggatctggagtggttttcaggtgacgatcgc15360
tttgtcgatctgcgcctggattatcgctttacttcttactgccgcatttttagcagcgag15420
tcccgcggcgaagagtgctgttaataacgcctatgatgcattgattattgatcgggccat15480
aggggcaacaggttcggcggttggggaagtcgttttcaatacttcaatgaccggttatca15540
agaaatcctcacaatcagcgttggtaaagtttttgctaacgcagatgagtggatgacaac15600
gtttagagaaaatattgcacaaacctggcaacacgatgccggtggtgtggtgtaccacgc15660
cagttacgtcgctttttatgaaagagcacgcacagagatgctgcgtcatcatcaggcgtt15720
atctccgctctctgcaacggcggctgagacttcttcagcaacgacagcccagcagatgcc15780
aagccttgcaccgatgcatgccgtttacctgaccgtaggactgttcgtgattactttttt15840
taatccgggagccaatctctttgtggtagtacaaacgggaaaatggttagcacgcggcgc15900
ttattcgccagcttcgcaaatccgggcgcgcgtctggacgtttgacccgtctgagtccat15960
ggtctttttgttcgttcagcccgatgccagcgctgctgacataagtgcgcagcaaatagg16020
tggggtgattattccgcagccgcaccgtttcccgttcttactggtggatcgcgtgctgga16080
ttttgaagaaggtcgttttctgcgcgcagtaaaaaatgtaagagggttgatgccagcata16140
caggggcgaagctggtcaacaagtcaacattaagataatggaatattcggagagaaacgt16200
tcccgccaagacggttgaagatgcagtaaaagagatgctggagcatatggcctcgactct16260
tgcgcagggcgagcgtattgacgctgccgtggcgctggcgctaccggcaaaagccaacac16320
ctggccgctgccgccagcgggcagtcgtctggttggcgaaaactactcctggcagttgtc16380
ccagaacgacatcgctgatgttgaataccagttcctggctgaacaggatgtaaaagacgt16440
tgatttgttggcggttttcattattgcggcgtcggttgtgactcgcgcgaccatcggcgg16500
cgttatagaacagtacaatattccatttgtggtcctcgcgcttgggctatgtctcggaaa16560
gttacgacttggttcgatccaactgggtaattccattggcgttttgcgtatggaaggcaa16620
gcgcgtggcgctggtgcctaccatgggtaacctgcacgatggccatatgaagctggtcga16680
cgaagcaatgtgccgcgtgctccgggtggcccgcagcggctggtatacgtggtgtcagcg16740
gcggacaaggataagcacgcgtcagcacaaagggttaaccgaagccggttttgtggtcga16800
tttggccgacaacgggctgaatggctaccatctggcgatgaccggtgattttggctttat16860
cactcctgatgatggcagcaaagacgttttcgtccatttcaccgccatccagagcaatga16920
attccgcacaatgcatgcggagacggctcgcgactttctggagatacatttgccagtgga16980
attacgcgaactttgtgacctcaacacgctacgccctcgtcgcctgcgcaaatctcctgc17040
gctgcgcgctatgtttgaagagacaacacttagccttaacgacctggtgttgccagcaga17100
gctggcggatgccatcgggctgtcgtatgacacctataccggaaagcagatcagcagtca17160
gcgggctatgcgcacgcagcgagaatgtatctacattaatgaaagtcgtaatatcgatgt17220
ggcggcaatagttttatcgctcaacgatgttactatccattgccaggattgcagcatcag17280
ccagctttgcatcccgttcacactcaacgaacatgagcttgatcagcttgataacgtcat17340
ctcccaacgttggctgaatatttctcgtctgctgggctttgtgagcggcatattgatcat17400
tgcccaggcctggttcggcgatatcctgggggccggtttaatccgcgctctgaaagaaca17460
tgtgcccaacgcccgctttgttggtgttgccgggccgtttcgccctgatttatggggtaa17520
accggtggttgtgctatcgaataatgacggttgcgttatcgcccgaaacgctgaggcgcc17580
aacagaggttaaacaggtagtaactatggatatggatctaaacaatcgcctgactgaaga17640
tgaaacgcttgaacaggctaccttcgccgacagtgaattcagcagtaagcgccgtcagac17700
cagaaaagagattttcttgtcccgcatggagcagattctgtgctgcacggcgcaggcaaa17760
cgaccataaactcctcggcgccattgcaatgccgcgtaacgaaaccaacgatctggcgct17820
gtcacttaaaaaactcaggccgcagtcggtaacctcgcgcatacagccgggcagtgacgt17880
catcgtctgcgcggaaatggacgttatattccctgacccattgtttattcgcaaaggcca17940
gggtgtcactcctaccgcatttgcgatgcatctacatgagtaggcgctgtttctcatcat18000
cacgctgtttccattttttgtgatgctgatgacctcgttcaagggcgcgaaagaggcgat18060
ctctattgtcaacattaacgaatctaacctgcaacaggttcttgaacagtcgatgaccac18120
tccggtgctgttctatttttggtcaatgtgcaggaacaggcttaagggtcatgcgaccca18180
gactctgcaagaaaagtacctgaatgccatcatccatgcaggcggtatggctcagtatca18240
gcaaatgaaagcacaaggaattcgctttgtagtcgccagcgggaatcaatattatcagtt18300
gatctcacagaagggcgcacaggcgttagagcggggaattgcgattctgcaatatttgga18360
aaaaagtgggggaagttcgtcggttagtcccattgtccagggttcggcaggtgtaagaat18420
tggcgcgcccaccggcgtggcgtgctcggtgtgtccgggcgggatgactggccgactggc18480
tgccgaagtgctggagatgatcgaaccgtatgttaaaccgggcgtcagcaccggcgagct18540
ggatcgcatgccaaccattgcgcctttcaaagcgggtctgatcgtggcgggcgtagcgtt18600
aatcctcaacgcagccagcgataccttcatcgtttgggcattgattgccgttatcttctg18660
gcaagccggtgggggtgactgggtggcgcgtatcaccggcgcttccgggcaggctttgcc18720
gctgtggagccgcgcagtatttgcggcagaacgcccaacgttaccgatccctgatttgct18780
cacgaccgatgccaacaaaatcattcgtgagcatgaggatacgctcgcagggattgaagc18840
caccggcgtcacgcagcgtaatggcgtgctggttggcctcaatatccgtcctgatggcat18900
ctacattgatgggacttttggtcgcggtggtcactcacgtctgatcctctcgcacttcgt18960
tcccggcacgctggctgatggcgtggtgtatgtctccggtacgctggcttttgatcaaca19020
taataacgtgctgttctatcaggccggaagaggtcaccatgcgctactcattcaggcgtt19080
accgggcatgggcgatgatgctttaatctacgccctagagtacccgtggctggcggagcg19140
tgacgaagacggtgcggtagtcacctttactggtaaggtgcgcaaccataacctgggtat19200
gaaccagattggtgcgcactatgaaggccacaagatcattgagattggtgccgttgaagt19260
ggtgaaccgtcgcctgacgccgctgaaacgtgctaccgatgtccactggcatccaacgcg19320
taaccaacgtgcgccgcagcgtatcgacacgctgcagcttccggtggttcacccgacggc19380
gtttgtccatcccagtgccgtcttgattggcgatgtgattgtgggagccggtgtctacat19440
cgcaggcatgatggattgcaaaaaagcactgactgaagctaacggcgacatcgagctggc19500
aatcgaaaacatgcgtaagtctgttaccgtttataactacgatggtgaaacacgggaata19560
tatttccacttcaaatgaatatcttgccgttggtgtcggcattctgttggcaacggcagc19620
ggtagtactggtgctttcgcttgcctacggaatggtcgcgctgatcggttatagcgtcag19680
tttcaaggggggcctgatggcgctgcgcttatcaggcctacgctcgaaagcatcatttgg19740
aggccggataagacgctacgcgtctgcgatgtgatagctgatatacccaacgtaattggc19800
gttgcatacagcacaacccgcgggctccaatgaactgacccacgcttttgcccacctggc19860
tcgccgcaccttaaaatacgacagataaaattataggcagccataaaaatagtgatctca19920
aaacgtagcttacgtaacccaccaccggtatccattcgttcttcagacttctgaagaagc19980
gttccattgggctgttatcccagcaatttttgtaggcctgataagacgtggcgcatcagg20040
catcgtgcaccgaatgccggatgcggcgtgaacgccttatccgtcctaaaacactggttg20100
tagctcttgggggcaacgccttactccagcgcggtgaggcgctgacggcagaaaatcaat20160
atcgcaataaacggtggatcaatattgggccgttggtggagatataagtggatcactttt20220
catccgtcgttgacaaccactgatgggcaagcagactgctgacaaagctgttggtgctgt20280
tgaatgttaggttacgcttcgctccactccacccaacggaatccgcaatatcctgctcgt20340
cattcatcgacttaatggacgcaaaaaaggccggttaaaccgaccttttatccagccgcc20400
cttcagggcgtgtaatagtctttttaatatgtgacaatagtgttgctaaggtgtgattga20460
agcgtggagtttacgcacgttgagtgatcaccttaaggcgagattattaaagttgccatg20520
cagcgtccggggaagtgttgggcgctgttttttttgtttcttaataatgtgttgttgcgc20580
aacatgcctgatggcgctgcgcttacccagtctaccgtaggccggataagcgcagcgtca20640
tcaggccattaacgcttcattcgcacgggctttaatgagtaaaccgtacattaaatgaat20700
accttcgggatagggaaaagttaacgttgtcgggttttggaagcatcaccatttgtctta20760
tgtacgcagacggtaaaaaagatccacaacggcggtaaattgaaaaattaattgccatga20820
ctggggggaatccttgctagttatataaggtcactgttagctagaggcttgagcgacaaa20880
agtgtcatttggattgaggccttatccggcctacaaaatcgtgcaaattcaaaatattgc20940
aggggacgcgtaggcctgataagcgtagcgcatcaggcattagctataatctggtacagg21000
gccataaaatcgccacagtaatctcatactcgcttactgtggcgatccctcttcttccgt21060
taatgtttgaggatcgcccagatgaatcgctcacccgataaaatcatcgcgctgatattt21120
ttactgattagcctgttggtggttagagtcattaccgtttcgtctatataaaaacttatg21180
tttttggtacattagcagtatatatcatctctatcatcacaacgtgatcgataagaaaat21240
atcacactgtgaagcatgatgaccacatggctgaaaagagagagaacttattttgctcaa21300
tcaacgctcatcctcatgatctgatgacaaaactgttttgcacgttgtgcgcgcgcttcc21360
ccggaggcggcgctggcgcgccttttggaagcatcaccctattctgcatactcttgaaaa21420
gaaagcataacctaagccccttaaaagcattcaggataattatgaaccgtcaggaatacc21480
aggcttagtacacagcactgaaagtagaaaccactccagccattcgtcatcaatttgaac21540
aacacattgaattgccggatgcggctagcgccttatccggcctacgttaatgaatgtagg21600
ccgggcaagcgaagcgctccggcataatttttccacagaaaggaattgtcgttgttacaa21660
caataatgaacggatactgacacaacatcgctacactttttaaagcacagaataaactgg21720
gcacgatagccccgattcagattgcagacaaagtaagctttgttcatgccggatgcggcg21780
taaatgcctaaagtggcaattacgcatagtttcccgataaagacgcgatagcgacatccc21840
gcataaggcatttttctctttatctttgtagggcaaatccaacggggtatggaccagatg21900
gaaaaaatcacaacaggtgtgtcatacaccacgtcagcggtgggaacgggcattgcgcgg21960
tacaactaaaaaacgctgttccgatggagtgcaatcccggaacagcggagcgaagaattc22020
gcaatgtggacattcgtaggacggataaggcgtttacgccgcatccggcaacagatgcct22080
gatgcgacgctaccgcgtcttatcaggcctacaggggcgacttcattagcgtgcgcctgt22140
attttaactttgctgtggcttcgcgccagttctgaagctacgacatacatatttcctgca22200
ttaacctgcaatttttagccaaatagcggtcaacaaaaaagggggccctgaactcatcag22260
cgcccccttttatttgttagagtcattaccgctgttgctcagtttgcataactcgccctt22320
tgtcatagacgtgctgcgtattgttcagataatgagtggcaaggctgggacggaagttac22380
tgtcgttctcaaaatcggtggagttgcatgacaaggtcatcgggcattatctgaacaatg22440
aagggttgaccgcacctcggggcactccggtggcttacgccactacgaccccaacggcac22500
gtttccccttcaattgactgtgatccagaggctgggtgacaaacgtataattgcctgatg22560
cgcttcgcttatcaggcctacataaggcattgcaactgatgctgtatcaggccgttgttt22620
tagtccgttagcttcgccacgttccaagagaagaaaccgtcactcataagcatgaactat22680
tacttttgccctgatgatctaaaagcaaactgtgcaatgaaaaacaggagccatcaggct22740
cctgtttgcatttctgacgacgcaggtcatttcttcccaagctgactcgctgattaaaat22800
ttcgcggatctgggccgatttttttcccgcaaacacatcgaaataaaaaccgggaagatc22860
ctaagaagatcttcccggttgttttttgatcgccagtagttacccagttaagcccgtttg22920
tgttattgacgcttatttattggtgagaactacgttccatggcaggagttcgtcaacacg22980
gttggagggccattccggcagtatataccctttgtccttgacgccgcagcgttgttagcg23040
gcgttcgctcacccgaatcacttacttgagtaagctcatcgggataggcagttggatcaa23100
aaaaggacacgatttttacgtgtcagactgctgacaaaccccgatgacgcgatcttgaac23160
ggtgagatagcggctcccacaatgttcaaatgtgggagctatttaccagcacatcttaca23220
cttatgatgagaactcctggcgaattttattagttcggcgtaagaactcagagacttaat23280
tcccctatcccatagataacgataggggaaaattatttttgcagaattaatacttcaact23340
tctggttgcatgattgtttgtccgtaaaaagataacgcgcctgccgggtagtagcaggcg23400
cattacgcatctctgacgttttccgggtggcgctggtcgcccggattacagctcataggg23460
tgtgacgacaccatctctcgtattccgcgccgggcagtcgtcagacaaaaaaatatccgg23520
gggaatgccccggatatcagactgctgacaaaccccgatgactcactcttggcagtgcca23580
tttatgataaaaacatcccttaaaaccaatctaatctttttcttcctctgtgtatttgtt23640
ccccatatggcgttcatattgtactgttacgttgtacaaacctgtgccaacgggttcccc23700
tcaccctaaccccagaggagcgaggggaccgttggcaagctcacgctcatcattaagttt23760
atcaatccggcacagtctctgttgccggattttttgtattcagaaaaccaggtccgtggc23820
gatgacccagcaaagataaaacgagtcacaggttatgcatgagaggaaatcaggcgcttc23880
gccgctatttcgaattgggctccacaaaatggggacatcaaagaaaagcagtggcaatag23940
gtatgactgatgctttaacgaaaagttcgacctattgcaaagcttggttgttgttaaaga24000
tgaattttttaacggactcgatgccgtcataaaagtgatatttaacggctacgctgattg24060
gaagcatcaccaagaatgcgatggatggtatatttacgaaaaaataattgatgataattt24120
tgccatagtcatagaatcgtagcccatatctttaaaaacccgccttactgggcgggtttt24180
ttatgggtagcgttagcgtacaagacaatatgtttagtcttctttggatcttgtaggccg24240
gataaggcgtttacgccgcatccggcatgaagcaacgtactcgatattagcaatttggcg24300
ggctagttttaaacgtcagattagtcttagacgtcagattagttttagatgtcagattag24360
ttttagacgtcagattagcttatgtgatgagccgttcatgatacaggagtagtaaagggc24420
atattttaccaatgttaaggcgactttccgttttattgcgagaggcgctcgaaaatacaa24480
tatgggtattaggctttgttggcactgcatttgatactaaatttagtgccaacaaagcat24540
cggtctgatagttaacattacaagatataagtaatggacgcactcccaattagtctattt24600
aaatcgccacgagtttaactgacatattctactctggaagtagagtattaattatattac24660
tgggaagccttaacgccattatatttatttaattgatgacattagctgccggatacgcgg24720
cctacggtgtatgacttgtagggcggataagatgcgccagcatcgtatccgccaataaat24780
gccggagattatcctaaagttacacacatttgctgtgtaaaacgaggggttttccgcagg24840
caggagagcaaaatgccacgctctgttcaacaatcggggagtcagcagggggctgaaacg24900
ggaaagcccctcccgaagaagggggccttacagaaggaaagggttatgaaaagaatgatt24960
tatagggccagaattaaggggcaaagacatgaaaaagccgttgcccctttagtcgttata25020
ccgtttgagaacgacgcagcttttgcctgcgtcgttcgacggctagtcaataaagactgg25080
ccctgccggaaaatgcgccaggaaactcgtcaaagggggccaaagccccctaatactcaa25140
ctaaccaccgataggtaaacgaatcccgatgagcttacaccagtaagtgatgtcagttgt25200
tgatacgaatttatcgtcacgatgataattgactgataaagggttattagctgataaagg25260
gctattgactgaaaggcggcagtgagaagaccgccatttcaggttaccctaccttcctgc25320
cggatgtgcttcgtcctacaaaaacttataaatcataacgcctgatgagataagcgctta25380
atgcgctagctggcagggggagtccatttcctcaacctctttaccgctgaggcgacctgg25440
cttgatgcgacctatcgcagcaatgtttgcaacgaacaggattgtaacggtaatcggatg25500
ccagggatcgcccgtgttttactcgcctctgaatgagcagaggcgagtgagtattttaat25560
gaacaaaacgtccggcacgagacataaattcttcttattattgttctgttagtgtattat25620
ccactgcggccctttccgccgtctcgcaaacgggcgctggctttaggaaaggatgttgcc25680
gtatagaaatcccaacagattgaatatcaagaaaatgtctcactgccccaaacttaatcc25740
ccaataatattccccctttgggttggaaaatgggagctgggtgttctaccgcaggggcgg25800
gggactccaagtgatatccatcatcgcatccagtgcgccgcgataaagcagaaaagcgaa25860
ggggcgtttaatgcccctgaggttattgacaacgctatttttagcctcgtgagtgaaggg25920
gatgcgacgctggcgcgtcttatcaggcctacaccgctgtgaagtgcggcaccccgtagg25980
tcagacaaggcggtcacgccggagtgagttttcaatcacctttccatccaccttatatta26040
agcatggagggtttcagttcacgggctcattagaaaataatc26082