一种宏基因组和宏转录组样本相异度的比较方法与流程

文档序号:13287854阅读:来源:国知局
技术特征:
1.一种宏基因组和宏转录组样本相异度的比较方法,其特征在于包括以下步骤:步骤1:生成样本的tuple频度向量,对样本中出现的长度为1~10的tuple的频度进行统计,并生成相应样本的频度向量;步骤2:计算tuple的马尔克夫概率,基于变阶次马尔克夫模型估计频度向量中每一个tuple的马尔克夫概率;步骤3:生成样本间相异度矩阵,计算各个样本频度向量间的距离,生成一个样本间的相异度矩阵;步骤4:生成聚类树,根据相异度矩阵生成一个聚类树。2.如权利要求1所述一种宏基因组和宏转录组样本相异度的比较方法,其特征在于在步骤1中,所述样本中可能出现的字符串组合为tuple元素,并选择长度为1~10的字符串组合作为tuple元素。3.如权利要求1所述一种宏基因组和宏转录组样本相异度的比较方法,其特征在于在步骤2中,所述计算tuple的马尔克夫概率的具体方法为:步骤2-1:基于样本的频度向量构建前缀树;步骤2-2:基于相对熵对所述前缀树进行剪枝;步骤2-3:基于剪枝后的前缀树计算tuple的马尔克夫概率。4.如权利要求3所述一种宏基因组和宏转录组样本相异度的比较方法,其特征在于在步骤2-1中,所述基于样本的频度向量构建前缀树时,前缀树父节点和子节点的关系是:子节点表示的tuple包含父节点表示的tuple,并且子节点tuple比父节点tuple多出的一个字符出现在父节点表示的tuple之前;若父节点tuple为CGT,则子节点tuple可能为ACGT,CCGT,TCGT或者GCGT。5.如权利要求3所述一种宏基因组和宏转录组样本相异度的比较方法,其特征在于在步骤2-2中,所述基于相对熵对所述前缀树进行剪枝时,通过计算父节点表示的tuple与子节点表示的tuple之间的相对熵判断是否剪去子节点:当相对熵小于一定的阈值K时,剪掉相应的子节点,相对熵DKL的计算公式如下:DKL=ΣP^(X|μω)log(P^(X|μω)P^(X|ω))<K---(1)]]>P^(X|ω)=N(ωX)N(ω),P^(X|ωμ)=N(μωX)N(μω)---(2)]]>其中,ω表示父节点,μω表示子节点,X表示下一个时刻的状态,表示由μω转移到X的转移概率,表示由ω转移到状态X的转移概率,N(ω)表示字符串ω的频度,N(ωX)表示字符串ωX的频度,N(μω)表示字符串μω的频度,N(μωX)表示字符串μωX的频度;所述阈值K由赤池信息量准则确定,具体公式如下:其中,表示样本的伪似然度,d表示测序深度,表示剪枝后的前缀树的节点个数,表示自由参数的选择范围,表示自由参数的个数,选择使的值最小的K作为剪枝的阈值。6.如权利要求1所述一种宏基因组和宏转录组样本相异度的比较方法,其特征在于在步骤3中,所述计算各个样本频度向量间的距离可采用不同的相异度方法计算各个样本频率向量间的相异度距离,所用到的相异度方法包括和计算公式如下:D2S(c~X,c~Y)=Σi=14kc~X,ic~Y,ic~X,i2+c~Y,i2---(4)]]>D2*(c~X,c~Y)=Σi=14kc~X,ic~Y,inXpX,inYpY,i---(5)]]>d2S(c~X,c~Y)=12(1-D2S(c~X,c~Y)Σi=14kc~X,i2c~X,i2+c~Y,i2Σi=14kc~Y,i2c~X,i2+c~Y,i2)---(6)]]>d2*(c~X,c~Y)=12(1-D2*(c~X,c~Y)Σi=14kc~X,i2nXpX,iΣi=14kc~Y,i2nYpY,i)---(7)]]>其中,表示样本X的频度向量,表示样本Y的频度向量,表示样本X第i个tuple的频度,表示样本Y的第i个tuple的频度,nX表示样本X中tuple个数的总和,\tnY表示样本Y中tuple个数的总和,pX,i表示样本X中第i个tuple的马尔克夫概率,pY,i表示样本Y中第i个样本的马尔克夫概率。7.如权利要求1所述一种宏基因组和宏转录组样本相异度的比较方法,其特征在于在步骤4中,所述生成聚类树,根据相异度矩阵生成一个聚类树是根据层次聚类算法由相异度矩阵得到聚类树。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1