基因表达的定量方法及装置与流程

文档序号:11995642阅读:来源:国知局
基因表达的定量方法及装置与流程

技术特征:
1.一种基因表达的定量方法,其特征在于,包括:获取含有核酸序列信息的读段序列;将所述读段序列与所有参考基因进行比对,获取比对上的读段序列;对所述比对上的读段序列进行过滤,舍去软剪切比例超过第一预设值,序列长度小于第二预设值,以及比对得分小于第三预设值的读段序列,所述软剪切比例是指没有比对上的碱基数目占该读段序列总碱基数目的比例;所述比对得分是按照每个读段序列与参考基因的匹配程度以及读段序列的长度而确定的数值;对于已过滤的读段序列,使用每百万读段序列中来自目标基因每千碱基长度的读段序列数目RPKM对所述目标基因表达进行定量,定义为RPKM=(比对到目标基因对应的参考基因的读段序列的数目)*109/(比对到所有参考基因的读段序列的数目*目标基因的长度);所述比对到目标基因对应的参考基因的读段序列的数目是指只能比对到目标基因对应的参考基因上,而且能够比对到所述参考基因的至少一个转录本的读段序列的数目。2.如权利要求1中所述的方法,其特征在于,所述第一预设值为[10%,30%],所述第二预设值为[15,25]。3.如权利要求2中所述的方法,其特征在于,所述第一预设值为20%,第二预设值为20。4.如权利要求1中所述的方法,其特征在于,所述目标基因的长度是指目标基因的所有转录本中最长的转录本的长度。5.如权利要求1中所述的方法,其特征在于,所述读段序列与参考基因进行比对的步骤之前还包括:对读段序列进行修剪,去除接头、低质量的读段序列和3’端位置相同的读段序列,所述低质量的读段序列是指测序准确度低于第四预设值的碱基的数目超过该读段序列总碱基数目的第五预设值的读段序列。6.如权利要求5中所述的方法,其特征在于,所述第四预设值取值范围为[10%,30%],所述第五预设值取值范围为[15%,25%]。7.如权利要求6中所述的方法,其特征在于,当读段序列获自IonTorrent测序平台,所述第四预设值为17%,所述第五预设值取值范围为20%。8.如权利要求5中所述的方法,其特征在于,所述读段序列的长短不一。9.如权利要求5中所述的方法,其特征在于,所述读段序列长度均一,所述第四预设值为20%,所述第五预设值取值范围为20%。10.如权利要求1中所述的方法,其特征在于,所述核酸序列信息来源于核糖核酸。11.一种基因定量表达装置,其特征在于,包括:获取单元,用于获取含有核酸序列信息的读段序列;比对单元,用于将所述读段序列与所有参考基因进行比对,获取比对上的读段序列;过滤单元,用于对所述比对上的读段序列进行过滤,舍去软剪切比例超过第一预设值,序列长度小于第二预设值,以及比对得分小于第三预设值的读段序列,所述软剪切比例是指没有比对上的碱基数目占该读段序列总碱基数目的比例;所述比对得分是按照每个读段序列与参考基因的匹配程度以及读段序列的长度而确定的数值;定量单元,用于对于已过滤的读段序列,使用每百万读段序列中来自目标基因每千碱基长度的读段序列数目RPKM对所述目标基因表达进行定量,定义为RPKM=(比对到目标基因对应的参考基因的读段序列的数目)*109/(比对到所有参考基因的读段序列的数目*目标基因的长度);所述比对到目标基因对应的参考基因的读段序列的数目是指只能比对到目标基因对应的参考基因上,而且能够比对到所述参考基因的至少一个转录本的读段序列的数目。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1