基于血小板差异表达基因标记的分类方法、装置及系统与流程

文档序号:12669654阅读:来源:国知局

技术特征:

1.一种基于血小板差异表达基因标记的分类方法,其特征在于,包括:

信息获取步骤:获取目标个体的测序读取序列;

分析对比步骤:将所述测序读取序列和预获取的人类基因组进行对比分别,获取对比分析结果;

信息显示步骤:显示所述对比分析结果。

2.一种基于血小板差异表达基因标记的分类方法,其特征在于,包括:

正负样本集构建步骤:根据二元性特征,将预获取的目标样本分成正样本集和负样本集,所述正样本集和所述负样本集的数量均满足预定数量要求;

基因测序读取序列获取步骤:对所述正样本集和所述负样本集进行血小板转录组测序,分别获取正样本基因测序读取序列和负样本基因测序读取序列;

预处理步骤:将所述正样本基因测序读取序列与预获得的测序衔接序列进行比对,删除所述正样本基因测序读取序列中与所述测序衔接序列比对一致的序列部分,形成初始正样本测序读取序列;

检验所述初始正样本测序读取序列中的未知碱基比例和低质量碱基比例,保留所述未知碱基比例小于第一阈值,且所述低质量碱基比例小于第二阈值的初始正样本测序读取序列,形成正样本测序读取序列集合;

将所述负样本基因测序读取序列与所述测序衔接序列进行比对,删除所述负样本基因测序读取序列中与所述测序衔接序列比对一致的序列部分,形成初始负样本测序读取序列;

检验所述初始负样本测序读取序列中的未知碱基比例和低质量碱基比例,保留所述未知碱基比例小于第一阈值,且所述低质量碱基比例小于第二阈值的初始负样本测序读取序列,形成负样本测序读取序列集合;

基因表达量估算步骤:根据后缀阵列搜索算法和序列拆分/搜索/延伸策略,将所述正样本测序读取序列集合和所述负样本测序读取序列集合分别与预获取的人类基因组进行比对,分别获取正样本测序读取序列对比结果和负样本测序读取序列对比结果;

根据期望最大化算法和所述正样本测序读取序列对比结果,确定正样本基因表达估计值;

根据期望最大化算法和所述负样本测序读取序列对比结果,确定负样本基因表达估计值;

差异表达基因标记确定步骤:采用线性统计模型和经验贝叶斯方法,将所述正样本基因表达估计值和所述负样本基因表达估计值进行比较,获取表达差异值,并将所述表达差异值低于第三阈值的基因,作为差异表达基因标记;

超平面表达式构建步骤:获取每个差异表达基因标记在所述正样本集中的正样本基因表达估计值,作为正样本标记基因表达估计值;

获取每个差异表达基因标记在所述负样本集中的负样本基因表达估计值,作为负样本标记基因表达估计值;

根据所述正样本标记基因表达估计值和所述负样本标记基因表达估计值,构建超平面表达式:其中,为系数,b为偏移量,为所述超平面的变量;

量化分类步骤:根据所述超平面表达式和预获取实体的基因表达量估计值获取该实体的量化分类结果,并根据显示模式,进行显示。

3.根据权利要求2所述基于血小板差异表达基因标记的分类方法,其特征在于,根据所述正样本标记基因表达估计值和所述负样本标记基因表达估计值,构建超平面表达式,具体包括:

构建超平面表达式:使得其中,为第i个样本标记基因表达估计值,若yi=1表示所述第i个样本标记基因表达估计值为正样本标记基因表达估计值,若yi=-1表示所述第i个样本标记基因表达估计值为负样本标记基因表达估计值,m为所述第i个样本标记基因表达估计值所在的平面到所述超平面的距离。

4.根据权利要求2所述基于血小板差异表达基因标记的分类方法,其特征在于,所述第一阈值为10%,所述第二阈值为50%,所述第三阈值为0.001。

5.一种基于血小板差异表达基因标记的分类装置,其特征在于,包括:

正负样本集构建模块:用于根据二元性特征,将预获取的目标样本分成正样本集和负样本集,所述正样本集和所述负样本集的数量均满足预定数量要求;

基因测序读取序列获取模块:用于对所述正样本集和所述负样本集进行血小板转录组测序,分别获取正样本基因测序读取序列和负样本基因测序读取序列;

预处理模块:用于将所述正样本基因测序读取序列与预获得的测序衔接序列进行比对,删除所述正样本基因测序读取序列中与所述测序衔接序列比对一致的序列部分,形成初始正样本测序读取序列;检验所述初始正样本测序读取序列中的未知碱基比例和低质量碱基比例,保留所述未知碱基比例小于第一阈值,且所述低质量碱基比例小于第二阈值的初始正样本测序读取序列,形成正样本测序读取序列集合;将所述负样本基因测序读取序列与所述测序衔接序列进行比对,删除所述负样本基因测序读取序列中与所述测序衔接序列比对一致的序列部分,形成初始负样本测序读取序列;检验所述初始负样本测序读取序列中的未知碱基比例和低质量碱基比例,保留所述未知碱基比例小于第一阈值,且所述低质量碱基比例小于第二阈值的初始负样本测序读取序列,形成负样本测序读取序列集合;

基因表达量估算模块:用于根据后缀阵列搜索算法和序列拆分/搜索/延伸策略,将所述正样本测序读取序列集合和所述负样本测序读取序列集合分别与预获取的人类基因组进行比对,分别获取正样本测序读取序列对比结果和负样本测序读取序列对比结果;根据期望最大化算法和所述正样本测序读取序列对比结果,确定正样本基因表达估计值;根据期望最大化算法和所述负样本测序读取序列对比结果,确定负样本基因表达估计值;

差异表达基因标记确定模块:用于采用线性统计模型和经验贝叶斯装置,将所述正样本基因表达估计值和所述负样本基因表达估计值进行比较,获取表达差异值,并将所述表达差异值低于第三阈值的基因,作为差异表达基因标记;

超平面表达式构建模块:用于获取每个差异表达基因标记在所述正样本集中的正样本基因表达估计值,作为正样本标记基因表达估计值;获取每个差异表达基因标记在所述负样本集中的负样本基因表达估计值,作为负样本标记基因表达估计值;根据所述正样本标记基因表达估计值和所述负样本标记基因表达估计值,构建超平面表达式:其中,为系数,b为偏移量,为所述超平面的变量;

量化分类模块:用于根据所述超平面表达式和预获取实体的基因表达量估计值获取该实体的量化分类结果,并根据显示模式,进行显示。

6.根据权利要求5所述基于血小板差异表达基因标记的分类装置,其特征在于,所述超平面表达式构建模块在根据所述正样本标记基因表达估计值和所述负样本标记基因表达估计值,构建超平面表达式时,具体用于:构建超平面表达式:使得其中,为第i个样本标记基因表达估计值,若yi=1表示所述第i个样本标记基因表达估计值为正样本标记基因表达估计值,若yi=-1表示所述第i个样本标记基因表达估计值为负样本标记基因表达估计值,m为所述第i个样本标记基因表达估计值所在的平面到所述超平面的距离。

7.根据权利要求5所述基于血小板差异表达基因标记的分类装置,其特征在于,所述预处理模块中第一阈值为10%,所述预处理模块中第二阈值为50%,所述差异表达基因标记确定模块中第三阈值为0.001。

8.一种基于血小板差异表达基因标记的分类系统,其特征在于,包括:

处理器和与所述处理器连接的测序平台、服务器和显示屏,所述显示屏上设有触摸屏,所述触摸屏与所述处理器连接,

所述测序平台用于根据二元性特征,将预获取的目标样本分成正样本集和负样本集,对所述正样本集和所述负样本集进行血小板转录组测序,分别获取正样本基因测序读取序列和负样本基因测序读取序列,并传输至所述处理器,

所述处理器用于获取所述正样本基因测序读取序列、所述负样本基因测序读取序列和实体的基因表达量估计值根据基于血小板差异表达基因标记的分类方法,获取超平面表达式和该实体的量化分类结果,并传送至所述服务器和显示屏,

所述服务器用于存储所述超平面表达式和所述实体的量化分类结果,

所述显示屏用于根据显示模式指令显示所述实体的量化分类结果,

所述触摸屏用于接收用户点选的显示模式指令。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1