一种标志物相关性检测方法以及装置的制造方法

文档序号:8299339阅读:152来源:国知局
一种标志物相关性检测方法以及装置的制造方法
【技术领域】
[0001] 本发明涉及生物技术领域,尤其涉及一种标志物相关性检测方法以及装置。
【背景技术】
[0002] 基因表达谱等生物数据往往具有几万甚至数十万个标志物,其中,标志物反应了 生物的一方面化学、生物类物质的性质。对这些标志物进行相关性检测分析是很多研宄的 基础。在现有技术中,通常是在二维空间利用相似性矩阵来表达标志物之间的关系。其中, 相似性矩阵的行坐标a和列坐标b都是标志物,而相似性矩阵中的第a行第b列的元素值, 代表第a个标志物和第b个标志物之间的相似性。相似性的度量往往有很多种,比如相关 系数,欧拉距离,余弦函数等。
[0003] 在这种方式下,使用者每次只能观察两个标志物之间的相关性,例如,要观察第a 个标志物和第b个标志物之间的相似性,可以通过观察相似性矩阵中的第a行第b列的元 素值。但是,如果要求同时观察三个或者更多的标志物之间的相关性,则无法通过二维的 相似矩阵进行观察,而必须在更高维的空间才能进行观察。例如,要观察三个标志物的相 关性,则必须在三维空间进行观察;要观察四个标志物的相关性,则必须在三维空间进行观 察,等等。所以,当生物数据包含几万甚至数十万个标志物,空间维数将复杂得超乎思维可 以想象的程度。

【发明内容】

[0004] 本发明实施例所要解决的技术问题在于,提供一种标志物相关性检测方法以及装 置,实现了将所有标志物的相关性降维至可视化的低维度进行显示。
[0005] 本发明第一方面提供了一种标志物相关性检测方法,包括:
[0006] 根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率,其中,i 为正整数,i小于或等于M,M为所述标志物的数量,N为所述采样样本的数量;
[0007] 重复上一个步骤,直到求出每个的标志物的费舍尔比率;
[0008] 根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个 标志物和第b个标志物之间的距离,其中,a,b均为正整数,a,b均小于或等于M;
[0009] 重复上一个步骤,直到求出任意两个标志物之间的距离;
[0010] 将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而 获得每个标志物的坐标值;
[0011] 根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标 志物的坐标值获得每个标志物在散点图上的坐标。
[0012] 其中,根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率之 前包括:
[0013] 根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的 采样样本;
[0014] 根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率具体为:
[0015] 根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比 率。
[0016] 其中,根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一 化后的采样样本具体为:
[0017] 根据
【主权项】
1. 一种标志物相关性检测方法,其特征在于,包括: 根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率,其中,i为正 整数,i小于或等于M,M为所述标志物的数量,N为所述采样样本的数量; 重复上一个步骤,直到求出每个标志物的费舍尔比率; 根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志 物和第b个标志物之间的距离,其中,a,b均为正整数,a,b均小于或等于M; 重复上一个步骤,直到求出任意两个标志物之间的距离; 将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得 每个标志物的坐标值; 根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物 的坐标值获得每个标志物在散点图上的坐标。
2. 根据权利要求1所述的方法,其特征在于,根据第i个标志物的多个采样样本计算所 述第i个标志物的费舍尔比率之前包括: 根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样 样本; 根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率具体为: 根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率。
3. 根据权利要求2所述的方法,其特征在于,根据所述第i个标志物的多个采样样本进 行归一化计算,以得到多个归一化后的采样样本具体为: 根据尤=进行归一化计算,以得到多个归一化后的采样样本,其中,\为所述第 i个标志物的多个采样样本所组成的向量,^为所述第i个标志物的多个采样样本的平均 值,P所述第i个标志物的多个采样样本的标准差,X' 多个归一化后的采样样本所 组成的向量。
4. 根据权利要求3所述的方法,其特征在于,根据第i个标志物的多个归一化后的采样 样本计算所沭第i个标志物的费舍尔比率具体为: 根振
R出第i个标志物中类别为〇的采样样本的平均值,其中,
差,其中,%为第i个标志物中类别为〇的采样样本的标准差; j为第i个标志物中采样样本的序号,为第i个标志物中第j个采样样本的类别,当Yj = 〇时,第j个采样样本的类别为〇,当沪=1时,第j个采样样本的类别为1,为第i个标 志物的第j个归一化后的采样样本的值,为第i个标志物中类别为0的采样样本的平均 值; 根据 R出第i个标志物中类别为〇的采样样本的标准 根据f
求出第i个标志物中类别为1的采样样本的平均值,其中, 为第i个标志物中类别为1的采样样本的平均值; 根:
:出第i个标志物中类别为1的采样样本的标准 差,其中,Vl为第i个标志物中类别为1的采样样本的标准差; 根据Fishe:
.计算第i个标志物的费舍尔比率。
5. 根据权利要求2所述的方法,其特征在于,根据第a个标志物的多个采样样本和第b 个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离具体为: 根注
^算出第a个标志物和第b个标志物之间的距离,其中,j 为采样样本的序号,X;/为所述第a个标志物第j个归一化后的采样样本的值,Xf为所述第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和第b个标志物之间的距 离。
6. 根据权利要求1至5任一权利要求所述的方法,其特征在于,所述降维后的维度为2 维或者3维。
7. 根据权利要求1所述的方法,其特征在于,每个标志物的费舍尔比率与每个标志物 在散点图上的大小成正比例。
8. -种标志物相关性检测装置,其特征在于,包括: 费舍尔比率模块,用于根据第i个标志物的多个采样样本计算所述第i个标志物的费 舍尔比率,其中,i为正整数,i小于或等于M,M为所述标志物的数量,N为所述采样样本的 数量; 距离模块,用于根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计 算出第a个标志物和第b个标志物之间的距离,其中,a,b均为正整数,a,b均小于或等于 M; 坐标值模块,用于将所有的两个标志物之间的距离和降维后的维度作为多维标度算法 的输入,从而获得每个标志物的坐标值; 散点图模块,用于根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小, 并根据每个标志物的坐标值获得每个标志物在散点图上的坐标。
9. 根据权利要求8所述的装置,其特征在于,所述装置还包括归一化模块, 所述归一化模块用于根据所述第i个标志物的多个采样样本进行归一化计算,以得到 多个归一化后的米样样本; 所述费舍尔比率模块用于根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率。
10. 根据权利要求9所述的装置,其特征在于, X. -u- 所述归一化模块具体用于根据&~"进行归一化计算,以得到多个归一化后的 pi 采样样本,其中,\为所述第i个标志物的多个采样样本所组成的向量,U,为所述第i个标 志物的多个采样样本的平均值,p所述第i个标志物的多个采样样本的标准差,X'为 多个归一化后的采样样本所组成的向量。
11. 根据权利要求10所述的装置,其特征在于,所述费舍尔比率模块包括: 第一计算单元,用于根_
求出第i个标志物中类别为〇的采样
的采样样本的标准差,其中,%为第i个标志物中类别为〇的采样样本的标准差; 样本的平均值,其中,j为第i个标志物中采样样本的序号,为第i个标志物中第j个采 样样本的类别,当沪=0时,第j个采样样本的类别为0,当1时,第j个采样样本的 类别为1,X/为第i个标志物的第j个归一化后的采样样本的值,m(l为第i个标志物中类 别为〇的采样样本的平均值? 第二计算单元,用于根彳 R出第i个标志物中类别为〇 第三计算单元,用于根#
-求出第i个标志物中类别为1的采样 样本的平均值,其中,mi为第i个标志物中类别为1的采样样本的平均值; 第四计算单元,用于相
求出第i个标志物中类别为1 的采样样本的标准差,其中,Vl为第i个标志物中类别为1的采样样本的标准差; 第五计算单元,用于根据Fishes
^算第i个标志物的费舍尔比率。
12. 根据权利要求9所述的装置,其特征在于, 所述距离模块具体用于根#
计算出第a个标志物和第b个标志 物之间的距离,其中,j为采样样本的序号,为所述第a个标志物第j个归一化后的采样 样本的值,X;/为所述第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和 第b个标志物之间的距离。
13. 根据权利要求8至12任一权利要求所述的装置,其特征在于,所述降维后的维度为 2维或者3维。
14.根据权利要求8所述的装置,其特征在于,每个标志物的费舍尔比率与每个标志物 在散点图上的大小成正比例。
【专利摘要】本发明公开了一种标志物相关性检测方法以及装置。所述方法包括:根据第i个标志物的多个采样样本计算第i个标志物的费舍尔比率;重复上一个步骤,直到求出每个的标志物的费舍尔比率;根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离;重复上一个步骤,直到求出任意两个标志物之间的距离;将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值;根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标。采用本发明,可将标志物的相关性降维至可视化的低维度进行显示。
【IPC分类】G06F19-20
【公开号】CN104615913
【申请号】CN201410855625
【发明人】周丰丰, 孟庆汉
【申请人】深圳先进技术研究院
【公开日】2015年5月13日
【申请日】2014年12月31日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1