基于生物学数据的聚类方法及系统、聚类结果评价方法及系统的制作方法

文档序号:9708800阅读:433来源:国知局
基于生物学数据的聚类方法及系统、聚类结果评价方法及系统的制作方法
【技术领域】
[0001] 本发明涉及聚类分析技术领域,特别是涉及一种基于生物学数据的聚类方法及系 统、聚类结果评价方法及系统。
【背景技术】
[0002] 随着生物学数据的大量涌现,如何快速合理的分析各类不同的生物学数据成为目 前生物学相关领域的热点和难点问题。以基因分析为例,目前的技术可以一次性同时检测 几万个基因的表达值,并可通过各种途径获取基因的序列信息、功能信息等。因此,如何将 众多的基因进行聚类及分析,挖掘出具有生物学意义的基因是该领域的重要研究方向之 一。常用的方法是利用机器学习领域的聚类方法,但是一般的聚类方法仅从计算角度出发 进行聚类和聚类结果的评价,而忽略了生物学数据本身的含义,从而导致聚类结果不具备 实际应用价值,聚类结果的应用性低。

【发明内容】

[0003] 鉴于现有技术的现状,本发明的目的在于提供一种基于生物学数据的聚类方法及 系统、聚类结果评价方法及系统,提高了聚类结果的生物学应用价值,实用性强。
[0004] 为实现上述目的,本发明采用如下技术方案:
[0005] -种基于生物学数据的聚类方法,包括如下步骤:
[0006] 数据获取步骤:获取包含多个生物样本的原始生物学数据,每个所述生物样本均 包含一种或多种生物学特征,每种所述生物学特征的信息类型包括表达值、序列信息以及 功能信息中的一种或多种;
[0007] 数据分类步骤:根据每个所述生物样本具有的生物学特征的信息类型,将所述原 始生物学数据的多个生物样本分为不同组别,至少包括有表达值的生物样本数据、有序列 信息的生物样本数据以及有功能信息的生物样本数据,每组生物样本数据采用矩阵形式进 行表达,其中,矩阵的行表示生物学特征,矩阵的列表示生物学样本;
[0008] 距离计算步骤:根据每组的生物样本数据具有的生物学特征的信息类型选择不同 的距离计算方式,分别计算每组生物样本数据中多个所述生物样本之间的距离,将计算获 得的每组生物样本数据中的多个所述生物样本之间的距离形成距离矩阵;
[0009] 聚类步骤:根据所述距离矩阵,分别对每组生物样本数据中的多个生物样本采用 层次聚类方法进行聚类。
[0010] 在其中一个实施例中,在所述距离计算步骤之前还包括采用如下步骤对有表达值 的生物样本数据进行标准化:
[0011]根据所述有表达值的生物样本数据中多个所述生物样本对应的表达值的数据类 型,将所述有表达值的生物样本数据采用矩阵形式进行表达,获得表达矩阵,并对所述表达 矩阵进行标准化,其中,所述表达矩阵的行表示所述生物样本对应的表达值,所述表达矩阵 的列表示所述生物学样本,所述数据类型包括离散型数据和连续型数据。
[0012] 在其中一个实施例中,所述对所述表达矩阵进行标准化的步骤包括:
[0013] 当所述数据类型为离散型数据时,剔除所述表达矩阵中的特定行,并将所述表达 矩阵中除所述特定行以外的剩余行的表达值缺失处补充为〇,形成第一表达矩阵,其中所述 特定行为表达值缺失程度大于或等于第一阈值的行;
[0014] 对所述第一表达矩阵分别进行行标准化和列标准化,获得标准化后的有表达值的 生物样本数据。
[0015] 在其中一个实施例中,所述对所述表达矩阵进行标准化的步骤包括:
[0016] 当所述数据类型为连续型数据时,剔除所述表达矩阵中的特定行,并将所述表达 矩阵中除所述特定行以外的剩余行的表达值缺失处补充为预设数据,形成第二表达矩阵, 其中,所述特定行为表达值缺失程度大于或等于第二阈值的行;所述预设数据为零、所述表 达矩阵中所有表达值的几何平均值、所述表达矩阵中所有表达值的算术平均值或所述表达 矩阵中所有表达值的中位数;
[0017] 对所述第二表达矩阵分别进行行标准化和列标准化,获得标准化后的有表达值的 生物样本数据。
[0018] 在其中一个实施例中,在所述距离计算步骤中,将计算获得的所述有表达值的生 物样本数据中的多个所述生物样本之间的距离形成距离矩阵形成所述距离矩阵的步骤包 括:
[0019] 计算任意两个所述生物样本之间的距离,获得所述距离矩阵;其中,任意两个生物 样本之间的距离计算方式为两种以上,获得的所述距离矩阵为两个以上。
[0020] 在其中一个实施例中,在所述距离计算步骤之前还包括采用如下步骤对有序列信 息的生物样本数据进行序列对比的步骤:
[0021] 根据所述有序列信息的生物样本数据中多个所述生物样本具有的序列特征将多 个所述生物样本分为两组以上,其中,所述生物样本的序列特征包括核酸序列特征以及蛋 白质/氨基酸序列特征;
[0022] 针对每组所述生物样本选择不同的替换矩阵,并选择至少两种以上的序列对比算 法进行序列对比,获得两个以上序列对比结果。
[0023] 在其中一个实施例中,在所述距离计算步骤中,将计算获得的所述有序列信息的 生物样本数据中的多个所述生物样本之间的距离形成所述距离矩阵的步骤包括:
[0024] 针对每个所述序列对比结果计算任意两个生物样本的第一相似性得分;
[0025]分别根据所述第一相似性得分计算任意两个所述生物样本之间的第一距离分数, 每个所述序列对比结果对应的多个所述第一距离分数形成所述距离矩阵;
[0026]其中,所述第一距离分数=1-所述第一相似性得分。
[0027]在其中一个实施例中,在所述距离计算步骤之前还包括采用如下步骤对所述有功 能信息的生物样本数据进行分组:
[0028] 根据所述有功能信息的生物样本数据中的多个所述生物样本的结构特征将多个 所述生物样本至少分为包含结构特征的生物样本和不包含结构特征的生物样本。
[0029] 在其中一个实施例中,在距离计算步骤中,将计算获得的所述有功能信息的生物 样本数据中的多个所述生物样本之间的距离形成所述距离矩阵的步骤包括:
[0030] 当所述生物样本为包括结构特征的生物样本时,采用两种以上的语义相似性测度 算法计算任意两个所述生物样本功能信息的节点的第二相似性得分,其中,所述语义性测 度算法包括基于边的算法和基于点的算法;
[0031] 分别根据每种语义相似性测度算法获得的第二相似性得分计算任意两个所述生 物样本之间的第二距离分数,每种语义相似性测度算法获得的多个所述第二距离分数形成 所述距离矩阵;
[0032]其中,所述第二距离分数=1-所述第二相似性得分。
[0033] 在其中一个实施例中,在距离计算步骤中,将计算获得的所述有功能信息的生物 样本数据中的多个所述生物样本之间的距离形成所述距离矩阵的步骤包括:
[0034] 当所述生物样本为不包括结构特征的生物样本时,采用两种以上的集合相似性测 度算法计算任意两个生物样本功能信息的节点的第三相似性得分;
[0035] 分别根据每种集合相似性测度算法获得的所述第三相似性得分计算任意两个所 述生物样本之间的第三距离分数,每种所述集合相似性测度算法获得的多个所述第三距离 分数形成所述距离矩阵;
[0036]其中,所述第三距离分数=1-所述第三相似性得分。
[0037] 在其中一个实施例中,所述聚类步骤中,采用三种以上层次聚类方法进行聚类,所 述层次聚类方法包括单连通层次聚类方法、完全连通层次聚类方法和平均连通层次聚类方 法。
[0038] 本发明还提供了一种基于生物学数据的聚类结果评价方法,包括如下步骤:
[0039] 获取聚类结果的步骤:采用上述任一项所述的基于生物学数据的聚类方法分别获 取每组生物样本数据具有的多个聚类结果;
[0040] 计算聚类评价分数的步骤:针对每组所述生物样本数据,采用两种以上评价方式 分别计算每个所述聚类结果计算的聚类评价分数,每个所述聚类结果对应获得两个以上聚 类评价分数;
[0041] 转换聚类评价分数的步骤:针对多个所述聚类结果,分别将采用同一种所述评价 方式获得的多个所述聚类评价分数进行排秩,从而将所述聚类评价分数转换为秩次;
[0042] 集成决策的步骤:针对每个所述聚类结果,计算两个以上聚类评价分数对应的秩 次的平均值,获得每个所述聚类结果对应的秩次平均值;将多个聚类结果对应的秩次平均 值进行总体排秩,将排名靠前的秩次平均值对应的聚类结果作为优选聚类结果。
[0043] 在其中一个实施例中,计算聚类评价分数的步骤还包括如下步骤:
[0044] 分别计算每个聚类结果的内部评价分数;
[0045] 分别判断每个聚类结果是否具有类别信息,若是,则计算所述聚类结果的外部评 价分数,若否,则执行转换聚类评价分数的步骤。
[0046] 本发明还提供了一种基于生物学数据的聚类系统,包括:
[0047] 数据获取模块,用于获取包含多个生物样本的原始生物学数据,每个所述生物样 本均包含一种或多种生物学特征,每种所述生物学特征的信息类型包括表达值信息、序列 信息以及功能信息的一种或多种;
[0048] 数据分类模块,用于根据每个所述生物样本具有的生物学特征的信息类型,将所 述原始生物学数据的多个生物样本分为不同组别,至少包括有表达值的生物样本数据、有 序列信息的生物样本数据以及有功能信息的生物样本数据,每组生物样本数据采用矩阵形 式进行表达,其中,矩阵的行表示生物学特征,矩阵的列表示生物学样本;
[0049] 距离计算模块,用于针对根据每组生物样本数据具有的生物学特征的信息类型选 择不同的距离计算方式,分别计算每组生物样本数据中多个所述生物样本之间的距离,将 计算获得的每组生物样本数据中多个所述生物样本之间的距离形成距离矩阵;
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1