本申请涉及化学、化工、材料、食品、生物、环境,特别涉及一种相似样品比对方法、装置、电子设备及存储介质。
背景技术:
1、样品之间的相似度的判断对于样品的来源识别(溯源)、真伪鉴别(鉴伪)以及变化过程分析具有重要意义,其中,丰度差异是造成样品差异的主要原因之一。
2、相关技术中,可以通过统计并比较分子的元素组成和分子种类等信息,由此可以定性判断样品分子的相似程度,结果很直观;还可以使用一种基于欧氏距离、余弦相似度等的相似度算法,可以通过分子强度计算分子序列的相似度。
3、然而,比较分子的元素组成和分子种类等信息的方式并不能提供具体的相似度;基于欧氏距离、余弦相似度等的相似度算法并未考虑各分子在不同样品中的丰度分布差异,使得结果不准确,影响实际使用需要。
技术实现思路
1、本申请提供一种相似样品比对方法、装置、电子设备及存储介质,以解决相关技术中,对样品之间相似度的判断未将丰度分布差异纳入考虑,导致相似度计算准确性较差,使得判断结果可靠性较低;同时无法提供精度较高较具体的相似度,无法满足实际使用需要等问题。
2、本申请第一方面实施例提供一种相似样品比对方法,包括以下步骤:获取各样品的分子序列信息;识别所述分子序列信息中的分子序列和分子丰度,获取所述分子序列排序过程中所述分子丰度的分布,根据所述分布确定丰度均值和丰度差异;根据所述丰度均值和所述丰度差异计算所述各样品之间分子序列的相似度,将所述相似度大于预设值的分子序列对应样品确定为相似样品。
3、可选地,所述获取所述分子序列排序过程中所述分子丰度的分布,包括:按照预设丰度递增比例逐次递增所述分子序列中的分子;提取所述分子序列在每次递增之后的子序列,并计算每次递增后各样品对应的子序列之间的共有分子序列以及各共有分子序列在各子序列中的丰度。
4、可选地,所述提取所述分子序列在每次递增之后的子序列,包括:获取每次递增后的累计丰度;按照所述各样品的分子序列的丰度顺序,从第一个分子开始,以每次递增后的累计丰度涵盖的分子序列作为所述分子序列在每次递增之后的子序列。
5、可选地,所述根据所述分布确定丰度均值和丰度差异,包括:根据所述各共有分子序列在各子序列中的丰度计算丰度均值;根据所述丰度均值和所述各样品丰度的均值计算丰度差异。
6、可选地,根据所述丰度均值和所述丰度差异计算所述各样品之间分子序列的相似度,包括:获取所述丰度均值和所述丰度差异各自的递增次数平均值;根据所述丰度均值和所述丰度差异各自的递增次数平均值计算所述各样品之间分子序列的相似度。
7、本申请第二方面实施例提供一种相似样品比对装置,包括:获取模块,用于获取各样品的分子序列信息;识别模块,用于识别所述分子序列信息中的分子序列和分子丰度,获取所述分子序列排序过程中所述分子丰度的分布,根据所述分布确定丰度均值和丰度差异;判定模块,用于根据所述丰度均值和所述丰度差异计算所述各样品之间分子序列的相似度,将所述相似度大于预设值的分子序列对应样品确定为相似样品。
8、可选地,所述识别模块进一步用于:按照预设丰度递增比例逐次递增所述分子序列中的分子;提取所述分子序列在每次递增之后的子序列,并计算每次递增后各样品对应的子序列之间的共有分子序列以及各共有分子序列在各子序列中的丰度。
9、可选地,所述识别模块进一步用于:获取每次递增后的累计丰度;按照所述各样品的分子序列的丰度顺序,从第一个分子开始,以每次递增后的累计丰度涵盖的分子序列作为所述分子序列在每次递增之后的子序列。
10、可选地,所述识别模块进一步用于:根据所述各共有分子序列在各子序列中的丰度计算丰度均值;根据所述丰度均值和所述各样品丰度的均值计算丰度差异。
11、可选地,所述判定模块进一步用于:获取所述丰度均值和所述丰度差异各自的递增次数平均值;根据所述丰度均值和所述丰度差异各自的递增次数平均值计算所述各样品之间分子序列的相似度。
12、本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的相似样品比对方法。
13、本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的相似样品比对。
14、由此,本申请至少具有如下有益效果:
15、本申请实施例可以以分子丰度作为分子序列相似度的核心,通过分子序列排序和逐次递增的过程将分子丰度纳入相似度计算过程,由于将丰度分布差异也纳入相似度算法进行考虑,因此可以直观地提供样品分子的相似度,提升计算精确度,提高相似度判断的准确度,满足实际使用需要。
16、本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
1.一种相似样品比对方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的相似样品比对方法,其特征在于,所述获取所述分子序列排序过程中所述分子丰度的分布,包括:
3.根据权利要求2所述的相似样品比对方法,其特征在于,所述提取所述分子序列在每次递增之后的子序列,包括:
4.根据权利要求2所述的相似样品比对方法,其特征在于,所述根据所述分布确定丰度均值和丰度差异,包括:
5.根据权利要求1所述的相似样品比对方法,其特征在于,根据所述丰度均值和所述丰度差异计算所述各样品之间分子序列的相似度,包括:
6.一种相似样品比对装置,其特征在于,包括:
7.根据权利要求6所述的装置,其特征在于,所述识别模块进一步用于:
8.根据权利要求7所述的装置,其特征在于,所述识别模块进一步用于:
9.根据权利要求7所述的装置,其特征在于,所述识别模块进一步用于:
10.根据权利要求6所述的装置,其特征在于,所述判定模块进一步用于:
11.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-5任一项所述的相似样品比对方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-5任一项所述的相似样品比对方法。