本申请涉及生物信息学,具体而言,涉及一种基于单细胞rna测序数据的细胞类型识别方法、装置及设备。
背景技术:
1、许多生物信息分析任务的展开需要知道细胞的类型,如细胞发育轨迹分析、肿瘤细胞亚型分析等。在目前的技术方案中,常用的细胞分类方法仅从细胞的基因表达中学习特征,并根据学习到的基因特征之间的差异进行分类,例如通过将基因特征与一个独热编码的细胞类型关联在一个预先标记的训练集中进行模型训练以实现分类功能。然而,上述方式容易受到批次效应的影响,且难以在复杂的多源数据集中区分罕见的细胞类型。由此,如何有效区分不同细胞之间的差异性,提高细胞类型识别结果的准确性。
技术实现思路
1、本申请的实施例提供了一种基于单细胞rna测序数据的细胞类型识别方法、装置及设备,进而至少在一定程度上可以有效区分不同细胞之间的差异性,提高细胞类型识别结果的准确性。
2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
3、根据本申请实施例的一个方面,提供了一种基于单细胞rna测序数据的细胞类型识别方法,包括:
4、获取并预处理单细胞rna测序训练数据集,所述单细胞rna测序训练数据集包括若干细胞样本对应的基因测序数据;
5、采用与所述单细胞rna测序训练数据集的数据来源对应的文本模板,为预处理后的所述单细胞rna测序训练数据集中的每一细胞样本生成对应的文本描述,所述数据来源包括单一数据来源和复杂数据来源;
6、将预处理后的每一细胞样本对应的基因测序数据输入至预先构建的rna编码器,以及将其对应的文本描述输入至预先构建的文本编码器,以使所述rna编码器输出对应的基因嵌入,所述文本编码器输出对应的文本嵌入;
7、根据各细胞样本对应的所述基因嵌入以及所述文本嵌入两两之间的余弦相似性,构建损失函数,以根据所述损失函数对所述rna编码器和所述文本编码器进行优化;
8、将待识别细胞对应的基因测序数据经过预处理后,输入至优化后的所述rna编码器,将所述待识别细胞可能的细胞类型对应的文本描述输入至优化后的所述文本编码器,以使优化后的所述rna编码器输出目标基因嵌入,以及优化后的所述文本编码器输出若干待匹配文本嵌入;
9、根据所述目标基因嵌入与每一所述待匹配文本嵌入之间的余弦相似性,确定所述待识别细胞对应的细胞类型。
10、根据本申请实施例的一个方面,提供了一种基于单细胞rna测序数据的细胞类型识别装置,包括:
11、预处理模块,用于获取并预处理单细胞rna测序训练数据集,所述单细胞rna测序训练数据集包括若干细胞样本对应的基因测序数据;
12、文本生成模块,用于采用与所述单细胞rna测序训练数据集的数据来源对应的文本模板,为预处理后的所述单细胞rna测序训练数据集中的每一细胞样本生成对应的文本描述,所述数据来源包括单一数据来源和复杂数据来源;
13、编码模块,用于将预处理后的每一细胞样本对应的基因测序数据输入至预先构建的rna编码器,以及将其对应的文本描述输入至预先构建的文本编码器,以使所述rna编码器输出对应的基因嵌入,所述文本编码器输出对应的文本嵌入;
14、优化模块,用于根据各细胞样本对应的所述基因嵌入以及所述文本嵌入两两之间的余弦相似性,构建损失函数,以根据所述损失函数对所述rna编码器和所述文本编码器进行优化;
15、识别模块,用于将待识别细胞对应的基因测序数据经过预处理后,输入至优化后的所述rna编码器,将所述待识别细胞可能的细胞类型对应的文本描述输入至优化后的所述文本编码器,以使优化后的所述rna编码器输出目标基因嵌入,以及优化后的所述文本编码器输出若干待匹配文本嵌入;
16、处理模块,用于根据所述目标基因嵌入与每一所述待匹配文本嵌入之间的余弦相似性,确定所述待识别细胞对应的细胞类型。
17、根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的基于单细胞rna测序数据的细胞类型识别方法。
18、根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的基于单细胞rna测序数据的细胞类型识别方法。
19、根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中提供的基于单细胞rna测序数据的细胞类型识别方法。
20、在本申请的一些实施例所提供的技术方案中,通过获取并预处理单细胞rna测序训练数据集,该训练数据集包括若干细胞样本对应的基因测序数据,采用与单细胞rna测序训练数据集的数据来源对应的文本模板,为预处理后的每一细胞样本生成对应的文本描述,该数据来源包括单一数据来源和复杂数据来源,接着,将预处理后的每一细胞样本对应的基因测序数据输入至预先构建的rna编码器,以及将其对应的文本描述输入至预先构建的文本编码器,以使rna编码器输出对应的基因嵌入,文本编码器输出对应的文本嵌入,根据各细胞样本对应的基因嵌入和文本嵌入两两之间的余弦相似性,构建损失函数,以根据损失函数对rna编码器和文本编码器进行优化;接着,在获取到待识别细胞对应的基因测序数据后,将其经过预处理后输入至优化后的rna编码器,并将该待识别细胞可能的细胞类型对应的文本描述输入至优化后的文本编码器,以分别得到待识别细胞对应的目标基因嵌入以及若干待匹配文本嵌入,再根据目标基因嵌入与每一待匹配文本嵌入之间的余弦相似性,确定待识别细胞对应的细胞类型。由此,可以在模型训练过程中结合来自其他模态输入的信息,通过多模态信息相结合的方式能够有效区分不同细胞之间的差异性,提高了细胞类型识别结果的准确性。
21、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
1.一种基于单细胞rna测序数据的细胞类型识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,根据各细胞样本对应的所述基因嵌入以及所述文本嵌入两两之间的余弦相似性,构建损失函数,以根据所述损失函数对所述rna编码器和所述文本编码器进行优化,包括:
3.根据权利要求1所述的方法,其特征在于,采用与所述单细胞rna测序训练数据集的数据来源对应的文本模板,为预处理后的所述单细胞rna测序训练数据集中的每一细胞样本生成对应的文本描述,包括:
4.根据权利要求1所述的方法,其特征在于,对所述单细胞rna测序训练数据集进行预处理,包括:
5.一种基于单细胞rna测序数据的细胞类型识别装置,其特征在于,包括:
6.根据权利要求5所述的装置,其特征在于,根据各细胞样本对应的所述基因嵌入以及所述文本嵌入两两之间的余弦相似性,构建损失函数,以根据所述损失函数对所述rna编码器和所述文本编码器进行优化,包括:
7.根据权利要求5所述的装置,其特征在于,采用与所述单细胞rna测序训练数据集的数据来源对应的文本模板,为预处理后的所述单细胞rna测序训练数据集中的每一细胞样本生成对应的文本描述,包括:
8.根据权利要求5所述的装置,其特征在于,对所述单细胞rna测序训练数据集进行预处理,包括:
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的方法。
10.一种电子设备,其特征在于,包括: