一种基于随机森林算法的人体组织体液识别方法

文档序号：32438558发布日期：2022-12-06 20:24阅读：来源：国知局

技术特征：
1.一种基于随机森林算法的人体组织体液识别方法，其特征在于，所述方法包括：根据预先设定的模型允许检测的所有人体组织类型，采集若干个检测样本；获取每一个检测样本所对应的特征数据并赋予样本标签，形成原始数据集；按照第一既定数量从所述原始数据集中筛选出重要度更高的特征数据，形成最终数据集；以样本特征数据为输入，以样本所属的人体组织类型为输出，利用所述最终数据集进行多个决策树的训练，再由训练好的多个决策树组成随机森林模型；获取当前待测样本所对应的待测特征数据，将所述待测特征数据输入所述随机森林模型进行预测，得到所述当前待测样本所属的人体组织类型；其中，所述样本特征数据为样本所包含的所有属水平细菌以及每一类属水平细菌所对应的相对丰度。2.根据权利要求1所述的基于随机森林算法的人体组织体液识别方法，其特征在于，所述根据预先设定的模型允许检测的所有人体组织类型，采集若干个检测样本包括：根据预先设定的模型允许检测的所有人体组织类型包括精液类型、皮肤类型、唾液类型、阴道分泌物类型和粪便类型，采集若干个精液样本、若干个皮肤样本、若干个唾液样本、若干个阴道分泌物样本和若干个粪便样本。3.根据权利要求1所述的基于随机森林算法的人体组织体液识别方法，其特征在于，所述样本标签表征检测样本所属的人体组织类型和样本编号。4.根据权利要求1所述的基于随机森林算法的人体组织体液识别方法，其特征在于，所述原始数据集中的每一个特征数据所对应的重要度的求解过程为：利用所述原始数据集进行多个决策树的初步训练，由初步训练好的多个决策树组成初步随机森林模型；通过所述初步随机森林模型获取所述原始数据集中的每一个特征数据所对应的第一袋外数据误差集合；对所述原始数据集中的每一个特征数据加入噪声干扰后，通过所述初步随机森林模型获取每一个特征数据所对应的第二袋外数据误差集合；对每一个特征数据所对应的第一袋外数据误差集合和第二袋外数据误差集合进行求差，再根据所述多个决策树的数量对计算得到的差集中的所有结果进行均值求解，得到每一个特征数据所对应的重要度。5.根据权利要求1所述的基于随机森林算法的人体组织体液识别方法，其特征在于，所述利用所述最终数据集进行多个决策树的训练，再由训练好的多个决策树组成随机森林模型包括：步骤1、从所述最终数据集中随机选取70％的特征数据作为初始训练集，再将剩下30％的特征数据作为测试集；步骤2、从所述初始训练集中以重抽样方式有放回地抽取与其容量相同的特征数据作为训练单个决策树的最终训练集，再从该最终训练集中构建出由第二既定数量的不同特征数据所组合得到的若干个训练子集；步骤3、获取在该决策树的当前层级节点处每一个训练子集所对应的加权平均基尼不纯度，选取加权平均基尼不纯度降低幅度最大所对应的一个训练子集作为节点分割依据，
并继续分割出该决策树的下一级节点，直至该决策树的深度达到第一设定值或者节点所包含的样本数量低于第二设定值为止，即该决策树训练完毕；步骤4、根据所述多个决策树的数量，重复执行所述步骤2至所述步骤3以得到训练好的多个决策树，进而组成随机森林模型；步骤5、利用所述测试集对所述随机森林模型进行测试。6.根据权利要求1所述的基于随机森林算法的人体组织体液识别方法，其特征在于，所述获取每一个检测样本所对应的特征数据包括：从每一个检测样本中提取出dna，再利用双末端测序方法构建基因文库进行高通量测序，得到原始测序序列；对所述原始测序序列进行质控和拼接，得到更新后的测序序列；按照既定相似度对所述更新后的测序序列进行otu聚类并剔除嵌合体，得到otu序列；根据silva数据库对所述otu序列进行物种注释，得到该检测样本所包含的所有细菌物种以及每一类细菌物种所对应的相对丰度；将所述所有细菌物种中的所有属水平细菌以及每一类属水平细菌所对应的相对丰度定义为该检测样本所对应的特征数据。7.根据权利要求2所述的基于随机森林算法的人体组织体液识别方法，其特征在于，每一个精液样本的采集方法为：利用无菌塑料杯收集供体的新鲜精液并放置于常温环境下液化30分钟，通过移液枪从中吸取500微升涂抹于无菌棉签，再将该无菌棉签放入15毫升无菌离心管中进行超低温保存；每一个皮肤样本的采集方法为：将吸有无菌生理盐水的无菌棉签通过二步擦拭法对供体的皮肤进行擦拭后放入15毫升无菌离心管中进行超低温保存；每一个唾液样本的采集方法为：当供体在漱口后的一小时内未进食时，利用无菌离心管收集2毫升供体自然流出的唾液，再将医用无菌棉签蘸取唾液后进行超低温保存；每一个阴道分泌物样本的采集方法为：将无菌棉拭子对供体的宫颈口分泌物或者宫颈后穹窿分泌物进行擦拭后放入无菌拭子管中进行超低温保存；每一个粪便样本的采集方法为：将5ml无菌取样勺对供体排出的处于未接触空气和地面的粪便中段部分进行提取后放入采样管中进行超低温保存。

技术总结
本发明公开了一种基于随机森林算法的人体组织体液识别方法，包括：根据预先设定的模型允许检测的所有人体组织类型，采集若干个检测样本；获取每一个检测样本所对应的特征数据并赋予样本标签，形成原始数据集；按照第一既定数量从原始数据集中筛选出重要度更高的特征数据，形成最终数据集；以样本特征数据为输入，以样本所属的人体组织类型为输出，利用最终数据集进行多个决策树的训练后可组成随机森林模型；获取当前待测样本所对应的待测特征数据，将待测特征数据输入随机森林模型进行预测，得到当前待测样本所属的人体组织类型。本发明通过将高通量测序技术与随机森林算法相结合，实现对法医学常见的五种人体组织体液进行快速鉴识。行快速鉴识。行快速鉴识。

技术研发人员：刘超陈玲刘长晖杜蔚安廖丽丽韩晓龙刘宏徐曲毅
受保护的技术使用者：南方医科大学广东宠孚生物科技有限公司
技术研发日：2022.08.08
技术公布日：2022/12/5

完整全部详细技术资料下载

当前第2页1 2