生物斑迹离体时间预测方法与流程

文档序号:35832049发布日期:2023-10-25 08:07阅读:59来源:国知局
生物斑迹离体时间预测方法与流程

本发明涉及生物,具体涉及生物斑迹离体时间预测方法。


背景技术:

1、随着公共安全领域信息化、智能化建设的不断推进,刑事科学技术面临着更高的发展要求。在生命科学和刑事技术共同发展的推动下,生物斑迹发现提取率和dna检测技术灵敏度的日益提高,生物体相关痕迹检验在法庭诉讼、证据链完善中发挥的作用越来越受到法庭科学领域重视,同时,也对生物体相关痕迹检验鉴定和信息研判提出了新的更高要求:在为个体识别和亲子鉴定提供可靠验证的同时,为明确获得的dna与生物体发生的关系、核酸水平的生物体信息特异性检验与人物特征刻画、生物斑迹时空线索推断提供方向。

2、其中,推断获得的生物斑迹遗留时间,和推断生物体死亡时间一样,可以从时间维度提供更为全面的线索和证据支撑。在实际事件中,特别是发生在涉及人员复杂的商场、宾馆、网吧等公共场所的事件,监控视频存在死角、不能有效覆盖的情况,人员流动大、检测手段不能有效识别的情况,大规模排查成本过高的情况,生物斑迹遗留时间的准确推断,不仅能够提供有效时间信息,还能在明确生物体信息与事件发生关联、事件过程推断和现场重建中发挥作用,从而节省时间、降低排查成本、提升证据价值、提高事件处理解决时效。因此,研究生物斑迹演变规律,建立生物斑迹遗留时间推断方法,可以成为一条有效、直接的工作途径。

3、唾液(斑迹)和血液(斑迹)是最为常见的生物体信息,dna str分型方法成熟、检出率高。其中,唾液(斑迹)可从烟蒂、矿泉水瓶、餐具、水杯、口腔拭子等检材获得,同时,蕴含人体口腔微生物这一资源宝库,口腔微生物群落结构研究发展成熟,是开展生物体信息遗留时间推断的理想样本。血液(斑迹)往往与事件过程联系紧密,血液(斑迹)是法庭科学领域研究最为广泛、深入的生物斑迹,是研究事件过程重建、事件发生时间刻画、事件相关人员查找的重要依据。


技术实现思路

1、本发明所要解决的技术问题是如何预测生物斑迹的离体时间。

2、为了解决上述技术问题,本发明提供了预测生物斑迹离体时间的方法。所述方法可包括如下步骤:对生物体已知离体时间的不同离体时间生物斑迹样本进行测序获得 所述样本的基因序列数据和/或所述样本的微生物序列数据,对所述基因序列数据和/ 或所述微生物序列数据进行数据分析得到所述样本的数据分析结果;使用循环神经网 络对所述已知离体时间和数据分析结果进行提取,获得对所述离体时间预测有效的样 本基因特征变量和/或样本的微生物otus特征变量;使用pca从所述基因特征变量 和或所述otus特征变量中筛选出对所述离体时间预测更有效的重要基因特征变量和/ 或重要otus特征变量,基于所述重要基因特征变和/或重要otus特征变量获得对离 体时间预测有效的重要基因和/或重要otus;提取所述重要基因的序列数据和/或所述 重要otus的丰度数据,基于所述重要基因的序列数据和/或所述重要otus的丰度数 据,使用lightgbm模型训练获得预测生物斑迹离体时间的模型,使用所述模型预测 待预测生物斑迹样本的离体时间。

3、上文所述方法中,所述重要基因和/或所述重要otus可为构建所述预测生物斑迹离体时间模型的目的基因和/或目的otus。

4、上文所述方法中,所述生物斑迹样本可为唾液样本或血液样本。所述血液样本的离体时间可为0~168天。所述唾液样本的离体时间可为0~150天。

5、上文所述方法中,所述唾液样本可为生物体的口腔咽拭子样本。所述微生物序列数据可为所述唾液样本的微生物序列数据。所述血液样本可为生物体的外周血液样本。 所述基因序列数据可为所述血液样本的rna序列数据。

6、上文所述方法中,所述测序可为16sdna v4区的扩增子测序或转录组测序。所 述样本的数据分析结果可为所述样本的微生物的otu相对丰度信息或所述样本的基 因序列信息和基因表达fpkm信息。

7、上文所述方法中,所述基因序列信息可为基因的表达序列信息。所述基因序列数据和/或所述微生物序列数据可为经过质量控制后的有效数据。所述数据分析可为otu 分析和/或物种注释分析。所述数据分析也可为基因的表达水平分析。

8、上文所述方法中,所述循环神经网络可使用lstm作为基本单元,lstm给定输 入序列x,通过输入门it、遗忘门ft、输出门ot控制模型输出,具体表述为:

9、it=σ(wi×[ht-1,xt]+bi)

10、ft=σ(wf×[ht-1,xt]+bf)

11、ot=σ(wo×[ht-1,xt]+bo)

12、其中σ为sigmoid构成的激活函数,ht-1为当下的隐藏层,w和b分别为对应的权 重矩阵和偏差。更新后的记忆单元ct为:

13、qt=tanh(wq×[ht-1,xt]+bq)

14、c=ftct-1+itqt

15、其中qt为备选的记忆单元,ct-1为现有的记忆门,lstm更新的隐藏层ht为:

16、ht=ottanh(ct)

17、lstm通过输入xt更新隐藏层ht,最终输入整个序列得到的最终隐藏层即为输入 的隐式特征。

18、上文所述方法中,所述pca筛选的流程可为:

19、1).将原始数据按列组成n行m列矩阵x;

20、2).将x的每一行进行零均值化,即减去这一行的均值;

21、3).求出协方差矩阵;

22、4).求出协方差矩阵的特征值及对应的特征向量;

23、5).将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩 阵p;

24、6).即为降维到k维后的数据。

25、上文所述模型的构建方法中,a3所述模型获得模块可包括如下模块:

26、a3-1)模型训练模块。

27、a3-2)模型验证模块。

28、a3-1)所述模型训练模块可通过包括如下步骤的方法建立:使用lightgbm基于 所述重要基因和所述重要基因的序列数据进行模型训练。所述模型训练时对于xgboost 的每一个节点,通过计算所有的所述重要特征在该节点分裂时的收益:

29、

30、其中gl、gr为特征分裂后的左右子树的结果相对于损失函数(这里是softmax) 的一阶导数,hr、hl为分裂时左右子树相对于损失函数的二阶导数,其他符号为参数。

31、上文所述方法中,所述预测生物斑迹离体时间的模型的获得可基于深度学习计算平台paddlepaddle1.8.3和机器学习计算工具sklearn.0.24.2实现。

32、为了解决上述技术问题,本发明还提供了预测生物斑迹离体时间的装置。

33、所述装置可包括如下模块:

34、a1、序列数据获取模块:用于获得已知离体时间的不同离体时间样本的生物斑迹样本的基因序列数据和/或所述样本的微生物序列数据。

35、a2、序列数据分析模块:用于对所述基因序列数据和/或所述微生物序列数据进行数据分析得到所述样本的数据分析结果。

36、a3、循环神经网络模块:用于使用循环神经网络对所述已知离体时间和所述数据分析结果进行提取,获得对离体时间预测有效的所述样本的基因特征变量和/或所述样 本的微生物otus特征变量。

37、a4、pca模块:用于使用pca从所述基因特征变量和或所述otus特征变量中 筛选获得重要基因特征变量和/或重要otus特征变量,并基于所述重要基因特征变量 和/或重要otus特征变量获得重要基因或重要otus。

38、a5、lightgbm模型训练模块:用于提取所述所述重要基因的序列数据和/或所述重要otus的丰度数据,使用lightgbm基于所述所述重要基因的序列数据和/或所述 重要otus的丰度数据构建预测生物斑迹离体时间的模型。

39、a6、生物斑迹离体时间预测模块:用于使用所述模型预测待预测生物斑迹样本的离体时间。

40、上文所述装置中,所述生物斑迹样本可为唾液样本或血液样本。

41、上文所述装置中,所述唾液样本可为生物体的口腔咽拭子样本。所述微生物序列数据可为所述唾液样本的微生物序列数据。所述血液样本可为生物体的外周血液样本。 所述基因序列数据可为所述血液样本的rna序列数据。

42、上文所述装置中,所述基因序列数据可为转录组测序数据。所述微生物序列数据可为16sdna v4区的扩增子测序数据。所述数据分析结果可为所述样本的微生物的 otu相对丰度信息或所述样本的基因序列信息和基因表达fpkm信息。

43、上文所述装置中,所述基因序列信息可为基因的表达序列信息。所述基因序列数据和/或所述微生物序列数据可为经过质量控制后的有效数据。所述数据分析可为otu 分析和/或物种注释分析。所述数据分析也可为基因的表达水平分析。

44、为了解决上述技术问题,本发明还提供了一种存储有计算机程序的计算机可读存储介质。所述计算机程序可使计算机建立如上文所述的方法的步骤或所述计算机程序 可使计算机建立如上文所述装置的模块。

45、为了解决上述技术问题,本发明还提供了一种存储有计算机程序的计算机可读存储介质。所述计算机程序使计算机可执行如上文所述的方法的步骤或所述计算机程序 使计算机执行如上文所述装置的模块的步骤。

46、本发明应用新一代测序技术,深入分析研究唾液(斑迹)微生物群落结构和血液(斑迹)转录组特征,可以在小量样本、单次实验中获得丰富生物特征数据,为基于机器学习的唾液/血液(斑迹)离体时间分析刻画提供海量数据来源,同时,应用机器学习技术,建立变量多样性的数据模型和高数量级的训练集,利用深度学习、卷积神经网络,在无监督的条件下,让机器自己学习训练,进一步探明离体生物斑迹随时间变化规律,筛选时间变化标志基因和微生物种群,为唾液(斑迹)和血液(斑迹)离体时间刻画提供方法。实验证明,本发明所建立的生物斑迹离体时间推断方法对血液样本的预测,分组数越少准确率越高,准确率最低为73%、最高为89%;同时在分组数相对较少的情况下(如血液斑迹-10组,即分为10组),样本分组时间段也可以满足多数事件现场分析需求,此时的模型准确率、精确率、召回率和f1均高于85%,模型预测性能较好,符合实际需求。本发明所建立的生物斑迹离体时间推断方法对唾液样本的预测,准确率最低为80%、最高为92%;同样在分组数相对较少的情况下(如唾液斑迹-7组,即分为7组),样本分组时间段也可以满足多数事件现场分析需求,此时的模型准确率、精确率、召回率和f1均高于90%,模型预测性能较好,符合事件处理实际需求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1