一种利用宏基因组和机器学习进行蜂蜜蜜源地追踪的方法

文档序号：27493372发布日期：2021-11-22 15:16阅读：来源：国知局

技术特征：
1.一种蜂蜜的蜜源地追踪方法，包括以下步骤：1)收集已知蜜源地的蜂蜜样品，对蜂蜜样品进行花粉富集并进行核酸物质的抽提和纯化；2)对每个蜂蜜样品进行核酸序列的测定，并对测序数据进行质量过滤；3)对质量过滤之后的测序数据进行组装，并通过将所有的原始测序数据比对回组装结果以得到组装序列的丰富度信息，只保留组装长度大于500bp以及丰富度大于3的组装序列；4)对步骤3)得到的组装序列进行物种信息注释，将组装序列比对到ncbi的核苷酸序列数据库，并记录最优比对结果的物种信息；根据物种的注释信息，提取植物源序列进行后续的分析；5)对步骤4)提取的植物源序列进行样品间的两两比对，根据两两比对的结果首先将同一蜂蜜样品中来自同一物种的组装序列整合，并记录不同样品间共享的序列信息；共享的序列需要满足序列相似度大于等于98％，比对总长大于等于1,000bp；6)对步骤5)中得到的样品间共享的序列信息分析整合，构建不同蜂蜜样品的数据矩阵，其中矩阵的变量为所有蜜蜂样品的植物源代表序列，蜂蜜样品含有这条序列，或者共享该序列，则该蜂蜜样品这条植物源序列变量的值为1，不符合上述情况则计值为0；同时，对蜂蜜样品进行地理位置变量的定值，蜂蜜样品根据其蜜源地得到不同地理位置的概率值，每个蜂蜜样品在其蜜源地的概率值为100％，其他地理位置的概率为0％；7)对步骤6)得到的数据矩阵进行基于神经网络模型的数据训练，其中植物源序列变量作为神经网络的输入层，而地理位置变量作为神经网络的输出层，同时根据输入层变量的数目决定隐含层的数量和神经元的数目；8)对待检测的蜂蜜样品提供输入层变量值，用步骤7)得到的训练模型进行蜜源地概率的估算。2.如权利要求1所述的蜜源地追踪方法，其特征在于，步骤1)每个蜜源地采集多个蜂蜜样品，所采集的蜂蜜样品来自不同的蜂巢和地点。3.如权利要求1所述的蜜源地追踪方法，其特征在于，步骤2)中每个蜂蜜样本测序量平均为4
‑
5g原始数据，对测序数据进行质量过滤时去除低质量序列和测序接头序列。4.如权利要求1所述的蜜源地追踪方法，其特征在于，步骤3)使用mitoz软件包中的组装算法进行序列的组装，并设置k
‑
mer的长度大于50，在edge丰度方面设置最小值为3；然后利用minimap2将原始测序序列比对到组装序列上，通过sambamba统计每条组装序列的覆盖度信息，并对样本数据进行均一化处理，进而得到组装序列的丰富度信息。5.如权利要求1所述的蜜源地追踪方法，其特征在于，步骤4)中利用blastn将组装序列与ncbi的核苷酸序列数据库进行比对，获得组装序列的同源物种信息，其中，比对覆盖度达到序列本身长度80％以上，或者大于1,000bp的比对结果才认为是有效的比对结果；同时在组比对结果中提取得到公共数据库中与之最近缘序列的相似性得分和物种分类信息。6.如权利要求1所述的蜜源地追踪方法，其特征在于，在步骤4)中对于每个蜂蜜样品，选取丰富度最高的50条植物源序列，或者选取丰富度占比总计99％以上的植物源序列进行后续分析。7.如权利要求1所述的蜜源地追踪方法，其特征在于，在步骤6)中构建数据矩阵时，过
滤掉在同一蜜源地只单次出现的植物源序列变量。8.如权利要求1所述的蜜源地追踪方法，其特征在于，步骤7)利用“neuralnet”r包中的弹性反向传播的人工神经网络算法对数据矩阵进行训练，在数据训练过程中采用单隐含层和半数于植物源序列变量的神经元数目。9.如权利要求1所述的蜜源地追踪方法，其特征在于，步骤8)对于每个待检测的蜂蜜样品，独立运行多次检测，当概率的最高值10倍高于次高概率值时，认为其是一次有效检测。

技术总结
本发明公开了一种利用宏基因组和机器学习进行蜂蜜蜜源地追踪的方法。该方法充分考虑蜂蜜蜜源地，尤其是偏远山区，植物物种的分子数据库匮乏的问题，分析蜂蜜中核酸物质的序列信息，进而得到蜂蜜中所包含的植物序列，然后通过机器学习的方法计算得到蜂蜜中植物源的核酸序列(不需要具体的物种鉴定结果)与其蜜源地的权重关系，并以此作为参考数据库进行蜂蜜样品的蜜源地追踪。该方法不依赖已有的蜜源地植物分子数据库，可以直接通过蜂蜜中植物序列分析和机器学习得到蜂蜜的蜜源地信息，对蜂蜜产品的鉴定和市场的规范有着极其重要的价值。值。值。

技术研发人员：周欣刘山林
受保护的技术使用者：中国农业大学
技术研发日：2021.08.17
技术公布日：2021/11/21

完整全部详细技术资料下载

当前第2页1 2