一种基于ITS序列和机器学习的钩藤属植物鉴定方法与流程

文档序号:19419320发布日期:2019-12-14 01:15阅读:777来源:国知局

本发明涉及一种钩藤属植物鉴定方法,更具体地,涉及一种基于its序列和机器学习鉴定钩藤属植物的方法。



背景技术:

钩藤为茜草科钩藤属植物,主要分布在广西、贵州、云南等西南地区。《中国药典》2015年版规定钩藤为茜草科植物一般钩藤uncariarhynchophulla(miq)jack.、大叶钩藤u.macrophyllawall.、华钩藤u.sinensis(oliv)havil.、u.hirsutehavil.和无柄果钩藤u.sessilifructusroxb.五种药材。钩藤是中医常用药,药用历史悠久,具有息风定惊,清热平肝的功效。

钩藤因具有较高的药用价值和应用前景而受到广泛关注,对钩藤植物化学成分的分析报道层出不穷,但对其鉴定方面的研究较少。目前,中药钩藤的分类鉴定主要依据形态学、组织学和化学成分分析等方法。但钩藤各品种间外形相似,而不同种钩藤的药效成分具有明显差别,加之某些地区的品种面临濒危,导致市场上销售的钩藤种类较为混乱,出现互混、互代、以次充好等现象,影响用药的安全性和有效性。单靠药材性状、化学组分分析不能全面、科学地鉴定与评估钩藤药材的质量。因此,需要一种能够对钩藤属植物进行更精确、更快速的鉴定方法。

已有利用its区序列对侯钩藤进行鉴定的报道,报道中确定了7个变异位点作为鉴定侯钩藤的位点,但其必须满足至少两个位点的条件才能鉴定为侯钩藤,但当某个物种某个位点发生突变,无法满足多个位点同时存在的条件,就可能导致鉴定失败;另有利用its区序列鉴定11个钩藤属物种(一般钩藤、华钩藤、大叶钩藤、鹰爪风、攀茎钩藤、北越钩藤、毛钩藤、倒挂钩藤、白钩藤、平滑钩藤、云南钩藤)的报道,报道中使用relp(restrictionfragmentlengthpolymorphism)法确定并比较了45个位点作为鉴定10个钩藤属植物(鹰爪风除外)的位点,分别列举了2-7个单一位点来鉴定10个钩藤属物种,鉴定具体的物种仅需满足2-7个位点中的其中一个位点,但该报道所找的用于鉴别钩藤属物种的位点并不都是特异位点,可能导致鉴定失败。以上两个报道的共同点为:鉴定位点需人工从众多位点中逐个筛选,费时费力,且可能面临鉴定失败的情况,无法满足快速、准确、特异性鉴定钩藤属植物的要求。

机器学习是近20多年兴起的一门多领域交叉学科,为了充分且有效地利用生物学数据,生物学与机器学习的交叉研究日益活跃。目前,国内外尚未有将its序列和机器学习相结合用于钩藤属植物鉴定的报道。



技术实现要素:

为了克服已有技术的不足,本发明的目的在于提供一种结合its序列与机器学习的方法来准确、快速、特异地鉴定钩藤属物种。

本发明上述目的通过以下技术方案实现:

一种基于its序列和机器学习的钩藤属植物鉴定方法,包括如下步骤:

s1:数据的获取和数据集的建立

获取钩藤属植物的its区序列,并进行比对,切除引物端后,去除中间存在高变的插入或缺失的序列,得到用于机器学习的数据集。

具体地,上述s1中,its区序列一部分来自于实验获取,物种是一般钩藤、华钩藤、毛钩藤、白钩藤、大叶钩藤、侯钩藤、北越钩藤,通过分子生物学实验及测序获得该7个钩藤属物种的its区序列,具体包括如下步骤:

s11.以改良的ctab法,提取7个待测物种样品的总dna;

优选地,上述待测样品为新鲜采集的茜草科钩藤属植物的叶片,待测叶片先经过预处理后才进行dna的提取,所述预处理是将叶片浸泡于75%乙醇溶液中,5min后取出放置于无菌环境中风干,然后再液氮冷却的条件下研磨至粉末,该粉末即为待测样品。

s12.以7个待测物种样品的总dna为模板,利用引物its5和its4进行pcr扩增得到钩藤属植物的its区序列;上述引物its5和its4是针对钩藤属植物而设计的专用引物,其中,引物its4的核苷酸序列如seqidno:1所示,its5的核苷酸序列如seqidno:2所示。

seqno.1:tcctccgcttattgatatgc20

seqno.2:ggaagtaaaagtcgtaacaagg22

优选地,pcr扩增反应体系总体积为20μl,该反应体系包含2.5mmol/l10×pcrbuffer(含mgcl2)2μl,2.5mmol/ldntp1.6μl,10μmol/l引物its40.8μl,10μmol/l引物its50.8μl,5u/μlhifidna聚合酶0.1μl,加入dna模板50ng,其余体积用无菌水补足。

优选地,所述pcr扩增反应过程为:95℃预变性3min,94℃变性1min,56℃退火1min,72℃延伸1min,30个循环,72℃延伸10min。

具体地,上述s1中,its区序列一部分来自于genbank,物种是一般钩藤、华钩藤、毛钩藤、白钩藤、大叶钩藤、北越钩藤、平滑钩藤、倒挂钩藤、攀茎钩藤、云南钩藤。

进一步地,将实验获得的its区序列与从genbank下载的its区序列合为一个文件,所用比对软件采用mega(版本7.0)软件。

s2:利用机器学习提取鉴定钩藤属物种的核苷酸特征

将步骤1得到的数据集以barcodingwithlogic作为机器学习进行100次-1000次迭代计算,得到鉴定钩藤属植物的核苷酸特征。

进一步地,以barcodingwithlogic作为机器学习方法,是将s1得到的数据集随机分成训练集和测试集,其中训练集占总集合的90%,测试集占总集合的10%,进行1000次迭代计算。

s3:11个钩藤属植物的鉴定

鉴定11个钩藤属植物的特异核苷酸位点,具体标准是:

若第486位碱基为g,则鉴定为平滑钩藤u.laevigata;

若第497位碱基为t,则鉴定为华钩藤u.sinensis;

若第631为碱基为a,则鉴定为云南钩藤u.yunnanensis;

若第589位碱基为t,则鉴定为侯钩藤u.rhynchophylloides;

若第118位碱基为t,则鉴定为一般钩藤u.rhynchophylla;

若第608位碱基为t,则鉴定为北越钩藤u.homomllla;

若第468位碱基为c,则鉴定为毛钩藤u.hirsuta;

若第651位碱基为a,则鉴定为白钩藤u.sessilifructus;

若第574位碱基为c,则鉴定为大叶钩藤u.macrophylla;

若第485位碱基为c且第589位碱基为c,则鉴定为倒挂钩藤u.lancifolia;

若第482位碱基为t,则鉴定为攀茎钩藤u.scandens。

上述核苷酸位点为鉴定钩藤属物种的特异位点(species-specificpositions)。第486位碱基g是平滑钩藤区别于另外10个物种的特异碱基,所有平滑钩藤在该位点未发生变异;第497位碱基t是华钩藤区别于另外10个物种的特异碱基,所有华钩藤在该位点未发生变异;第631位碱基a是云南钩藤区别于另外10个物种的特异碱基,所有云南钩藤在该位点未发生种内变异;第589位碱基t是侯钩藤区别于另外10个物种的特异碱基,所有侯钩藤在该位点未发生变异;第118位碱基t是一般钩藤区别于另外10个物种的特异碱基,所有一般钩藤在该位点未发生变异;第608位碱基t是北越钩藤区别于另外10个物种的特异碱基,所有北越钩藤在该位点未发生变异;第468位碱基c是毛钩藤区别于另外10个物种的特异碱基,所有毛钩藤在该位点未发生变异;第651位碱基a是白钩藤区别于另外10个物种的特异碱基,所有白钩藤在该位点未发生变异;第574位碱基c是大叶钩藤区别于另外10个物种的特异碱基,所有大叶钩藤在该位点未发生变异;第482位碱基t是攀茎钩藤区别于另外10个物种的特异碱基,所有攀茎钩藤在该位点未发生变异;第485位碱基c和第589位碱基c不是倒挂钩藤区别于另外10个物种的特异碱基,但这两个位点结合可以鉴别倒挂钩藤,所有倒挂钩藤在这两个位点未发生变异。

与现有技术相比,本发明有如下有益效果:

本发明首次将its序列与机器学习相结合的方法用于钩藤属植物的鉴定,得到了鉴定11个钩藤属植物的核苷酸位点,这些核苷酸位点是鉴定11个钩藤属物种的特异位点,可以实现仅由1-2个位点分别对11个钩藤属植物进行快速、准确、特异性地鉴定。该方法无需进行人工筛选鉴定位点,就可以快速、准确、特异性地从众多位点中筛选出鉴定11个钩藤属物种的特异位点,说明its序列与机器学习结合的方法用于鉴定钩藤属植物的结果是可靠的。本发明弥补了基于形态学等传统鉴定方法以及仅基于dna条形码的分子鉴定的局限性,填补了将生物学信息与机器学习结合鉴定钩藤属植物的空白,为物种鉴定、分类和物种检测提供了重要的核苷酸信息,也为中药钩藤的规范用药、安全用药提供了必要保证。

具体实施方式

以下结合具体实施例来进一步说明本发明,但实施例并不对本发明做任何形式的限定。除非特别说明,本发明采用的试剂、方法和设备为本技术领域常规试剂、方法和设备。

除非特别说明,以下实施例所用试剂和材料均为市购。

实施例17个钩藤属植物its区序列的获得

1、样品dna的提取

(1)待测样品:从不同地区采集多份钩藤属植物共39份样品,如表1所示。

表17个钩藤属物种样品采集地点

(2)按照下述方法分别对表1的钩藤属植物样品进行dna的提取

1)将待测样品浸泡在75%乙醇中5min,取出,放置在无菌环境中自然风干;

2)取2g待测样品,加液氮研磨至粉末状,置于10ml离心管中,然后加入65℃预热的3×ctab提取液5ml,混匀后65℃水浴2h,期间每隔15-20min轻轻震荡摇匀;所述3×ctab提取液配方为:4%ctab,0.1mol/ltris-hcl,1.4mol/lnacl,2%pvpp,25mmol/ledta,高温高压灭菌;其中2%β-巯基乙醇于灭菌、冷却后加入;体系中的“%”代表体积分数;

3)水浴结束后,12000rpm离心5min,取上清分装至1.5ml离心管,加等体积tris饱和酚-氯仿-异戊醇(25:24:1),混匀后12000rpm离心10min;

4)取上清液至新1.5ml离心管,加等体积氯仿-异戊醇(24:1),混匀后12000rpm离心10min;

5)取上清液至新1.5ml离心管,加0.6倍体积异丙醇,再加3mol/l醋酸钠至终浓度为0.3mol/l,-20℃沉淀1h,12000rpm离心10min;

6)弃上清液,用1ml预冷的70%乙醇洗涤沉淀,12000rpm离心5min;

7)弃上清液,重复洗涤2-3次;

8)洗涤完毕后,风干沉淀,加100μl无菌水或1×te溶液进行溶解,置于-20℃保存,得到待测样品的dna。

2、its区序列片段的扩增

(1)引物its5和its4的序列如下所示

引物its5(如seqidno.1所示):5’ggaagtaaaagtcgtaacaagg3’

引物its4(如seqidno.2所示):5’tcctccgcttattgaataatgc3’

引物由生工生物工程(上海)股份有限公司合成。

(2)pcr反应体系:在20μl体系含有2.5mmol/l10×pcrbuffer(含mgcl2)2μl,2.5mmol/ldntp1.6μl,10μmol/l引物its40.8μl,10μmol/l引物its50.8μl,5u/μlhifidna聚合酶0.1μl,加入dna模板50ng,其余体积用无菌水补足。

3、pcr产物纯化、链接及转化

pcr扩增产物采用dna凝胶回收试剂盒(takaraminibestagarosegeldnaextractionkit)进行割胶回收。钩藤its序列的pcr扩增产物从1%的琼脂凝胶中割胶纯化。纯化产物连接到pmd18-t-vecter(takara),连接产物转化到escherichiacolijm109感受态细胞,进行氨苄青霉素选择。

4、its区序列测定

挑取单克隆菌落送至睿博兴科生物技术有限公司进行测序,测序引物与上述pcr引物一致。

5、its区序列分析

(1)选取我国常见的10种钩藤属药用植物,包括一般钩藤(uncariarhynchophylla)、华钩藤(u.sinensis)、毛钩藤(u.hirsuta)、白钩藤(u.sessilifructus)、大叶钩藤(u.macrophylla)、北越钩藤(u.homomalla)、平滑钩藤(u.laevigata)、倒挂钩藤(u.lancifolia)、攀茎钩藤(u.scandens)、云南钩藤(u.yunnanensis)共10种,并在ncbi数据库上查询和下载其its区序列的fasta格式文件,共97条序列,见表2。

表2从genbank下载的钩藤属植物its序列

(2)根据测序结果可知,18条一般钩藤序列存在7个位点的差异,4条华钩藤序列存在3个位点的差异,3条毛钩藤序列完全相同,5条白钩藤序列存在5个位点的差异,5条大叶钩藤序列存在2个位点的差异,3条侯钩藤序列存在一个位点的差异(经过研究验证显示,下述鉴别11个钩藤属植物的位点均不存在种内差异)。实验获取的序列已上传至ncbi,genbank登录号为mf033267-mf033305。

(3)将实验获得的its区序列和从genbank下载的its区序列,一起导入mega(版本7.0)软件进行比对,切除引物端后,去除中间存在高变的插入或缺失的序列,得到用于机器学习的数据集。

(4)以barcodingwithlogic作为机器学习方法,将数据集随机分成训练集和测试集,其中训练集占总集合的90%,测试集占总集合的10%,进行1000次迭代计算,获得鉴定钩藤属植物的特异核苷酸位点。

6、11个钩藤属植物的鉴定

根据机器学习结果可知,训练集和测试集对11个钩藤属物种的鉴定成功率均为100%。鉴定11个钩藤属植物的特异核苷酸位点,具体标准是:

若第486位碱基为g,则鉴定为平滑钩藤u.laevigata;

若第497位碱基为t,则鉴定为华钩藤u.sinensis;

若第631为碱基为a,则鉴定为云南钩藤u.yunnanensis;

若第589位碱基为t,则鉴定为侯钩藤u.rhynchophylloides;

若第118位碱基为t,则鉴定为一般钩藤u.rhynchophylla;

若第608位碱基为t,则鉴定为北越钩藤u.homomllla;

若第468位碱基为c,则鉴定为毛钩藤u.hirsuta;

若第651位碱基为a,则鉴定为白钩藤u.sessilifructus;

若第574位碱基为c,则鉴定为大叶钩藤u.macrophylla;

若第485位碱基为c且第589位碱基为c,则鉴定为倒挂钩藤u.lancifolia;

若第482位碱基为t,则鉴定为攀茎钩藤u.scandens。

实施例2:白钩藤、大叶钩藤、北越钩藤、平滑钩藤的鉴定试验

1、基因组dna的提取

从不同产地收集多份根据形态分别鉴定为白钩藤、大叶钩藤、北越钩藤、平滑钩藤的样品,如表3所示:

表34个钩藤属物种样品采集地点

分别按照下述方法进行鉴定:

步骤1:

将待测样品浸泡在75%乙醇中5min,取出,放置在无菌环境中自然风干,取2g待测样品,加液氮研磨至粉末状,置于10ml离心管中,然后加入65℃预热的3×ctab提取液5ml,混匀后65℃水浴2h,期间每隔15-20min轻轻震荡摇匀;所述3×ctab提取液配方为:4%ctab,0.1mol/ltris-hcl,1.4mol/lnacl,2%pvpp,25mmol/ledta,高温高压灭菌;其中2%β-巯基乙醇于灭菌、冷却后加入;体系中的“%”代表体积分数。

水浴结束后,12000rpm离心5min,取上清分装至1.5ml离心管,加等体积tris饱和酚-氯仿-异戊醇(25:24:1),混匀后12000rpm离心10min,取上清液至新1.5ml离心管,加等体积氯仿-异戊醇(24:1),混匀后12000rpm离心10min。

取上清液至新1.5ml离心管,加0.6倍体积异丙醇,再加3mol/l醋酸钠至终浓度为0.3mol/l,-20℃沉淀1h,12000rpm离心10min,弃上清液,用1ml预冷的70%乙醇洗涤沉淀,12000rpm离心5min,弃上清液,重复洗涤2-3次,洗涤完毕后,风干沉淀,加100μl无菌水或1×te溶液进行溶解,置于-20℃保存,得到待测样品的dna。

步骤2:

以步骤1提取的dna为模板,用引物its4和its5进行pcr扩增。

pcr反应体系:在20μl体系含有2.5mmol/l10×pcrbuffer(含mgcl2)2μl,2.5mmol/ldntp1.6μl,10μmol/l引物its40.8μl,10μmol/l引物its50.8μl,5u/μlhifidna聚合酶0.1μl,加入dna模板50ng,其余体积用无菌水补足。

pcr扩增反应过程:95℃预变性3min,94℃变性1min,56℃退火1min,72℃延伸1min,30个循环,72℃延伸10min。

采用takara的pcr产物回收试剂盒纯化税收扩增产物并送交测序。

步骤3:

将步骤2获得的序列和从genbank下载的序列一起导入mega(版本7.0)软件进行比对,切除引物端后,去除中间存在高变的插入或缺失的序列。其中,将步骤2得到作为测试集,将从genbank下载的序列作为训练集,以barcodingwithlogic作为机器学习方法,进行1000次迭代计算,获得鉴定钩藤属植物的特异核苷酸位点。

根据机器学习结果可知,训练集的鉴定成功率为100%,从训练集中获取的鉴别钩藤属植物的核苷酸规则如下:

若第486位碱基为g,则鉴定为平滑钩藤u.laevigata;

若第497位碱基为t,则鉴定为华钩藤u.sinensis;

若第631为碱基为a,则鉴定为云南钩藤u.yunnanensis;

若第589位碱基为t,则鉴定为侯钩藤u.rhynchophylloides;

若第118位碱基为t,则鉴定为一般钩藤u.rhynchophylla;

若第608位碱基为t,则鉴定为北越钩藤u.homomllla;

若第468位碱基为c,则鉴定为毛钩藤u.hirsuta;

若第651位碱基为a,则鉴定为白钩藤u.sessilifructus;

若第574位碱基为c,则鉴定为大叶钩藤u.macrophylla;

若第485位碱基为c且第589位碱基为c,则鉴定为倒挂钩藤u.lancifolia;

若第482位碱基为t,则鉴定为攀茎钩藤u.scandens。

根据机器学习结果可知,测试集的鉴定成功率为100%,说明训练集生成的核苷酸规则适用于测试集,4个钩藤属待测物种得到了准确的鉴定。

本发明上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1