基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法与流程

文档序号:12064125阅读:来源:国知局

技术特征:

1.一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法,其特征在于,所述方法包括如下步骤:

步骤1:提取G蛋白偶联受体GPCR的多个关键描述信息;

步骤2:从PubMed数据库中得到关于受体的所有文献的摘要信息;

步骤3:利用Word2vec和Doc2vec工具将GPCR的多个关键描述信息转化为多个向量;

步骤4:将GPCR的多个向量单示例化,即一个GPCR用一个向量表示。

2.根据权利要求1所述的一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法,其特征在于,所述方法通过从大量的医学文献库中训练出文本的模型,使GPCR的每一个重要的特征用一个低维向量表示,每一个特征向量看成一个示例,那么每个GPCR看作是一个多示例的包,运用多示例单示例化,在考虑每一个特征的前提下,将每个GPCR包中的多个特征向量转化为一个Fisher单一向量。

3.根据权利要求1所述的一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法,其特征在于,所述方法从信息最丰富、资源最广的蛋白质数据库即uniprot_GPCR数据库中提取出每一个GPCR的蛋白质、物种、分子功能、参考文献的相关特征信息。

4.根据权利要求1所述的一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法,其特征在于,所述方法是以国际上公认的最具权威的生物医学文献数据库即PubMed数据库中的关于关于受体的所有文献信息约100万篇摘要文献作为训练集。

5.根据权利要求4所述的一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法,其特征在于,训练的文本是PubMed数据库中的摘要文献,目标域数据是提取出的每一个GPCR的关键信息,即蛋白质、物种、分子功能、参考文献,词语采用word2vec工具训练,句子采用Doc2vec的训练方法,将词语与句子分开训练,句子的向量不再单纯的是将句中词语向量求平均,文本的信息比较全面。

6.根据权利要求1所述的一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法,其特征在于,所述方法将GPCR看成一个包,它的多个关键信息向量看成多个示例,用多示例压缩技术将多示例的包数据压缩成单示例的Fisher单一向量,最终使一个GPCR用一个向量表示,得到的向量是基于语义空间得到,向量反映出词语语义空间的信息。

7.一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成系统,其特征在于:所述系统包括词向量模型的训练过程模块、句子向量模型的训练过程模块、多示例单示例化过程模块;

词向量模型的训练过程模块是从PubMed生物文献数据库中下载关于GPCR的摘要文献作为训练集,从uniprot_GPCR数据库中提取出的每一个GPCR的蛋白质、物种等信息作为需要求的目标向量,运用word2vec将大量的文献信息训练成词向量;

句子向量模型的训练过程模块不同于词向量的训练过程,采用另外的训练方式,即Doc2vec,以PubMed生物文献数据库中下载摘要文献作为训练集,从uniprot_GPCR数据库中提取出的每一个GPCR的分子功能、参考文献等句子信息作为需要求的目标向量;

多示例单示例化过程模块是将一个GPCR看成一个多示例的包,根据每一个GPCR的蛋白质、物种、分子功能、参考文献的多个向量信息看成多个示例,将这些多示例转化成单示例,即一个GPCR的包用一个向量表示。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1