基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法与流程

文档序号：12064125阅读：来源：国知局

技术特征：

1.一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法，其特征在于，所述方法包括如下步骤：

步骤1：提取G蛋白偶联受体GPCR的多个关键描述信息；

步骤2：从PubMed数据库中得到关于受体的所有文献的摘要信息；

步骤3：利用Word2vec和Doc2vec工具将GPCR的多个关键描述信息转化为多个向量；

步骤4：将GPCR的多个向量单示例化，即一个GPCR用一个向量表示。

2.根据权利要求1所述的一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法，其特征在于，所述方法通过从大量的医学文献库中训练出文本的模型，使GPCR的每一个重要的特征用一个低维向量表示，每一个特征向量看成一个示例，那么每个GPCR看作是一个多示例的包，运用多示例单示例化，在考虑每一个特征的前提下，将每个GPCR包中的多个特征向量转化为一个Fisher单一向量。

3.根据权利要求1所述的一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法，其特征在于，所述方法从信息最丰富、资源最广的蛋白质数据库即uniprot_GPCR数据库中提取出每一个GPCR的蛋白质、物种、分子功能、参考文献的相关特征信息。

4.根据权利要求1所述的一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法，其特征在于，所述方法是以国际上公认的最具权威的生物医学文献数据库即PubMed数据库中的关于关于受体的所有文献信息约100万篇摘要文献作为训练集。

5.根据权利要求4所述的一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法，其特征在于，训练的文本是PubMed数据库中的摘要文献，目标域数据是提取出的每一个GPCR的关键信息，即蛋白质、物种、分子功能、参考文献，词语采用word2vec工具训练，句子采用Doc2vec的训练方法，将词语与句子分开训练，句子的向量不再单纯的是将句中词语向量求平均，文本的信息比较全面。

6.根据权利要求1所述的一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成方法，其特征在于，所述方法将GPCR看成一个包，它的多个关键信息向量看成多个示例，用多示例压缩技术将多示例的包数据压缩成单示例的Fisher单一向量，最终使一个GPCR用一个向量表示，得到的向量是基于语义空间得到，向量反映出词语语义空间的信息。

7.一种基于文本挖掘的G蛋白偶联受体药物靶标分子的向量生成系统，其特征在于：所述系统包括词向量模型的训练过程模块、句子向量模型的训练过程模块、多示例单示例化过程模块；

词向量模型的训练过程模块是从PubMed生物文献数据库中下载关于GPCR的摘要文献作为训练集，从uniprot_GPCR数据库中提取出的每一个GPCR的蛋白质、物种等信息作为需要求的目标向量，运用word2vec将大量的文献信息训练成词向量；

句子向量模型的训练过程模块不同于词向量的训练过程，采用另外的训练方式，即Doc2vec，以PubMed生物文献数据库中下载摘要文献作为训练集，从uniprot_GPCR数据库中提取出的每一个GPCR的分子功能、参考文献等句子信息作为需要求的目标向量；

多示例单示例化过程模块是将一个GPCR看成一个多示例的包，根据每一个GPCR的蛋白质、物种、分子功能、参考文献的多个向量信息看成多个示例，将这些多示例转化成单示例，即一个GPCR的包用一个向量表示。

完整全部详细技术资料下载

当前第2页1 2 3