基于文本关系相似性的蛋白质交互关系识别方法

文档序号:8223801阅读:354来源:国知局
基于文本关系相似性的蛋白质交互关系识别方法
【技术领域】
[0001] 本发明设及生物医学文献中蛋白质交互关系的自动识别方法,具体来说设及一种 基于文本关系相似性的蛋白质交互关系识别方法。
【背景技术】
[0002] 蛋白质是生物细胞最重要的成分。蛋白质作为生命活动的体现者并非孤 立存在,它们通过彼此间的作用完成细胞中的大部分过程。蛋白质之间的交互信息 Protein-Protein Interaction, PPI对于理解单个蛋白质的功能作用W及整个生物过程是 至关重要的,是生物学研究的重要内容,也是解决大量医学难题的关键信息。因而描述蛋白 质之间交互关系Protein-Protein Interactions, PPI的网络的建立一直是研究生物过程 关注的核屯、问题,对于生物学研究具有重要意义。因此生物领域专家手工地从医学文献中 提取了众多的PPI并录入到统一格式的数据库中,如BIND, DIP, HP畑,IntAct和MINT等等。 然而大量的蛋白质交互信息仍散布在W非格式化文本形式存储的科技文献中,并且文献的 数目在急剧地增长。依靠手工捜寻提取该些蛋白质交互信息的方式显然不能满足实际需 要。因而如何从文献中自动挖掘出蛋白质交互信息成为重要的课题要并且吸引了大量的研 究。研究的主要任务是根据生物医学文献中的线索识别存在交互关系的蛋白质对。识别出 的交互关系将用于PPI网络的建立。
[0003] 从文献中自动挖掘蛋白质交互信息的方法涵盖了简单的同现分析到更为复杂的 自然语言处理系统,大体可W分为W下S类。
[0004] 第一类根据蛋白质的同现co-occurrence情况制定策略进行分析。基于同现的方 法根据蛋白质在文本中出现位置的相近信息,通过计算两个蛋白质的共现次数来推断它 们之间的交互作用。该种方法基于该样的假设;如果两个蛋白质实体经常出现在同一个句 子或摘要中,它们则存在某种关系。就是蛋白质实体出现的位置越近、越经常在一起出现则 越可能相关,基于该样的假设可通过统计同现频率计算出蛋白质实体存在关系的可能性。
[0005] 基于共现的PPI识别方法的主要不足是由于蛋白质的同现关系并不一定对应交 互关系,该种方法只能抽取已出现的PPI,而不能发现新出现的或较少出现的PPI。而且该 种方法没有充分分析包含目标蛋白质对的上下文对非交互关系进行过滤,该样所得结果中 会有大量的误报,因而该种方法的识别的精度通常不高。
[0006] 第二类方法通过建立能够刻画蛋白质交互关系的模式,将其作为规则来寻找蛋白 质交互信息。模式匹配法是PPI关系抽取研究的一种主要方法。首先根据蛋白质交互在句 子中的常用描述方式建立一组模式。一个模式或规则通常由单词和词性的序列组成,其中 标出了形成交互关系的两个蛋白质的位置。抽取PPI时,通过文本匹配寻找对应的交互信 息,如果一个模式与一个句子相匹配,则提取出句中相应位置的蛋白质作为存在交互关系 的蛋白质对。
[0007] Madkour等提出一个BioNoculars系统基于图互增理论使用冗余数据构建领域无 关的模板来抽取蛋白质交互关系。该种方法需要手工编写规则,需大量的人力和时间。基 于模式匹配的方法有助于提高PPI识别的精确度,然而由于模式集规模的限制导致基于规 则或模式的方法明显地降低了召回率。为了减轻手工制定模式的负担,一些系统设计了自 动模式获取的算法。比如。化ang等人提出了一种从语料中自动获取模式的方法和一种基 于动态规划的匹配算法,该方法将句子对齐,然后把句子中相似的部分提取出来作为抽取 蛋白质交互关系的规则。自动建立的模式尽管能够增加模式的数量,然而生成模式的质量 仍无法满足高精度交互关系识别的要求。
[000引基于模式匹配的方法存在很大的局限性,其性能依赖于模式的数量和质量而且它 无法抽取跨句子的实体关系。由于文本中蛋白质交互关系描述语言的多样性和句法结构的 复杂性,简单的句法模式难W处理复杂的句子。同时人工建立简单的模式因其有限的覆盖 面导致较低的召回率,而构造复杂模式的过程则又需要花费大量时间。另外,基于模式匹配 的方法在未知关键词的情况下不能生成新的模式规则,从而限制了蛋白质关系抽取的可拓 展性,一旦规则集的大小达到了一定的规模,便很难将新规则加入现有的规则集。而且当关 系抽取系统被应用到新领域的时候,基于规则的方法可能需要预先定义重新制定整个模式 规则集W适应新的领域,从而降低了系统的可移植性。
[0009] 第=类方法采用自然语言处理技术配合机器学习的方法。基于机器学习的方法根 据其侧重点不同又可分为两种:基于特征的方法和基于核函数的方法。基于特征的方法试 图提取出对识别蛋白质交互有效的特征,包括词汇特征,语法特征和语义特征。文献使用上 下文特征进行蛋白质关系抽取,该方法没有使用任何句法信息,在Biocreative语料库上 得到了较高的召回率,但精确度相对较低。而基于核函数的方法则侧重考察衡量两实例间 距罔的多种策略。
[0010] 由于核函数的方法直接W结构树为处理对象,通过计算它们之间的相似度获取关 系模式的有关信息,再使用支持核函数的分类器进行关系抽取,常见的核函数有序列核, 其利用一个基于序列的核来计算两个句子的相似性;依存树核;图核。文献使用基于多核 的学习方法来进行蛋白质关系信息的抽取,融合了基于特征的核、树核W及图核。但是它的 计算复杂度高,训练和预测速度很慢,不适合数据量较大的情况。
[0011] 相对于同现和规则的方法,基于机器学习的方法有效地利用了文本中描述蛋白质 交互词法和句法上的显示特征,或者通过设计核函数进一步利用句子结构表示,如字符串 序列、句法依赖或句法分析上的隐含特征,并且能够发现新的模式规则,因而取得了较好的 测试效果。然而目前基于机器学习的方法主要W单句为依据采用基于监督的方式进行蛋白 质交互信息识别,该些方法主要存在S个方面的局限性。
[0012] 给定两个目标蛋白质,该些基于机器学习的方法根据两个目标蛋白质对共同出现 的很小的文本范围通常是一句话内的依据来判断它们是否交互。与其它信息抽取任务一 样,对于蛋白质交互识别任务则定义为一个句子中任意两个蛋白质是否存在交互,比如下 面的例子:
[0013] The screen identified interactions involving c-Cbl and two 14-3-3 isoforms, cytokeratin 18, human unconventional myosin IC, and a recently identified SH3 domain containing protein, SH3 PI7.
[0014] 在该句话中,出现了 S个黑体文字的蛋白质,识别的任务就是判定它 们任意两个之间是否有交互关系,即(c-Cbl,巧tokeratin 18), (c-Cbl,甜3 P17),(巧tokeratinl8,S册P17)该S对中,哪几对是交互对,判定的依据就该一个句子。
[0015] 该些基于单句的方法不足之处主要有=点。首先,句子的复杂语法结构使得识别 很困难,蛋白质交互是个复杂的生物过程,很多情况下同一个句子中隐含了多个蛋白质相 互作用信息。事实上,在专家人工对化bMed摘要标注了交互关系的数据集,Aimed数据集 中,可能包含蛋白质交互信息的句子有超过40%含有=个W上蛋白质。为了阐清该些蛋白 质间的相互作用,一个句子经常使用复杂的语法结构,结果两个蛋白质的关系通常隐含其 中也就使得识别比较困难。比如在上面的句子中,c-Cbl和甜3 P17之间有很长的距离,单 词个数,即使通过句子深层次语法分析,得到它们之间的关系也比较困难。其次,该些方法 中,交互关系的上下文环境被忽略了。事实上,句子周围的一些信息通常提供了交互的上 下文,对于识别目标交互关系是有利的,然而,该些上下文信息在基于单句的方法中没有考 虑。此外,一个蛋白质交互可能会在多个研究的描述片段中,因而可能散布于多篇文章中。 所有的该些描述提供了识别目标蛋白质对交互的有利的依据,然而该些信息在基于单句方 法中都未得到充分利用。再者,该些机器学习方法面临少量训练集的困难。在基于单句的 方法中,为了建立训练集,需要对一句话中出现的每个蛋白质对标注其是有交互还是无交 互,该是很繁重的工作,结果导致该些机器学习方法只在少量的数据上训练,而该必然影响 到识别的精度和模型的推广能力。
[0016] 自然语言处理领域的关系相似性研究为准确识别文本中的关系提供了统一的框 架。Medin等人将关系描述如下;关系是带有两个或多个参数的谓语,用来表示两个事物间 抽象的联系。关系相似性分析的大部分工作试图通过比较目标关系与一些已知关系的相似 性来识别词对隐含的关系。通常,首先从大规模文本中抽取分布特征。该些特征刻画了两 个单词之间的联系。然后一些相似性度量策略被用来计算目标关系与已知关系的相似性。 最后最相似的那一个关系被标为目标词间的关系。
[0017] 在所提出的方法中,蛋白质的交互关系的预测是基于大规模文本所提供的丰富的 上下文信息。关系相似性框架包含=个模块:收集关系的描述,关系表示和相似性计算。第 一模块从大规模文本中获取很可能描述两个蛋白质之间关系的文本集合。该些描述可W 是短语,句子或段落等。例如,化rn巧挑选了 128组包含参数化Y)的短语(如X of Y,Y 化r X,X to Y),而化kov使用了包含两个参数的句子集。在关系表示模块中使用了向量空 间模型。在第S个模块中,合适的相似性度量策略被用来计算目标关系与已知关系的距离。 最后,目标关系被标为已知交互关系中与其最相似的关系类别。
[001引 目前缺乏一种能够快速得到蛋白质交互关系并将其加入蛋白质交互网络的蛋白 质交互识别方法。

【发明内容】

[0019] 本发明所要解决的技术问题是提供一种能够快速得到蛋白质交互关系并将其加 入蛋白质交互网络的基于文本关系相似性计算的蛋白质交互识别方法。
[0020] 为了实现上述目的,本发明通过如下技术方案实现;本发明提供了一种基于文本 关系相似性的蛋白质交互关系识别方法,包括如下步骤:
[0021] 步骤1 ;获取文本集中的蛋白质对关键词的句子,对所有句子进行集合得到签名 档S ;每个蛋白质对为(pi, p2),每个目标蛋白质对都会有签名档与之相对应;
[002引步骤2 ;用特征向量来表示pi和p2之间的关系;将对应于目标蛋白质对的签名档 中的单词进行预处理,去除停止词;向量的维度对应该一关系的特征,该些特征从多个蛋白 质对的签名档中抽
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1