一种生物医学事件的触发词标注系统及方法

文档序号:9506170阅读:948来源:国知局
一种生物医学事件的触发词标注系统及方法
【技术领域】
[0001] 本发明涉及一种生物医学事件的触发词标注方法及系统,属于计算机与信息技术 领域。
【背景技术】
[0002] 生物和信息技术的发展让生命科学的实验研究越来越深入,来自生命科学各个层 次的实验数据正在从各个角度越来越全面的揭示生命的奥秘。记载这些生命奥秘的生物医 学文献数量也呈现出指数级地增长,加之其媒体形式的多样性和结构上复杂性让这些文献 成为当下名副其实的大数据。截至2014年底,美国国家医学图书馆(即NCBI)数据库就有 超过2400万条生物医学文献的引文记录。神奇莫测的生命信息都像一颗颗珍珠散落在这 些海量生物科技文献里,而对于医学利用人员来说,精准检索这些信息犹如大海捞针,如何 将这些珍珠有效地穿起一条项链,方便被利用是目前生物信息技术的一个很重要的研究任 务。
[0003] BioNLP2009的任务中就开始关注生物医学事件抽取,也称之为分子事件抽取,其 目标就是要从非结构化的文本数据中将描述分子层面蛋白质所发生的事件类型,事件动作 和事件主体抽取出来,如 "Down-regulation of interferon regulatory factor 4gene expression in leukemic cells due to hypermethylation of CpG motifs in the promoter region·",其中"interferon regulatory factor 4"为蛋白质分子D 该语句中 有两个事件,分别是:
[0004] El (事件类型:Negative_regulation,触发词:Down_regulation,主体:E2)
[0005] E2 (事件类型:Gene_expression,触发词〖expression,主体:interferon regulatory factor 4)
[0006] 生物医学事件抽取的关键就是触发词标注,标出触发词的种类,为生物医学事件 抽取奠定基础。
[0007] 生物医学事件抽取流程一般分为两步,第一步识别出生物医学事件的触发词,第 二步则是识别出事件的元素或者说参与事件的主体。第一步是关键,也是本发明需要解决 的问题。目前识别触发词的方法主要分为三类,即基于字典的方法、基于规则的方法和机器 学习的方法。基于字典的事件触发词识别需要先建立一个触发词字典,当有字典中的词出 现即判定为触发词。
[0008] 上述基于字典的方法的结果依赖于字典的完备性,当有新的触发词出现时,识别 性能就会下降。基于规则的触发词识别方法类似于编译器的词法分析,先建立一套文法规 则或者产生式来识别触发词,凡是能够依规则生成的词或者依规则归约到起始符的词都认 为是触发词。但是,该方法与基于字典的方法类似,其结果也是依赖于规则的完备性。基于 机器学习的方法,就是使用统计的方法将触发词识别看成分类问题,选择合适的特征和适 当的分类器来完成。该方法与前两种方法相比更加智能,推广能力更强。但是也存在不能 充分利用上下文信息,需要假设特征输出独立性等缺点。所以如何避免假设特征输出独立 性,更加真实地对序列中的相互作用的特征进行建模,使触发词特征更加全局化,且有效提 高事件触发词的识别性能是急需解决的问题。而本发明能够很好地解决上面的问题。

【发明内容】

[0009] 本发明目的在于提供了一种生物医学事件的触发词标注系统及方法,该系统对原 始文本进行事件触发词标注,得到生物医学事件的触发词,为生物医学事件抽取奠定基础; 提供一种事件触发词标注系统的实现方法,该方法对观察序列不做任何假设,使得事件触 发词特征更加全局化且有效提高触发词识别性能。
[0010] 本发明解决其技术问题所采取的技术方案:一种生物医学事件的触发词标注系 统,该系统包括预处理模块、标注模型建立模块和标注模块,如图1所示。
[0011] 预处理模块用于为训练和测试准备好标记样本,主要包括获得分词单元、蛋白质 分子识别单元、特征抽取单元和预标记单元。
[0012] 分词单元:用于将原始的文本分隔成单词序列;
[0013] 蛋白质分子识别单元:用于识别单词序列中得蛋白质分子,有大量蛋白质分子全 称是由多个单词甚至还有希腊字母和数字组成,为了排除这些词对触发词标注的干扰,将 识别出的蛋白质分子都统一替换成Protein+数字的形式;
[0014] 特征抽取单元:用于抽取蛋白质分子的句法特征和语义特征,并获取相应的特征 向量;
[0015] 预标记单元:用于为训练和测试CRFs触发词标注模型而准备标记样本,预先标记 触发词的真值;
[0016] 标注模型建立模块用于建立特征模板,生成序列的特征函数的集合,估计CRFs模 型参数,建立CRFs触发词标注模型。
[0017] 标注模块用于利用所建立的CRFs触发词标注模型标注未知的单词序列,其标记 序列的联合概率最大值所对应的标记序列,即为标注结果。
[0018] 本发明还提供了一种生物医学事件的触发词标注系统的实现方法,该方法是基于 机器学习,但不是孤立的简单的对词进行分类,而是从序列数据本身出发,利用条件随机域 模型,在给定需要标记的观察序列条件下,计算整个标记序列的联合概率,而不是在给定当 前状态条件下,定义下一个状态的分布。标记序列的分布条件属性可以让CRFs很好的拟合 序列数据,在这些数据中标记序列的条件概率依赖于观察序列中非独立的、相互作用的特 征。方法包括三步,即:序列文本预处理、训练、标注,如图3所示。
[0019] 方法流程:
[0020] 步骤1 :序列文本预处理
[0021] 序列文本预处理的目标就是为训练CRFs触发词标注模型过程中的参数估计准备 好训练样本,为评估性能准备好测试样本,包括四个子步骤:分词、蛋白质分子识别、特征抽 取和预标记。
[0022] 步骤1-1 :分词
[0023] 分词是将原始的文本语句分成单词的序列,与中文文本相比,英文的单词间有天 然的空格作为分隔符,所以分词相对简单,分词之后每行一个单词,标点符号也占一行,语 句之间留一空行作为分隔。
[0024] 步骤1-2 :蛋白质分子识别
[0025] 生物医学事件的触发词标注是在已知蛋白质分子的条件下进行的,所以在特征抽 取之前需要利用abner(-种命名实体识别工具)识别出原始文本中的蛋白质分子。有大 量蛋白质分子全称是由多个单词甚至还有希腊字母和数字组成,也有的是以缩写词的形式 存在,例如蛋白质分子"interferon regulatory factor 4"也可以写成"IRF-4",为了排 除这些词的书写形式多样性对触发词标注的干扰,将识别出的蛋白质分子都统一替换成 Protein+数字的形式。
[0026] 步骤1-3 :特征抽取
[0027] 特征抽取,抽取单词句法特征和语义特征。
[0028] 句法特征又包括词形特征、词性特征、ngram上下文特征。
[0029] 语义特征也叫依存关系特征包括语义ngram特征、与protein的最短距离特征。
[0030] 这些特征按照向量形式组织在与单词同一行的不同列中,中间以制表符分隔。
[0031] 步骤1-4 :预标记
[0032] 预标记就是为了训练和测试,人工准备足够多的训练样本,样本的真值由领域专 家根据领域知识和经验对单词序列进行预标记。
[0033] 步骤2:训练
[0034] 训练过程就是利用上述准备好的训练样本估计特征函数的权值参数,来确定标记 序列的条件概率,为了描述清楚,先给出条件随机域的定义。设X为观测数据序列,Y为其 对应的标记序列,P (YIX)为给定随机变
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1