一种生物医学事件的触发词标注系统及方法_2

文档序号:9506170阅读:来源:国知局
量X下Y的条件分布,£) = 为N对训练样 本。无向图G= (V,E),Y= (Yv)vev,所以Y中的元素与图中顶点一一对应,当在X条件下, 随机变量Yv的条件概率服从图的马尔科夫属性,也就是P (Y v IX,Yw,w乒V) = p (Yv IX,Yw,w~ v),其中w~V表示(w, v)是无向图G的边。此时的(X,Y)就是一个条件随机域。
[0035] CRFs模型以观察序列X作为全局条件,并且不对X做任何有关独立性的假设。基 于条件独立的概念,CRFs无向图结构可以用来将关于Y ve Y的联合分布因式化为正的和实 值的势函数(Potential function)的乘积。在一阶链式结构的无向图中,最大团(clique) 仅包含相邻的两个节点,即图中的边,所以对于最大团中的无向边e= (Vil^i)的势函数 为:
[0037] 其中tk(Y1 ^Y1, X,i)为整个观察序列和对应标记序列在i-Ι和i时刻的特征,就 是一个转移函数,而Sk^X, i)是在i时刻的标记和整个观察序列的特征,是个状态函数。 则Y联合概率为:
[0039] 其中Z (X)为归一化因子,参数λ k,μ k就是要在训练过程中估计的参数,分别对应 着特征的权重,大的非负参数意味优先选择相应的特征事件,大的负值所对应的特征事件 不太可能发生。
[0040] 在定义tk,Sk这些特征函数之前,先构造观察序列的实数值特征布尔函数来集合 来描述训练数据的经验分布特征,例如:
[0042] 每个特征函数表示为观察序列实值特征b(X,i)集合中的一个元素,如
[0045] CRFs模型参数估计的实质是对概率的对数最大似然函数求最值,运用最优化理论 循环迭代,直到函数收敛或者达到给定的迭代次数。训练主要利用目前流行的CRF++工具, 对训练样本中的数据进行训练得到各特征函数的权重λ^Ρ μ k。
[0046] 步骤3 :标注
[0047] 训练得到CRFs模型参数之后就可以对一条语句进行标注,找到该语句所对应的 标记联合概率最大的标记序列Y = argmaxYp (Y|X),Y即为触发词标注结果。
[0048] 有益效果:
[0049] 1、本发明通过建立CRFs模型,即该模型无需对单词序列做任何假设,能够以单词 序列为全局条件,实现了求标记序列的联合概率。
[0050] 2、本发明能够充分利用上下文信息,获取样本的特征函数,利用所述CRFs触发词 标注模型对未知的单词序列进行标注。
[0051] 3、本发明提高了生物医学事件触发词的召回率和准确率。
【附图说明】
[0052] 图1为本发明的系统架构图。
[0053] 图2为本发明的系统流程图。
[0054] 图3为本发明的方法流程图。
[0055] 图4为本发明实施例特征抽取所利用到的句法依存关系树图。
【具体实施方式】
[0056] 下面结合说明书附图对本发明创造作进一步的详细说明。
[0057] 如图2所示,本发明的系统主要包括预处理模块、标注模型建立模块和标注模块, 具体包括如下:
[0058] 系统的输入可以是语料库和待标记的文本,系统的输出为待标记文本的事件触发 词标注序列。
[0059] 预处理模块的功能是实现分词、蛋白质分子识别、特征抽取和预标记。当输入为语 料库时经过预理模块的处理就得到训练和测试样本集,当输入为待标记文本时,预处理就 不需要预标记,直接将特征抽取之后的单词序列特征集作为输入之一交给标注模块。
[0060] 标注模型建立模块将预处理之后的训练样本集经过训练建立标注模型,并以CRFs 模型文件的形式保存下来,该模型文件中包含了各个特征函数的权重。
[0061] 标注模块则利用上述模型文件对待标记文本预处理之后的结果进行触发词标注, 输出文本的生物医学触发词标注序列。
[0062] 如图3所示,本发明的系统实现方法需要经过序列文本预处理、训练和标注三个 步骤,具体包括如下:
[0063] (1)序列文本预处理
[0064] 序列文本预处理需要将原始文本进行分词、蛋白质分子识别、特征抽取、预标记等 步骤。
[0065] (1-1)分词
[0066] 即将原始文本分割成单词序列,如例1,语句"Down-regulation of interferon regulatory factor 4gene expression in leukemic cells due to hypermethylation of CpG motifs in the promoter region. ',经过分词之后成为
[0069] 每条语句之后留有一空行作为分隔行。
[0070] (1-2)蛋白质分子识别
[0071] 即利用abner命名实体识别工具找出语句中的蛋白质分子,例1中的语句经过 识别之后找到"interferon regulatory factor 4"为蛋白质分子,替换之后的语句如 例 2 :"Down-regulation of Proteinlgene expression in leukemic cells due to hypermethylation of CpG motifs in the promoter region. ',
[0072] (1-3)特征抽取包括
[0073] 抽取单词的句法特征和语义特征。
[0074] 句法特征又包括词形特征、词性特征、ngram上下文特征。
[0075] 词形特征包括单词本身一些词性特征,如是否为数字、是否为数字和字符的组合、 是否包含有"+、_、/"这样的符号、首字母是否大写,是否全大写,是否全小写等,这些特征 可以借助字符串处理函数和正则表达式来获取,如判断是否包含可以用java语言中 String, contains ()函数判断。所有特征抽取之后组成的特征向量都排列在单词所在行中, 如语句例2经过抽取句法特征之后:
[0078] 单词的词性特征和语义特征都可以由⑶ep工具得到,如例2中的句子经过⑶ep 工具分析之后变成:
[0080] 其中,第一列为单词在语句中的索引,第二列为单词本身,第三列为单词词干化的 结果,得到单词的基本形式,去掉单词的复数和语态的辅助形式等,如单词"cells"的基 本形为"cell"。第四列为块标记,主要是识别语句中的词组,为命名实体识别做准备,如 " Ieukemic ce11 s "就是一个词组。第五列为词性,表明单词是名词还是动词,作为触发词而 言,主要是一些动词和一些动名词,如单词"Down-regulation"和"expression"都是"NN" 的名词。第六列为命名实体,目前可以识别蛋白质分子、DNA、RNA、细胞型、细胞线等类型的 实体。第七列依存关系中父节点的索引,根据这个位置很快能够得到语句的依存关系树,如 图4所示。第八列是单词与父节点之间的依存关系名。
[0081] 句法特征中单词的ngram特征则由单词周围的η个词一起并列给出,η -般取3 或者 5。如例 2 中,单词"expression" 若取 3-gram 特征就是"3-gram = gene expression in",也可以表不成"3-gram-left = Proteinlgene expression" 或"3-gram-right = expression in leukemic',。
[0082] 语义特征包括语义ngram特征、与protein的最短距离特征,这两个特征都是从依 存关系树出发,在根到叶结点的路径上抽取的特征,语义ngram特征中一般取η的值为2,如 "semantic-2-gram-dependen
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1