一种生物医学事件的触发词标注系统及方法_3

文档序号：9506170阅读：来源：国知局

cy = Protein NMOD expression'，。与 protein 的最短距离特征指的是离当前节点最近的protein之间的路径长度，一般而言，能够作为触发词的单词周围都会有protein。如单词"expression"与"Proteinl"的距离就是1，同一层中的单词之间语义上的距离为无穷大，因为它们之间没有语义上的依赖关系，这也是句法特征和语义特征的巨大差别。
[0083] 将以上所有特征都组织在一个特征向量中，保存在单词所以对应的行中。
[0084] (1-4)预标记
[0085] 本发明所利用的BI0NLP2011语料库中训练样本已经标注的触发词信息，但在缺乏语料库的情况下需要经过领域专家在经验指导下标记触发词方可进行训练，如中文的生物医学文献就缺少这种已经标注的语料库。
[0086] ⑵训练
[0087] 训练过程主要在序列文本预处理基础上建立生物医学事件的触发词标注模型。首先要构造特征函数，如例3 :
[0089] 表中是经过预处理之后得到的单词序列部分特征向量，特征0为单词本身，特征1 为词性，特征2为单词的3-gram上下文，特征3为距离最近的protein的路径长度，标记为触发词标记，其中T为触发词，P为蛋白质，M为符号，0为一般单词。以当前词"expression" 为例构造特征函数则有：

[0102] 单词本身连同3个特征共生成4个转移特征函数和4个状态特征函数，将这些特征函数代入CRFs模型，训练得到每个特征函数对应的权值，就得到了生物医学事件的触发词标注模型。
[0103] ⑶标注
[0104] 本发明在训练得到了 CRFs事件触发词标注模型之后，就可以利用该模型进行触发词标注。为了评测标注结果的性能，可以将预标记的语料按照4:1的比例分成训练集和测试集两部分，其中训练集用于建立模型，测试集用于评估性能。本发明直接利用 BI0NLP2011语料库中的测试集进行了评测，取得很好效果。
[0105] 本发明提供了一种生物医学事件的触发词标注方法，该方法能够以整个观察序列为条件，使得触发词标注更加全局化，无需对输出做任何独立性假设，提高了生物医学事件的触发词识别性能。
【主权项】
1. 一种生物医学事件的触发词标注系统，其特征在于，所述系统包括预处理模块、标注模型建立模块、标注模块；预处理模块：用于将原始文本分隔成单词的序列，从单词序列中识别出蛋白质分子，抽取每个单词的句法特征和语义特征，预标记单词序列，为训练和测试准备相应的训练样本集和测试样本集；标注模型建立模块：用于建立特征模板，生成序列的特征函数的集合，估计CRFs模型参数，建立CRFs触发词标注模型；标注模块：用于以训练得到的CRFs触发词标注模型为参数求待标记单词序列的联合概率，找到其最大值所对应的标记序列，即为标注结果。2. 根据权利要求1所述的一种生物医学事件的触发词标注系统，其特征在于：所述预处理模块包括分词单元、蛋白质分子识别单元、特征抽取单元和预标记单元。3. 根据权利要求2所述的一种生物医学事件的触发词标注系统，其特征在于：所述的分词单元用于将原始的文本分隔成单词序列，英文的单词间有天然的空格作为分隔符，用分隔符分词之后每行一个单词，标点符号也占一行，语句之间留一空行作为分隔。4. 根据权利要求2所述的一种生物医学事件的触发词标系统，其特征在于：所述的蛋白质分子识别单元用于找出单词序列中的蛋白质分子，有大量蛋白质分子全称是由多个单词甚至还有希腊字母和数字组成，为了排除这些词对触发词标注的干扰，将识别出的蛋白质分子都统一替换成Protein-数字的形式。5. 根据权利要求2所述的一种生物医学事件的触发词标注系统，其特征在于：所述的特征抽取单元用于抽取每个单词词性、词形句法特征以及语义特征，生成单词特征向量编列在单词所在行中。6. 根据权利要求2所述的一种生物医学事件的触发词标注系统，其特征在于：所述的预标记单元用于准备标记样本，样本的真值在领域专家的指导下，对单词序列进行预标记，标记的结果编列在单词所在行的特征之后，也就是行的末尾。7. -种生物医学事件的触发词标注系统的实现方法，其特征在于：所述方法采用基于条件随机域模型的机器学习方法对未知文本进行生物医学事件的触发词标注，包括如下步骤：步骤1 :序列文本预处理，为建立CRFs触发词标注模型准备好训练样本，包括获得单词序列、蛋白质分子命名实体识别、抽取单词句法特征和语义特征、预标记单词序列；步骤2 :训练，利用CRF++工具以上述训练样本为参数学习得到各个特征函数的权值，建立CRFs触发词标注模型；步骤3:标注，利用CRFs事件触发词标注模型求一条语句的标记联合概率/)(KiA^^rgmax, /HKJ)，找到联合概率最大时所对应的标记序列Y就是语句的标注，得到事件触发词。8. 根据权利要求7所述的一种生物医学事件的触发词标注系统的实现方法，其特征在于：所述序列文本预处理包括四个步骤：即分词、蛋白质分子识别、特征抽取和预标记； (1)分词：首先利用字符串处理函数将原始文本分成语句序列，再将每一条语句分成单词序列，分词过程中保留标点符号，而且为标点符号单独分配一行，便于训练时考虑单词的上下文关系； (2) 蛋白质分子识别：生物医学事件包括事件触发词和事件主体，事件的主体是蛋白质分子和一些嵌套的事件，也就是触发词和蛋白质分子是相联系的，蛋白质分子识别有助于触发词标注，利用命名实体识别工具abner来识别蛋白质分子，并将按照各种书写习惯书写的蛋白质分子标准化为"Protein-数字"的形式； (3) 特征抽取：抽取每个单词的各种句法特征和语义特征，抽取句法特征借助于字符串处理函数判断单词是否有数字、是否数字和字符的组合、是否有下划线、是否包含连字符、是否首字母大写是否全大写、是否全小写等词形特征，词性特征和语义特征由GDep工具对语句剖析之后得到； (4) 预标记：预标记为人工标记或根据领域知识半自动的标记，只有训练和测试才需要预标记，对于待标记文本则无需此步骤。9. 根据权利要求7所述的一种生物医学事件的触发词标注系统的实现方法，其特征在于：所述训练步骤中编写特征模板文件是关键，按照CRFs模型的模板文件格式要求编写特征模版，特征模版决定了训练样本中哪些特征参与训练，根据测试性能的高低需要修改特征模板重新训练生成新的模型文件model，以此选择最有利于提高触发词标注性能的特征组合。10. 根据权利要求7所述的一种生物医学事件的触发词标注系统的实现方法，其特征在于，所述标注的过程就是利用上述学习得到的模型文件model为参数求语句的联合概率，找到联合概率最大时所对应的标记序列，即为所求的事件触发词标注序列。
【专利摘要】本发明公开了一种生物医学事件的触发词标注系统及方法，该系统包括预处理模块、标注模型建立模块和标注模块。其中所述预处理模块用于获得训练样本和测试样本，包括分词单元、蛋白质分子识别单元、特征抽取单元和预标记单元。分词单元用于获取原始文本的单词序列，再由蛋白质分子识别单元识别出其中的蛋白质分子并加以替换为标准形式，更有利于特征抽取和触发词标注，特征抽取单元抽取单词的词形、词性等句法特征和语义特征，最后预标记单词序列作为训练和测试样本集。所述标注模型建立模块用于建立特征模板，生成特征函数，估计各特征函数所对应的权重，得到CRFs的触发词标注模型。标注模块对未知文本序列进行触发词标注，将得到结果显示在GUI界面。
【IPC分类】G06F17/27
【公开号】CN105260361
【申请号】CN201510714177
【发明人】龚乐君
【申请人】南京邮电大学
【公开日】2016年1月20日
【申请日】2015年10月28日

完整全部详细技术资料下载

当前第3页1 2 3