不平衡数据集上生物医学多参事件抽取的新方法与流程

文档序号:12467201阅读:430来源:国知局
不平衡数据集上生物医学多参事件抽取的新方法与流程

本发明涉及一种生物医学多参事件抽取的新方法,特别涉及一种不平衡数据集上生物医学多参事件抽取的新方法。



背景技术:

当前,生物医学文献提供了丰富的科学知识来源,由于非结构化或半结构化的生物医学文献的快速增长,科研工作者需要大量的精力和时间来获得相关的科学知识。自动抽取生物医学事件可以应用到许多生物医学领域。在事件抽取任务中,基于规则的方法和基于机器学习的方法是目前主要的方法。基于规则的方法同生物医学关系抽取中基于模式的方法类似,手工定义句法规则,然后在训练数据集中学习得到规则,从而抽取出事件。基于机器学习的方法把抽取任务看成是分类问题。以上这些方法很少提及到的一个问题就是训练数据是高度不平衡的,负样本的数目远低于正样本的数目;而且大多数的多参事件抽取方法都遵循管道模型,在对抽取的基础上,进一步抽取多元关系,这样容易造成级联错误。这种方法直接抽取多元关系的方法,对样本进行过滤平衡训练的正负样本,得到用于分类的有意义的样本集;以及采用联合评分机制对预测结果进行修正,可提高预测的精度。



技术实现要素:

本发明的目的是为了在高度不平衡的生物医学文献上进行精确的生物医学多参事件的自动抽取,而提供的一种不平衡数据集上生物医学多参事件抽取的新方法。

本发明提供的不平衡数据集上生物医学多参事件抽取的新方法,其具体方法如下所述:

所需条件:生物文献的语料库,nltk、nltk.org分词和分句工具以及生物医学依存路径分析工具以及抽取模型特征系统;待检测的生物医学文本,普通PC机;

实现步骤如下:

第一部分:通过对生物文献语料库进行预处理,获取多参数事件的特征,以及采用序列模式的方法平衡训练的正负样本,从而得到用于分类的有意义的样本集,具体步骤如下:

步骤1:开始,对给定的语料库进行分词、分句、词性标注和路径依存分析获取序列库;

步骤2:定义句子中的候选触发词集,它们来源于触发词字典,而蛋白质、带有标签的触发词以及候选触发词构成参数集,这样生成候选触发词和各个参数形成的对集,将这些对集所包含的依存路径中的关键字构造序列数据库S;

步骤3:给定最小支持度阈值,利用序列模式算法在生成的序列库S中挖掘出频繁的规则或者模式;

步骤4:对无标签的样本判断其依存路径是否包含足够多的频繁模式序列个数,即大于给定的阈值,否则将其过滤并去掉一些负样本;

第二部分:在选择的样本特征集上训练得到基于支持向量机的预测模型,具体步骤如下:

步骤1:在选择的样本集上提取四类特征,包括Token特征、句子特征、词袋特征和外部资源特征;

步骤2:应用支持向量机方法进行训练得到多类别的分类器;

第三部分:对新的待测样本利用获取的分类模型进行预测,对预测的结果,从句子的相似度和触发词的重要度两方面来得到联合评分,进行合理的纠正,以三元关系(ti,aj,ak)的事件预测,其中ti是触发词,而aj,ak是两个参数,具体步骤如下:

步骤1:计算预测结果所在语句s'与d中所有语句的相似度Sim(s′d),这里,d={s1,s2,...,sn}是包含与预测结果相同触发词的所有语句集合;

步骤2:计算触发词重要度

步骤3:合并重要度和相似度Sim(ti,aj,ak)得到联合评分Score(ti,aj,ak);

步骤4:给定阈值δ,如果Score(ti,aj,ak)<δ,对预测的结果进行修正。

本发明的有益效果:

本发明公开了一种利用基于频繁序列模式的训练样本过滤方法和基于联合评分机制的预测结果修正方法,自动和直接地抽取生物医学上多参事件的新方法。此方法利用数据挖掘和自然语言处理技术,在对生物文献的多参事件自动抽取中,首先通过对生物文献语料库进行分词、分句和词性标注的预处理,构造触发词字典,根据触发词和参数的路径依存分析来获取序列数据库,对其采用序列模式发现方法获取频繁模式,将它们应用到训练样本的选择上;然后对多参数事件提取特征集,训练可直接抽取多元关系的支持向量机分类器。最后将训练的分类器对待测文本进行预测,使用了基于句子相似度和触发词重要度的联合评分机制来修正预测结果。这种方法能够高效地抽取事件的多元关系。其优点在于采用数据挖掘和自然语言处理技术,方法灵活,易于实现,可达到很高的准确度。

附图说明

图1为本发明所述方法中第一部分流程示意图。

图2为本发明所述方法中第二部分流程示意图。

图3为本发明所述方法中第三部分流程示意图。

具体实施方式

由图1、图2和图3所示的多参数事件抽取的流程分为三部分,具体如下:

第一部分:基于序列模式的样本选择:

首先利用现有的分词、分句、词性标注和依存路径分析工具对生物文本进行预处理,构造序列数据库DS,设候选触发词集CS={ci},i=1,2,…,n,来源于触发词字典,候选参数集AS={aj},j=1,2,…,m,来源于训练语料。定义PS={(ci,aj)|(ci,aj)∈CS×AS,ci≠aj}为(触发词,参数)对集。抽取候选对(ci,aj)中,ci到aj的依存路径,构成依存类型序列。

通过得到的频繁模式集合LS,对每一个无标签候选样本(ci,aj,ak),对(ci,aj).和(ci,ak)进行判断,若这两个样本对的依存路径序列的最短依存路径包含集合LS中的序列个数足够多,则该样本对被选择。

第二部分:在上述选择的样本集上进行特征提取,并训练基于支持向量机分类器。

首先在选择的样本集上提取四类特征,包括:

(1)Token特征:词干,词性,拼写特征和n-grams(n={1,2,3})特征;

(2)句子特征:词袋特征和候选实体的数量;

(3)句子依存特征:依存路径特征,最短依存路径特征;

(4)外部资源特征:Wordnet上位词。

然后训练二分类的支持向量机,采用1:多的策略解决多类别问题,获取预测模型。

第三部分:应用训练得到的分类器对待测样本进行预测,对每个预测出来的多参事件的结果采用联合评分机制进行修正。以待预测的三元事件集{(ti,aj,ak)|j≠k,ti∈CS,ai∈AS,ak∈AS}为例,下面过程是对每个三元组进行事件类型的预测,其中CS为候选实体集,来源于触发词字典;AS为同语句S中的候选参数集。如果三元组(ti,aj,ak)预测的事件为typ,通过联合评分机制判断是否为真正例。

首先计算预测结果所在语句s′与d中所有语句的相似度Sim(s’,d),这里,d={s1,s2,…,sn}是包含与预测结果相同触发词的所有语句集合,并获取最大值。

其中R(s’,si)是采用卷积深度结构语义模型模型计算语句间的相似度,它将词向量映射到相应的语义概念向量,再利用典型的卷积神经网络(CNN,Convolutional neural network)结构,计算每个文档和查询之间的相关性,通过分值进行排序,分值由计算<查询,文档>的语义概念向量的余余弦值来确定。

其次计算触发词重要度定义PR={(typ,(ti,aj,ak)),typ∈eventTyp,

其中,P1和P2为训练预料中触发词的重要度,是触发词ti为事件类型typ的数量,w1是触发词ti在预测结果集PR中属于事件类型typ的数量,w2是ti在预测结果集PR中为触发词的数量,eventTyp为生物事件类型集合,D为触发词集合。然后,权值化重要度和相似度Sim(s′,d)对预测结果进行评分。公式为:(ti,aj,ak)∈s′其中,o为权重。最后,给定阈值δ,如果score(ti,aj,ak)<δ,修正预测的正例为负例。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1