结合从句级远程监督和半监督集成学习的关系抽取方法与流程

文档序号:12364131阅读:来源:国知局

技术特征:

1.一种结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,包括如下步骤:

步骤1,通过远程监督将知识库中的关系三元组对齐到语料库,构建关系实例集;

步骤2,使用基于句法分析的从句识别去除关系实例集中的噪声数据;

步骤3,抽取关系实例的词法特征,并转化为分布式表征向量,构建特征数据集;

步骤4,选择特征数据集中全部的正例数据和少部分负例数据组成标注数据集,其余负例数据在去除标签后组成未标注数据集,使用半监督集成学习算法训练关系分类器。

2.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤1中,通过远程监督将知识库K中的关系三元组对齐到语料库D,构建关系实例集Q={qn丨qn=(sm,ei,rk,ej),sm∈D},

其中,qn为关系实例,sm为句子,ei和ej为实体,rk为ei和ej之间的实体关系;

如果句子sm同时包含实体ei和实体ej,且知识库K中存在关系三元组(ei,rk,ej),则qn=(sm,ei,rk,ej)为正例关系实例,并且选择不符合上述条件的关系实例作为负例关系实例。

3.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,步骤2的具体步骤如下:

步骤2-1,使用概率上下文无关文法对关系实例qn的句子sm进行解析,得到其语法树,根据语法树表示的句子sm的词之间的结构关系,将sm划分成从句;

步骤2-2,根据关系实例qn的实体对(ei,ej)是否出现在句子sm的某一个从句当中来判断关系实例qn是否为噪声数据;如果qn是噪声数据,则将其从关系实例集Q中去除。

4.如权利要求3所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,如果关系实例qn=(sm,ei,rk,ej)是正例关系实例,当句子sm对应的实体对(ei,ej)没有出现在句子sm的任一从句中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除;如果关系实例qn=(sm,ei,rk,ej)是负例关系实例,当句子sm对应的实体对(ei,ej)出现在句子sm的某一从句中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除。

5.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,步骤3的具体步骤如下:

步骤3-1,抽取关系实例集Q中每个关系实例qn的词法特征lexn

步骤3-2,将词法特征lexn转化为分布式表征向量vn,构建特征数据集M。

6.如权利要求5所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤3-1中,对于关系实例qn=(sm,ei,rk,ej),其词法特征lexn为实体对(ei,ej)本身以及(ei,ej)在句子sm中的上下文;在步骤3-2中,将词法特征lexn转化为分布式表征向量vn,然后将所有的vn集合起来组成特征数据集M;关系实例集Q中正例关系实例的词法特征向量化后变为M的正例数据,关系实例集Q中负例关系实例的词法特征向量化后变为M的负例数据。

7.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,步骤4的具体步骤如下:

步骤4-1,选择特征数据集M中全部的正例数据和少部分负例数据组成标注数据集L;剩余负例数据在去除标签后作为未标注数据集U;

步骤4-2,从标注数据集L中有放回地选取n个初始样本集L1,L2,…,Ln

步骤4-3,使用初始样本集Li和第t-1轮选出的高置信度的未标注样本集Ui,t-1训练对应的关系分类器Ci,其中,i=1,2,…,n;

步骤4-4,n个关系分类器C1,C2,…,Cn对未标注数据集U中未标注样本xu的类标记分别进行预测,通过投票法生成高置信度的未标注样本集Fi,t

步骤4-5,根据一定的过滤筛选准则,从高置信度的未标注样本集Fi,t中,为第i个关系分类器Ci挑选一定数量的未标注样本xu,构成Ui,t,在下一轮迭代过程中加入到第i个关系分类器Ci的训练集中,然后重新训练对应的关系分类器Ci

步骤4-6,重复步骤4-4,4-5,4-6,当所有Ui,t都为空集,或者迭代次数已经达到预先设定的最大迭代次数时,该训练过程停止。

8.如权利要求7所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤4-3中,Ui,t-1表示在第t-1轮迭代中,关系分类器为第i个关系分类器Ci时,挑选的未标注样本xu的集合,该未标注样本xu由U中的未标注样本xu以及从t-1轮迭代中得到的类标记组成,其中t大于等于2,当t=1时,Ui,t-1为空集。

9.如权利要求7所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤4-4中,Fi,t表示在第t轮迭代中,关系分类器为Ci时,挑选的高置信度未标注样本xu的集合,该集合经过一定的过滤筛选后,留下来的未标注样本xu将构成Ui,t

针对未标注样本xu,用hi(xu)表示第i个关系分类器Ci对未标注样本xu预测的类标记;

关系分类器E中删除Ci后的集合设为Ei,Ei={Cj∈E|j≠i};

未标注样本xu的类标记由Ei中的多个关系分类器Ei投票决定,选择票数最多的类标记作为未标注样本xu的类标记;

样本预测结果的一致性程度为置信度,关系分类器Ei根据其预测的样本标记的一致性计算置信度,计算公式为公式(1-1):

<mrow> <msub> <mi>conf</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>u</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> <mi>n</mi> </munderover> <mi>I</mi> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>u</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mover> <mi>l</mi> <mo>^</mo> </mover> <msub> <mi>x</mi> <mi>u</mi> </msub> <mi>i</mi> </msubsup> <mo>)</mo> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中,confi(xu)表示xu的真实类标记为的置信度;I()是一个指示函数,如果输入为假,该函数值为0,否则为1;

在第t轮迭代过程中,公式(1-2)为第i个关系分类器选择高置信度的未标注样本xu

<mrow> <msub> <mi>F</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = "}"> <mtable> <mtr> <mtd> <mrow> <mi>x</mi> <mo>|</mo> <msub> <mi>conf</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mi>&theta;</mi> </mrow> </mtd> <mtd> <mi>&Lambda;</mi> </mtd> <mtd> <mrow> <msub> <mi>h</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&NotEqual;</mo> <msubsup> <mover> <mi>l</mi> <mo>^</mo> </mover> <mi>x</mi> <mi>i</mi> </msubsup> <mo>,</mo> <mi>x</mi> <mo>&Element;</mo> <mi>U</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中θ是一个预设的阈值,只有未标注样本xu的置信度大于该阈值,并且Ci与Ei的预测结果不一致时,该样本才会被选择加入到Fi,t中。

10.如权利要求7所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤4-5中,对于未标注样本xu,令P(hi(xu))表示Ci预测xu输出为hi(xu)的概率值,在过滤筛选时,同时考虑P(hi(xu))和confi(xu),将Fi,t集合中的高置信度未标注样本按照confi(xu)、P(hi(xu))的顺序依次降序排序,confi(xu)越大的样本越靠前,confi(xu)相同的情况下,P(hi(xu))越大的样本越靠前;经过排序后,取前mi,t个样本构成Ui,t

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1