结合从句级远程监督和半监督集成学习的关系抽取方法与流程

文档序号：12364131阅读：来源：国知局

技术特征：

1.一种结合从句级远程监督和半监督集成学习的关系抽取方法，其特征在于，包括如下步骤：

步骤1，通过远程监督将知识库中的关系三元组对齐到语料库，构建关系实例集；

步骤2，使用基于句法分析的从句识别去除关系实例集中的噪声数据；

步骤3，抽取关系实例的词法特征，并转化为分布式表征向量，构建特征数据集；

步骤4，选择特征数据集中全部的正例数据和少部分负例数据组成标注数据集，其余负例数据在去除标签后组成未标注数据集，使用半监督集成学习算法训练关系分类器。

2.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法，其特征在于，在步骤1中，通过远程监督将知识库K中的关系三元组对齐到语料库D，构建关系实例集Q＝{q_n丨q_n＝(s_m,e_i,r_k,e_j),s_m∈D}，

其中，q_n为关系实例，s_m为句子，e_i和e_j为实体，r_k为e_i和e_j之间的实体关系；

如果句子s_m同时包含实体e_i和实体e_j，且知识库K中存在关系三元组(e_i,r_k,e_j)，则q_n＝(s_m,e_i,r_k,e_j)为正例关系实例，并且选择不符合上述条件的关系实例作为负例关系实例。

3.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法，其特征在于，步骤2的具体步骤如下：

步骤2-1，使用概率上下文无关文法对关系实例q_n的句子s_m进行解析，得到其语法树，根据语法树表示的句子s_m的词之间的结构关系，将s_m划分成从句；

步骤2-2，根据关系实例q_n的实体对(e_i,e_j)是否出现在句子s_m的某一个从句当中来判断关系实例q_n是否为噪声数据；如果q_n是噪声数据，则将其从关系实例集Q中去除。

4.如权利要求3所述的结合从句级远程监督和半监督集成学习的关系抽取方法，其特征在于，如果关系实例q_n＝(s_m,e_i,r_k,e_j)是正例关系实例，当句子s_m对应的实体对(e_i,e_j)没有出现在句子s_m的任一从句中时，认为关系实例q_n是噪声数据，并将其从关系实例集Q中去除；如果关系实例q_n＝(s_m,e_i,r_k,e_j)是负例关系实例，当句子s_m对应的实体对(e_i,e_j)出现在句子s_m的某一从句中时，认为关系实例q_n是噪声数据，并将其从关系实例集Q中去除。

5.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法，其特征在于，步骤3的具体步骤如下：

步骤3-1，抽取关系实例集Q中每个关系实例q_n的词法特征lex_n；

步骤3-2，将词法特征lex_n转化为分布式表征向量v_n，构建特征数据集M。

6.如权利要求5所述的结合从句级远程监督和半监督集成学习的关系抽取方法，其特征在于，在步骤3-1中，对于关系实例q_n＝(s_m,e_i,r_k,e_j)，其词法特征lex_n为实体对(e_i,e_j)本身以及(e_i,e_j)在句子s_m中的上下文；在步骤3-2中，将词法特征lex_n转化为分布式表征向量v_n，然后将所有的v_n集合起来组成特征数据集M；关系实例集Q中正例关系实例的词法特征向量化后变为M的正例数据，关系实例集Q中负例关系实例的词法特征向量化后变为M的负例数据。

7.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法，其特征在于，步骤4的具体步骤如下：

步骤4-1，选择特征数据集M中全部的正例数据和少部分负例数据组成标注数据集L；剩余负例数据在去除标签后作为未标注数据集U；

步骤4-2，从标注数据集L中有放回地选取n个初始样本集L₁,L₂,…,L_n；

步骤4-3，使用初始样本集L_i和第t-1轮选出的高置信度的未标注样本集U_i,t-1训练对应的关系分类器C_i，其中，i＝1,2,…,n；

步骤4-4，n个关系分类器C₁,C₂,…,C_n对未标注数据集U中未标注样本x_u的类标记分别进行预测，通过投票法生成高置信度的未标注样本集F_i,t；

步骤4-5，根据一定的过滤筛选准则，从高置信度的未标注样本集F_i,t中，为第i个关系分类器C_i挑选一定数量的未标注样本x_u，构成U_i,t，在下一轮迭代过程中加入到第i个关系分类器C_i的训练集中，然后重新训练对应的关系分类器C_i；

步骤4-6，重复步骤4-4,4-5,4-6，当所有U_i,t都为空集，或者迭代次数已经达到预先设定的最大迭代次数时，该训练过程停止。

8.如权利要求7所述的结合从句级远程监督和半监督集成学习的关系抽取方法，其特征在于，在步骤4-3中，U_i,t-1表示在第t-1轮迭代中，关系分类器为第i个关系分类器C_i时，挑选的未标注样本x_u的集合，该未标注样本x_u由U中的未标注样本x_u以及从t-1轮迭代中得到的类标记组成，其中t大于等于2，当t＝1时，U_i,t-1为空集。

9.如权利要求7所述的结合从句级远程监督和半监督集成学习的关系抽取方法，其特征在于，在步骤4-4中，F_i,t表示在第t轮迭代中，关系分类器为C_i时，挑选的高置信度未标注样本x_u的集合，该集合经过一定的过滤筛选后，留下来的未标注样本x_u将构成U_i,t；

针对未标注样本x_u，用h_i(x_u)表示第i个关系分类器C_i对未标注样本x_u预测的类标记；

关系分类器E中删除C_i后的集合设为E_i，E_i＝{C_j∈E|j≠i}；

未标注样本x_u的类标记由E_i中的多个关系分类器E_i投票决定，选择票数最多的类标记作为未标注样本x_u的类标记；

样本预测结果的一致性程度为置信度，关系分类器E_i根据其预测的样本标记的一致性计算置信度，计算公式为公式(1-1)：

$<mrow> <msub> <mi>conf</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>u</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> <mi>n</mi> </munderover> <mi>I</mi> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>u</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mover> <mi>l</mi> <mo>^</mo> </mover> <msub> <mi>x</mi> <mi>u</mi> </msub> <mi>i</mi> </msubsup> <mo>)</mo> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

其中，conf_i(x_u)表示x_u的真实类标记为的置信度；I()是一个指示函数，如果输入为假，该函数值为0，否则为1；

在第t轮迭代过程中，公式(1-2)为第i个关系分类器选择高置信度的未标注样本x_u，

$<mrow> <msub> <mi>F</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = "}"> <mtable> <mtr> <mtd> <mrow> <mi>x</mi> <mo>|</mo> <msub> <mi>conf</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mi>θ</mi> </mrow> </mtd> <mtd> <mi>Λ</mi> </mtd> <mtd> <mrow> <msub> <mi>h</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&NotEqual;</mo> <msubsup> <mover> <mi>l</mi> <mo>^</mo> </mover> <mi>x</mi> <mi>i</mi> </msubsup> <mo>,</mo> <mi>x</mi> <mo>&Element;</mo> <mi>U</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

其中θ是一个预设的阈值，只有未标注样本x_u的置信度大于该阈值，并且C_i与E_i的预测结果不一致时，该样本才会被选择加入到F_i,t中。

10.如权利要求7所述的结合从句级远程监督和半监督集成学习的关系抽取方法，其特征在于，在步骤4-5中，对于未标注样本x_u，令P(h_i(x_u))表示C_i预测x_u输出为h_i(x_u)的概率值，在过滤筛选时，同时考虑P(h_i(x_u))和conf_i(x_u)，将F_i,t集合中的高置信度未标注样本按照conf_i(x_u)、P(h_i(x_u))的顺序依次降序排序，conf_i(x_u)越大的样本越靠前，conf_i(x_u)相同的情况下，P(h_i(x_u))越大的样本越靠前；经过排序后，取前m_i,t个样本构成U_i,t。

完整全部详细技术资料下载

当前第2页1 2 3