一种基于代价敏感学习的联合知识嵌入方法与流程

文档序号：11155298阅读：来源：国知局

技术特征：

1.一种基于代价敏感学习的联合知识嵌入方法，其特征在于，包括以下步骤：

S1，通过知识库建立三元组组成的训练集；

S2，建立基于实体、关系嵌入向量的三元组评分函数,在只考虑实体层面上下文关系的条件下，建立基于最大边缘的优化目标；

S3，建立代价敏感联合嵌入模型。

2.如权利要求1所述的基于代价敏感学习的联合知识嵌入方法，其特征在于，步骤S1具体包括:

S11，抽取知识库中所有的实体，建立实体集合E＝{e₁,e₂,…,e_n}；

S12，抽取知识库中所有的实体，建立关系集合R＝{r₁,r₂,…,r_m}；

S13，对每一条关联事实，在实体集合E中寻找到关联事实的头实体与尾实体，在关系集合R中寻找到关联事实中的关系，建立三元组(e_i1,r_i1,e_i2)；

S14，通过抽取知识库中的所有关联事实，建立训练集

T＝{(e₁₁,r₁₁,e₁₂),(e₂₁,r₂₁,e₂₂),…,(e_t1,r_t1,e_t2)}。

3.如权利要求2所述的基于代价敏感学习的联合知识嵌入方法，其特征在于，步骤S2具体包括：

S21，规定实体嵌入空间和关系嵌入空间拥有相同的维度，建立基于实体、关系嵌入向量的三元组评分函数

其中，e₁,r,e₂分别是e₁,r,e₂的嵌入向量，diag(r)代表一个对角元素组成的向量恰为r的对角矩阵，公式中所有的向量都是列向量；

S22，建立基于边缘的排序模型，其训练目标为：

其中，C为用于调节关系嵌入向量的正则项权重的超参数，γ为边缘宽度，(e₁,r′,e₂)是一个不存在于知识库中的三元组；上述目标函数第一项是训练集中正样本与负样本所生成的损失函数，第二项则是关系嵌入向量作为参数在模型中的正则化项。

4.如权利要求3所述的基于代价敏感学习的联合知识嵌入方法，其特征在于，步骤S3具体包括：

S31，建立代价敏感权重矩阵W，所述代价敏感权重矩阵W用于衡量每对关系之间同时出现的可能性，其中，W是一个维度与e和r相同的方阵，W中每一个元素都代表了一种关系出现在已有另一种关系的两个实体之间的合理性；

S32，将代价敏感学习框架应用于公式2中；当计算三元组(e₁,r,e₂)∈T和所形成的损失时，加入一个权重W_rr′，其中，W_rr′即是代价敏感权重矩阵中代表r和r′关系的元素；此时，训练目标为：

subject to:S(e₁,r,e₂)-S(e₁,r',e₂)≥γ-ξ_trr',

ξ_trr'≥0,W_rr'≥0,∑W_rr'＝δ,δ>0

5.如权利要求4所述的基于代价敏感学习的联合知识嵌入方法，其特征在于，公式3求解过程中，采用小批量采样的方法对优化过程进行加速。

6.如权利要求1-5任一项所述的基于代价敏感学习的联合知识嵌入方法在知识图谱或知识库的可视化上的应用，包括如下步骤：

步骤1，通过公式1得到所有实体与关系嵌入值，即所有的e和r；

步骤2，分别在实体空间和关系空间内对e和r所表示的点进行t-SNE降维；

步骤3，将步骤2中的降维结果进行归一化，在2维平面上可视化。

7.如权利要求1-5任一项所述的基于代价敏感学习的联合知识嵌入方法在问答系统的构建上的应用，包括如下步骤：

步骤1，通过公式1得到所有实体与关系嵌入值，即所有的e和r；

步骤2，将需要解答的问题转换为已知(e₁,r,e₂)中的2个，预测第3个元素的形式；

步骤3，对与给定的问题，固定(e₁,r,e₂)中已知的2个，将知识库中所有可能的元素都当作备选答案，构成一组答案集合；

步骤4，对答案集合中的的所有三元组，通过公式1进行评分，并将得分进行排序.

步骤5，选取排序结果中最靠前的作为结果输出。

8.如权利要求7所述的基于代价敏感学习的联合知识嵌入方法在问答系统的构建上的应用，其特征在于：

当问题被转化为已知e₁,r预测e₂的问题时，答案集合为{(e₁,r,e_*)|e_*∈E}；

当问题被转化为已知e₁,e₂预测r的问题,答案集合为{(e₁,r_*,e₂)|r_*∈R}。

完整全部详细技术资料下载

当前第2页1 2 3