一种提取实体词和上位词的方法及装置与流程

文档序号：11155567阅读：来源：国知局

技术特征：

1.一种提取实体词和上位词的方法，其特征在于，包括：

基于第一网页数据，构造第一训练样本；

基于所述第一训练样本，训练第一深度神经网络模型；

利用所述第一深度神经网络模型，在第二网页数据中提取实体词和上位词，其中，所述第二网页数据包括所述第一网页数据，所述上位词与所述实体词对应。

2.如权利要求1所述的提取实体词和上位词的方法，其特征在于，所述第一网页数据为百科网页数据。

3.如权利要求1～2任一所述的提取实体词和上位词的方法，其特征在于，所述基于第一网页数据，构造第一训练样本，包括：

对所述百科网页数据进行分类，获得U类百科网页数据，U为正整数；

基于所述U类百科网页数据，构造所述第一训练样本。

4.如权利要求1～3任一所述的提取实体词和上位词的方法，其特征在于，所述对所述百科网页数据进行分类，获得U类百科网页数据，包括：

从所述百科网页数据中提取部分百科网页数据；

基于所述部分百科网页数据，构建第二训练样本；

基于所述第二训练样本，训练第二深度神经网络模型；

利用所述第二深度神经网络模型，对所述百科网页数据进行分类，获得所述U类百科网页数据。

5.如权利要求1～4任一所述的提取实体词和上位词的方法，其特征在于，所述基于所述部分百科网页数据，构建第二训练样本，包括：

在所述部分百科网页数据中的每个百科网页中提取预设信息；

基于所述预设信息，对所述每个百科网页进行分类，获得M类百科网页数据，M为正整数；

基于所述M类百科网页数据，构建所述第二训练样本。

6.如权利要求1～5任一所述的提取实体词和上位词的方法，其特征在于，所述预设信息，包括：

词条标题、词条副标题、词条摘要、词条信息框内信息、词条分段标题中的一种或多种。

7.如权利要求1～6任一所述的提取实体词和上位词的方法，其特征在于，所述基于所述M类百科网页数据，构建所述第二训练样本，包括：

在所述M类百科网页中的每一类百科网页中提取一组特征词，共获得M组特征词，其中，所述M组特征词中的每组特征词均包括N个特征词，所述特征词用于表示所述百科网页的类别，N为正整数；

基于所述M组特征词，生成M个N维特征词向量，其中，所述M个N维特征词向量即为所述第二训练样本。

8.如权利要求1～7任一所述的提取实体词和上位词的方法，其特征在于，所述基于所述U类百科网页数据，构造所述第一训练样本，包括：

基于所述U类百科网页数据中的每一类百科网页，生成所述每一类百科网页对应的特征语句向量，共获得U个特征语句向量，所述U个特征语句向量与所述U类百科网页一一对应，所述U个特征语句向量即为所述第一训练样本。

9.如权利要求1～8任一所述的提取实体词和上位词的方法，其特征在于，所述基于所述U类百科网页数据中的每一类百科网页，生成所述每一类百科网页对应的特征语句向量，包括：

在第一类百科网页中，提取特征语句，所述特征语句中包含实体词和上位词，所述第一类百科网页是所述U类百科网页中的任一类百科网页；

标记所述特征语句中实体词和上位词的位置；

基于标记后的所述特征语句，生成所述第一类百科网页对应的特征语句向量。

10.一种提取实体词和上位词的装置，其特征在于，包括：

构造单元，用于基于第一网页数据，构造第一训练样本；

训练单元，用于基于所述第一训练样本，训练第一深度神经网络模型；

提取单元，用于利用所述第一深度神经网络模型，在第二网页数据中提取实体词和上位词，其中，所述第二网页数据包括所述第一网页数据，所述上位词与所述实体词对应。

完整全部详细技术资料下载

当前第2页1 2 3