1.一种提取实体词和上位词的方法,其特征在于,包括:
基于第一网页数据,构造第一训练样本;
基于所述第一训练样本,训练第一深度神经网络模型;
利用所述第一深度神经网络模型,在第二网页数据中提取实体词和上位词,其中,所述第二网页数据包括所述第一网页数据,所述上位词与所述实体词对应。
2.如权利要求1所述的提取实体词和上位词的方法,其特征在于,所述第一网页数据为百科网页数据。
3.如权利要求1~2任一所述的提取实体词和上位词的方法,其特征在于,所述基于第一网页数据,构造第一训练样本,包括:
对所述百科网页数据进行分类,获得U类百科网页数据,U为正整数;
基于所述U类百科网页数据,构造所述第一训练样本。
4.如权利要求1~3任一所述的提取实体词和上位词的方法,其特征在于,所述对所述百科网页数据进行分类,获得U类百科网页数据,包括:
从所述百科网页数据中提取部分百科网页数据;
基于所述部分百科网页数据,构建第二训练样本;
基于所述第二训练样本,训练第二深度神经网络模型;
利用所述第二深度神经网络模型,对所述百科网页数据进行分类,获得所述U类百科网页数据。
5.如权利要求1~4任一所述的提取实体词和上位词的方法,其特征在于,所述基于所述部分百科网页数据,构建第二训练样本,包括:
在所述部分百科网页数据中的每个百科网页中提取预设信息;
基于所述预设信息,对所述每个百科网页进行分类,获得M类百科网页数据,M为正整数;
基于所述M类百科网页数据,构建所述第二训练样本。
6.如权利要求1~5任一所述的提取实体词和上位词的方法,其特征在于,所述预设信息,包括:
词条标题、词条副标题、词条摘要、词条信息框内信息、词条分段标题中的一种或多种。
7.如权利要求1~6任一所述的提取实体词和上位词的方法,其特征在于,所述基于所述M类百科网页数据,构建所述第二训练样本,包括:
在所述M类百科网页中的每一类百科网页中提取一组特征词,共获得M组特征词,其中,所述M组特征词中的每组特征词均包括N个特征词,所述特征词用于表示所述百科网页的类别,N为正整数;
基于所述M组特征词,生成M个N维特征词向量,其中,所述M个N维特征词向量即为所述第二训练样本。
8.如权利要求1~7任一所述的提取实体词和上位词的方法,其特征在于,所述基于所述U类百科网页数据,构造所述第一训练样本,包括:
基于所述U类百科网页数据中的每一类百科网页,生成所述每一类百科网页对应的特征语句向量,共获得U个特征语句向量,所述U个特征语句向量与所述U类百科网页一一对应,所述U个特征语句向量即为所述第一训练样本。
9.如权利要求1~8任一所述的提取实体词和上位词的方法,其特征在于,所述基于所述U类百科网页数据中的每一类百科网页,生成所述每一类百科网页对应的特征语句向量,包括:
在第一类百科网页中,提取特征语句,所述特征语句中包含实体词和上位词,所述第一类百科网页是所述U类百科网页中的任一类百科网页;
标记所述特征语句中实体词和上位词的位置;
基于标记后的所述特征语句,生成所述第一类百科网页对应的特征语句向量。
10.一种提取实体词和上位词的装置,其特征在于,包括:
构造单元,用于基于第一网页数据,构造第一训练样本;
训练单元,用于基于所述第一训练样本,训练第一深度神经网络模型;
提取单元,用于利用所述第一深度神经网络模型,在第二网页数据中提取实体词和上位词,其中,所述第二网页数据包括所述第一网页数据,所述上位词与所述实体词对应。