一种提取实体词和上位词的方法及装置与流程

文档序号:11155567阅读:来源:国知局

技术特征:

1.一种提取实体词和上位词的方法,其特征在于,包括:

基于第一网页数据,构造第一训练样本;

基于所述第一训练样本,训练第一深度神经网络模型;

利用所述第一深度神经网络模型,在第二网页数据中提取实体词和上位词,其中,所述第二网页数据包括所述第一网页数据,所述上位词与所述实体词对应。

2.如权利要求1所述的提取实体词和上位词的方法,其特征在于,所述第一网页数据为百科网页数据。

3.如权利要求1~2任一所述的提取实体词和上位词的方法,其特征在于,所述基于第一网页数据,构造第一训练样本,包括:

对所述百科网页数据进行分类,获得U类百科网页数据,U为正整数;

基于所述U类百科网页数据,构造所述第一训练样本。

4.如权利要求1~3任一所述的提取实体词和上位词的方法,其特征在于,所述对所述百科网页数据进行分类,获得U类百科网页数据,包括:

从所述百科网页数据中提取部分百科网页数据;

基于所述部分百科网页数据,构建第二训练样本;

基于所述第二训练样本,训练第二深度神经网络模型;

利用所述第二深度神经网络模型,对所述百科网页数据进行分类,获得所述U类百科网页数据。

5.如权利要求1~4任一所述的提取实体词和上位词的方法,其特征在于,所述基于所述部分百科网页数据,构建第二训练样本,包括:

在所述部分百科网页数据中的每个百科网页中提取预设信息;

基于所述预设信息,对所述每个百科网页进行分类,获得M类百科网页数据,M为正整数;

基于所述M类百科网页数据,构建所述第二训练样本。

6.如权利要求1~5任一所述的提取实体词和上位词的方法,其特征在于,所述预设信息,包括:

词条标题、词条副标题、词条摘要、词条信息框内信息、词条分段标题中的一种或多种。

7.如权利要求1~6任一所述的提取实体词和上位词的方法,其特征在于,所述基于所述M类百科网页数据,构建所述第二训练样本,包括:

在所述M类百科网页中的每一类百科网页中提取一组特征词,共获得M组特征词,其中,所述M组特征词中的每组特征词均包括N个特征词,所述特征词用于表示所述百科网页的类别,N为正整数;

基于所述M组特征词,生成M个N维特征词向量,其中,所述M个N维特征词向量即为所述第二训练样本。

8.如权利要求1~7任一所述的提取实体词和上位词的方法,其特征在于,所述基于所述U类百科网页数据,构造所述第一训练样本,包括:

基于所述U类百科网页数据中的每一类百科网页,生成所述每一类百科网页对应的特征语句向量,共获得U个特征语句向量,所述U个特征语句向量与所述U类百科网页一一对应,所述U个特征语句向量即为所述第一训练样本。

9.如权利要求1~8任一所述的提取实体词和上位词的方法,其特征在于,所述基于所述U类百科网页数据中的每一类百科网页,生成所述每一类百科网页对应的特征语句向量,包括:

在第一类百科网页中,提取特征语句,所述特征语句中包含实体词和上位词,所述第一类百科网页是所述U类百科网页中的任一类百科网页;

标记所述特征语句中实体词和上位词的位置;

基于标记后的所述特征语句,生成所述第一类百科网页对应的特征语句向量。

10.一种提取实体词和上位词的装置,其特征在于,包括:

构造单元,用于基于第一网页数据,构造第一训练样本;

训练单元,用于基于所述第一训练样本,训练第一深度神经网络模型;

提取单元,用于利用所述第一深度神经网络模型,在第二网页数据中提取实体词和上位词,其中,所述第二网页数据包括所述第一网页数据,所述上位词与所述实体词对应。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1