构建语义查询词模板的方法及装置与流程

文档序号:11830050阅读:来源:国知局

技术特征:

1.一种构建语义查询词模板的方法,其特征在于,所述方法包括:

获取种子语义查询词模板,所述种子语义查询词模板中至少包含一个核心词;

根据所述种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括所述核心词和语义修饰词;

根据每个目标词的语义修饰词进行查询,得到所述每个语义修饰词的相似词;

基于所述每个语义修饰词的相似词,构建语义查询词模板。

2.根据权利要求1所述的方法,其特征在于,所述根据所述种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,包括:

查询互联网查询词集合中是否存在包含所述种子语义查询词模板中的核心词的互联网查询词;

当所述互联网查询词集合中存在包含所述核心词的互联网查询词,将所述包含所述核心词的互联网查询词作为目标词。

3.根据权利要求1所述的方法,其特征在于,所述根据每个目标词的语义修饰词进行查询,得到所述每个语义修饰词的相似词,包括:

计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度;

按照相似度由高到低的顺序,对每个互联网查询词进行排序,得到排序结果;

根据所述排序结果,将位数在第一指定位数之前的互联网查询词作为所述语义修饰词的相似词。

4.根据权利要求3所述的方法,其特征在于,所述计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度,包括:

获取所述目标词的语义修饰词在指定文档中的第一点击率;

获取互联网查询词集合中任一互联网查询词在所述指定文档中的第二点击率;

根据所述第一点击率及所述第二点击率,计算所述目标词的语义修饰词与所述互联网查询词之间的相似度。

5.根据权利要求4所述的方法,其特征在于,所述根据所述第一点击率及所述第二点击率,计算所述目标词的语义修饰词与所述互联网查询词之间的相似度,包括:

根据所述第一点击率,生成第一向量;

根据所述第二点击率,生成第二向量;

计算所述第一向量和所述第二向量的夹角余旋值;

将所述夹角余弦值作为所述目标词的语义修饰词与所述互联网查询词之间的相似度;

其中,所述第一向量及所述第二向量的维数与所述指定文档的个数相等。

6.根据权利要求1所述的方法,其特征在于,所述基于所述每个语义修饰词的相似词,构建语义查询词模板,包括:

去除所述每个语义修饰词的相似词中包含的语义修饰词,得到所述每个语义修饰词的语义扩展词;

对所述语义扩展词进行合并,得到目标语义扩展词;

去除所述目标语义扩展词中的噪音词,得到语义查询词模板。

7.根据权利要求6所述的方法,其特征在于,所述去除所述目标语义扩展词中的噪音词,得到语义查询词模板,包括:

按照频次由高到低,对所述目标语义扩展词进行排序,得到排序结果;

根据所述排序结果,将位数在第二指定位数之前的所述目标语义扩展词作为语义查询词模板。

8.一种构建语义查询词模板的装置,其特征在于,所述装置包括:

获取模块,用于获取种子语义查询词模板,所述种子语义查询词模板中至少包含一个核心词;

第一查询模块,用于根据所述种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括所述核心词和语义修饰词;

第二查询模块,用于根据每个目标词的语义修饰词进行查询,得到所述每个语义修饰词的相似词;

构建模块,用于基于所述每个语义修饰词的相似词,构建语义查询词模板。

9.根据权利要求8所述的装置,其特征在于,所述第一查询模块,用于查询互联网查询词集合中是否存在包含所述种子语义查询词模板中的核心词的互联网查询词;当所述互联网查询词集合中存在包含所述核心词的互联网查询词,将所述包含所述核心词的互联网查询词作为目标词。

10.根据权利要求8所述的装置,其特征在于,所述第二查询模块,用于计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度;按照相似度由高到低的顺序,对每个互联网查询词进行排序,得到排序结果;根据所述排序结果,将位数在第一指定位数之前的互联网查询词作为所述语义修饰词的相似词。

11.根据权利要求10所述的装置,其特征在于,所述第二查询模块,具体用于获取所述目标词的语义修饰词在指定文档中的第一点击率;获取互联网查询词集合中任一互联网查询词在所述指定文档中的第二点击率;根据所述第一点击率及所述第二点击率,计算所述目标词的语义修饰词与所述互联网查询词之间的相似度。

12.根据权利要求11所述的装置,其特征在于,所述第二查询模块,具体用于根据所述第一点击率,生成第一向量;根据所述第二点击率,生成第二向量;计算所述第一向量和所述第二向量的夹角余旋值;将所述夹角余弦值作为所述目标词的语义修饰词与所述互联网查询词之间的相似度;

其中,所述第一向量及所述第二向量的维数与所述指定文档的个数相等。

13.根据权利要求8所述的装置,其特征在于,所述构建模块,用于去除所述每个语义修饰词的相似词中包含的语义修饰词,得到所述每个语义修饰词的语义扩展词;对所述语义扩展词进行合并,得到目标语义扩展词;去除所述目标语义扩展词中的噪音词,得到语义查询词模板。

14.根据权利要求13所述的装置,其特征在于,所述构建模块,具体用于按照频次由高到低,对所述目标语义扩展词进行排序,得到排序结果;根据所述排序结果,将位数在第二指定位数之前的所述目标语义扩展词作为语义查询词模板。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1