一种提供相关词的方法及装置与流程

文档序号:11970724阅读:来源:国知局
一种提供相关词的方法及装置与流程

技术特征:
1.一种提供相关词的方法,其特征在于,包括:根据用户输入的关键词,确定所述关键词的各备选相关词;针对确定的各备选相关词,确定所述关键词与该备选相关词在设定的每个特征上的特征分数,将确定的每个特征分数作为输入参数值输入相关性分数计算模型,得到该关键词与该备选相关词的相关性分数,其中,所述相关性分数计算模型为根据设定数量的已计算出相关性分数的关键词与相关词确定的;根据得到的所述关键词与各备选相关词的相关性分数,在各备选相关词中选择提供给所述用户的相关词;其中,根据设定数量的已计算出相关性分数的关键词与相关词,确定所述相关性分数计算模型,具体包括:确定已计算出相关性分数的关键词与相关词作为训练样本,选择设定数量的训练样本;针对选择的每个训练样本,根据所述设定的每个特征,确定该训练样本中的关键词和相关词在每个特征上的特征分数,将已计算出的该训练样本中的关键词和相关词的相关性分数确定为目标值,将确定的该训练样本中的关键词和相关词在每个特征上的特征分数确定为输入参数值;根据针对每个训练样本确定的目标值和输入参数值,采用设定的算法进行回归运算,得到相关性分数计算模型。2.如权利要求1所述的方法,其特征在于,根据所述设定的每个特征,确定该训练样本中的关键词和相关词在每个特征上的特征分数,具体包括:确定分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果类目上的相似度分数;以及确定分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果属性上的相似度分数;以及确定该训练样本中的关键词和相关词的编辑距离作为编辑距离分数;以及确定分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果点击上的相似度分数。3.如权利要求2所述的方法,其特征在于,确定分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果类目上的相似度分数,具体包括:采用该训练样本中的关键词进行搜索,针对每个搜索结果类目,确定所得到的属于该搜索结果类目的搜索结果的个数,以及得到的搜索结果总数,确定属于该搜索结果类目的搜索结果的个数与搜索结果总数的比值;将采用该训练样本中的关键词进行搜索,针对每个搜索结果类目确定的每个比值构成的向量确定为关键词类目向量;采用该训练样本中的相关词进行搜索,针对每个搜索结果类目,确定所得到的属于该搜索结果类目的搜索结果的个数,以及得到的搜索结果总数,确定属于该搜索结果类目的搜索结果的个数与搜索结果总数的比值;将采用该训练样本中的相关词进行搜索,针对每个搜索结果类目确定的每个比值构成的向量确定为相关词类目向量;确定所述关键词类目向量与所述相关词类目向量的余弦值,将所述余弦值确定为分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果类目上的相似度分数。4.如权利要求2所述的方法,其特征在于,确定分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果属性上的相似度分数,具体包括:根据该训练样本中的关键词,确定采用该训练样本中的关键词进行搜索所得到的搜索结果对应的每个属性,以确定的每个属性为元素构成第一集合;根据该训练样本中的相关词,确定采用该训练样本中的相关词进行搜索所得到的搜索结果对应的每个属性,以确定的每个属性为元素构成第二集合;确定所述第一集合与第二集合的交集以及并集,确定所述交集中包含的元素的个数与所述并集中包含的元素的个数的比值,将所述比值确定为分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果属性上的相似度分数。5.如权利要求2所述的方法,其特征在于,确定分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果点击上的相似度分数,具体包括:确定分别采用该训练样本中的关键词和相关词进行搜索,所得到的每个相同的搜索结果;针对每个相同的搜索结果,根据搜索日志中的记录,确定通过该训练样本中的关键词进行搜索时该搜索结果被点击的次数,确定通过该训练样本中的相关词进行搜索时该搜索结果被点击的次数;将通过该训练样本中的关键词进行搜索时,针对每个相同的搜索结果确定的每个被点击的次数构成的向量确定为关键词点击向量;将通过该训练样本中的相关词进行搜索时,针对每个相同的搜索结果确定的每个被点击的次数构成的向量确定为相关词点击向量;确定所述关键词点击向量与所述相关词点击向量的余弦值,将所述余弦值确定为分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果点击上的相似度分数。6.如权利要求1~5任一所述的方法,其特征在于,采用设定的算法进行回归运算,得到相关性分数计算模型,具体包括:采用支持向量机SVM算法进行回归运算,得到相关性分数计算模型;或者采用评定模型Logit算法进行回归运算,得到相关性分数计算模型。7.一种提供相关词的装置,其特征在于,包括:备选相关词确定模块,用于根据用户输入的关键词,确定所述关键词的各备选相关词;相关性分数确定模块,用于针对确定的各备选相关词,确定所述关键词与该备选相关词在设定的每个特征上的特征分数,将确定的每个特征分数作为输入参数值输入相关性分数计算模型,得到该关键词与该备选相关词的相关性分数,其中,所述相关性分数计算模型为根据设定数量的已计算出相关性分数的关键词与相关词确定的;相关词提供模块,用于根据得到的所述关键词与各备选相关词的相关性分数,在各备选相关词中选择提供给所述用户的相关词;其中,所述相关性分数确定模块包括:确定选择子模块,用于确定已计算出相关性分数的关键词与相关词作为训练样本,选择设定数量的训练样本;特征分数确定子模块,用于针对选择的每个训练样本,根据所述设定的每个特征,确定该训练样本中的关键词和相关词在每个特征上的特征分数,将已计算出的该训练样本中的关键词和相关词的相关性分数确定为目标值,将确定的该训练样本中的关键词和相关词在每个特征上的特征分数确定为输入参数值;模型确定子模块,用于根据针对每个训练样本确定的目标值和输入参数值,采用设定的算法进行回归运算,得到相关性分数计算模型。8.如权利要求7所述的装置,其特征在于,所述特征分数确定子模块具体用于,确定分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果类目上的相似度分数,以及,确定分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果属性上的相似度分数,以及,确定该训练样本中的关键词和相关词的编辑距离作为编辑距离分数,以及,确定分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果点击上的相似度分数。9.如权利要求8所述的装置,其特征在于,所述特征分数确定子模块具体用于,采用该训练样本中的关键词进行搜索,针对每个搜索结果类目,确定所得到的属于该搜索结果类目的搜索结果的个数,以及得到的搜索结果总数,确定属于该搜索结果类目的搜索结果个数与搜索结果总数的比值,将采用该训练样本中的关键词进行搜索,针对每个搜索结果类目确定的每个比值构成的向量确定为关键词类目向量;采用该训练样本中的相关词进行搜索,针对每个搜索结果类目,确定所得到的属于该搜索结果类目的搜索结果的个数,以及得到的搜索结果总数,确定属于该搜索结果类目的搜索结果个数与搜索结果总数的比值,将采用该训练样本中的相关词进行搜索,针对每个搜索结果类目确定的每个比值构成的向量确定为相关词类目向量;确定所述关键词类目向量与所述相关词类目向量的余弦值,将所述余弦值确定为分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果类目上的相似度分数。10.如权利要求8所述的装置,其特征在于,所述特征分数确定子模块具体用于,根据该训练样本中的关键词,确定采用该训练样本中的关键词进行搜索所得到的搜索结果对应的每个属性,以确定的每个属性为元素构成第一集合;根据该训练样本中的相关词,确定采用该训练样本中的相关词进行搜索所得到的搜索结果对应的每个属性,以确定的每个属性为元素构成第二集合;确定所述第一集合与第二集合的交集以及并集,确定所述交集中包含的元素的个数与所述并集中包含的元素的个数的比值,将所述比值确定为分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果属性上的相似度分数。11.如权利要求8所述的装置,其特征在于,所述特征分数确定子模块具体用于,确定分别采用该训练样本中的关键词和相关词进行搜索,所得到的每个相同的搜索结果;针对每个相同的搜索结果,根据搜索日志中的记录,确定通过该训练样本中的关键词进行搜索时该搜索结果被点击的次数,确定通过该训练样本中的相关词进行搜索时该搜索结果被点击的次数;将通过该训练样本中的关键词进行搜索时,针对每个相同的搜索结果确定的每个被点击的次数构成的向量确定为关键词点击向量;将通过该训练样本中的相关词进行搜索时,针对每个相同的搜索结果确定的每个被点击的次数构成的向量确定为相关词点击向量;确定所述关键词点击向量与所述相关词点击向量的余弦值,将所述余弦值确定为分别采用该训练样本中的关键词和相关词进行搜索,所得到的搜索结果在搜索结果点击上的相似度分数。12.如权利要求7~11任一所述的装置,其特征在于,所述模型确定子模块具体用于,采用支持向量机SVM算法进行回归运算,得到相关性分数计算模型,或者,采用评定模型Logit算法进行回归运算,得到相关性分数计算模型。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1