一种挖掘具有相似需求的查询的方法及装置与流程

文档序号:11772681阅读:来源:国知局
一种挖掘具有相似需求的查询的方法及装置与流程

技术特征:
1.一种挖掘具有相似需求的查询的方法,其特征在于,所述方法包括:为多个查询对提取会话共现特征、点击重合度特征和点击相互满足特征,其中一个查询对由搜索日志中的任意两个查询构成,所述会话共现特征用于表征一个查询对中的两个查询在相同会话中共同出现的可能性,所述点击重合度特征用于表征一个查询对中的两个查询各自引起的点击页面的重合度,所述点击相互满足特征用于表征一个查询对中的两个查询各自得到的满足度达到预设要求的页面满足该查询对中的另一个查询的程度;根据提取的每个特征及每个特征的权重计算各查询对中的两个查询之间的相似度,其中,每个特征的权重为预先设置的值,或者,采用机器学习方法学习出每个特征的权重;选取两个查询之间的相似度大于设定值的查询对,并在选取的查询对中将相互之间有交集的查询对聚为一类,将属于同一类的查询对中的查询作为具有相似需求的查询。2.根据权利要求1所述的方法,其特征在于,一个查询对的会话共现特征采用下列方式计算:其中coOccurScore(query1,query2)表示由查询query1和查询query2构成的查询对的会话共现特征,coOccurCount(query1,query2)表示query1与query2在搜索日志的相同会话中共同出现的次数,count(query1)表示query1在搜索日志中出现的总次数,count(query2)表示query2在搜索日志中出现的总次数。3.根据权利要求1所述的方法,其特征在于,一个查询对的点击重合度特征采用下列方式计算:其中urlRatioScore(query1,query2)表示由查询query1和查询query2构成的查询对的点击重合度特征,coCount(url1,url2)表示query1与query2各自在搜索日志里引起的点击页面中相同页面的数量,count(url1)表示query1在搜索日志里引起的所有点击页面的数量,count(url2)表示query2在搜索日志里引起的所有点击页面的数量。4.根据权利要求1所述的方法,其特征在于,一个查询对的点击相互满足特征采用下列方式计算:其中satisScore(query1,query2)表示由查询query1和查询query2构成的查询对的点击相互满足特征,表示query1得到的各个满足度达到预设要求的URL1i页面对query2的满足度之和,表示query1得到的各个满足度达到预设要求的URL1i页面对query1自身的满足度之和,表示query2得到的各个满足度达到预设要求的URL2i页面对query1的满足度之和,表示query2得到的各个满足度达到预设要求的URL2i页面对query2的满足度之和,其中一个页面对一个查询的满足度由该查询在一次搜索过程中以该页面作为最后一个点击页面的情况记录在搜索日志中的总次数决定。5.根据权利要求1或4所述的方法,其特征在于,一个页面对一个查询的满足度采用下列方式进行计算:其中satis(URL,query)表示页面URL对查询query的满足度,one2one(URL,query)表示query在一次搜索过程中仅点击一个页面且该页面为URL的情况记录在搜索日志中的总次数,last(URL,query)表示query在一次搜索过程中点击了多个页面且以URL作为最后一个点击页面的情况记录在搜索日志中的总次数,notlast(URL,query)表示query在一次搜索过程中点击了多个页面且URL不是最后一个点击页面的情况记录在搜索日志中的总次数,α、β、χ表示权重且1≥α,β,χ≥0,clickcount(URL,query)表示在query的搜索过程中点击了URL的情况记录在搜索日志中的总次数。6.根据权利要求1所述的方法,其特征在于,所述采用机器学习方法学习出每个特征的权重包括:从所述多个查询对中选取标准查询对集合;利用所述标准查询对集合训练提取的各特征对应的参数,将训练中使得所述标准查询对集合中的查询对在所述多个查询对中的排名无法更靠前时的参数值作为对应特征的权重。7.根据权利要求6所述的方法,其特征在于,从所述多个查询对中选取标准查询对集合的步骤包括:针对提取的每个特征分别基于特征值对所述多个查询对进行排序,分别针对每个特征取排列在前N位的查询对作为对应特征的查询对集合,其中N为正整数;取各特征的查询对集合之间的交集作为标准查询对集合。8.一种挖掘具有相似需求的查询的装置,其特征在于,所述装置包括:特征提取单元,用于为多个查询对提取会话共现特征、点击重合度特征和点击相互满足特征,其中一个查询对由搜索日志中的任意两个查询构成,所述会话共现特征用于表征一个查询对中的两个查询在相同会话中共同出现的可能性,所述点击重合度特征用于表征一个查询对中的两个查询各自引起的点击页面的重合度,所述点击相互满足特征用于表征一个查询对中的两个查询各自得到的满足度达到预设要求的页面满足该查询对中的另一个查询的程度;计算单元,用于根据提取的每个特征及每个特征的权重计算各查询对中的两个查询之间的相似度,其中,每个特征的权重为预先设置的值,或者,采用机器学习方法学习出每个特征的权重;聚类单元,用于选取两个查询之间的相似度大于设定值的查询对,并在选取的查询对中将相互之间有交集的查询对聚为一类,将属于同一类的查询对中的查询作为具有相似需求的查询。9.根据权利要求8所述的装置,其特征在于,所述特征提取单元提取一个查询对的会话共现特征时,采用下列方式计算该查询对的会话共现特征:其中coOccurScore(query1,query2)表示由查询query1和查询query2构成的查询对的会话共现特征,coOccurCount(query1,query2)表示query1与query2在搜索日志的相同会话中共同出现的次数,count(query1)表示query1在搜索日志中出现的总次数,count(query2)表示query2在搜索日志中出现的总次数。10.根据权利要求8所述的装置,其特征在于,所述特征提取单元在提取一个查询对的点击重合度特征时,采用下列方式计算该查询对的点击重合度特征:其中urlRatioScore(query1,query2)表示由查询query1和查询query2构成的查询对的点击重合度特征,coCount(url1,url2)表示query1与query2各自在搜索日志里引起的点击页面中相同页面的数量,count(url1)表示query1在搜索日志里引起的所有点击页面的数量,count(url2)表示query2在搜索日志里引起的所有点击页面的数量。11.根据权利要求8所述的装置,其特征在于,所述特征提取单元在提取一个查询对的点击相互满足特征时,采用下列方式计算该查询对的点击相互满足特征:其中satisScore(query1,query2)表示由查询query1和查询query2构成的查询对的点击相互满足特征,表示query1得到的各个满足度达到预设要求的URL1i页面对query2的满足度之和,表示query1得到的各个满足度达到预设要求的URL1i页面对query1自身的满足度之和,表示query2得到的各个满足度达到预设要求的URL2i页面对query1的满足度之和,表示query2得到的各个满足度达到预设要求的URL2i页面对query2的满足度之和,其中一个页面对一个查询的满足度由该查询在一次搜索过程中以该页面作为最后一个点击页面的情况记录在搜索日志中的总次数决定。12.根据权利要求8或11所述的装置,其特征在于,所述特征提取单元在提取一个查询对的点击相互满足特征时,采用下列方式计算一个页面对一个查询的满足度:其中satis(URL,query)表示页面URL对查询query的满足度,one2one(URL,query)表示query在一次搜索过程中仅点击一个页面且该页面为URL的情况记录在搜索日志中的总次数,last(URL,query)表示query在一次搜索过程中点击了多个页面且以URL作为最后一个点击页面的情况记录在搜索日志中的总次数,notlast(URL,query)表示query在一次搜索过程中点击了多个页面且URL不是最后一个点击页面的情况被记录在搜索日志中的总次数,α、β、χ表示权重且1≥α,β,χ≥0,clickcount(URL,query)表示在query的搜索过程中点击了URL的情况记录在搜索日志中的总次数。13.根据权利要求8所述的装置,其特征在于,该装置还包括权重确定单元,用于为提取的每个特征确定相应的权重;所述权重确定单元包括:标准选取单元,用于从所述多个查询对中选取标准查询对集合;训练单元,用于利用所述标准查询对集合训练提取的各特征对应的参数,将训练中使得所述标准查询对集合中的查询对在所述多个查询对中的排名无法更靠前时的参数值作为对应特征的权重。14.根据权利要求13所述的装置,其特征在于,所述标准选取单元包括:排序单元,用于针对提取的每个特征分别基于特征值对所述多个查询对进行排序,分别针对每个特征取排列在前N位的查询对作为对应特征的查询对集合,其中N为正整数;交集单元,用于取各特征的查询对集合之间的交集作为标准查询对集合。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1