1.一种基于上下文感知主题的查询表示及混合检索模型建立方法,其特征在于,包括如下步骤:
步骤一:基于查询的关键词集合,获取所述查询的伪相关反馈文档,从所述伪相关反馈文档中选取与所述查询相关的上下文;
步骤二:引入上下文感知主题模型,将所述上下文融入所述上下文感知主题模型中,基于语料库主题挖掘所述上下文窗口所隐含的主题信息,得到其相应的主题向量;
步骤三:将所述查询以所述主题向量与所述关键词集合联合表示,基于所述主题向量和所述关键词集合,建立混合检索模型,得到最终的检索得分。
2.如权利要求1所述的基于上下文感知主题的查询表示及混合检索模型建立方法,其特征在于,步骤一中将所述伪相关反馈文档划分成多个滑动窗口,并计算出每个窗口与所述查询的相关性,取相关性高于阈值的窗口作为与所述查询相关的上下文窗口。
3.如权利要求2所述的基于上下文感知主题的查询表示及混合检索模型建立方法,其特征在于,所述与查询相关的上下文选取阈值为该查询下所有窗口相关性的平均值。
4.如权利要求1所述的基于上下文感知主题的查询表示及混合检索模型建立方法,其特征在于,所述上下文感知主题模型是根据查询相关上下文及整个语料库所设计,利用所述上下文感知主题模型在主题建模过程中假设上下文窗口和其所在的伪相关反馈文档共享同样的主题分布,得到上下文的主题向量。
5.如权利要求1所述的基于上下文感知主题的查询表示及混合检索模型建立方法,其特征在于,所述伪相关反馈文档使用检索模型关键词匹配得分计算获得。
6.如权利要求1所述的基于上下文感知主题的查询表示及混合检索模型建立方法,其特征在于,所述检索得分以如下公式表示:
其中,s表示传统检索模型中基于关键词匹配的得分,s′表示基于新查询表示Q′的主题匹配得分,λ是这两种得分之间的权重参数,也是两种匹配方式的权衡系数。