信息检索的方法、装置与计算设备与流程

文档序号:12271509阅读:来源:国知局

技术特征:

1.一种信息检索的方法,其特征在于,包括:

接收查询语句,所述查询语句包括模糊关键词,所述模糊关键词为包含匹配符的词;

根据所述模糊关键词,确定第一部分关键词,所述第一部分关键词为所述模糊关键词中除所述匹配符之外的部分;

根据第一索引与所述第一部分关键词,获取第一完整关键词,所述第一完整关键词包含所述第一部分关键词,所述第一索引包括键值部分与属性值部分,其中,所述键值部分存储的信息与所述属性值部分存储的信息具有对应关系,所述键值部分存储有所述第一部分关键词,所述属性值部分存储有所述第一完整关键词;

根据第二索引与所述第一完整关键词,获取第一文档,所述第一文档为所述第一完整关键词所在的文档,所述第二索引包括所述第一完整关键词与所述第一文档之间的对应关系。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

根据语料数据集获取完整关键词集合;

对所述完整关键词集合中的第二完整关键词进行n元组切分,并将n元组切分后的词确定为第二部分关键词,n为小于或等于所述第二完整关键词的字符长度的正整数;

确定第三完整关键词,所述第三完整关键词为所述完整关键词集合中包含所述第二部分关键词的词;

根据所述第二部分关键词与所述第三完整关键词,生成所述第一索引,所述第一索引的键值部分包括所述第二部分关键词,所述第一索引的属性值部分包括所述第三完整关键词。

3.根据权利要求2所述的方法,其特征在于,所述确定第三完整关键词,包括:

基于匹配类型,确定所述第三完整关键词,所述第三完整关键词基于所述匹配类型与所述第二部分关键词相匹配,所述匹配类型为前词匹配、后词匹配或前后词匹配中的任一种;

其中,所述生成所述第一索引包括:

根据所述第二部分关键词、所述匹配类型与所述第三完整关键词,生成所述第一索引,所述第一索引的属性值部分还包括所述匹配类型;

所述根据第一索引与所述第一部分关键词,获取第一完整关键词,包括:

根据所述第一索引、所述第一部分关键词以及所述第一部分关键词的匹配类型,获取所述第一完整关键词,所述第一部分关键词的匹配类型根据所述第一部分关键词与所述匹配符之间的位置关系确定。

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

根据所述第二部分关键词在所述完整关键词集合中的出现频率以及所述第三完整关键词在所述完整关键词集合中的出现频率,确定所述第二部分关键词与所述第三完整关键词的相关性参数;

其中,所述生成所述第一索引包括:

根据所述第二部分关键词、所述匹配类型、以及所述第三完整关键词与所述相关性参数,生成所述第一索引,所述第一索引的属性值部分还包括所述第二部分关键词与所述第三完整关键词的相关性参数;

所述方法还包括:

根据所述第一索引、所述第一部分关键词以及所述第一完整关键词,获取所述第一部分关键词与所述第一完整关键词的相关性参数;

根据所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分。

5.根据权利要求4所述的方法,其特征在于,所述确定所述第二部分关键词与所述第三完整关键词的相关性参数,包括:

根据下面公式计算所述第二部分关键词wp与所述第三完整关键词w的相关性参数r(wp,w):

r(wp,w)=α·f(wp,w)·s(wp,w)+β·q(wp,w)

其中,f(wp,w)表示wp与w的条件概率,s(wp,w)表示wp与w的紧密度参数,q(wp,w)表示wp与w的用户反馈权重,α与β为常数。

6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:

获取第一文档数目,所述第一文档数目为所述第三完整关键词在所述完整关键词集合中所匹配的文档数目;

其中,所述生成所述第一索引包括:

根据所述第二部分关键词、所述匹配类型、所述第三完整关键词、所述相关性参数以及所述第一文档数目,生成所述第一索引,所述第一索引的属性值部分还包括所述第一文档数目;

所述方法还包括:

根据所述第一索引与所述第一完整关键词,获取所述第一完整关键词对应的第二文档数目;

所述根据所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分,包括:

根据所述第二文档数目、所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分。

7.根据权利要求6所述的方法,其特征在于,所述生成所述第一索引,包括:

根据下列信息,生成所述第一索引:

wp=f:w,r(wp,w),n(w)

其中,wp表示所述第二部分关键词,w表示所述第三完整关键词,f表示所述第二部分关键词wp的匹配类型,r(wp,w)表示所述第二部分关键词wp与所述第三完整关键词w的相关性参数,n(w)表示所述第三完整关键词w在所述完整关键词集合中所匹配的文档数目,=左边的部分表示所述第一索引的键值部分,=右边的部分表示所述第一索引的属性值部分。

8.根据权利要求2-7中任一项所述的方法,其特征在于,所述第二完整关键词为所述完整关键词集合中字符长度大于或等于阈值L的完整关键词。

9.根据权利要求2-8中任一项所述的方法,其特征在于,所述根据语料数据集获取完整关键词集合,包括:

根据所述语料数据集与覆盖率,获取所述完整关键词集合,所述完整关键词集合中包括的完整关键词的数量小于所述语料数据集中包括的完整关键词的数量。

10.一种信息检索的装置,其特征在于,包括:

输入模块,用于接收查询语句,所述查询语句包括模糊关键词,所述模糊关键词为包含匹配符的词;

处理模块,用于根据所述模糊关键词,确定第一部分关键词,所述第一部分关键词为所述模糊关键词中除所述匹配符之外的部分;

所述处理模块还用于,根据第一索引与所述第一部分关键词,获取第一完整关键词,所述第一完整关键词包含所述第一部分关键词,所述第一索引包括键值部分与属性值部分,其中,所述键值部分存储的信息与所述属性值部分存储的信息具有对应关系,所述键值部分存储有所述第一部分关键词,所述属性值部分存储有所述第一完整关键词;

所述处理模块还用于,根据第二索引与所述第一完整关键词,获取第一文档,所述第一文档为所述第一完整关键词所在的文档,所述第二索引包括所述第一完整关键词与所述第一文档之间的对应关系。

11.根据权利要求10所述的装置,其特征在于,所述处理模块还用于,根据语料数据集获取完整关键词集合;

对所述完整关键词集合中的第二完整关键词进行n元组切分,并将n元组切分后的词确定为第二部分关键词,n为小于或等于所述第二完整关键词的字符长度的正整数;

确定第三完整关键词,所述第三完整关键词为所述完整关键词集合中包含所述第二部分关键词的词;

根据所述第二部分关键词与所述第三完整关键词,生成所述第一索引,所述第一索引的键值部分包括所述第二部分关键词,所述第一索引的属性值部分包括所述第三完整关键词。

12.根据权利要求11所述的装置,其特征在于,所述处理模块具体用于,基于匹配类型,确定所述第三完整关键词,所述第三完整关键词基于所述匹配类型与所述第二部分关键词相匹配,所述匹配类型为前词匹配、后词匹配或前后词匹配中的任一种;

所述处理模块具体用于,根据所述第二部分关键词、所述匹配类型与所述第三完整关键词,生成所述第一索引,所述第一索引的属性值部分还包括所述匹配类型;

所述处理模块具体用于,根据所述第一索引、所述第一部分关键词以及所述第一部分关键词的匹配类型,获取所述第一完整关键词,所述第一部分关键词的匹配类型根据所述第一部分关键词与所述匹配符之间的位置关系确定。

13.根据权利要求12所述的装置,其特征在于,所述处理模块还用于,根据所述第二部分关键词在所述完整关键词集合中的出现频率以及所述第三完整关键词在所述完整关键词集合中的出现频率,确定所述第二部分关键词与所述第三完整关键词的相关性参数;

所述处理模块具体用于,根据所述第二部分关键词、所述匹配类型、以及所述第三完整关键词与所述相关性参数,生成所述第一索引,所述第一索引的属性值部分还包括所述第二部分关键词与所述第三完整关键词的相关性参数;

所述处理模块还用于,根据所述第一索引,获取所述第一部分关键词与所述第一完整关键词的相关性参数;

所述处理模块还用于,根据所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分。

14.根据权利要求13所述的装置,其特征在于,所述处理模块具体用于,根据下面公式计算所述第二部分关键词wp与所述第三完整关键词w的相关性参数r(wp,w):

r(wp,w)=α*f(wp,w)*s(wp,w)+β*q(wp,w)

其中,f(wp,w)表示wp与w的条件概率,s(wp,w)表示wp与w的紧密度参数,q(wp,w)表示wp与w的用户反馈权重,α与β为常数。

15.根据权利要求13或14所述的装置,其特征在于,所述处理模块还用于,获取第一文档数目,所述第一文档数目为所述第三完整关键词在所述完整关键词集合中所匹配的文档数目;

所述处理模块具体用于,根据所述第二部分关键词、所述匹配类型、所述第三完整关键词、所述相关性参数、以及所述第一文档数目,生成所述第一索引,所述第一索引的属性值部分还包括所述第一文档数目;

所述处理模块还用于,根据所述第一索引,获取所述第一完整关键词对应的第二文档数目;

所述处理模块具体用于,根据所述第二文档数目、所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分。

16.根据权利要求15所述的装置,其特征在于,所述处理模块具体用于,根据下列信息,生成所述第一索引:

wp=f:w,r(wp,w),n(w)

其中,wp表示所述第二部分关键词,w表示所述第三完整关键词,f表示所述第二部分关键词wp的匹配类型,r(wp,w)表示所述第二部分关键词wp与所述第三完整关键词w的相关性参数,n(w)表示所述第三完整关键词w在所述完整关键词集合中所匹配的文档数目,=左边的部分表示所述第一索引的键值部分,=右边的部分表示所述第一索引的属性值部分。

17.根据权利要求11-16中任一项所述的装置,其特征在于,所述第二完整关键词为所述完整关键词集合中字符长度大于阈值L的完整关键词。

18.根据权利要求11-17中任一项所述的装置,其特征在于,所述处理模块具体用于,根据所述语料数据集与覆盖率,获取所述完整关键词集合,所述完整关键词集合中包括的完整关键词的数量小于所述语料数据集中包括的完整关键词的数量。

19.一种计算设备,其特征在于,包括处理器与存储器,所述存储器用于存储指令,所述处理器读取所述存储器中存储的指令用于,

接收查询语句,所述查询语句包括模糊关键词,所述模糊关键词为包含匹配符的词;

根据所述模糊关键词,确定第一部分关键词,所述第一部分关键词为所述模糊关键词中除所述匹配符之外的部分;

根据第一索引与所述第一部分关键词,获取第一完整关键词,所述第一完整关键词包含所述第一部分关键词,所述第一索引包括键值部分与属性值部分,其中,所述键值部分存储的信息与所述属性值部分存储的信息具有对应关系,所述键值部分存储有所述第一部分关键词,所述属性值部分存储有所述第一完整关键词;

根据第二索引与所述第一完整关键词,获取第一文档,所述第一文档为所述第一完整关键词所在的文档,所述第二索引包括所述第一完整关键词与所述第一文档之间的对应关系。

20.根据权利要求19所述的计算设备,其特征在于,所述处理器还用于,根据语料数据集获取完整关键词集合;

对所述完整关键词集合中的第二完整关键词进行n元组切分,并将n元组切分后的词确定为第二部分关键词,n为小于或等于所述第二完整关键词的字符长度的正整数;

确定第三完整关键词,所述第三完整关键词为所述完整关键词集合中包含所述第二部分关键词的词;

根据所述第二部分关键词与所述第三完整关键词,生成所述第一索引,所述第一索引的键值部分包括所述第二部分关键词,所述第一索引的属性值部分包括所述第三完整关键词。

21.根据权利要求20所述的计算设备,其特征在于,所述处理器具体用于,基于匹配类型,确定所述第三完整关键词,所述第三完整关键词基于所述匹配类型与所述第二部分关键词相匹配,所述匹配类型为前词匹配、后词匹配或前后词匹配中的任一种;

所述处理器具体用于,根据所述第二部分关键词、所述匹配类型与所述第三完整关键词,生成所述第一索引,所述第一索引的属性值部分还包括所述匹配类型;

所述处理器具体用于,根据所述第一索引、所述第一部分关键词以及所述第一部分关键词的匹配类型,获取所述第一完整关键词,所述第一部分关键词的匹配类型根据所述第一部分关键词与所述匹配符之间的位置关系确定。

22.根据权利要求21所述的计算设备,其特征在于,所述处理器还用于,根据所述第二部分关键词在所述完整关键词集合中的出现频率以及所述第三完整关键词在所述完整关键词集合中的出现频率,确定所述第二部分关键词与所述第三完整关键词的相关性参数;

所述处理器具体用于,根据所述第二部分关键词、所述匹配类型、以及所述第三完整关键词与所述相关性参数,生成所述第一索引,所述第一索引的属性值部分还包括所述第二部分关键词与所述第三完整关键词的相关性参数;

所述处理器还用于,根据所述第一索引,获取所述第一部分关键词与所述第一完整关键词的相关性参数;

所述处理器还用于,根据所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分。

23.根据权利要求22所述的计算设备,其特征在于,所述处理器具体用于,根据下面公式计算所述第二部分关键词wp与所述第三完整关键词w的相关性参数r(wp,w):

r(wp,w)=α*f(wp,w)*s(wp,w)+β*q(wp,w)

其中,f(wp,w)表示wp与w的条件概率,s(wp,w)表示wp与w的紧密度参数,q(wp,w)表示wp与w的用户反馈权重,α与β为常数。

24.根据权利要求22或23所述的计算设备,其特征在于,所述处理器还用于,获取第一文档数目,所述第一文档数目为所述第三完整关键词在所述完整关键词集合中所匹配的文档数目;

所述处理器具体用于,根据所述第二部分关键词、所述匹配类型、所述第三完整关键词、所述相关性参数、以及所述第一文档数目,生成所述第一索引,所述第一索引的属性值部分还包括所述第一文档数目;

所述处理器还用于,根据所述第一索引,获取所述第一完整关键词对应的第二文档数目;

所述处理器具体用于,根据所述第二文档数目、所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分。

25.根据权利要求24所述的计算设备,其特征在于,所述处理器具体用于,根据下列信息,生成所述第一索引:

wp=f:w,r(wp,w),n(w)

其中,wp表示所述第二部分关键词,w表示所述第三完整关键词,f表示所述第二部分关键词wp的匹配类型,r(wp,w)表示所述第二部分关键词wp与所述第三完整关键词w的相关性参数,n(w)表示所述第三完整关键词w在所述完整关键词集合中所匹配的文档数目,=左边的部分表示所述第一索引的键值部分,=右边的部分表示所述第一索引的属性值部分。

26.根据权利要求19-25中任一项所述的计算设备,其特征在于,所述第二完整关键词为所述完整关键词集合中字符长度大于阈值L的完整关键词。

27.根据权利要求19-26中任一项所述的计算设备,其特征在于,所述处理器具体用于,根据所述语料数据集与覆盖率,获取所述完整关键词集合,所述完整关键词集合中包括的完整关键词的数量小于所述语料数据集中包括的完整关键词的数量。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1