信息检索方法和系统的制作方法

文档序号:6580238阅读:140来源:国知局
专利名称:信息检索方法和系统的制作方法
技术领域
本申请涉及网络技术领域,更具体地说,涉及一种信息检索方法和系统。
背景技术
从互联网出现至今,信息量可以说成幂指数的增长,在这浩如烟海的信息中怎 么才能找到自己所需要的信息?搜索引擎就像一只神奇的手,从杂乱的信息中抽出一条 清晰的检索路径。搜索引擎是根据一定的策略、运用特定的计算机程序搜集信息,在对 信息进行组织和处理后,为用户提供检索服务的系统。其通过分析用户的查询(Query) 请求(关键词或关键词组),从系统中返回相应的结果并反馈给用户,为用户的信息获取 工作提供了方便。经过多年的发展和摸索,搜索引擎技术得到了很大的发展,具体表现在搜索结 果的相关性提升和索引数据量增加方面,所谓搜索相关性,指的是搜索结果与用户要求 的切合程度。现有技术针对Query的相关工作,大部分还停留在Query分类层次,比较 流行的是针对Query所在领域类别的分类,判断一个Query属于财经类、体育类或汽车类 等,如将“迈克尔乔丹”归类为体育类,“奥巴马”归类为新闻类。但是,对于Query的领域分类,其主要功能是在各垂直搜索引擎之间提供导 航,这种分类方法过于简单,无法正确体现用户意图。例如,针对Query: “手机电 池”,现有技术能确定出属于IT领域,但是并不能分析出用户意图是查找“手机”还是
“电池”,搜索相关性较低。

发明内容
有鉴于此,本申请提供一种信息检索方法和系统,以解决现有技术存在的搜索 相关性低的问题。本申请提供的一种信息检索方法包括预处理步骤,包括确定历史查询记录中的出现的各查询词组的语义标签,根据语义标签统计语义 模式,从统计结果中选择出现频率超过预定门限的语义模式;通过统计历史记录中各语义模式对应的用户行为,设置体现该用户行为的用户 查询意图属性,设置所述语义模式与该用户查询意图属性所指定的过滤方式和排序方式 的对应关系;检索步骤,包括接收查询词组,进行语义分析确定其所属语义标签;依据所述对应关系,确定与所述查询词组所属语义模式对应的过滤方式和排序 方式;利用所述过滤方式和排序方式对搜索结果进行处理。优选的,在确定高频语义模式后,还包括依据覆盖率对语义模式进行筛选,筛选过程包括计算预定时间段内符合语义模式的查询词组的数量,将该查询数量与总查询数 量的比例确定为该语义模式的覆盖率;提取覆盖率大于预定门限的语义模式。优选的,在确定高频语义模式后,还包括依据区分度对语义模式进行筛选, 筛选过程包括计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字 段组中的熵,将其确定为所述语义模式的区分度;提取熵大于预定值的语义模式。优选的,在确定高频语义模式后,还包括依据覆盖率和区分度对语义模式进 行筛选,筛选过程包括计算预定时间段内符合该语义模式的查询次数,将该查询次数与总查询次数的 比例确定为该语义模式的覆盖率;计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字 段组中的熵,将其确定为所述语义模式的区分度;提取覆盖率大于预定门限及熵大于预定值的语义模式。本申请提供的一种信息检索方法,还包括接收查询词组,到预先设置的语义标签库中匹配相应的语义标签;根据匹配到的所述语义标签到语义模式表中匹配获得所述查询词组的语义模 式;根据所述语义模式到按照用户查询意图属性预设的语义模式与过滤、排序方式 的对应关系表中匹配获得所述查询词组对应的过滤方式和排序方式;利用所述过滤方式和排序方式对所述查询词组的搜索结果进行处理。本申请同时公开的一种信息检索系统包括参考信息存储单元,用于存储语义模式与过滤方式和排序方式的对应关系,所 述语义模式为历史查询记录中的出现的各查询词组的语义模式中出现频率超过预定门限 的语义模式,所述过滤方式和排序方式为用户查询意图属性所指定,所述用户查询意图 属性是通过统计历史记录中各语义模式对应的用户行为设定的;接收单元,用于接收查询词组;语义模式匹配单元,用于将所述接收单元接收到的查询词组进行语义分析确定 其语义标签;处理方式确定单元,用于依据所述参考信息存储单元中存储的信息,确定所述 查询词组所属语义模式及其对应的过滤方式和排序方式;执行单元,用于利用所述过滤方式和排序方式对搜索结果进行处理。优选的,上述系统还包括第一筛选单元,用于计算预定时间段内符合语义模式的查询词组的数量,将 该查询数量与总查询数量的比例确定为该语义模式的覆盖率,并提取覆盖率大于预定门 限的语义模式;所述参考信息存储单元存储的语义模式为出现频率超过预定门限且覆盖率大于预定门限的语义模式。优选的,上述系统还包括第二筛选单元,用于计算预定时间段内属于同一语义模式的具体关键字段组 针对所有查询的关键字段组中的熵,将其确定为所述语义模式的区分度,并提取熵大于 预定值的语义模式;所述参考信息存储单元存储的语义模式为出现频率超过预定门限且熵大于预 定值的语义模式。优选的,上述系统还包括第三筛选单元,用于计算预定时间段内符合语义模式的查询词组的数量,将 该查询数量与总查询数量的比例确定为该语义模式的覆盖率,以及计算预定时间段内属 于同一语义模式的具体关键字段组针对所有查询的关键字段组中的熵,并提取出现频率 超过预定门限、覆盖率大于预定门限且熵大于预定值的语义模式;所述参考信息存储单元存储的语义模式为出现频率超过预定门限、覆盖率大 于预定门限且熵大于预定值的语义模式。从上述的技术方案可以看出,本申请实施例根据自然语言特点及用户的习惯用 法,设置语义模式,并根据用户意图,将语义模式与通过统计分析语义模式所对应的用 户行为所获得的过滤方式和排序方式建立对应关系。从而使得,在接收到用户输入的查 询词组时,可在确定与该查询词组匹配的语义模式后,按照对应的过滤方式和排序方式 进行搜索和处理,一方面无需检索全部数据,减少工作量,另一方面利用历史经验对用 户意图进行了分析,提高了用户意图与搜索结果的相关度,提高搜索精度。


为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或 现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅 是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提 下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的信息检索方法中的预处理流程图;图2为本申请实施例提供的信息检索方法中的检索流程图;图3为本申请实施例提供的信息检索系统的结构示意图1 ;图4为本申请实施例提供的信息检索系统的结构示意图2 ;图5为本申请实施例提供的信息检索系统的结构示意图3 ;图6为本申请实施例提供的信息检索系统的结构示意图4。
具体实施例方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施 例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得 的所有其他实施例,都属于本申请保护的范围。本申请实施例公开了一种信息检索方法,通过统计历史查询记录中出现频率较高的语义模式,将其与体现用户意图的过滤方式和排序方式建立对应关系,在用户输入 查询词组时,确定该查询词组所对应的语义模式,然后依据上述对应关系,确定相应的 过滤方式和排序方式,并利用所述过滤方式和结果显示方式对搜索结果进行处理后,提 供给用户,从而提高反馈结果与用户意图的切合程度,即提高搜索相关性。请参考图1,为本申请实施例提供的信息检索方法中的预处理过程,包括以下步 骤步骤S11、确定历史查询记录中出现的各个查询词组的语义标签。选择一段时间内的历史查询记录,对各个查询词组进行语义分析,确定各个查 询词组的语义标签。例如查询词为“手机”,则其语义标签为“产品”。所述语义标签存储于语义标签库,所述查询词组存储于查询词库,所述语义标 签库与查询词库均存储于数据库中,且所述语义标签库中的语义标签与查询词组之间存 在对应关系。步骤S12、根据语义标签统计其所属语义模式。历史查询记录所覆盖的时间越长,则查询记录越多,确定的语义模式覆盖面也 更广,因而更准确。语义模式是根据自然语言特点总结得出的,如当查询词组包括多个查询字段 时,根据自然语言特点,确定其中的中心词,例如针对“手机电池”这个查询词组, 其中心词为“电池”,语义模式为“修饰词+产品”,同样的,“数码相机”对应的语 义模式也为“修饰词+产品”。语义模式存储于语义模式表中。步骤S13、从上述步骤S12确定的语义模式中选择出现频率超过预定门限的语义 模式。对所述历史查询记录中的查询词组加上标签,格式如下[Query]\t[Semantic Pattern]\t[PV];其中,Query为查询词组,Semantic Pattern为语义模式,PV为被查询次数。如表1所示表 1
QuerySemantic PatternPV数码相机修饰词产品13手机电池修饰词产品13 根据所述PV信息确定被查询次数超过预定门限的语义模式。
可以将查询次数超过预定门限的语义模式进行标记,也可以单独存储。
步骤S14、统计历史记录中各语义模式对应的用户行为,设置体现该用户行为的用户查询意图属性。所谓用户行为,指的是用户在利用某查询字段进行查询后,在查询 结果中点击了哪些链接。历史上,用户输入某查询词组,并在返回的结果中选择(即鼠标点击)某些结 果,这种行为本身可以体现一种过滤和排序方式,因为每个查询行为都会被记录在查询 日志中,因此,可以通过统计查询日志中的查询词组所属语义模式,设置体现对应的用 户行为的用户查询意图属性,存储于用户查询意图属性表中。所述用户查询意图属性包括歧义程度、权威性要求、时效性要求和地域要求, 如表2所示表权利要求
1.一种信息检索方法,其特征在于,包括 预处理步骤,包括确定历史查询记录中出现的各查询词组的语义标签,根据语义标签统计语义模式, 从统计结果中选择出现频率超过预定门限的语义模式;通过统计历史记录中各语义模式对应的用户行为,设置体现该用户行为的用户查询 意图属性,设置所述语义模式与该用户查询意图属性所指定的过滤方式和排序方式的对 应关系;检索步骤,包括接收查询词组,进行语义分析确定其所属语义标签;依据所述对应关系,确定与所述查询词组所属语义模式对应的过滤方式和排序方式;利用所述过滤方式和排序方式对搜索结果进行处理。
2.如权利要求1所述的方法,其特征在于,在确定高频语义模式后,还包括依据 覆盖率对语义模式进行筛选,筛选过程包括计算预定时间段内符合语义模式的查询词组的数量,将该查询数量与总查询数量的 比例确定为该语义模式的覆盖率;提取覆盖率大于预定门限的语义模式。
3.如权利要求1所述的方法,其特征在于,在确定高频语义模式后,还包括依据 区分度对语义模式进行筛选,筛选过程包括计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字段组 中的熵,将其确定为所述语义模式的区分度; 提取熵大于预定值的语义模式。
4.如权利要求1所述的方法,其特征在于,在确定高频语义模式后,还包括依据 覆盖率和区分度对语义模式进行筛选,筛选过程包括计算预定时间段内符合该语义模式的查询次数,将该查询次数与总查询次数的比例 确定为该语义模式的覆盖率;计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字段组 中的熵,将其确定为所述语义模式的区分度;提取覆盖率大于预定门限及熵大于预定值的语义模式。
5.如权利要求1所述的方法,其特征在于,所述用户查询意图属性包括歧义程度 属性、权威性要求属性、时效性要求属性、地域要求属性和批量属性。
6.—种信息检索方法,其特征在于,包括接收查询词组,到预先设置的语义标签库中匹配相应的语义标签; 根据匹配到的所述语义标签到语义模式表中匹配获得所述查询词组的语义模式; 根据所述语义模式到按照用户查询意图属性预设的语义模式与过滤、排序方式的对 应关系表中匹配获得所述查询词组对应的过滤方式和排序方式;利用所述过滤方式和排序方式对所述查询词组的搜索结果进行处理。
7.—种信息检索系统,其特征在于,包括参考信息存储单元,用于存储语义模式与过滤方式和排序方式的对应关系,所述语义模式为历史查询记录中的出现的各查询词组的语义模式中出现频率超过预定门限的语 义模式,所述过滤方式和排序方式为用户查询意图属性所指定,所述用户查询意图属性 是通过统计历史记录中各语义模式对应的用户行为设定的;接收单元,用于接收查询词组;语义模式匹配单元,用于将所述接收单元接收到的查询词组进行语义分析确定其语 义标签;处理方式确定单元,用于依据所述参考信息存储单元中存储的信息,确定所述查询 词组所属语义模式及其对应的过滤方式和排序方式;执行单元,用于利用所述过滤方式和排序方式对搜索结果进行处理。
8.如权利要求7所述的系统,其特征在于,还包括第一筛选单元,用于计算预定时间段内符合语义模式的查询词组的数量,将该查 询数量与总查询数量的比例确定为该语义模式的覆盖率,并提取覆盖率大于预定门限的 语义模式;所述参考信息存储单元存储的语义模式为出现频率超过预定门限且覆盖率大于预 定门限的语义模式。
9.如权利要求7所述的系统,其特征在于,还包括第二筛选单元,用于计算预定时间段内属于同一语义模式的具体关键字段组针对 所有查询的关键字段组中的熵,将其确定为所述语义模式的区分度,并提取熵大于预定 值的语义模式;所述参考信息存储单元存储的语义模式为出现频率超过预定门限且熵大于预定值 的语义模式。
10.如权利要求7所述的系统,其特征在于,还包括第三筛选单元,用于计算预定时间段内符合语义模式的查询词组的数量,将该查 询数量与总查询数量的比例确定为该语义模式的覆盖率,以及计算预定时间段内属于同 一语义模式的具体关键字段组针对所有查询的关键字段组中的熵,并提取出现频率超过 预定门限、覆盖率大于预定门限且熵大于预定值的语义模式;所述参考信息存储单元存储的语义模式为出现频率超过预定门限、覆盖率大于预 定门限且熵大于预定值的语义模式。
全文摘要
本发明实施例公开了一种信息检索方法和系统,包括确定历史查询记录中的出现的各查询词组的语义模式,从中选择出现频率超过预定门限的语义模式;根据统计分析用户行为得到的语义模式,设置语义模式与过滤方式和排序方式的对应关系;接收查询词组,进行语义分析确定其所属语义标签;确定相应的查询语义模式,进而确定与所述语义模式对应的过滤方式和排序方式;利用所述过滤方式和排序方式对搜索结果进行处理。本申请实施例根据搜索引擎查询字段的语言特点及历史用户行为,对用户意图进行分析,在接收到用户输入的查询词组时,使用该查询词组匹配的语义模式对应的统计分析所获得的模式属性引导搜索,精确定位用户需求,提升用户检索效率。
文档编号G06F17/30GK102012900SQ20091017108
公开日2011年4月13日 申请日期2009年9月4日 优先权日2009年9月4日
发明者侯磊, 孙健, 张勤, 彭晟 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1