一种垂直搜索引擎的查询信息纠错方法和系统的制作方法_5

文档序号:9787379阅读:来源:国知局
书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0153]本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0154]最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0155]以上对本发明所提供的一种垂直搜索引擎的查询信息纠错方法和系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【主权项】
1.一种垂直搜索引擎的查询信息纠错方法,其特征在于,包括: 将用户输入的查询信息进行分词; 初始化游标后按照设定规则以分词为单位移动所述游标,得到子查询信息;其中,所述查询信息包含多个子查询信息,每个子查询信息包含至少一个分词; 从纠错词典中获取所述子查询信息对应的纠错信息;其中,所述纠错词典依据初始别字表以及通过分析查询日志得到的扩充别字表创建生成; 采用所述纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息; 判断通过移动所述游标遍历所述查询信息的操作是否结束; 若否,则返回执行所述通过按照设定规则移动所述游标得到子查询信息的步骤;若是,则将所述纠错的查询信息作为用户输入的查询信息的纠错结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括: 接收输入的初始别字表; 通过对设定时间段内的查询日志进行分析,确定扩充别字表; 将所述初始别字表与所述扩充别字表整合为纠错别字表; 通过所述纠错别字表以及所述设定时间段内的查询日志中包含的各查询信息生成所述纠错词典。3.根据权利要求2所述的方法,其特征在于,所述通过对设定时间段内的查询日志进行分析,确定扩充别字表的步骤包括: 从所述设定时间段内的查询日志中确定各查询对应的五元组,其中,五元组包括以下:正确查询信息、正确查询信息输入的频次、错误查询信息、错误查询信息输入的频次以及查询信息的长度; 针对每个查询,依据所述查询对应的五元组包含的参数对所述查询进行筛选; 分别将筛选后剩余的查询中包含的正确查询信息以及错误查询信息进行比对,以确定别字对; 将各别字对组合生成所述扩充别字表。4.根据权利要求2所述的方法,其特征在于,所述方法还包括: 通过对设定时间段内的查询日志进行分析,确定扩充别字对; 将所述扩充别字对与所述纠错别字表进行整合,得到更新后的纠错别字表; 通过所述更新后的纠错别字表、以及所述设定时间段内的中包含的各查询信息生成纠错信息对; 将所述纠错信息对添加到所述纠错词典中,以实现对所述纠错词典的扩充。5.根据权利要求1所述的方法,其特征在于,在所述将用户输入的查询信息进行分词的步骤之前,所述方法还包括: 判断用户输入的所述查询信息是否在纠错黑名单中; 若在所述纠错黑名单中,则不对用户输入的所述查询信息进行纠错; 若不在所述纠错黑名单中,则执行所述将用户输入的查询信息进行分词的操作。6.根据权利要求5所述的方法,其特征在于: 所述纠错黑名单通过手动输入生成;或者,所述纠错黑名单通过以下步骤生成: 获取设定时间段内的全部查询对应的历史点击信息,其中,每个查询对应的点击信息包括:用户输入的查询信息、纠错后查询信息、纠错后用户点击输入的查询信息的点击率、用户点击纠错后的查询信息的点击率; 针对每个查询,当所述纠错后用户点击输入的查询信息的点击率大于第一设定阈值、且所述用户点击纠错后的查询信息的点击率小于第二设定阈值时,则将所述查询对应的用户输入的查询信息添加到黑名单中。7.根据权利要求1所述的方法,其特征在于,在所述初始化游标后按照设定规则以分词为单位移动所述游标得到子查询信息的步骤之后,所述方法还包括: 判断所述子查询信息是否在分词保护表中,其中,所述分词保护表中包括无需进行纠错的子查询信息; 若是,则执行所述判断通过移动所述游标遍历所述查询信息的操作是否结束的步骤; 若否,则执行所述从纠错词典中获取所述子查询信息对应的纠错信息的步骤。8.一种垂直搜索引擎的查询信息纠错系统,其特征在于,包括: 分词模块,用于将用户输入的查询信息进行分词; 游标模块,用于初始化游标后按照设定规则以分词为单位移动所述游标,得到子查询信息;其中,所述查询信息包含多个子查询信息,每个子查询信息包含至少一个分词; 纠错信息获取模块,用于从纠错词典中获取所述子查询信息对应的纠错信息;其中,所述纠错词典依据初始别字表以及通过分析查询日志得到的扩充别字表创建生成; 替换模块,用于采用所述纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息; 第一判断模块,用于判断通过移动所述游标遍历所述查询信息的操作是否结束; 执行模块,用于若所述第一判断模块的判断结果为否时,则调用所述游标模块;用于若所述第一判断模块的判断结果为是时,则将所述纠错的查询信息作为用户输入的查询信息的纠错结果。9.根据权利要求8所述的系统,其特征在于,所述垂直搜索引擎的查询信息纠错系统还包括: 接收模块,用于接收输入的初始别字表; 第一扩充模块,用于通过对设定时间段内的查询日志进行分析,确定扩充别字表; 第一整合模块,用于将所述初始别字表与所述扩充别字表整合为纠错别字表; 纠错词典生成模块,用于通过所述纠错别字表以及所述设定时间段内的查询日志中包含的各查询信息生成所述纠错词典。10.根据权利要求9所述的系统,其特征在于,所述第一扩充模块具体用于: 从所述设定时间段内的查询日志中确定各查询对应的五元组,其中,五元组包括以下:正确查询信息、正确查询信息输入的频次、错误查询信息、错误查询信息输入的频次以及查询信息的长度; 针对每个查询,依据所述查询对应的五元组包含的参数对所述查询进行筛选; 分别将筛选后剩余的查询中包含的正确查询信息以及错误查询信息进行比对,以确定别字对; 将各别字对组合生成所述扩充别字表。11.根据权利要求9所述的系统,其特征在于,所述垂直搜索引擎的查询信息纠错系统还包括: 第二扩充模块,用于通过对设定时间段内的查询日志进行分析,确定扩充别字对; 第二整合模块,用于将所述扩充别字对与所述纠错别字表进行整合,得到更新后的纠错别字表; 纠错信息对生成模块,用于通过所述更新后的纠错别字表、以及所述设定时间段内的中包含的各查询信息生成纠错信息对; 纠错词典扩充模块,用于将所述纠错信息对添加到所述纠错词典中,以实现对所述纠错词典的扩充。12.根据权利要求8所述的系统,其特征在于,所述垂直搜索引擎的查询信息纠错系统还包括: 第二判断模块,用于在所述分词模块将用户输入的查询信息进行分词之前,判断用户输入的所述查询信息是否在纠错黑名单中; 第二执行模块,用于若在所述纠错黑名单中,则不对用户输入的所述查询信息进行纠错;若不在所述纠错黑名单中,则调用所述分词模块。13.根据权利要求12所述的系统,其特征在于,所述垂直搜索引擎的查询信息纠错系统还包括: 纠错黑名单接收模块,用于手动输入的所述纠错黑名单;或者, 纠错黑名单生成模块,用于获取设定时间段内的全部查询对应的历史点击信息,其中,每个查询对应的点击信息包括:用户输入的查询信息、纠错后查询信息、纠错后用户点击输入的查询信息的点击率、用户点击纠错后的查询信息的点击率;针对每个查询,当所述纠错后用户点击输入的查询信息的点击率大于第一设定阈值、且所述用户点击纠错后的查询信息的点击率小于第二设定阈值时,则将所述查询对应的用户输入的查询信息添加到黑名单中。14.根据权利要求8所述的系统,其特征在于,所述垂直搜索引擎的查询信息纠错系统还包括: 第三判断模块,用于在所述游标模块按照设定规则以分词为单位移动所述游标得到子查询信息之后,判断所述子查询信息是否在分词保护表中,其中,所述分词保护表中包括无需进行纠错的子查询信息; 第三执行模块,用于若所述第三判判断模块的判断结果为是,则调用所述第一判断模块;若所述第三判判断模块的判断结果为否,则执行所述纠错信息获取模块。
【专利摘要】本发明提供了一种垂直搜索引擎的查询信息纠错方法与系统,所述方法包括:将用户输入的查询信息进行分词;初始化游标后按照设定规则以分词为单位移动所述游标,得到子查询信息;从纠错词典中获取子查询信息对应的纠错信息;采用纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息;判断通过移动游标遍历查询信息的操作是否结束;若否,则返回执行通过按照设定规则移动所述游标得到子查询信息的步骤;若是,则将纠错的查询信息作为用户输入的查询信息的纠错结果。本发明提供的垂直搜索引擎的查询信息纠错方法,可适用于任何错误类型的纠错,并且由于是基于纠错词典进行纠错,因此,纠错准确性高。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105550171
【申请号】CN201511032704
【发明人】刘兵, 苗艳军
【申请人】北京奇艺世纪科技有限公司
【公开日】2016年5月4日
【申请日】2015年12月31日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1