一种垂直搜索引擎的查询信息纠错方法和系统的制作方法_4

文档序号:9787379阅读:来源:国知局
返回所有查询的历史点击信息,例如点击信息四元组(Qold,Qnew ,Cold, CTRnew ),Qold表示用户原始查询,Qnew表示纠错后的查询(如果没有纠错则为空),(:。1(1表示纠错后用户仍然点击原始查询的比率,CTRne3w表示用户没有点击原始查询的情况下,查询结果的点击率。如果Cc1Id大于预设阈值(:_Th,而且CTRnew小于预设阈值CTR_Th,认为本次查询纠错是错误的,将Qoid加入纠错黑名单中。通过上述方式,即可将各无需纠错的查询添加到纠错黑名单中。
[0122]以上为纠错词典、分词保护表、纠错黑名单的创建及更新维护的具体方案,下面对第二部分进行纠错的具体流程进行说明。
[0123]需要说明的是,本发明是以准确的分词为前提的,垂直搜索引擎会有大量的垂直领域的命名实体词,例如:视频行业会有剧名、人名;音乐行业会有音乐名;电商行业会有商品名等。准确的分词模块能保证通用词语成词以外,也能保证行业命名实体能成词。例如用户查询“快乐大本营最新一期”能正确分为“快乐大本营/最新/一期”,后面讲分词结果中的每一个切分后的“词”称为term。
[0124]纠错的具体流程部分主要为附图3中的步骤6所包含的部分。纠错的具体流程如下:
[0125]a.初始化Q’为Q,判断用户查询Q是否在纠错黑名单中,是则跳转到h;
[0126]b.调用分词模块对Q分词,得到term列表(qi,q2,......,qs);
[01 27] c.设置两个游标Ia和Ib( Ia从左往右移动,Ib从右往左移动);
[0128]d.将UPIb之间的所有term连接得到Qsub ;
[0129]e.判断Qsub是否在term保护表中,如果是则跳转;
[0130]f.在纠错词典中查询Qsub,如果找到则用纠正的term替换Qsub,更新到结果查询串Q,;
[0131]g.移动游标,判断13是否到达qs,是则继续,否则跳转到c;
[0132]h.结束,返回Q’。
[0133]显然,一条查询可能执行多次替换。举例说明,纠错词典中含有(熊出没,能出没)、(熊出没,熊击没)、(熊出没,熊出设)、(雪岭熊风,雪岭能风)、(雪岭熊风,雪岭熊凤)等,用户查询为“能出没之雪岭熊凤”,根据上述过程会执行两次替换,得到结果为“熊出没之雪岭熊风”。
[0134]现有的基于纠错词典的查询纠错方法仅能解决同音别字、模糊拼音和多字少字等类型的查询错误,但是不能很好的解决形近别字和语义方面的查询错误,主要是因为创建的纠错词典具有以下局限性:(I)无法保证纠错词典全面(即尽可能多的覆盖错误的查询);
(2)无法创建语义方面的纠错对,例如,“明日边缘”写成“昨日边缘” ;(3)纠错词典没有针对性,没有考虑用户查询中的常见错误。
[0135]本发明实施例提供的垂直搜索引擎查询信息纠错方法很好的解决了现有的纠错词典存在的不足,本发明实施例中基于人工整理和日志挖掘创建高频别字表,对大量样本查询数据分词后基于别字表进行反向替换得到有可能出现的错误查询并创建查询词典。通过本发明实施例提供的纠错词典生成方法有以下优势:(I)错误词典覆盖广;(2)能创建语义方面的纠错对;(3)有针对性,能覆盖用户查询中常见的错误。而且本发明实施例提供的纠错方法不用很复杂的模型和计算,实现简单并高效。
[0136]此外,本发明实施例提供的纠错方法除对纠错词典的生成方式进行改进外,还通过基于点击反馈来创建(或更新)纠错黑名单,通过纠错黑名单屏蔽可能错误的查询纠错。一种优选地的方式为基于点击反馈获取到可能错误的查询纠错后,将纠错黑名单中无需进行纠错的查询反馈到纠错词典中,将相应的可能错误的纠错term对删除,这样可以不断的优化纠错词典,是纠错词典更加准确。
[0137]实施例四
[0138]参照图4,示出了本发明实施例四的一种垂直搜索引擎的查询信息纠错系统的结构框图。
[0139]本发明实施例的垂直搜索引擎的查询信息纠错系统,包括:分词模块401,用于将用户输入的查询信息进行分词;游标模块402,用于初始化游标后按照设定规则以分词为单位移动所述游标,得到子查询信息;其中,所述查询信息包含多个子查询信息,每个子查询信息包含至少一个分词;纠错信息获取模块403,用于从纠错词典中获取所述子查询信息对应的纠错信息;其中,所述纠错词典依据初始别字表以及通过分析查询日志得到的扩充别字表创建生成;替换模块404,用于采用所述纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息;第一判断模块405,用于判断通过移动所述游标遍历所述查询信息的操作是否结束;执行模块406,用于若所述第一判断模块的判断结果为否时,则调用所述游标模块;用于若所述第一判断模块的判断结果为是时,则将所述纠错的查询信息作为用户输入的查询信息的纠错结果。
[0140]通过本发明实施例提供的垂直搜索引擎的查询信息纠错系统,采用基于纠错词典的查询信息纠错原理,由于是基于纠错词典的查询信息纠错原理,因此纠错操作简单、效率高。不仅如此,本发明实施例所采用的纠错词典依据初始别字表以及通过分析查询日志得到的扩充别字表创建生成,相较于现有的仅依据初始别字表纠错词典所能够纠错的错误类型更广,不仅能够对同音别字错误、模糊拼音错误、多字少字错误类型的查询信息进行纠错;还可以对形近字错误以及语义错误的查询信息进行纠错。可见,本发明实施例提供的查询信息纠错系统,可适用于任何错误类型的纠错,并且由于是基于纠错词典进行纠错,因此,纠错准确性高。
[0141]实施例五
[0142]参照图5,示出了本发明实施例五的一种垂直搜索引擎的查询信息纠错系统的结构框图。
[0143]本发明实施例的垂直搜索引擎的查询信息纠错系统,包括:分词模块501,用于将用户输入的查询信息进行分词;游标模块502,用于初始化游标后按照设定规则以分词为单位移动所述游标,得到子查询信息;其中,所述查询信息包含多个子查询信息,每个子查询信息包含至少一个分词;纠错信息获取模块503,用于从纠错词典中获取所述子查询信息对应的纠错信息;其中,所述纠错词典依据初始别字表以及通过分析查询日志得到的扩充别字表创建生成;替换模块504,用于采用所述纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息;第一判断模块505,用于判断通过移动所述游标遍历所述查询信息的操作是否结束;执行模块506,用于若所述第一判断模块的判断结果为否时,则调用所述游标模块;用于若所述第一判断模块的判断结果为是时,则将所述纠错的查询信息作为用户输入的查询信息的纠错结果。
[0144]优选地,所述垂直搜索引擎的查询信息纠错系统还包括:接收模块507,用于接收输入的初始别字表;第一扩充模块508,用于通过对设定时间段内的查询日志进行分析,确定扩充别字表;第一整合模块509,用于将所述初始别字表与所述扩充别字表整合为纠错别字表;纠错词典生成模块510,用于通过所述纠错别字表以及所述设定时间段内的查询日志中包含的各查询信息生成所述纠错词典。
[0145]优选地,所述第一扩充模块508具体用于:从所述设定时间段内的查询日志中确定各查询对应的五元组,其中,五元组包括以下:正确查询信息、正确查询信息输入的频次、错误查询信息、错误查询信息输入的频次以及查询信息的长度;针对每个查询,依据所述查询对应的五元组包含的参数对所述查询进行筛选;分别将筛选后剩余的查询中包含的正确查询信息以及错误查询信息进行比对,以确定别字对;将各别字对组合生成所述扩充别字表。
[0146]优选地,所述垂直搜索引擎的查询信息纠错系统还包括:第二扩充模块511,用于通过对设定时间段内的查询日志进行分析,确定扩充别字对;第二整合模块512,用于将所述扩充别字对与所述纠错别字表进行整合,得到更新后的纠错别字表;纠错信息对生成模块513,用于通过所述更新后的纠错别字表、以及所述设定时间段内的中包含的各查询信息生成纠错信息对;纠错词典扩充模块514,用于将所述纠错信息对添加到所述纠错词典中,以实现对所述纠错词典的扩充。
[0147]优选地,所述垂直搜索引擎的查询信息纠错系统还包括:第二判断模块515,用于在所述分词模块将用户输入的查询信息进行分词之前,判断用户输入的所述查询信息是否在纠错黑名单中;第二执行模块516,用于若在所述纠错黑名单中,则不对用户输入的所述查询信息进行纠错;若不在所述纠错黑名单中,则调用所述分词模块。
[0148]优选地,所述垂直搜索引擎的查询信息纠错系统还包括:纠错黑名单接收模块517,用于手动输入的所述纠错黑名单;或者,纠错黑名单生成模块518,用于获取设定时间段内的全部查询对应的历史点击信息,其中,每个查询对应的点击信息包括:用户输入的查询信息、纠错后查询信息、纠错后用户点击输入的查询信息的点击率、用户点击纠错后的查询信息的点击率;针对每个查询,当所述纠错后用户点击输入的查询信息的点击率大于第一设定阈值、且所述用户点击纠错后的查询信息的点击率小于第二设定阈值时,则将所述查询对应的用户输入的查询信息添加到黑名单中。
[0149]优选地,所述垂直搜索引擎的查询信息纠错系统还包括:第三判断模块519,用于在所述游标模块按照设定规则以分词为单位移动所述游标得到子查询信息之后,判断所述子查询信息是否在分词保护表中,其中,所述分词保护表中包括无需进行纠错的子查询信息;第三执行模块520,用于若所述第三判判断模块的判断结果为是,则调用所述第一判断模块;若所述第三判判断模块的判断结果为否,则执行所述纠错信息获取模块。
[0150]本发明实施例提供的垂直搜索引擎的查询信息纠错系统用于执行实施例一至实施例三中相应的垂直搜索引擎的查询信息纠错方法,并具有相应有益效果,在此不再赘述。
[0151]对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0152]本说明
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1