一种垂直搜索引擎的查询信息纠错方法和系统的制作方法_3

文档序号:9787379阅读:来源:国知局
信息进行分词的操作。
[0080]例如:用户输入的查询信息为“快东大本营最新一期”,此后的查询信息为“快/东/
大本营/最新/ 一期”。
[0081]步骤S208:搜索引擎初始化游标后按照设定规则以分词为单位移动游标,得到子查询信息。
[0082]其中,查询信息包含多个子查询信息,每个子查询信息包含至少一个分词。
[0083]仍以“快/东/大本营/最新/一期”为例,在该查询信息中,子查询信息包括“快东大本营”、“最新”、“一期”,而子查询信息“快东大本营”包括“快” “东” “大本营”三个分词。
[0084]游标个数可以为两个,两个移动游标分别位于查询信息的左右两端,在移动游标时,可以设置左端的游标不动,将右端的游标以分成为单位依次从左向右移动,每移动一个分词两游标之间的分词即存在一段查询信息,判断游标间的查询信息是否为一个符合要求的子查询信息,若是,则对该子查询信息进行纠正,若不符合要求,则继续移动右端游标使两游标间的查询信息得到调整,然后进一步判断游标间的查询信息是否为一个符合要求的子查询信息。
[0085]步骤S210:搜索引擎判断子查询信息是否在分词保护表中;若否,则执行步骤S212,若是,则执行步骤S216。
[0086]其中,分词保护表中包括无需进行纠错的子查询信息。
[0087]也就是说,若子查询信息在分析保护表中,则无需对该分子查询信息进行替换,而直接通过移动游标再确定其他的子查询信息。当然,若不在分词保护表中,则需要通过纠错词典对子查询信息进行替换纠错。
[0088]在实际应用过程中,并不是所有的查询都能按纠错词典进行纠错替换的,有些特殊的正确查询信息可能会被替换为错误的,例如:纠错词典中有(大卡车,天卡车),用户查询“天天卡车”会被纠成“天大卡车”。因此,本发明实施例中设置了分词保护表,通过在分词保护表中添加“天卡车”以避免发生上述误纠错的问题。
[0089]步骤S212:搜索引擎从纠错词典中获取子查询信息对应的纠错信息。
[0090]在纠错词典中有错误的子查询信息与正确的子查询信息对,因此,通过错误的子查询信息即可确定出正确的纠错信息,并获取该正确的纠错信息。
[0091]步骤S214:搜索引擎采用所述纠错信息替换所述查询信息中的所述子查询信息得到纠错后的查询信息。
[0092]步骤S216:搜索引擎判断通过移动所述游标遍历所述查询信息的操作是否结束;若是,则执行步骤S218,若否,则返回执行步骤S208。
[0093]执行本步骤的判断主要目的是判断用户输入的查询信息中的各自查询信息是否均已纠错完成。若没有,则继续移动游标确定子查询信息对其进行替换。
[0094]步骤S218:搜索引擎将所述纠错的查询信息作为用户输入的查询信息的纠错结果O
[0095]例如:用户输入的查询信息为“快东大本营最新一期”,经过纠错处理后用户输入的查询信息被纠错为“快乐大本营最新一期”,那么,此时搜索引擎搜索“快乐大本营最新一期”相关链接即可。
[0096]通过本发明实施例提供的垂直搜索引擎的查询信息纠错方法,除具有实施例一中所述的垂直搜索引擎的查询信息纠错方法所具有的有益效果外,还设置有纠错黑名单,当用户输入查询信息后,首先判断是否在纠错黑名单中,若在,则不对用户输入的查询信息进行纠错,从而避免盲目纠错而影响用户的使用体验。不仅如此,本发明实施例中,在对子查询信息依据纠错词典进行纠错前,还会判断子查询信息是否在分词保护表中,若在,则无需对当前子查询信息进行纠错,避免直接盲目依据纠错词典对子查询信息进行纠错造成的误纠错问题,因此,提升纠错准确性的同时还能够提升用户的使用体验。
[0097]实施例三
[0098]参照图3,示出了本发明实施例三的一种垂直搜索引擎的查询信息纠错方法的步骤流程图。
[0099]本发明实施例的垂直搜索引擎的查询信息纠错方法主要包括两部分,第一部分为纠错词典、分词保护表、纠错黑名单的创建及更新维护,第二部分为搜索引擎通过纠错词典、分词保护表以及纠错黑名单进行纠错时的具体流程。下面,参照图3分别对这两部分内容进行说明。
[0100]纠错词典的创建与更新维护包括以下步骤:
[0101]步骤1:创建初始别字表。
[0102]根据汉字结构和形状以及书写习惯人工整理常见别字对,加入到初始别字表中。此时的初始别字表主要包含形近别字,如:(爱,爰)、(子,子)、(洒,酒)、(母,毋)、(余,佘)、(母,毋)、(日,曰)、(玫,玖)、(乐,东)等。
[0103]步骤2:基于查询日志分析挖掘高频的别字对扩充别字表。
[0104]首先,从查询日志中获取正确查询Qc和正确查询频次F。,以及相应的错误查询Qw和频次匕,得到四元组(0。,?。,^^,?|)。获取的方法为:基于查询日志中所有查询进行编辑距离查询,获取编辑距离为I的查询对,然后结合用户点击反馈数据确定。还要考虑查询的长度因素,假设这里只考虑别字的查询,不考虑多字少字的查询,因此Qc,Qw的长度是一样的,记为L,得到五元组(Q。,F。,Qw,Fw,L),所有的五元组构成候选五元组列表QLi st。
[0?05]对QList进行过滤,过滤策略主要包括:
[0106]策略一:过滤掉查询长度太短的五元组,S卩L小于预设阈值L_Th(优选地,将预设阈值设置为3)。因为查询越长,Qw被认定为错误查询的确信度越高,例如:“春光灿烂猪八戎”被认定为是“春光灿烂猪八戒”的错误形式的确信度较高;反之,Qw被认定为错误查询的确信度越低,例如林振英”被认定为是“朴振英”的错误形式的确信度较低。因此,可以通过过滤掉查询长度不满足设定阈值的查询对应的五元组来提高查询的确信度。
[0107]策略二:过滤掉查询频次太低的五元组,S卩F。小于预设阈值F_Th(根据样本规模设定)。因为查询频次太低,Qw被认定为错误查询的确信度越低。
[0108]策略三:过滤掉仏能成词的五元组,因为Qw能成词,说明仏很有可能是一个正确的term即分词,所以被认定为错误查询的确信度很低。例如:QC为“变形记”,Qw为“变型记”,而Qw经分词模块判断能独立成词,说明Qw本身是一种正确形式,所以无法认定为是Qc的错误形式。
[0109]策略四:过滤掉频次F。和频次Fw比值较小于设定阈值R_Th的五元组,S卩Fc/Fw小于预设阈值1?_111。因为,查询日志中正确的查询比相应的错误查询的频次要高很多倍。例如:“快乐大本营”查询频次429364,而“快了大本营”查询频次133 ,FJFw为3228.3; “愤怒的小鸟动画片”查询次数9361,“愤怒的小鸟动画版”查询次数153{。八^为61.1。
[0110]对QList中经过筛选保留下的每个五元组中的Qc和Qw提取别字对,前面已经假定Qc和Qw的长度是一样的,提取出二元组(QuQw)两个查询对应位置不相同的字对(W1, W2)加入到另IJ字表中,例如:“春光灿烂猪Λ戒”被认定为是“春光灿烂猪Λ戎”提取出(戒,戎);“快乐大本营”和“快了大本营”提取出(乐,了)等,将提取出的别字对加入到别字表中。
[0111]步骤3:创建纠错词典。
[0112]首先,准备用作样本的查询日志数据,如果是首次创建纠错词典,可以使用大量的查询日志数据(如最近一个月的),如果是增量扩充纠错词典,根据增量扩充的周期来使用查询日志数据,例如每天扩充一次纠错词典,则每次可以使用最新一天的查询日志数据。
[0113]调用分词模块将样本数据中的各样本数据进行分词,生成包含“所有”正确term的列表(ti,t2,……,tN),对所有正确term用别字替换的方法反向生成潜在的(有可能出现的)错误term,加入纠错词典。
[0114]替换方法描述如下,以t为例,如果t的字序列为C1C2……Cl,对每一个字Ci查询别字表得到(^有可能出现的别字有c’u,c’l2,……c’im,依次取每个替换C1得到ti’,将(ti,ti’)加入纠错表,每次替换一个字并将结果添加到纠错表。举例说明,分词为“快乐大本营”,“乐”字在纠错表中有候选别字“东”、“了”、“禾”,对“乐”字替换加入到纠错表的term对有:(快乐大本营,快东大本营)、(快乐大本营,快了大本营)和(快乐大本营,快禾大本营)。
[0115]通过步骤1、2以及3已生成了纠错词典。需要说明的是,在具体实现过程中,还可以按照设定时间间隔对纠错词典进行更新维护。在对纠错词典进行更新时,通过对设定时间段内的查询日志数据进行分析,得到别字对,然后依据扩充的别字对、以及在设定时间段内的查询扩充纠错词典,以实现对纠错词典的更新。
[0116]本发明提供的垂直搜索引擎查询信息纠错方法,基于人工整理和日志挖掘创建高频别字表,对大量样本查询数据分词后基于别字表进行反向替换得到有可能出现的错误查询并创建查询纠错词典,通过本发明实施例提供的纠错词典生成方法生成的错误词典覆盖广、能创建语义方面的纠错对、针对性强能覆盖用户查询中常见的错误。
[0117]分词保护表的生成如步骤4所示:
[0118]步骤4:创建term即分词保护表。
[0119]分词保护表可以通过技术人员手动创建。分析发现,并不是所有的查询都能按纠错词典进行替换的,有些特殊的正确查询可能会被替换为错误的,例如:纠错词典中有(大卡车,天卡车)、(轻骑兵,轻奇兵),用户查询“天天卡车”会被纠成“天大卡车”,“抗战之铁血轻奇兵”会被纠成“抗战之铁血轻骑兵”,这些错误的情况都是因为正确查询比较特殊导致的。本发明通过term保护表机制解决,手工方式将特殊的term加入到该表中,如果用户输入的查询为t e rm保护表中的查询则不对该查询进行纠错。
[0120]步骤5:纠错黑名单的创建与更新。
[0121]本发明所应用的搜索引擎系统中有查询点击反馈分析模块,该模块
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1