电子商务搜索引擎纠错扩展方法

文档序号:6542880阅读:306来源:国知局
电子商务搜索引擎纠错扩展方法
【专利摘要】本发明提供了一种电子商务搜索引擎纠错扩展方法,(1)在初始化部分,准备各种映射表,其中包括正确词表和扩展词表,加载解析所有的映射表文件,构建相关的数据结构和字典;(2)接收输入,对输入做预处理,其中包括简繁体转换、移除空白;(3)预处理完成之后直接查询扩展词表,如果扩展词表中有相关扩展词则直接返回结果;(4)如果扩展词表未查到相关扩展词,则对输入进行切分,分别进行英文纠错和中文纠错,纠错完成之后,对纠错结果再次查询扩展词表,将结果输出。本发明的优点是:对电子商务搜索引擎进行优化,能够对用户的输入进行纠错扩展处理,改善用户的体验,提高商品的召回率。
【专利说明】电子商务搜索引擎纠错扩展方法
【技术领域】
[0001]本发明涉及电子商务搜索引擎的优化,具体是一种电子商务搜索引擎纠错扩展方法。
【背景技术】
[0002]搜索引擎系统由下载系统、分析系统、索引系统、检索系统组成。
[0003]下载系统:对于百度等全网搜索引擎来说,主要是从各大互联网站爬取网页。而对于电子商务网站来说,不需要下载系统,所需检索的页面都是本地存储好的商品说明页面。
[0004]分析系统:对网页内容进行预处理(繁体转简体、大写转小写、全角转半角)、分词、词干提取、停词移除等等。
[0005]索引系统:对应于索引端,调用分词服务,将每个商品的warename (商品名称)切成词项term,对每个词项term建立倒排列表(或称倒排记录)。在这里,你可以将每个商品的warename看做一个文档。
[0006]检索系统:对应于查询端,调用分词服务,将用户搜索词切成词项term,逐个拉取每个词项term的倒排列表,求交集,返回结果。
[0007]用户在电子商务搜索引擎中输入搜索词时,往往会产生错误,包括拼音输入的错误,中文输入法会产生同音异形字等。但是对于错误的搜索词时无法返回用户需要的商品名称。所以对于一个搜索引擎来说,能够对用户的输入词纠错,往往能够大大提高商品的召回率,也就是提高商品能够被检索到的概率。

【发明内容】

[0008]本发明的目的是解决用户的错误或者不合理的输入问题,提供一种电子商务搜索引擎纠错扩展方法,对用户的输入进行查询纠错扩展提供一种快速解决的方案,其使用方便、易于操作、效率高。
[0009]按照本发明提供的技术方案,所述的电子商务搜索引擎纠错扩展方法为:
(1)在初始化部分,准备各种映射表,其中包括正确词表和扩展词表,加载解析所有的映射表文件,构建相关的数据结构和字典;
(2)接收输入,对输入做预处理,其中包括简繁体转换、移除空白;
(3)预处理完成之后直接查询扩展词表,如果扩展词表中有相关扩展词则直接返回结
果;
(4)如果扩展词表未查到相关扩展词,则对输入进行切分,分别进行英文纠错和中文纠错,纠错完成之后,对纠错结果再次查询扩展词表,将结果输出。
[0010]对于扩展词表的生成,对用户的查询日志分析选取高频且被点击的搜索词加入扩展词表。所述扩展词表中利用词之间含义的连续性,建立相关搜索词。
[0011]所述中文纠错是基于拼音纠错对用户的中文输入进行纠错。
[0012]所述英文纠错是对用户输入的英文或者拼音进行纠错。[0013]本发明的优点是:对电子商务搜索引擎进行优化,能够对用户的输入进行纠错扩展处理,改善用户的体验,提高商品的召回率。
【专利附图】

【附图说明】
[0014]图1本发明所处的处理环节示意图。
[0015]图2是本发明系统模块图。
[0016]图3是本发明的处理流程图。
【具体实施方式】
[0017]下面结合附图和实施例对本发明作进一步说明。
[0018]本发明所处的环节如图1所示,属于输入查询和提交查询的中间环节,在提交给索引系统之前对用户的输入进行分析处理。在用户输入查询词的时候,假如用户的输入有错误,将无法返回相关商品,此时需要对用户的输入进行纠错,提供最接近用户意图的商品。同时需要对用户的查询词进行扩展,做相关搜索的推荐,帮助用户快速的找到自己需要的商品。也就是对于用户的各种未知输入,我们不能立即交给查询系统进行处理,首先我们需要对用户杂乱无章的各种输入做预处理,这样才能更好的检索。
[0019]对于扩展词表的生成,不仅仅是对用户的查询日志分析选取高频的搜索词,同时会根据查询后用户是否点击,来判断词扩展词是好词还是坏词。好词就是可以作为扩展词,而坏词不能作为扩展词。如果某个搜索词的搜索频率很高,但是没有用户点击,所以仍然不能当作好词,不能加入扩展词表。
[0020]扩展词表中使用了相关搜索的特性,利用词之间的连续性,词与词之间共现,建立相关搜索词。比如说搜索的输入框中搜李斯德林其实是想搜索李施德林,但是用户也可能需要搜索其他品牌的漱口水,所以词之间具有连续性,所以漱口水就是李斯德林的相关搜索词,同时买漱口水的情况下说明用户比较注重个人清洁卫生和牙齿保健,所以推荐牙膏。同理还有其他的相关搜索词比如:欧莱雅洗发水。李斯德林的相关搜索词是:李施德林、漱口水、牙膏、妮维雅、欧莱雅、洗发水。
[0021]本发明采用的技术方法是:(I)采用先建立正确词词典和扩展词表。在初始化的时候加载这些词表,完成整个系统的初始化工作;(2)判断用户的各种输入,决定是否需要采用查询扩展、中文纠错、英文纠错等;(3)对用户的输入进行纠错或者扩展,或者直接提交查询而无需扩展和纠错。
[0022]将系统分为四个部分,如图2所示:第一部分为初始化和预处理部分,准备各种词表,其中包括正确词典和扩展词典,加载解析所有的词表文件,构建相关的数据结构和字典。对于正确词典,采用了语音算法,利用英文字的读音计算近似值。第二部分基于拼音转换技术的拼音智能纠错对用户的中文输入进行纠错。第三部分为英文纠错,对用户输入的英文或者拼音进行纠错。第四部分为基于映射词典的扩展部分。对用户输入进行扩展查询。
[0023]首先根据相应的规则和标准,生成各种需要的映射表,包括扩展词表、正确词表等。系统运行过程中先加载这些映射表然后再做处理。对于用户的输入,首先进行简单的预处理,其中包括简繁体转换移除空白等操作。然后查询扩展词表,如果扩展词表中有相关的扩展词条,则直接返回结果。如果没有则对输入进行切分,分别进行英文纠错和中文纠错。纠错完成之后,对纠错结果再次查询扩展词表,将结果输出。具体流程如图3所示。
[0024]本发明对用户的输入词纠错,往往能够大大提高商品的召回率,也就是提高商品能够被检索到的概率。同时能够改善用户的搜索体验。此外,在用户的输入查询词后可以对用户的输入进行查询扩展,避免因为输入词本身的问题导致无法返回相关的页面,同时起到推荐相关商品的目的。
[0025]综上,本发明能够对用户的输入进行纠错扩展处理,结合界面人性化的设计,操作容易易懂,模块化编程,可扩充性好,以后可以添加进一步的功能。
【权利要求】
1.电子商务搜索引擎纠错扩展方法,其特征是: (1)在初始化部分,准备各种映射表,其中包括正确词表和扩展词表,加载解析所有的映射表文件,构建相关的数据结构和字典; (2)接收输入,对输入做预处理,其中包括简繁体转换、移除空白; (3)预处理完成之后直接查询扩展词表,如果扩展词表中有相关扩展词则直接返回结果; (4)如果扩展词表未查到相关扩展词,则对输入进行切分,分别进行英文纠错和中文纠错,纠错完成之后,对纠错结果再次查询扩展词表,将结果输出。
2.如权利要求1所述电子商务搜索引擎纠错扩展方法,其特征是,对用户的查询日志分析选取高频且被点击的搜索词加入所述扩展词表。
3.如权利要求1所述电子商务搜索引擎纠错扩展方法,其特征是,所述扩展词表中利用词之间含义的连续性,建立相关搜索词。
4.如权利要求1所述电子商务搜索引擎纠错扩展方法,其特征是,所述中文纠错是基于拼音纠错对用户的中文输入进行纠错。
5.如权利要求1所述电子商务搜索引擎纠错扩展方法,其特征是,所述英文纠错是对用户输入的英文或者拼音进行纠错。
【文档编号】G06F17/30GK103886094SQ201410133036
【公开日】2014年6月25日 申请日期:2014年4月3日 优先权日:2014年4月3日
【发明者】唐亮 申请人:江苏物联网研究发展中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1