单元词替换方法、搜索方法及装置的制造方法

文档序号:9375610阅读:226来源:国知局
单元词替换方法、搜索方法及装置的制造方法
【技术领域】
[0001] 本申请涉及信息处理技术领域,尤其涉及一种单元词替换方法、搜索方法及装置。
【背景技术】
[0002] 在现有的搜索产品中,当用户提交查询语句后,搜索引擎会将用户提交的查询语 句进行预处理后再进行检索。在预处理过程中,用户提交的查询语句会被拆分成多个关键 词,可以利用同义词替换功能对这些关键词进行同义替换操作,生成新的搜索引擎底层可 读的查询语句。
[0003] 现有的同义词替换功能大多都是对存在同义词词组的关键词采用直接替换的方 式,对于一些不必要替换的情形不会加以区分,例如,用户输入查询语句"中国银行快捷支 付限额",经过分词得到关键词"中国银行"、"快捷"、"支付"和"限额"。在这个查询语句中, "支付"的同义词包括"付款",因而采用同义词替换功能后,会得到新的查询语句"中国银行 快捷付款限额"。而在实际情形中,"快捷支付"是一个固定搭配的词组,具有特定的含义,其 使用频率比"快捷付款"高。可以看出,这种采用直接匹配方式,由于缺乏了上下文的参照 信息,往往会造成不必要的同义替换,替换结果会带来相关度较差的搜索结果,不能精确解 析用户的搜索意图,导致搜索结果的准确性较差。

【发明内容】

[0004] 本申请的目的是,提供一种单元词替换方法、搜索方法及装置,可减少不必要的同 义词替换,能更精确地解析搜索意图,提高搜索结果的准确性。
[0005] 本申请提供了一种单元词替换方法,所述方法包括:
[0006] 对输入的查询语句进行分词,得到所述查询语句的第一单元词;
[0007] 利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;
[0008] 从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第 一二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的 单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词 组及所述参考二元词组的紧密度;
[0009] 比较所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一 紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换 。
[0010] 又一方面,本申请还提供了一种基于单元词替换的搜索方法,所述方法包括:
[0011] 对输入的查询语句进行分词,得到所述查询语句的第一单元词;
[0012] 利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;
[0013] 从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第 一二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的 单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词 组及所述参考二元词组的紧密度;
[0014] 比较所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一 紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换 词;
[0015] 利用所述第一单元词的替换词,生成新的查询语句进行搜索,得到搜索结果。
[0016] 又一方面,本申请还提供了一种单元词替换装置,所述装置包括:
[0017] 分词单元,用于对输入的查询语句进行分词,得到所述查询语句的第一单元词;
[0018] 第一查询单元,用于利用所述分词单元得到的所述第一单元词,从同义词表中找 出所述第一单元词的同义词集合;
[0019] 第二查询单元,用于从二元词组数据库中,查询得到所述第一单元词与其上下文 的单元词组成的第一二元词组的第一紧密度、所述第一查询单元得到的所述同义词集合中 的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其 中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度;
[0020] 处理单元,用于比较所述查询单元得到的所述第一紧密度和所述第二紧密度,如 果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第 二单元词作为所述第一单元词的替换词。
[0021] 又一方面,本申请还提供了一种基于单元词替换的搜索装置,所述装置包括:
[0022] 分词单元,用于对输入的查询语句进行分词,得到所述查询语句的第一单元词;
[0023] 第一查询单元,用于利用所述分词单元得到的所述第一单元词,从同义词表中找 出所述第一单元词的同义词集合;
[0024] 第二查询单元,用于从二元词组数据库中,查询得到所述第一单元词与其上下文 的单元词组成的第一二元词组的第一紧密度、所述第一查询单元得到的所述同义词集合中 的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其 中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度;
[0025] 处理单元,用于比较所述查询单元得到的所述第一紧密度和所述第二紧密度,如 果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第 二单元词作为所述第一单元词的替换词;
[0026] 搜索单元,用于利用所述处理单元得到的所述第一单元词的替换词,生成新的查 询语句进行搜索,得到搜索结果。
[0027] 本申请提供的单元词替换方法、基于单元词替换的搜索方法及装置,根据二元词 组的紧密度以及替换词在查询语句中的上下文信息,来进行有选择性的替换,考虑了上下 文的参照信息,可减少不必要的同义词替换,能更精确地解析搜索意图,提高搜索结果的准 确性。
【附图说明】
[0028] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其 他的附图。
[0029] 图1为本申请实施例提供的单元词替换方法流程图;
[0030] 图2为本申请实施例提供的基于单元词替换的搜索方法流程图;
[0031] 图3为本申请实施例提供的单元词替换装置示意图;
[0032] 图4为本申请实施例提供的基于单元词替换的搜索装置示意图。
【具体实施方式】
[0033] 为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请 实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本 申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域普通技术人员在没有 做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0034] 本申请实施例提供的单元词替换方法及装置,适用于各类需要进行同义词替换的 场景,尤其是具有上下文作为参照信息的文本中同义词替换的场景,例如,在搜索引擎的搜 索栏中输入的查询语句等等。
[0035] 本申请实施例提供的基于单元词替换的搜索方法及装置,适用于各类搜索引擎, 尤其是有采用同义词替换进行扩展性搜索的搜索引擎,例如,用于公告搜索、商品搜索、云 客服(Clive)搜索等等的搜索引擎。
[0036] 图1是本申请实施例提供的单元词替换方法流程图,如图1所示,本申请实施例的 单元词替换方法包括:
[0037] S101、对输入的查询语句进行分词,得到所述查询语句的第一单元词。
[0038] 本申请中所述的查询语句是指用户在进行搜索时,在网页的搜索栏中输入的关键 词或语句。例如,在Clive搜索时,用户打开商务网站的客服网页进行问题的搜索,用户在 网页的搜索栏上输入"中国银行快捷支付限额是多少"、"如何更改支付宝密码"等查询语 句。又例如:在公告搜索时,用户在网页的搜索栏上输入例如"请问新款的秋冬连衣裙今年 什么时间上架啊"等查询语句。在商品搜索时,用户在网页的搜索栏上输入例如"夏装连衣 裙裤"等查询语句。
[0039] 对用户输入的查询语句按照现有的分词方法(例如,正向最大匹配法、逆向最大 匹配法等)进行分词,分成多个单元词,即第一单元词。例如,对于查询语句"中国银行快捷 支付限额",经过分词得到第一单元词"中国银行"、"快捷"、"支付"和"限额"。
[0040] 当然,在对所述查询语句进行分词之后还可以对分词得到的单元词进行过滤,过 滤掉一些停用词、数字、标点等,过滤掉一些如"的"、"什么"、"多少"等等停用词,提高后续 查询的处理效率。其中,停用词是一些常用的单元词,如冠词、介词和代词等,不能作为单 个单词进行检索。
[0041] S102、利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合。
[0042] 例如,对于单元词"支付",可以从同义词表中找出"支付"同义词包括"付款"、"付 钱"等,组成"支付"的同义词集合。
[0043] S103、从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成 的第一二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下 文的单元词组成的第二二元词组的第二紧密度。
[0044] 其中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度。
[0045] 一般来说,所述二元词组数据库是利用一定规模的语料库预先建立的。该语料库 可以是自然语言的基础语料,也可以是人为规定的一定范围或领域的语料,优选的,该语料 库与同义词表的语料库来源于同一份基础语料
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1