生成同义词的方法、装置、电子设备以及可读存储介质与流程

文档序号:22239633发布日期:2020-09-15 19:51阅读:202来源:国知局
生成同义词的方法、装置、电子设备以及可读存储介质与流程

本申请涉及互联网技术领域,尤其涉及搜索技术领域中的一种生成同义词的方法、装置、电子设备以及可读存储介质。



背景技术:

在当前的搜索场景下,当用户输入实体词进行搜索时,通常会使用与实体词对应的同义词来替换所输入的实体词进行搜索,从而获取更为丰富的搜索结果。因此,与实体词对应的同义词在搜索中占据着重要的位置。

而现有技术在进行同义词的生成时,通常采用将语料库中的文本数据进行切词之后,通过计算词语之间词向量的相似度来生成同义词,但该方法所生成的同义词的准确性较差,且无法确保所生成的同义词与实体词具有相似的搜索需求,从而降低用户对于搜索结果的满意程度。



技术实现要素:

本申请为解决技术问题所采用的技术方案是提供一种生成同义词的方法,包括:获取待处理实体词及其对应的第一搜索结果页;确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。本申请能够确保所生成的同义词与实体词具有相似的搜索需求,从而提升同义词生成的准确性。

本申请为解决技术问题所采用的技术方案是提供一种生成同义词的装置,包括:获取单元,用于获取待处理实体词及其对应的第一搜索结果页;处理单元,用于确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;生成单元,用于选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。

上述申请中的一个实施例具有如下优点或有益效果:本申请能够确保所生成的同义词与实体词具有相似的搜索需求,从而提升同义词生成的准确性。因为采用了通过与待处理实体词对应的第一搜索结果页来获取查询词query,然后选取查询词query中满足第二预设条件的词语作为待处理实体词的同义词的技术手段,所以克服了现有技术中仅通过词语之间词向量的相似度来生成同义词所导致的准确性较低、所生成的同义词与实体词具有不同的搜索需求的技术问题,从而实现确保所生成的同义词与实体词具有相似的搜索需求,提升同义词生成的准确性的技术效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是根据本申请第一实施例的示意图;

图2是根据本申请第二实施例的示意图;

图3是根据本申请第三实施例的示意图;

图4是用来实现本申请实施例的生成同义词的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请第一实施例的示意图。如图1中所示,本实施例的生成同义词的方法,具体可以包括如下步骤:

s101、获取待处理实体词及其对应的第一搜索结果页;

s102、确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;

s103、选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。

本实施例的生成同义词的方法,能够根据所获取的待处理实体词及其对应的第一搜索结果页,来自动地生成与待处理实体词对应的同义词,进而实现在用户输入待处理实体词之后使用与其对应的同义词来进行搜索,从而获取更为丰富且准确的搜索结果的目的。

本实施例中的待处理实体词包括人名、地名、机构名、产品名、影视名、专有名词等具有特定意义的词语。本实施例中的s101在获取待处理实体词时,可以将用户实时输入的词语作为待处理实体词,还可以获取预先存储在数据库中的词语作为待处理实体词。

本实施例中的与待处理实体词对应的第一搜索结果页,即为将待处理实体词作为搜索请求进行搜索之后所获取的搜索结果页面。本实施例中的s101在获取与待处理实体词对应的第一搜索结果页时,可以通过对待处理实体词进行实时搜索来获取,还可以根据搜索日志记录来获取。

另外,本实施例在获取与待处理实体词对应的第一搜索结果页时,可以将预设数量的搜索结果页面作为第一搜索结果页,其中预设数量可以为一页,例如搜索结果首页,也可以为多页。本实施例对与待处理实体词对应的第一搜索结果页的数量不进行限定。

本实施例在获取与待处理实体词对应的第一搜索结果页之后,首先确定与第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,然后再获取与所确定的第二搜索结果页对应的查询词query,其中第二搜索结果页即使用所确定的查询词query作为搜索请求来获取的搜索结果页面。

因此,本实施例通过确定与待处理实体词具有相似的搜索结果页的查询词query,确保了从查询词query中所获取的同义词与待处理实体词具有相似的搜索需求,进一步提升了在使用同义词进行搜索时获取搜索结果的召回率。

具体地,本实施例在执行s102确定与第一搜索结果页的相似度满足第一预设条件的第二搜索结果页时,可以采用以下方式:确定第一搜索结果页中包含的url(uniformresourcelocator,统一资源定位符),各url即为搜索结果页面中对应各搜索结果的网页地址;获取历史搜索结果页,并确定所获取的历史搜索结果页中包含的url,其中可以通过搜索日志记录来获取历史搜索结果页;通过所确定的url,将第一搜索结果页与历史搜索结果页进行比较;根据比较结果,从历史搜索结果页中选取与第一搜索结果页具有相同url的数量超过预设阈值的搜索结果页,作为第二搜索结果页。

因此,本实施例通过搜索结果页中包含的url,来确定与第一搜索结果页相似的第二搜索结果页,使得第二搜索结果页与第一搜索结果页中包含的搜索结果尽可能相似,从而进一步确保了所获取的查询词query与待处理实体词具有相似的搜索需求。

另外,本实施例在执行s102确定与第一搜索结果页的相似度满足第一预设条件的第二搜索结果时,除了根据url之外,还可以根据搜索结果的标题,选取与第一搜索结果页具有相同标题的搜索结果的数量超过预设阈值的历史搜索结果页作为第二搜索结果页。

由于搜索日志记录中会存储有用户每次进行搜索时所使用的查询词query及其对应的搜索结果页,因此本实施例根据查询词query与搜索结果页之间的对应关系,能够获取与第二搜索结果页对应的查询词query。另外,本实施例所获取的查询词query可以有多个,也可以有一个,本实施例对查询词query的数量不进行限定。

本实施例在获取与第二搜索结果页对应的查询词query之后,从查询词query中选取满足第二预设条件的词语,将所选取的词语作为与待处理实体词对应的同义词。

其中,本实施例在执行s103选取查询词query中满足第二预设条件的词语时,可以采用以下方式:将查询词query进行切词,获取查询词query的切词结果;计算切词结果中各词语与待处理实体词之间的相似度,选取与待处理实体词具有最大相似度的词语,其中可以计算词语与待处理实体词之间的雅克比相似度。因此,本实施例通过选取与待处理实体词相似度最大的词语,能够提升同义词生成的准确性。

另外,本实施例中的第二预设条件还可以为选取查询词query中热度最高的词语、选取查询词query中预设词性的词语等。

本实施例的生成同义词的方法,通过与待处理实体词对应的第一搜索结果页来获取查询词query,然后选取查询词query中满足第二预设条件的词语作为待处理实体词的同义词,能够克服现有技术的不足,通过搜索结果来建立待处理实体词与同义词之间的关系,使得所获取的同义词与待处理实体词具有相似的搜索需求,进一步提升同义词生成的准确性。

图2是根据本申请第二实施例的示意图。如图2中所示,本实施例的生成同义词的方法,具体可以包括如下步骤:

s201、获取待处理实体词及其对应的第一搜索结果页;

s202、确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;

s203、选取所述查询词query中满足第二预设条件的词语作为候选词语,将所述候选词语与所述待处理实体词构成同义词候选对;

本实施例在从查询词query中选取满足第二预设条件的词语之后,将所选取的词语作为候选词语,从而与待处理实体词构成同义词候选对,即本实施例将所选取的词语作为待处理实体词的候选同义词。

s204、提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选,将筛选之后的同义词候选对中的候选词语,作为对应所述待处理实体词的同义词。

本实施例在将候选词语与待处理实体词构成同义词候选对之后,首先提取各同义词候选对的预设特征,然后根据所提取的预设特征对各同义词候选对进行筛选,最后将筛选之后的同义词候选对中的候选词语,作为对应待处理实体词的同义词。

也就是说,本实施例将从查询词query中所选取的词语进行二次筛选,能够避免由于获取了错误的查询词query所导致的候选词语与待处理实体词不具有同义关系的问题,进一步提升了同义词生成的准确性。

本实施例中的同义词候选对的预设特征,包括同义词候选对中两个词语的词语本身特征以及两个词语对应的搜索结果特征中的至少一种,其中词语本身特征包括词语的读音、语义等,搜索结果特征包括两个词语对应的搜索结果页中相同url的展现位置、相同url的标题等。

具体地,本实施例在提取同义词候选对的预设特征来筛选同义词候选对时,可以采用以下方式:从所构成的同义词候选对中选取预设数量的同义词候选对进行标注,其中标注结果用于表示该同义词候选对中的待处理实体词与候选词语是否同义,例如标注结果为1表示同义,标注结果为0则表示不同义;将所选取的同义词候选对的预设特征作为输入,将对应各同义词候选对的标注结果作为输出,训练分类模型,得到同义标注模型;将全部同义词候选对的预设特征分别输入同义标注模型,根据同义标注模型的输出结果来对各同义词候选对进行筛选,例如将输出结果小于预设阈值的同义词候选对进行过滤。其中,本实施例中的分类模型可以为随机森林模型、支持向量机等。

可以理解的是,本实施例也可以通过预先训练得到的同义标注模型来进行同义词候选对的筛选;还可以通过人工来设置筛选规则,从而将预设特征不满足筛选规则的同义词候选对进行过滤,其中人工设置的筛选规则可以为两个词语的读音相近、两个词语的语义相似、两个词语的搜索结果页中相同url的展现位置相同等。

本实施例的生成同义词的方法,在从查询词query中选取了候选词语之后,首先提取由候选词语与待处理实体词所构成同义词候选对的预设特征,然后根据所提取的预设特征进行同义词候选对的筛选,从而确保了所得到的同义词与待处理实体词之间存在准确的同义关系,进一步提升了同义词生成的准确性。

图3是根据本申请第三实施例的示意图。如图3中所示,本实施例的生成同义词的装置,包括:

获取单元301、用于获取待处理实体词及其对应的第一搜索结果页;

处理单元302、用于确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;

生成单元303、用于选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。

本实施例中的获取单元301获取的待处理实体词包括人名、地名、机构名、产品名、影视名、专有名词等具有特定意义的词语。本实施例中的获取单元301在获取待处理实体词时,可以将用户实时输入的词语作为待处理实体词,还可以获取预先存储在数据库中的词语作为待处理实体词。

本实施例中的获取单元301获取的与待处理实体词对应的第一搜索结果页,即为将待处理实体词作为搜索请求进行搜索之后所获取的搜索结果页面。本实施例中的获取单元301在获取与待处理实体词对应的第一搜索结果页时,可以通过对待处理实体词进行实时搜索来获取,还可以根据搜索日志记录来获取。

另外,本实施例中的获取单元301在获取与待处理实体词对应的第一搜索结果页时,可以将预设数量的搜索结果页面作为第一搜索结果页,其中预设数量可以为一页,例如搜索结果首页,也可以为多页。本实施例对与待处理实体词对应的第一搜索结果页的数量不进行限定。

本实施例中的获取单元301在获取了与待处理实体词对应的第一搜索结果页之后,由处理单元302首先确定与第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,然后再获取与所确定的第二搜索结果页对应的查询词query,其中第二搜索结果页即为使用所确定的查询词query作为搜索请求而获取的搜索结果页面。

也就是说,本实施例中的处理单元302通过确定与待处理实体词具有相似的搜索结果页的查询词query,从而确保了从查询词query中所获取的同义词与待处理实体词具有相似的搜索需求,进一步提升了在使用同义词进行搜索时获取搜索结果的召回率。

具体地,本实施例中的处理单元302在确定与第一搜索结果页相似的第二搜索结果页时,可以采用以下方式:确定第一搜索结果页中包含的url;获取历史搜索结果页,并确定所获取的历史搜索结果页中包含的url,其中可以通过搜索日志记录来获取历史搜索结果页;通过所确定的url,将第一搜索结果页与历史搜索结果页进行比较;根据比较结果,从历史搜索结果页中选取与第一搜索结果页具有相同url的数量超过预设阈值的搜索结果页,作为第二搜索结果页。

也就是说,本实施例中的处理单元302通过搜索结果页中包含的url,来确定与第一搜索结果页相似的第二搜索结果页,使得第二搜索结果页与第一搜索结果页中包含的搜索结果尽可能相似,从而进一步确保了所获取的查询词query与待处理实体词具有相似的搜索需求。

另外,本实施例中的处理单元302在确定与第一搜索结果页相似的第二搜索结果页时,除了根据url之外,还可以根据搜索结果标题,来选取与第一搜索结果页具有相同标题的搜索结果的数量超过预设阈值的历史搜索结果页作为第二搜索结果页。

由于搜索日志记录中会存储有用户每次进行搜索时所使用的查询词query及其对应的搜索结果页,因此本实施例中的处理单元302根据查询词query与搜索结果页之间的对应关系,能够获取与第二搜索结果页对应的查询词query。另外,本实施例中处理单元302所获取的查询词query可以有多个,也可以有一个,本实施例对查询词query的数量不进行限定。

本实施例中的处理单元302在获取了与第二搜索结果页对应的查询词query之后,由生成单元303选取查询词query中满足第二预设条件的词语,作为与待处理实体词对应的同义词。

其中,本实施例中的生成单元303在选取查询词query中满足第二预设条件的词语时,可以采用以下方式:将查询词query进行切词,获取查询词query的切词结果;计算切词结果中各词语与待处理实体词之间的相似度,选取与待处理实体词具有最大相似度的词语,其中可以计算词语与待处理实体词之间的雅克比相似度。因此,本实施例中的生成单元303通过选取与待处理实体词具有最大相似度的词语,能够提升同义词生成的准确性。

另外,本实施例中的生成单元303还可以选取查询词query中热度最高的词语、选取查询词query中预设词性的词语等。

本实施例中的生成单元303在选取查询词query中满足第二预设条件的词语,作为对应待处理实体词的同义词时,还可以采用以下方式:选取查询词query中满足第二预设条件的词语作为候选词语,将候选词语与待处理实体词构成同义词候选对;提取同义词候选对的预设特征,进行同义词候选对的筛选,将筛选之后的同义词候选对中的候选词语,作为对应待处理实体词的同义词。

本实施例中的生成单元303提取的同义词候选对的预设特征,包括同义词候选对中两个词语的词语本身特征以及两个词语对应的搜索结果特征中的至少一种,其中词语本身特征包括词语的读音、语义等,搜索结果特征包括两个词语对应的搜索结果页中相同url的展现位置、相同url的标题等。

具体地,本实施例中的生成单元303在提取同义词候选对的预设特征来筛选同义词候选对时,可以采用以下方式:从所构成的同义词候选对中选取预设数量的同义词候选对进行标注;将所选取的同义词候选对的预设特征作为输入,将对应各同义词候选对的标注结果作为输出,训练分类模型,得到同义标注模型;将全部同义词候选对的预设特征分别输入同义标注模型,根据同义标注模型的输出结果来对各同义词候选对进行筛选。

可以理解的是,本实施例中的生成单元303也可以通过预先训练得到的同义标注模型来进行同义词候选对的筛选;还可以通过人工来设置筛选规则,从而将预设特征不满足筛选规则的同义词候选对进行过滤。

根据本申请的实施例,本申请还提供了一种电子设备和一种计算机可读存储介质。

如图4所示,是根据本申请实施例的生成同义词的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示,该电子设备包括:一个或多个处理器401、存储器402,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。

存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的生成同义词的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的生成同义词的方法。

存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的生成同义词的方法对应的程序指令/模块(例如,附图3所示的获取单元301、处理单元302以及生成单元303)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的生成同义词的方法。

存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据的电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至生成同义词的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

生成同义词的方法的电子设备还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息,以及产生与生成同义词的方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案,通过与待处理实体词对应的第一搜索结果页来获取查询词query,然后选取查询词query中满足第二预设条件的词语作为待处理实体词的同义词,能够克服现有技术的不足,通过搜索结果来建立待处理实体词与同义词之间的关系,使得所获取的同义词与待处理实体词具有相似的搜索需求,进一步提升同义词生成的准确性。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1