搜索语句扩展方法、装置以及电子设备与流程

文档序号:25586783发布日期:2021-06-22 17:02阅读:185来源:国知局
搜索语句扩展方法、装置以及电子设备与流程

本申请涉及计算机技术领域,具体而言,本申请涉及一种搜索语句扩展方法、装置以及电子设备。



背景技术:

用户输入搜索语句后系统自动反馈搜索结果是目前一种常见的搜索方式,而人类的语言丰富多彩,相同的问题往往有多种不同的提问方式,如何基于用户的搜索语句进行扩展得到以其他提问方式提问的搜索语句一直是人们所关注的。

目前,一种搜索语句的扩展的方案是,将原搜索语句的词语进行同义词简单替换,但是,简单形式替换得到的扩展语句形式单一,并且可能不符合用户常规搜索语句的语句习惯,导致系统无法识别扩展语句。



技术实现要素:

本申请的第一方面提供了一种搜索语句扩展的方法,该方法包括:

获取搜索语句;

通过预置模型,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句;对话记录数据库中存储有多个用户的历史搜索语句;

分别确定多条历史搜索语句与搜索语句的匹配度;

基于匹配度,从多条历史搜索语句中确定出目标历史搜索语句;

将目标历史搜索语句标记为搜索语句的扩展语句。

可选的,通过预置模型,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句,包括:

通过预置模型,基于对话记录数据库中各条历史搜索语句的关键词、各条历史搜索语句分别与搜索语句的语义相似度中至少一项,确定各条历史搜索语句与搜索语句之间的第一匹配度;

基于第一匹配度,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句。

可选的,通过预置模型,基于对话记录数据库中各条历史搜索语句的关键词、各条历史搜索语句分别与搜索语句的语义相似度中至少一项,确定条各历史搜索语句与搜索语句之间的第一匹配度,包括:

从对话记录数据库中确定出与搜索语句属于同一类别的多条第一历史搜索语句;

通过预置模型,基于多条第一历史搜索语句中各条历史搜索语句的关键词、以及各条历史搜索语句分别与搜索语句的语义相似度中至少一项,确定各条历史搜索语句与搜索语句之间的第一匹配度。

可选的,基于第一匹配度,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句,包括:

基于第一匹配度,从对话记录数据库中确定出与搜索语句相关联的第二历史搜索语句;

从对话记录数据库中,确定出答案信息与第二历史搜索语句的答案信息相似的第三历史搜索语句;

将第二历史搜索语句与对应的第三历史搜索语句作为多条历史搜索语句。

可选的,分别确定多条历史搜索语句与搜索语句的匹配度,包括以下任一项:

将多条历史搜索语句中各条历史搜索语句的第一匹配度作为对应的匹配度;

基于多条历史搜索语句中各条历史搜索语句的关键词、各条历史搜索语句分别与搜索语句的语义相似度中至少一项,对各条历史搜索语句进行分类,基于分类结果得到各条历史搜索语句分别与搜索语句的匹配度。

可选的,基于匹配度,从多条历史搜索语句中确定出目标历史搜索语句之后,方法还包括:

将匹配度低于匹配度阈值的历史搜索语句发送至评分终端;

接收评分终端返回的评价结果;

基于评价结果,从匹配度低于匹配度阈值的历史搜索语句中确定出正例搜索语句以及负例搜索语句;

基于正例搜索语句、负例搜索语句以及搜索语句,对预置模型进行训练。

本申请的第二方面提供了一种搜索语句扩展装置,该装置包括:

获取模块,用于获取搜索语句;

第一确定模块,用于通过预置模型,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句;对话记录数据库中存储有多个用户的历史搜索语句;

第二确定模块,用于分别确定多条历史搜索语句与搜索语句的匹配度;

第三确定模块,用于基于匹配度,从多条历史搜索语句中确定出目标历史搜索语句;

标记模块,用于将目标历史搜索语句标记为搜索语句的扩展语句。

可选的,第一确定模块,具体用于:

通过预置模型,基于对话记录数据库中各条历史搜索语句的关键词、各条历史搜索语句分别与搜索语句的语义相似度中至少一项,确定各条历史搜索语句与搜索语句之间的第一匹配度;

基于第一匹配度,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句。

可选的,第一确定模块在通过预置模型,基于对话记录数据库中各条历史搜索语句的关键词、各条历史搜索语句分别与搜索语句的语义相似度中至少一项,确定条各历史搜索语句与搜索语句之间的第一匹配度时,具体用于:

从对话记录数据库中确定出与搜索语句属于同一类别的多条第一历史搜索语句;

通过预置模型,基于多条第一历史搜索语句中各条历史搜索语句的关键词、以及各条历史搜索语句分别与搜索语句的语义相似度中至少一项,确定各条历史搜索语句与搜索语句之间的第一匹配度。

可选的,第一确定模块在基于第一匹配度,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句时,具体用于:

基于第一匹配度,从对话记录数据库中确定出与搜索语句相关联的第二历史搜索语句;

从对话记录数据库中,确定出答案信息与第二历史搜索语句的答案信息相似的第三历史搜索语句;

将第二历史搜索语句与对应的第三历史搜索语句作为多条历史搜索语句。

可选的,第二确定模块,具体用于执行以下任一项的操作:

将多条历史搜索语句中各条历史搜索语句的第一匹配度作为对应的匹配度;

基于多条历史搜索语句中各条历史搜索语句的关键词、各条历史搜索语句分别与搜索语句的语义相似度中至少一项,对各条历史搜索语句进行分类,基于分类结果得到各条历史搜索语句分别与搜索语句的匹配度。

可选的,该装置还包括发送模块、接收模块、第四确定模块以及模型训练模块;在第三确定模块基于匹配度,从多条历史搜索语句中确定出目标历史搜索语句之后;

发送模块,用于将匹配度低于匹配度阈值的历史搜索语句发送至评分终端;

接收模块,用于接收评分终端返回的评价结果;

第四确定模块,用于基于评价结果,从匹配度低于匹配度阈值的历史搜索语句中确定出正例搜索语句以及负例搜索语句;

模型训练模块,用于基于正例搜索语句、负例搜索语句以及搜索语句,对预置模型进行训练。

本申请实施例的第三方面,提供了一种电子设备,该电子设备包括存储器和处理器;存储器中存储有计算机程序;处理器用于在运行计算机程序时执行第一方面及其可选的实施方式中任一项的方法。

本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现第一方面及其可选的实施方式中任一项的方法。

本申请提供的技术方案带来的有益效果是:

本申请获取搜索语句后,通过预置模型,可以从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句,对话记录数据库中的历史搜索语句是用户历史输入的,语言形式比较多样化,可见这种方式确定的多条历史搜索语句避免了同义词简单替换所带来的扩展语句形式单一的问题,同时从对话记录数据库中确定的历史搜索语句也符合用户常规的语句习惯,机器更容易识别。进一步本申请还可以确定多条历史搜索语句分别与搜索语句的匹配度,从而基于匹配度,从多条历史搜索语句中确定出目标历史搜索语句,可以将目标历史搜索语句标记为搜索语句的扩展语句,可见,本申请可以筛选出与搜索语句匹配度更高的目标历史搜索语句,提升了所确定的扩展语句的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请一个实施例提供的一种搜索语句扩展方法的流程示意图;

图2为本申请另一实施例提供的一种搜索语句扩展方法的流程示意图;

图3为本申请实施例提供的一种搜索语句扩展方法的场景示意图;

图4为本申请另一实施例提供的一种搜索语句扩展方法的流程示意图;

图5为本申请实施例提供的一种搜索语句扩展装置的结构示意图;

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释:

自然语言处理(naturallanguageprocessing,nlp)属于计算机科学领域与人工智能领域,其研究使用计算机编程来处理与理解人类的语言。

决策树模型(或分类模型)是一种树形结构,其中每个节点(包括根节点和叶子结点,最上层节点为根节点)表示一个特征上的测试,根据测试输出结果选择分叉路径,从而将待分类的对象划分为不同类别。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

本申请的搜索语句扩展方法,可以应用于终端,也可以应用于服务器。其中,终端可以台式终端或移动终端,例如手机、平板以及台式电脑等中至少一项,服务器可以包括虚拟服务器,也可以是实体服务器。

请参照图1和图2,本申请公开了一种搜索语句扩展方法,该方法可以用于终端或服务器,该方法可以包括:

步骤s101、获取搜索语句;

用于进行搜索语句扩展的终端或服务器接收用户输入的、或其他终端发送的搜索语句。

在本实施例中,搜索语句可以是一个问题,而搜索语句可以用不同的语句形式表达出同一语义,因此,本申请可以针对该搜索语句确定出语义类似的扩展语句。

步骤s102、通过预置模型,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句;对话记录数据库中存储有多个用户的历史搜索语句;

在本实施例中,终端可以将搜索语句输入到预置模型,以便于预置模型基于对话记录数据库中历史搜索语句与搜索语句之间的第一匹配度,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句。

对话记录数据库中存储有多个用户的对话记录,每个用户的对话记录中包括每个用户的历史搜索语句,其中,对话记录可以是用户的语音通话记录以及文字聊天记录中至少一项。

步骤s103、分别确定多条历史搜索语句与搜索语句的匹配度;

在本实施例中,可以将多条历史搜索语句中各条历史搜索语句与搜索语句之间的第一匹配度作为匹配度,也可以得到多条历史搜索语句后,重新确定各历史搜索语句与搜索语句之间的匹配度,此时确定的匹配度不等于第一匹配度,具体实现方式将在后面的实施例中介绍。

步骤s104、基于匹配度,从多条历史搜索语句中确定出目标历史搜索语句;

本申请筛选得到多条历史搜索语句后,还可以针对各条历史搜索语句与搜索语句之间的匹配度,将匹配度大于匹配度预置的历史搜索语句作为目标搜索语句,以此得到一条或多条目标历史搜索语句。

步骤s105、将目标历史搜索语句标记为搜索语句的扩展语句。

可见,本申请获取搜索语句后,通过预置模型,可以从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句,对话记录数据库中的历史搜索语句是用户历史输入的,语言形式比较多样化,可见这种方式确定的多条历史搜索语句避免了同义词简单替换所带来的扩展语句形式单一的问题,同时从对话记录数据库中确定的历史搜索语句也符合用户常规的语句形式,机器更容易识别。进一步本申请还可以确定多条历史搜索语句分别与搜索语句的匹配度,从而基于匹配度,从多条历史搜索语句中确定出目标历史搜索语句,可以将目标历史搜索语句标记为搜索语句的扩展语句,可见,本申请可以筛选出与搜索语句匹配度更高的目标历史搜索语句,提升了所确定的扩展语句的准确度。

进一步的,步骤s102通过预置模型,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句,可以包括:

通过预置模型,基于对话记录数据库中各条历史搜索语句的关键词、以及各条历史搜索语句分别与搜索语句的语义相似度中至少一项,确定各条历史搜索语句与搜索语句之间的第一匹配度;

基于第一匹配度,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句。

针对任一历史搜索语句,终端确定对话记录数据库中该历史搜索语句的关键词,并确定该历史搜索语句与搜索语句的语义相似度,从而将关键词和语义相似度中至少一项输入至预置模型,以便于预置模型确定该历史搜索语句与搜索语句之间的第一匹配度。

语义相似度指的是两条搜索语句之间的语义相似程度,可以基于搜索语句的词向量得到搜索语句的句向量,通过余弦相似度算法计算两搜索语句的句向量之间的相似度,以作为搜索语句之间的语义相似度。

确定对话记录数据库中历史搜索语句与搜索语句之间的第一匹配度后,可以基于该第一匹配度,从对话记录数据库中确定出第一匹配度大于对应的匹配度阈值的多条历史搜索语句作为与搜索语句相关联的多条历史搜索语句。

需要说明的是,确定搜索语句与历史搜索语句之间的匹配度之前,还可以对搜索语句进行预处理,例如分词、去除停用词、同义词替换,纠错以及归一化处理等中至少一项,对历史搜索语句进行分词以及归一化处理等中至少一项。

进一步的,上述预置模型确定历史搜索语句与搜索语句之间的第一匹配度,具体包括:

预置模型基于搜索语句的关键词,确定历史搜索语句中的关键词,可以基于关键词与评估结果的对应关系表确定历史搜索语句中关键词的评估结果,评估结果可以是关键词的得分,基于该评估结果以及语义相似度确定历史搜索语句与搜索语句之间的第一匹配度。

进一步的,基于该评估结果以及语义相似度确定历史搜索语句与搜索语句之间的第一匹配度可以通过如下算法公式得到:

历史搜索语句与搜索语句之间的第一匹配度=历史搜索语句的关键词的得分*系数1+语义相似度的得分*系数2;

系数1和系数2可以根据需要设置,可以将系数1或系数2设置为0。

参照图3,本申请的一种可能的场景是:用户输入用户的搜索语句(用户query),例如用户输入“买数据”,终端对用户query进行归一化处理,并进行分词和词向量计算得到词向量,基于词向量可以计算得到搜索语句的句向量,终端通过预置模型进行向量检索,预置模型可以确定搜索语句的句向量与对话记录数据库中各条历史搜索语句的句向量之间的相似度,将该相似度作为搜索语句与该历史搜索语句之间的相似度,以检索得到多条历史搜索语句,将多条历史搜索语句作为返回结果返回,例如搜索得到的历史搜索语句可以是“开通流量包”。

更进一步的,上述预置模型确定多条历史搜索语句具体包括如下三种可能的情况:

可能的情况1:

如上述,可以确定对话记录数据库中每条历史搜索语句分别与搜索语句之间的第一匹配度,从而基于第一匹配度按照上述方式从对话记录数据库的所有历史搜索语句中确定出多条历史搜索语句;

可能的情况2:

可选的,通过预置模型,基于对话记录数据库中各条历史搜索语句的关键词、各条历史搜索语句分别与搜索语句的语义相似度中至少一项,确定条各历史搜索语句与搜索语句之间的第一匹配度,包括:

从对话记录数据库中确定出与搜索语句属于同一类别的多条第一历史搜索语句;

通过预置模型,基于多条第一历史搜索语句中各条历史搜索语句的关键词、以及各条历史搜索语句分别与搜索语句的语义相似度中至少一项,确定各条历史搜索语句与搜索语句之间的第一匹配度。

在本实施例中,对话记录数据库中包括多个类别的历史搜索语句,终端可以先从对话记录数据库中确定出与该搜索语句属于同一类别的第一历史搜索语句,这样终端通过该预置模型,可以基于多条第一历史搜索语句中各历史搜索语句的关键词以及语义相似度中至少一项,确定各条历史搜索语句与搜索语句之间的第一匹配度,从而基于第一匹配度按照上述方式确定多条历史搜索语句。

在本实施例中,可以将对话记录数据库中包含同一特定关键词集合中特定关键词的历史搜索语句划分为一个类别,例如,包含特定关键词“流量”的历史搜索语句可以划分为一个类别,包含特定关键词“话费”的历史搜索语句可以划分为另一个类别。

可见,本申请可以将对话记录数据库中的历史搜索语句进行类别划分,这样缩小了预置模型确定与搜索语句相关联的多条历史搜索语句的检索范围,加快了预置模型的检索效率。

可能的情况3:

可选的,基于第一匹配度,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句,包括:

基于第一匹配度,从对话记录数据库中确定出与搜索语句相关联的第二历史搜索语句;

从对话记录数据库中,确定出答案信息与第二历史搜索语句的答案信息相似的第三历史搜索语句;

将第二历史搜索语句与对应的第三历史搜索语句作为多条历史搜索语句。

如上述,确定对话记录数据库中每条历史搜索语句分别与搜索语句之间的第一匹配度之后,终端可以基于该第一匹配度,先从对话记录数据库中确定出第一匹配度大于对应匹配度阈值的第二历史搜索语句。

上述每一用户的对话记录中还包括每一历史搜索语句的答案信息,则终端还可以基于第二历史搜索语句,从对话记录中确定出答案信息与第二历史搜索语句的答案相似的一条或多条第三历史搜索语句。

在本实施例中,终端可以通过判断两答案信息中内容的重复度来确定两答案信息是否相似,例如两答案信息的内容重复度达到某一阈值,则两答案信息相似;终端还可以通过判断两答案信息的语义相似度来确定两答案信息是否相似。

终端可以将第二历史搜索语句以及对应的第三历史搜索语句共同作为与搜索语句相关联的多条历史搜索语句。

可见,在本实施例中,充分利用了对话记录数据库中历史搜索语句的答案信息来检索得到与历史搜索语句相关联的多条历史搜索语句,可以实现搜索语句的扩展。

可选的,步骤s103分别确定多条历史搜索语句与搜索语句的匹配度,包括以下任一项:

将多条历史搜索语句中各条历史搜索语句的第一匹配度作为对应的匹配度;

基于多条历史搜索语句中各条历史搜索语句的关键词、各条历史搜索语句分别与搜索语句的语义相似度中至少一项,对各条历史搜索语句进行分类,基于分类结果得到各条历史搜索语句分别与搜索语句的匹配度。

本实施例包括如下至少五种可能的情况:

可能的情况一:上述基于语义相似度以及关键词中至少一项得到历史搜索语句与搜索语句之间的第一匹配度后,可以直接将第一匹配度作为该匹配度;

这种情况下,预置模型指的是第一神经网络模型。

而在其他几种可能的情况下,预置模型包括第一神经网络模型以及第二神经网络模型,或预置模型可以包括第一神经网络模型以及分类模型,上述从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句是由第一神经网络模型实现的,而步骤s103基于匹配度,从多条历史搜索语句中确定出目标历史搜索语句是由第二神经网络模型或分类模型实现的,则:

可能的情况二:终端将多条历史搜索语句中各条历史搜索语句的关键词、各条历史搜索语句分别与搜索语句的语义相似度中至少一项输入到分类模型进行分类,对各条历史搜索语句进行分类得到分类结果,分类结果中包括历史搜索语句分类为某一类别后属于该类别的概率,将该概率作为历史搜索语句分别与搜索语句之间的匹配度;

可能的情况三:通过第二神经网络模型或分类模型,基于各条历史搜索语句分别与搜索语句的词向量相似度以及关键词,得到历史搜索语句与搜索语句之间匹配度。

可能的情况四:通过第二神经网络模型或分类模型,基于各条历史搜索语句分别与搜索语句的词向量相似度,得到历史搜索语句与搜索语句之间匹配度;

可能的情况五:通过第二神经网络模型或分类模型,基于词向量、语义相似度以及关键词得到历史搜索语句与搜索语句之间的匹配度;

需要说明的是,可能的情况一至可能的情况四,语义相似度可以是由词向量转化为句向量后,计算句向量相似度得到的,但是在可能的请假五时,语义相似度与词向量相似度并不相关,语义相似度并不是通过上述由词向量转化为句向量后计算得到。

可选的,基于匹配度,从多条历史搜索语句中确定出目标历史搜索语句之后,方法还包括:

将匹配度低于匹配度阈值的历史搜索语句发送至评分终端;

接收评分终端返回的评价结果;

基于评价结果,从匹配度低于匹配度阈值的历史搜索语句中确定出正例搜索语句以及负例搜索语句;

基于正例搜索语句、负例搜索语句以及搜索语句,对预置模型进行训练。

终端可以将匹配度高于匹配度阈值的历史搜索语句自动标注为扩展语句,并将扩展语句存储于知识库;

终端可以将匹配度低于匹配度阈值的历史搜索语句发送至评分终端由人工进行审核,评分终端可以从匹配度低于匹配度阈值的历史搜索语句确定出与搜索语句相匹配的正例搜索语句以及与搜索语句不匹配的负例搜索语句,预置模型是已通过训练得到的模型,终端基于该正例搜索语句、负例搜索语句以及搜索语句,进一步迭代增强预置模型以实现预置模型的完善和优化。

在本实施例中,终端还可以可以将正例搜索语句存储于指知识库中。

在本实施例中,进一步迭代增强预置模型可以是:迭代增强第一神经网络模型以及第二神经网络模型,或迭代增强第一神经网络模型以及分类模型;还可以是仅迭代增强第二神经网络模型或分类模型。

可见,本申请给出了几种可能的优化模型的实现方式,增加了方案实施的灵活性,同时可以得到准确度更高的扩展语句。

本申请可以应用于用户向网络运行商进行业务咨询的场景下,网络运行商通过预置模型自动识别用户提问,并扩展出多个扩展问题,从而基于用户提问以及扩展提问,向用户返回更加符合用户意图的答案。

例如,用户query为“查账单”,则可以得到扩展语句“我的话费都花到哪去了”、“看看我消费了多少钱”以及“看看我的账单”等;

可见,通过本申请的方案网络运营商可以智能处理用户提问,一定程度上减轻了对人工服务的需求,节省了人力资源。

请参照图5,图5为本申请又一实施例提供的一种搜索语句扩展装置的结构示意图,本实施例的装置可以包括:

获取模块501,用于获取搜索语句;

第一确定模块502,用于通过预置模型,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句;对话记录数据库中存储有多个用户的历史搜索语句;

第二确定模块503,用于分别确定多条历史搜索语句与搜索语句的匹配度;

第三确定模块504,用于基于匹配度,从多条历史搜索语句中确定出目标历史搜索语句;

标记模块505,用于将目标历史搜索语句标记为搜索语句的扩展语句。

可选的,第一确定模块502,具体用于:

通过预置模型,基于对话记录数据库中各条历史搜索语句的关键词、各条历史搜索语句分别与搜索语句的语义相似度中至少一项,确定各条历史搜索语句与搜索语句之间的第一匹配度;

基于第一匹配度,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句。

可选的,第一确定模块502在通过预置模型,基于对话记录数据库中各条历史搜索语句的关键词、各条历史搜索语句分别与搜索语句的语义相似度中至少一项,确定条各历史搜索语句与搜索语句之间的第一匹配度时,具体用于:

从对话记录数据库中确定出与搜索语句属于同一类别的多条第一历史搜索语句;

通过预置模型,基于多条第一历史搜索语句中各条历史搜索语句的关键词、以及各条历史搜索语句分别与搜索语句的语义相似度中至少一项,确定各条历史搜索语句与搜索语句之间的第一匹配度。

可选的,第一确定模块502在基于第一匹配度,从对话记录数据库中确定出与搜索语句相关联的多条历史搜索语句时,具体用于:

基于第一匹配度,从对话记录数据库中确定出与搜索语句相关联的第二历史搜索语句;

从对话记录数据库中,确定出答案信息与第二历史搜索语句的答案信息相似的第三历史搜索语句;

将第二历史搜索语句与对应的第三历史搜索语句作为多条历史搜索语句。

可选的,第二确定模块503,具体用于执行以下任一项的操作:

将多条历史搜索语句中各条历史搜索语句的第一匹配度作为对应的匹配度;

基于多条历史搜索语句中各条历史搜索语句的关键词、各条历史搜索语句分别与搜索语句的语义相似度中至少一项,对各条历史搜索语句进行分类,基于分类结果得到各条历史搜索语句分别与搜索语句的匹配度。

可选的,该装置还包括发送模块、接收模块、第四确定模块以及模型训练模块;在第三确定模块504基于匹配度,从多条历史搜索语句中确定出目标历史搜索语句之后;

发送模块,用于将匹配度低于匹配度阈值的历史搜索语句发送至评分终端;

接收模块,用于接收评分终端返回的评价结果;

第四确定模块,用于基于评价结果,从匹配度低于匹配度阈值的历史搜索语句中确定出正例搜索语句以及负例搜索语句;

模型训练模块,用于基于正例搜索语句、负例搜索语句以及搜索语句,对预置模型进行训练。

本实施例的搜索语句扩展装置可执行本申请上述任一实施例所示的搜索语句扩展方法,其实现原理相类似,此处不再赘述。

在一个可选实施例中提供了一种电子设备,例如上述所示终端或服务器,如图6所示,图6所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是cpu(centralprocessingunit,中央处理器),通用处理器,dsp(digitalsignalprocessor,数据信号处理器),asic(applicationspecificintegratedcircuit,专用集成电路),fpga(fieldprogrammablegatearray,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。

总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheralcomponentinterconnect,外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是rom(readonlymemory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(randomaccessmemory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electricallyerasableprogrammablereadonlymemory,电可擦可编程只读存储器)、cd-rom(compactdiscreadonlymemory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1