一种确定应答信息的方法和装置与流程

文档序号:20775997发布日期:2020-05-19 20:46阅读:118来源:国知局
一种确定应答信息的方法和装置与流程
本申请涉及互联网
技术领域
,特别涉及一种确定应答信息的方法和装置。
背景技术
:随着自然语言处理(nlp,naturallanguageprocessing)技术的发展,常见问题解答(faq,frequentlyaskedquestions)问答系统得以在各行各业的客服工作中被广泛使用。例如,在手机银行的客服业务中,用户在手机银行中输入需要咨询的问题后,手机银行会通过faq问答系统检索该问题的答案,返回给用户,该过程无需人工客服参与,节省了大量人力,同时提高了用户咨询效率。当前的faq问答系统,通常采用弹性搜索(es,elasticsearch)检索系统实现。es检索系统通常会使用到faq知识库,在该faq知识库中需要存储有相似问和对应的答案。其中,相似问是由不同表达方式、不同语言组织形式组成的一类问题的表述,实质都是指同一个问题。例如,这件衣服多少钱、这件衣服的价钱是多少、多少钱可以买到这件衣服,这三个问题实质都是在问这件衣服的价钱,则这三个问题互为相似问。在使用es检索系统实现faq问答系统时,通常包括如下步骤:获取到用户输入的问题,对问题进行分词处理,得到多个关键词。然后,根据关键词在faq知识库中检索出该问题对应的候选相似问。此处,在faq知识库中包含上述检索的关键词的相似问均可以作为该问题的候选相似问。再然后,es检索系统可以对候选相似问进行打分,并按照分数由高到低的顺序对候选相似问进行排序。之后,将排在前k的候选相似问作为该问题的相似问,并检索该问题的各相似问对应的答案,返回给用户。在实现本申请的过程中,发明人发现相关技术至少存在以下问题:上述方法中,根据关键词检索到的不同相似问可能并非指同一问题,那么,返回给用户的答案中可能会有存在多个答案,用户需要自己在这些答案中找到自己需要的正确答案,可见,用户得到需要的正确答案的过程繁琐,需要人工参与,效率较低。技术实现要素:为了解决相关技术中确定答案的效率较低的问题,本申请实施例提供了一种确定应答信息的方法和装置。所述技术方案如下:第一方面、提供了一种确定应答信息的方法,该方法包括:获取提问信息;通过es检索系统获取到所述提问信息对应的k个第一候选相似问,其中,k为预设正整数,所述k个第一候选相似问为所述es检索系统检索到的候选相似问中,与所述提问信息的相似程度最高的k个相似问;将所述提问信息和所述k个第一候选相似问作为输入数据集,输入训练后的多个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二候选相似问;在与所述提问信息的相似程度最高的第一候选相似问,以及每个目标分类器模型输出的第二候选相似问中,确定所述提问信息对应的预测真实相似问;在预先存储的相似问和应答信息的对应关系中,获取所述预测真实相似问对应的应答信息,作为所述提问信息对应的应答信息。本申请实施例所示的方案中,用户可以通过终端向用于检索应答信息的服务器发送提问信息。服务器通过es检索系统检到k个候选相似问。es检索系统在检索候选相似问时,可以采用现有的检索逻辑,根据提问信息对es检索库中相似问进行评分,将评分最高的k个第一候选相似问返回给服务器。服务器可以再将k个第一候选相似问和提问信息作为一组输入,输入到每个训练后的目标分类器模型中。每个目标分类器模型输出一个第二候选相似问,第二候选相似问为k个第一候选相似问中的一个候选相似问。然后,服务器可以根据综合es检索系统检索到的与提问信息的相似程度最高的第一候选相似问,以及多个目标分类器模型各自输出的第二候选相似问,来确定出提问信息对应的预测真实相似问。例如,可以统计出上述与提问信息的相似程度最高的第一候选相似问和第二候选相似问中,每种相同的候选相似问的数目。将最大数目对应的候选相似问,确定提问信息对应的预测真实相似问。最后,可以在存储的相似问和应答信息的对应关系中,查询该预测真实相似问对应的应答信息,作为提问信息对应的应答信息。通过本申请实施例提供的方法,根据分类器模型输出的第二候选相似问,以及k个第一候选相似问中与提问信息的相似程度最高的第一候选相似问,综合决策得到一个预测真实相似问,并该预测真实相似问对应的应答信息返回给用户。这样,无需用户自己在多个应答信息中自己选择,可以提高用户获取应答信息的效率。在一种可能的实现方式中,所述方法还包括:建立训练样本库,其中,所述训练样本库中包括有多组训练相似问,每组中各训练相似问对应的应答信息相同;在所述训练样本库中获取训练相似问作为训练提问信息,通过es检索系统在所述训练样本库中获取到所述训练提问信息对应的h个训练候选相似问,其中,h为预设正整数,所述h个训练候选相似问为所述es检索系统检索到的训练候选相似问中,与所述训练提问信息的相似程度最高的h个训练候选相似问;将所述h个训练候选相似问中所述训练提问信息对应的真实相似问作为单组正例样本,在除所述单组正例样本以外的训练候选相似问中,选取出负例样本;将所述负例样本分为m组,将每组负例样本、所述单组正例样本和训练提问信息作为一组样本输入,其中,m为预设正整数;基于m组样本输入,分别对m个待训练的目标分类器模型进行训练,得到训练后的m个目标分类器模型。本申请实施例所示的方案中,目标分类器模型可以为词袋(bow,bagofwords)模型,卷积神经网络(cnn,convolutionalneuralnetworks)模型,深度神经网络(dnn,deepneuralnetworks)模型等,不同的目标分类器模型可以为不同类型的模型。在使用这些目标分类器模型之前,需要对其进行训练,得到训练后的目标分类器模型。在一种可能的实现方式中,所述方法还包括:建立测试样本库,其中,所述测试样本库中包括有多组测试相似问,每组中的各测试各相似问对应的应答信息相同;在所述测试样本库中获取多个测试相似问作为测试提问信息;对于每个测试提问信息,通过es检索系统在所述测试样本库中获取到所述测试提问信息对应的k个第一测试相似问,将所述测试提问信息和所述k个第一测试相似问作为输入测试集,输入训练后的m个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二测试相似问;对于每个目标分类器模型,根据各第二测试相似问是否为测试提问信息对应的真实相似问,确定所述目标分类器模型的准确度;根据每个目标分类器模型的准确度,在所述训练后的m个目标分类器模型中,确定出多个待使用的目标分类器模型。本申请实施例所示的方案中,在对目标分类器模型进行训练后,为了获知训练后的目标分类器模型的准确度,可以对训练后的目标分类器模型进行测试,以确定出每个训练后的目标分类器模型的准确度。在一种可能的实现方式中,所述根据每个目标分类器模型的准确度,在所述训练后的m个目标分类器模型中,确定出多个待使用的目标分类器模型,包括:根据每个目标分类器模型的准确度,确定所述训练后的m个目标分类器模型的准确度均值,将准确度大于所述准确度均值的目标分类器模型,作为待使用的目标分类器模型。在一种可能的实现方式中,所述根据每个目标分类器模型的准确度,在所述训练后的m个目标分类器模型中,确定出多个待使用的目标分类器模型,包括:根据每个目标分类器模型的准确度,确定所述训练后的m个目标分类器模型的准确度均值和准确度标准差;计算所述准确度均值和所述准确度标准差之间的差值绝对值,将准确度大于所述差值绝对值的目标分类器模型,作为待使用的目标分类器模型。本申请实施例所示的方案中,对训练后的目标分类器模型进行测试后,可以根据每个目标分类器模型的准确度,在m个训练后的目标分类器模型中,选取出待使用的目标分类器模型。这样,可以使确定预测真实相似问的准确性更高。在一种可能的实现方式中,所述方法还包括:根据与所述各测试提问信息的相似程度最高的第一候选相似问,是否为所述测试提问信息对应的真实相似问,确定所述es检索系统的准确度;根据待使用的目标分类器模型的准确度和所述es检索系统的准确度,确定每个待使用的目标分类器模型的决策权重,与所述es检索系统的决策权重;所述在与所述提问信息的相似程度最高的第一候选相似问,以及每个目标分类器模型输出的所述提问信息对应的第二候选相似问中,确定所述提问信息对应的预测真实相似问,包括:确定出各第二候选相似问和与所述提问信息的相似程度最高的第一候选相似问中相同的候选相似问,对于每个相同的目标候选相似问,确定所述目标候选相似问对应的目标分类器模型或者es检索系统的决策权重之和;将所述决策权重之和最大的目标候选相似问,确定为所述提问信息对应的预测真实相似问。本申请实施例所示的方案中,根据待使用的目标分类器模型的准确度,可以确定每个待使用的目标分类器模型的决策权重。同样的,对于es检索系统也可以根据其准确度,确定对应的决策权重。这样,在最后综合决策预测真实相似问时,可以将每个目标分类器模型的决策权重和es检索系统的决策权重也考虑在内,进一步提高了确定预测真实相似问的准确性。第二方面、提供了一种确定应答信息的装置,该述装置包括:获取模块,用于获取提问信息;检索模块,用于通过es检索系统获取到所述提问信息对应的k个第一候选相似问,其中,k为预设正整数,所述k个第一候选相似问为所述es检索系统检索到的候选相似问中,与所述提问信息的相似程度最高的k个相似问;输入模块,用于将所述提问信息和所述k个第一候选相似问作为输入数据集,输入训练后的多个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二候选相似问;确定模块,用于在与所述提问信息的相似程度最高的第一候选相似问,以及每个目标分类器模型输出的第二候选相似问中,确定所述提问信息对应的预测真实相似问;应答模块,用于在预先存储的相似问和应答信息的对应关系中,获取所述预测真实相似问对应的应答信息,作为所述提问信息对应的应答信息。在一种可能的实现方式中,所述装置还包括训练模块,用于:建立训练样本库,其中,所述训练样本库中包括有多组训练相似问,每组中各训练相似问对应的应答信息相同;在所述训练样本库中获取训练相似问作为训练提问信息,通过es检索系统在所述训练样本库中获取到所述训练提问信息对应的h个训练候选相似问,其中,h为预设正整数,所述h个训练候选相似问为所述es检索系统检索到的训练候选相似问中,与所述训练提问信息的相似程度最高的h个训练候选相似问;将所述h个训练候选相似问中所述训练提问信息对应的真实相似问作为单组正例样本,在除所述单组正例样本以外的训练候选相似问中,选取出负例样本;将所述负例样本分为m组,将每组负例样本、所述单组正例样本和训练提问信息作为一组样本输入,其中,m为预设正整数;基于m组样本输入,分别对m个待训练的目标分类器模型进行训练,得到训练后的m个目标分类器模型。在一种可能的实现方式中,所述装置还包括测试模块,用于:建立测试样本库,其中,所述测试样本库中包括有多组测试相似问,每组中的各测试各相似问对应的应答信息相同;在所述测试样本库中获取多个测试相似问作为测试提问信息;对于每个测试提问信息,通过es检索系统在所述测试样本库中获取到所述测试提问信息对应的k个第一测试相似问,将所述测试提问信息和所述k个第一测试相似问作为输入测试集,输入训练后的m个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二测试相似问;对于每个目标分类器模型,根据各第二测试相似问是否为测试提问信息对应的真实相似问,确定所述目标分类器模型的准确度;根据每个目标分类器模型的准确度,在所述训练后的m个目标分类器模型中,确定出多个待使用的目标分类器模型。在一种可能的实现方式中,所述测试模块,用于:根据每个目标分类器模型的准确度,确定所述训练后的m个目标分类器模型的准确度均值,将准确度大于所述准确度均值的目标分类器模型,作为待使用的目标分类器模型。在一种可能的实现方式中,所述测试模块,用于:根据每个目标分类器模型的准确度,确定所述训练后的m个目标分类器模型的准确度均值和准确度标准差;计算所述准确度均值和所述准确度标准差之间的差值绝对值,将准确度大于所述差值绝对值的目标分类器模型,作为待使用的目标分类器模型。在一种可能的实现方式中,所述装置还包括决策模块,用于:根据与所述各测试提问信息的相似程度最高的第一候选相似问,是否为所述测试提问信息对应的真实相似问,确定所述es检索系统的准确度;根据待使用的目标分类器模型的准确度和所述es检索系统的准确度,确定每个待使用的目标分类器模型的决策权重,与所述es检索系统的决策权重;所述确定模块,用于:确定出各第二候选相似问和与所述提问信息的相似程度最高的第一候选相似问中相同的候选相似问,对于每个相同的目标候选相似问,确定所述目标候选相似问对应的目标分类器模型或者es检索系统的决策权重之和;将所述决策权重之和最大的目标候选相似问,确定为所述提问信息对应的预测真实相似问。第三方面、提供了一种服务器,该服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上第一方面所述的确定应答信息的方法所执行的操作。第四方面、提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上第一方面所述的确定应答信息的方法所执行的操作。本申请实施例提供的技术方案带来的有益效果是:在获取到提问信息后,首先通过es检索系统根据该提问信息进行检索,得到k个第一候选相似问。然后,将提问信息和es检索系统检索到的k个第一候选相似问输入到训练后的多个目标分类器模型,通过每个目标分类器模型可以得到一个第二候选相似问。再然后,综合es检索系统检索到的与提问信息相似程度最高的第一候选相似问,以及每个目标分类器模型输出的第二候选相似问,选出提问信息对应的预测真实相似问。最后,可以通过该预测真实相似问获取到对应的应答信息,返回给用户。可见,本申请实施例中综合了es检索系统检索结果,以及目标分类器模型输出的结果,最终给出预测真实相似问,返回该预测真实相似问对应的唯一应答信息,期间无需人工参与,使用户得到应答信息的效率更高。附图说明图1是本申请实施例提供的一种确定应答信息的方法流程示意图;图2是本申请实施例提供的一种确定应答信息的装置结构示意图;图3是本申请实施例提供的一种服务器的结构示意图。具体实施方式本申请实施例提供了一种确定应答信息的方法,该方法可以由服务器实现。如图3所示,服务器300可以包括处理器310、发射器320、接收器330,接收器330和发射器320可以分别与处理器310连接。发射器320和接收器330可以是网卡,接收器330可以用于接收信息,即可以接收提问信息,发射器320可以用于发送应答信息。服务器还可以包括加速部件(可称为加速器),当加速部件为网络加速部件时,加速部件可以为网卡。处理器310可以是服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,如接收器330和发射器320等。在本申请中,处理器310可以是cpu(centralprocessingunit,中央处理器),可选的,处理器310可以包括一个或多个处理单元;处理器310可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统,调制解调处理器主要处理无线通信。处理器310还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件等。目的服务器还可以包括存储器340,存储器340可用于存储软件程序以及模块,处理器310通过读取存储在存储器的软件代码以及模块,从而执行目的服务器的各种功能应用以及数据处理。如图1所示,本申请实施例提供的一种确定应答信息的方法的处理流程可以包括的步骤可以如下:步骤101、获取提问信息。在实施中,在终端上安装的应用程序的faq问答界面中,用户可以通过输入法输入需要咨询的问题,即提问信息,或者通过语音输入需要咨询的问题,再由终端转换为文字形式的提问信息。例如,对于购物类应用程序,可以在faq问答界面中输入物流相关的提问信息,如“发货地的哪里”。然后,终端将用户输入的提问信息发送给用于检索应答信息的服务器。本申请实施例仅以提问信息为汉语为例进行说明,提问信息也可以为英语,日语等等,本申请实施例对此不作限定。步骤102、通过es检索系统获取到提问信息对应的k个第一候选相似问。其中,k为预设正整数,k个第一候选相似问为es检索系统检索到的候选相似问中,与提问信息的相似程度最高的k个相似问。在实施中,上述服务器在获取到提问信息后,通过es检索系统检索得到该提问信息对应的k个第一候选相似问。es检索系统对应有es检索库,在该es检索库中可以存储有相似问表,如表1所示。表1id相似问1q12q23q3…………其中,id(标识)也可以称为相似问的索引,q1,q2等为相似问。es检索系统可以根据用户的提问信息在该es检索库中检索出与其相似度程度最高的k个相似问,作为提问信息对应的第一候选相似问。es检索系统的检索原理可以是对提问信息进行分词处理,得到该提问信息的多个关键词,在es检索库中确定各关键词在每个相似问中出现的频次,并计算每个关键词所占权重,以及关键词与相似问的相关度。根据上述各关键词在相似问中出现的频次、每个关键词所占权重以及关键词与相似问的相关度,对每个相似问进行评分,将评分最高的k个相似问作为提问信息对应的第一候选相似问。需要说明的是,对于es检索系统对相似问评分的方法可以为现有的任一方法,上述仅为本申请实施例提供一种可行方法,本申请实施例对于es检索系统对相似问的评分方法不作限定。步骤103、将提问信息和k个第一候选相似问作为输入数据集,输入训练后的多个目标分类器模型中,得到每个目标分类器模型输出的提问信息对应的第二候选相似问。在实施中,可以预先训练多个目标分类器模型,将提问信息和检索到的k个第一候选相似问作为输入数据集,输入到每个训练后的目标分类器模型。每个目标分类器模型可以得出各第一候选相似问为提问信息对应的真实相似问的置信度,并将置信度最高的第一候选相似问输出,作为提问信息对应的第二候选相似问。同时,还可以将该第二候选相似问为提问信息对应的真实相似问的置信度输出。在一种可能的实现方式中,对于目标分类器模型的训练方法可以如下:建立训练样本库,其中,训练样本库中包括有多组训练相似问,每组中各训练相似问对应的应答信息相同。在训练样本库中获取训练相似问作为训练提问信息。通过es检索系统在所述训练样本库中获取到训练提问信息对应的h个训练候选相似问,其中,h为预设正整数,h个训练候选相似问为es检索系统检索到的训练候选相似问中,与训练提问信息的相似程度最高的h个训练候选相似问。将h个训练候选相似问中,训练提问信息对应的真实相似问作为单组正例样本,在除单组正例样本以外的训练候选相似问中,选取出负例样本;将负例样本分为m组,将每组负例样本、单组正例样本和训练提问信息作为一组样本输入,其中,m为预设正整数。基于m组样本输入,分别对m个待训练的目标分类器模型进行训练,得到训练后的m个目标分类器模型。在实施中,在对各待训练的目标分类器进行训练之前,可以先建立训练样本库,该训练样本库即可以作为es检索系统的es检索库。训练样本库中可以包括有多组训练相似问,每组中各训练相似问对应的应答信息相同,每组训练相似问中可能包括有多个训练相似问。技术人员在获取训练相似问时,可以对具有相同应答信息的训练相似问添加相同的标识信息。在对待训练的目标分类器进行训练时,从训练样本库中获取训练相似问作为训练提问信息。此处,对于训练样本库中的每个训练相似问均可以选取作为训练提问信息。然后,通过es检索系统在所述训练样本库中获取到训练提问信息对应的h个训练候选相似问。在这h个训练候选相似问中,将与训练提问信息具有相同的标识信息的训练候选相似问,确定为该训练提问信息对应的真实相似问。将h个训练候选相似问中,训练提问信息对应的真实相似问作为单组正例样本。然后,对于h个训练候选相似问,在除单组正例样本以外的训练候选相似中,选取出负例样本。根据待训练的目标分类器的个数,确定需要选取的负例样本的组数。即,有m个待训练的目标分类器,则选取m组负例样本。每组负例样本中的负例样本数目与单组正例样本中的正例样本数目相同或者接近。例如,每组负例样本中的负例样本数目可以比单组正例样本中的正例样本多1。再然后,将单组正例样本、每组负例样本和训练提问信息作为一组样本输入,每组样本输入中的负例样本和正例样本对应的标签信息作为该组样本输入对应的样本输出。此处,负例样本对应的标签信息可以为0,即表示负例样本不是训练提问信息的真实相似问,正例样本对应的标签信息可以为1,即表示正例样本是训练提问信息的真实相似问。将一组样本输入输入到目标分类器模型中,目标分类器模型可以先得出每个样本(此处,将正例样本和负例样本统称为样本)的置信度,如果置信度大于预设阈值,且该样本的标签信息为1,则认为预测正确。相反,如果置信度小于预设阈值,且该样本标签信息为0,则认为预测错误,那么,需要对该目标分类器模型的参数进行调整。此处,预设阈值可以为50%。经过多次调整参数后,则可以得到训练后的目标分类器模型。在一种可能的实现方式中,可以在上述m个目标分类器模型中,选取出多个目标分类器模型,作为待使用的目标分类器模型,相应的,选取方法可以如下:建立测试样本库,其中,测试样本库中包括有多组测试相似问,每组中的各测试各相似问对应的应答信息相同;在测试样本库中获取多个测试相似问作为测试提问信息。对于每个测试提问信息,通过es检索系统在测试样本库中获取到测试提问信息对应的k个第一测试相似问,将测试提问信息和k个第一测试相似问作为输入测试集,输入训练后的m个目标分类器模型中,得到每个目标分类器模型输出的提问信息对应的第二测试相似问。对于每个目标分类器模型,根据各第二测试相似问是否为测试提问信息对应的真实相似问,确定目标分类器模型的准确度。根据每个目标分类器模型的准确度,在训练后的m个目标分类器模型中,确定出多个待使用的目标分类器模型。在实施中,对于每个目标分类器模型,确定该目标分类器模型的准确度的方法可以如下:在所有第二测试相似问中,确定出是测试提问信息对应的真实相似问的第二次数相似问的数目a。使用a除以测试次数(测试次数也即是输入测试提问信息的数目),即可得到该目标分类器模型的准确度。根据每个目标分类器模型的准确度,在训练后的m个目标分类器模型中,确定出多个待使用的目标分类器模型。可以先计算m个目标分类器模型的准确度均值。计算方法可以为:将训练后的m个目标分类器模型的准确度相加,除以m。然后,将准确度大于该准确度均值的目标分类器模型作为待使用的目标分类器模型。另外,除了计算出准确度均值外,还可以计算出训练后的m个目标分类器模型的准确度标准差。再计算准确度均值和准确度标准差之间的差值绝对值,将准确度大于所述差值绝对值的目标分类器模型,作为待使用的目标分类器模型。步骤104、在与提问信息的相似程度最高的第一候选相似问,以及每个目标分类器模型输出的第二候选相似问中,确定提问信息对应的预测真实相似问。在实施中,可以综合es检索系统检索到的与提问信息的相似程度最高的第一候选相似问,以及多个目标分类器模型各自输出的第二候选相似问,来确定出提问信息对应的预测真实相似问。可以统计出上述与提问信息的相似程度最高的第一候选相似问和第二候选相似问中,每种相同的候选相似问的数目。将最大数目对应的候选相似问,确定提问信息对应的预测真实相似问。在一种可能的实现方式中,可以在确定预测真实相似问时,将es检索系统和每个目标分类器的准确度也考虑在内,相应的,可以先确定es检索系统和待使用的目标分类器模型,在确定预测真实相似问时所占的权重。确定方法可以如下:根据与各测试提问信息的相似程度最高的第一候选相似问,是否为测试提问信息对应的真实相似问,确定es检索系统的准确度。根据待使用的目标分类器模型的准确度和es检索系统的准确度,分别确定每个待使用的目标分类器模型的决策权重,与es检索系统的决策权重。相应的,在确定预测真实相似问时,可以采用如下方法:确定出各第二候选相似问和与提问信息的相似程度最高的第一候选相似问中相同的候选相似问,对于每个相同的目标候选相似问,确定目标候选相似问对应的目标分类器模型或者es检索系统的决策权重之和。将决策权重之和最大的目标候选相似问,确定为提问信息对应的预测真实相似问。在实施中,确定es检索系统的准确度时,可以采用与确定目标分类器模型的准确度相同的方法。即,确定出与测试提问信息的相似程度最高的第一候选相似问,是测试提问信息对应的真实相似问的数目b,将该数目b除以测试次数(也即是输入的测试提问信息的数目),即可得到es检索系统的准确度。然后,可以确定每个目标分类器模型和es检索系统的决策权重。计算每个目标分类器模型的决策权重时,可以使用该目标分类器模型的准确度,除以es检索系统和目标分类器模型的准确度之和,得到该目标分类器模型的决策权重。同样的,计算es检索系统的决策权重时,可以使用该es检索系统的准确度,除以es检索系统和目标分类器模型的准确度之和,得到es检索系统的决策权重。在确定预测真实相似问时,可以先统计出es检索系统检索到的与提问信息的相似程度最高的第一候选相似问和各第二候选相似问中,每种相同的候选相似问对应的es检索系统或者目标分类器模型的决策权重之和。将决策权重之和最大的候选相似问,确定为提问信息对应的预测真实相似问。例如,es检索系统的决策权重为0.4,目标分类器模型1的决策权重为0.2,目标分类器模型2的决策权重为0.1,目标分类器模型3的决策权重为0.2,目标分类器模型4的决策权重为0.1,es检索系统检索到的与提问信息的相似程度最高的第一候选相似问为q1。目标分类器模型1输出的第二候选相似问为q2,目标分类器模型2输出的第二候选相似问为q2,目标分模型3输出的第二候选相似问为q1,目标分类器模型4输出的第二候选相似问为q2。其中,得出q2的分别为目标分类器模型1、目标分类器模型2和目标分类器模型4,目标分类器模型1、目标分类器模型2和目标分类器模型4的决策权重之和为0.2+0.1+0.1=0.4。得出q1的分别为es检索系统和目标分类器模型3,es检索系统和目标分类器模型3的决策权重之和为0.4+0.2=0.6。因为,q1对应的决策权重之和0.6大于q2对应的决策权重0.4,所以,可以将q1确定为提问信息对应的预测真实相似问。步骤105、在预先存储的相似问和应答信息的对应关系中,获取预测真实相似问对应的应答信息,作为提问信息对应的应答信息。在实施中,可以预先在mysql数据库中存储有相似问和应答信息的对应关系,如下表2所示。表2id相似问应答信息1q1a12q2a13q3a24q4a25q5a2………………如上表2所示,相似问q1和q2对应相同的应答信息,q3、q4和q5对应相同的应答信息,则表明相似问q1和q2的标准问相同,q3、q4和q5的标准问相同。则在存储的相似问和应答信息的对应关系中,还可以包括有标准问,如下表3所示。表3id相似问标准问应答信息1q1qstd1a12q2qstd1a13q3qstd2a24q4qstd2a25q5qstd2a2………………则根据预测真实相似问可以通过上述表2或者表3检索到对应的应答信息,返回给终端。以展示给用户。通过本申请实施例,在获取到提问信息后,首先通过es检索系统根据该提问信息进行检索,得到k个第一候选相似问。然后,将提问信息和es检索系统检索到的k个第一候选相似问输入到训练后的多个目标分类器模型,通过每个目标分类器模型可以得到一个第二候选相似问。再然后,综合es检索系统检索到的与提问信息相似程度最高的第一候选相似问,以及每个目标分类器模型输出的第二候选相似问,选出提问信息对应的预测真实相似问。最后,可以通过该预测真实相似问获取到对应的应答信息,返回给用户。可见,本申请实施例中综合了es检索系统检索结果,以及目标分类器模型输出的结果,最终给出预测真实相似问,返回该预测真实相似问对应的唯一应答信息,使用户得到应答信息的效率更高。基于相同的技术构思,本申请实施例还提供了一种确定应答信息的装置,如图2所示,该装置包括:获取模块210,用于获取提问信息,具体可以实现上述步骤101中的获取功能,以及其他隐含步骤。检索模块220,用于通过es检索系统获取到所述提问信息对应的k个第一候选相似问,其中,k为预设正整数,所述k个第一候选相似问为所述es检索系统检索到的候选相似问中,与所述提问信息的相似程度最高的k个相似问,具体可以实现上述步骤102中的检索功能,以及其他隐含步骤。输入模块230,用于将所述提问信息和所述k个第一候选相似问作为输入数据集,输入训练后的多个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二候选相似问,具体可以实现上述步骤103中的输入功能,以及其他隐含步骤。确定模块240,用于在与所述提问信息的相似程度最高的第一候选相似问,以及每个目标分类器模型输出的第二候选相似问中,确定所述提问信息对应的预测真实相似问,具体可以实现上述步骤104中的确定功能,以及其他隐含步骤。应答模块250,用于在预先存储的相似问和应答信息的对应关系中,获取所述预测真实相似问对应的应答信息,作为所述提问信息对应的应答信息,具体可以实现上述步骤105中的应答功能,以及其他隐含步骤。在一种可能的实现方式中,所述装置还包括训练模块,用于:建立训练样本库,其中,所述训练样本库中包括有多组训练相似问,每组中各训练相似问对应的应答信息相同;在所述训练样本库中获取训练相似问作为训练提问信息,通过es检索系统在所述训练样本库中获取到所述训练提问信息对应的h个训练候选相似问,其中,h为预设正整数,所述h个训练候选相似问为所述es检索系统检索到的训练候选相似问中,与所述训练提问信息的相似程度最高的h个训练候选相似问;将所述h个训练候选相似问中所述训练提问信息对应的真实相似问作为单组正例样本,在除所述单组正例样本以外的训练候选相似问中,选取出负例样本;将所述负例样本分为m组,将每组负例样本、所述单组正例样本和训练提问信息作为一组样本输入,其中,m为预设正整数;基于m组样本输入,分别对m个待训练的目标分类器模型进行训练,得到训练后的m个目标分类器模型。在一种可能的实现方式中,所述装置还包括测试模块,用于:建立测试样本库,其中,所述测试样本库中包括有多组测试相似问,每组中的各测试各相似问对应的应答信息相同;在所述测试样本库中获取多个测试相似问作为测试提问信息;对于每个测试提问信息,通过es检索系统在所述测试样本库中获取到所述测试提问信息对应的k个第一测试相似问,将所述测试提问信息和所述k个第一测试相似问作为输入测试集,输入训练后的m个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二测试相似问;对于每个目标分类器模型,根据各第二测试相似问是否为测试提问信息对应的真实相似问,确定所述目标分类器模型的准确度;根据每个目标分类器模型的准确度,在所述训练后的m个目标分类器模型中,确定出多个待使用的目标分类器模型。在一种可能的实现方式中,所述测试模块,用于:根据每个目标分类器模型的准确度,确定所述训练后的m个目标分类器模型的准确度均值,将准确度大于所述准确度均值的目标分类器模型,作为待使用的目标分类器模型。在一种可能的实现方式中,所述测试模块,用于:根据每个目标分类器模型的准确度,确定所述训练后的m个目标分类器模型的准确度均值和准确度标准差;计算所述准确度均值和所述准确度标准差之间的差值绝对值,将准确度大于所述差值绝对值的目标分类器模型,作为待使用的目标分类器模型。在一种可能的实现方式中,所述装置还包括决策模块,用于:根据与所述各测试提问信息的相似程度最高的第一候选相似问,是否为所述测试提问信息对应的真实相似问,确定所述es检索系统的准确度;根据待使用的目标分类器模型的准确度和所述es检索系统的准确度,确定每个待使用的目标分类器模型的决策权重,与所述es检索系统的决策权重;所述确定模块240,用于:确定出各第二候选相似问和与所述提问信息的相似程度最高的第一候选相似问中相同的候选相似问,对于每个相同的目标候选相似问,确定所述目标候选相似问对应的目标分类器模型或者es检索系统的决策权重之和;将所述决策权重之和最大的目标候选相似问,确定为所述提问信息对应的预测真实相似问。需要说明的是:上述实施例提供的确定应答信息的装置在确定应答信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定应答信息的装置与虚确定应答信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,在设备上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴光缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是设备能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如软盘、硬盘和磁带等),也可以是光介质(如数字视盘(digitalvideodisk,dvd)等),或者半导体介质(如固态硬盘等)。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。以上所述仅为本申请一个实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1