答案生成方法、装置及服务器与流程

文档序号:16329918发布日期:2018-12-19 06:08阅读:152来源:国知局
答案生成方法、装置及服务器与流程

本发明实施例涉及人工智能领域,特别涉及一种答案生成的方法、装置及服务器。

背景技术

用户对某项业务或服务存在疑问时,经常会选择询问人工客服,但传统人工客服回复消息的效率较低且成本较高。为了提高回复效率并降低成本,越来越多领域开始使用自动回复系统取代传统的人工客服。

相关技术中,自动回复系统中预先存储有问答数据库,当接收到用户发送的问题时,自动回复系统即在问答数据库中查找与该问题相匹配的目标问题,并向用户反馈目标问题对应的答案。然而,基于问题匹配的方式获取答案时,由于问答数据库中问题和答案有限,导致最终反馈的答案的准确度较低。



技术实现要素:

为了解决自动回复系统中,由于问答数据库中问题和答案有限,导致的最终反馈的答案的准确度较低的问题,本发明实施例提供了一种答案生成方法及装置。所述技术方案如下:

根据本发明的第一方面,提供了一种答案生成方法,该方法包括:

接收待回答问题,并对待回答问题进行分词处理;

根据分词结果和预设问题类别对应的关键词库,确定待回答问题所属的目标问题类别,预设问题类别和关键词库根据语料集训练得到,语料集为问题集合;

从目标问题类别对应的数据库中获取待回答问题对应的备选答案数据;

根据备选答案数据和答案生成模板生成待回答问题对应的答案。

根据本发明的第二方面,提供了一种答案生成装置,该装置包括:

接收模块,用于接收待回答问题,并对待回答问题进行分词处理;

确定模块,用于根据分词结果和预设问题类别对应的关键词库,确定待回答问题所属的目标问题类别,预设问题类别和关键词库根据语料集训练得到,语料集为问题集合;

获取模块,用于从目标问题类别对应的数据库中获取待回答问题对应的备选答案数据;

生成模块,用于根据备选答案数据和答案生成模板生成待回答问题对应的答案。

根据本发明的第三方面,提供了一种服务器,该服务器包括处理器和存储器,存储器中存储有至少一条指令,指令由处理器加载并执行以实现如第一方面所述的答案生成方法。

根据本发明的第四方面,提供了一种计算机可读存储介质,存储介质中存储有至少一条指令,指令由处理器加载并执行以实现如第一方面所述的的答案生成方法。

本发明实施例提供的技术方案带来的有益效果是:

本发明实施例中,服务器接收到用户提出的待回答问题后,对待回答问题进行分词处理,并根据分词结果和预设问题类别对应的关键词库,确定待回答问题所属的目标问题类别,再针对待回答问题和目标问题类别对应的数据库确定备选答案数据,最后根据备选答案数据和答案生成模板生成待回答问题对应的答案;由于最终得到的答案是基于待回答问题所属问题类别的数据库中的备选答案数据生成,因此所得答案与待回答问题的匹配度更高,且准确度更高,从而解决了由于问答数据库中问题和答案有限,导致最终反馈的答案的准确度较低的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个示例性实施例提供的答案生成方法流程图;

图2是本发明一个示例性实施例提供的问题类别和关键词库训练方法流程图;

图3是本发明另一个示例性实施例提供的问题类别和关键词库训练方法流程图;

图4是本发明另一个示例性实施例提供的答案生成方法的流程图;

图5是本发明一个示例性实施例提供的答案生成装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本发明各个实施例提供的答案生成方法用于服务器,该服务器为一台服务器、若干台服务器组成的服务器集群或云计算中心。在一种可能的实施方式中,该服务器为金融客服系统的后台服务器,用于根据接收到的问题生成相应的答案。为了方便描述,下述实施例中均以答案生成方法应用于服务器来举例说明。

参考图1,其示出了本发明一个示例性实施例提供的答案生成方法流程图。本实施例以答案生成方法应用于服务器中来举例说明,该答案生成方法包括如下步骤:

步骤101,接收待回答问题,并对待回答问题进行分词处理。

在用户对金融领域某项业务或服务存在疑问时,即通过终端访问金融客服系统,并将问题输入到该系统中,由金融客服系统将接收到的待回答问题发送到服务器。服务器接收到待回答问题后,首先对该待回答问题进行分词处理,即将待回答问题划分为以词汇为单位的词串。

在一种可能的实现方式中,服务器内预先存储有本领域的词库,接收到待回答问题后,即根据该词库中词汇的组合形式对待回答问题进行分词。

例如,服务器接收到的用户问题为“非农什么时间发布”,得到的分词结果为[‘非农’,‘什么’,‘时间’,‘发布’]。

步骤102,根据分词结果和预设问题类别对应的关键词库,确定待回答问题所属的目标问题类别,预设问题类别和关键词库根据语料集训练得到,语料集为问题集合。

在一种可能的实现方式中,语料集为服务器搜集到的本领域用户提出的问题的集合,服务器预先根据该语料集训练得到预设问题类别和关键词库,其中关键词库是根据预设问题类别确定的,是同类问题的关键词集合,用于表示该问题类别的主要特征,且不同预设类别对应的关键词库不同。

由于关键词库与预设问题类别相对应,因此当分词结果与一关键词库匹配时,服务器确定待回答问题属于该关键词库对应的预设问题类别,并确定该预设问题类别为目标问题类别。

在一种可能的实现方式中,服务器将分词结果中包含的词汇与关键词库中的每个词汇进行匹配,当确定关键词库中包含分词结果中的词汇时,确定分词结果与该关键词库匹配,进一步的,服务器将该关键词库对应的问题类别确定为目标问题类别。

步骤103,从目标问题类别对应的数据库中获取待回答问题对应的备选答案数据。

在一种可能的实施方式中,服务器中预先设置了问题类别与数据库的对应关系,当确定待回答问题所属的目标问题类别后,服务器确定该目标问题类别对应的数据库,并根据分词结果从该数据库中查找回答该待回答问题时所需的信息,进而将查找得到的信息作为备选答案数据。

可选的,服务器将数据库中,与分词结果相关的历史统计数据和/或最近更新的数据确定为备选答案数据。

例如,当待回答问题对应的分词结果中包含“非农”时,服务器确定待回答问题对应的目标问题类别为宏观数据,并从宏观数据对应的宏观数据库中提取非农就业人口相关的数据作为备选答案数据。

步骤104,根据备选答案数据和答案生成模板生成待回答问题对应的答案。

服务器中预先设置了问题类别与答案生成模板的对应关系,当确定待回答问题所属的问题类别后,服务器根据该对应关系得到该待回答问题对应的答案生成模板,并结合步骤103中得到的备选答案数据,生成待回答问题对应的答案。

综上所述,本实施例中,服务器接收到用户提出的待回答问题后,对待回答问题进行分词处理,并根据分词结果和预设问题类别对应的关键词库,确定待回答问题所属的目标问题类别,再针对待回答问题和目标问题类别对应的数据库确定备选答案数据,最后根据备选答案数据和答案生成模板生成待回答问题对应的答案;由于最终得到的答案是基于待回答问题所属问题类别的数据库中的备选答案数据生成,因此所得答案与待回答问题的匹配度更高,且准确度更高,从而解决了由于问答数据库中问题和答案有限,导致最终反馈的答案的准确度较低的问题。

在生成待回答问题对应答案的过程中,确定出的待回答问题所属目标问题类别的准确性将直接影响到最终生成答案的准确性,因此,根据语料集训练问题类别和关键词库的过程变得尤为重要。为了提高问题类别和关键词库训练的准确性,下述实施例中提出了一种根据语料集训练得到问题类别和关键词库的方法。参考图2,其示出了本发明一个示例性实施例提供的问题类别和关键词库训练方法流程图。

步骤201,根据语料集构建语料词典和词频矩阵,语料词典中包含对语料集中各个问题进行分词得到的词汇,词频矩阵中包含语料集中各个问题对应的特征向量,特征向量用于指示语料词典中的词汇在各个问题中出现的次数。

其中,该语料集为服务器搜集的本领域用户提出的问题的集合。服务器获取到语料集后,对语料集进行清洗、分词和去停用词处理,并根据分词结果构建语料集对应的语料词典,该语料词典中即包含分词结果中的各个词汇。

进一步的,服务器统计语料词典中各个词汇在问题中出现的次数,得到语料集中各个问题对应的特征向量,并对各个特征向量进行组合,最终得到语料集的词频矩阵。

例如,当语料集包含以下问题时:

问题一:老师请问发布非农数据,白银要做多还是做空?

问题二:非农什么时间发布?

得到的分词结果分别为:

分词结果一:['老师','请问','发布','非农','数据','白银','要','做多','还是','做空”];

分词结果二:['非农','什么','时间','发布'];

进一步的,服务器根据上述分词结果得到的词汇进行聚合,生成语料词典为:

['什么','老师','做多','数据','白银','做空','非农','要','请问','发布','时间','还是']。

根据语料词典中每个词汇在各个问题中出现次数,服务器得到各个问题对应的特征向量为:

问题一:[0,1,1,1,1,1,1,1,1,0,0,1]

问题二:[1,0,0,0,0,0,1,0,0,1,1,0]

进一步的,服务器对各个问题对应的特征向量进行组合,得到语料集对应的词频矩阵为:

[[0,1,1,1,1,1,1,1,1,0,0,1],[1,0,0,0,0,0,1,0,0,1,1,0]]。

步骤202,根据词频矩阵计算每个问题中各个词汇的特征权重,并根据特征权重得到每个问题对应的特征矩阵,特征权重用于指示问题中各个词汇的重要程度。

为了进一步区分语料集中的不同类别的问题,服务器根据词频矩阵计算每个问题中各个词汇的特征权重,进而根据该特征权重得到每个问题对应的特征矩阵。其中,词汇的特征权重越高,表示该词汇在问题中的重要程度越高。

本实施例中,计算问题中各个词汇的特征权重时采用tf-idf(termfrequency–inversedocumentfrequency,词频-逆向文件频率)算法,具体实施方法如下:

对问题d中出现的词汇t进行如下计算:

其中,tf(t,d)用于表示词汇t在问题d中出现的频率,mt是词汇t在问题d中出现的次数,nd是问题d中包含的词汇总数;idf(t)是度量词汇普遍重要性的逆向文件频率,n是语料集中的问题总数,df(d,t)是所有的语料集中包含词汇t的问题个数。

计算得到词汇t的tf(t,d)和idf(t)后,服务器进一步通过下述公式计算得到的词汇t的tf-idf(t,d),并将该tf-idf(t,d)确定为词汇t的特征权重。

tf-idf(t,d)=tf(t,d)×idf(t)

为了方便后续计算,服务器通过下述公式对词汇的特征权重进行归一化处理:

其中,vnorm为词汇特征权重的归一化结果,v为该词汇的特征权重,v1~vn为该词汇所在问题中所有词汇的特征权重。

在一个示意性的例子中,当语料集(包含6个问题)的词频矩阵为[[3,0,1],[2,0,0],[3,0,0],[4,0,0],[3,2,0],[3,0,2]]时,以计算该语料集中第一个问题对应的特征矩阵为例:

第一个词汇(term1)对应的tf-idf:

tf(t,d)term1=3

nterm1=6

df(d,t)term1=6

tf-idfterm1=tf×idf=3×1=3

由于最终得到的词汇特征权重都需要经过归一化处理,因此,为减少计算量,计算过程中的tf(t,d)直接取词汇出现的次数,其中,第一词汇在第一个问题中出现的次数为3。

余下两个词汇对应的tf-idf:

tf-idfterm2=0×log(6/1)+1=0

tf-idfterm3=1×log(6/2)+1≈2.0986

得到第一个问题对应的原始特征矩阵为:

tf-idfraw=[3,0,2.0986]

最后将该原始特征矩阵进行归一化处理,得到第一个问题对应的特征矩阵为:

步骤203,根据各个问题对应的特征矩阵,对语料集中的问题进行聚类,得到预设问题类别,其中,同一问题类别中各个问题的语义相似度大于阈值。

在得到各个问题对应的特征矩阵后,服务器即基于该特征矩阵,对语料集中的问题进行聚类,从而将语义相近的问题划分至同一问题类别中。

在一种可能的实施方式中,本实施例中对语料集中的问题进行聚类时采用k-means聚类算法。

其中,k-means算法包括如下步骤:

步骤一,在语料集中随机选取k个问题,作为k个簇的质心μk。

步骤二,根据各个问题对应的特征矩阵,分别计算语料集中每个问题到k个质心的距离,并将距离最近的簇作为该问题所属的簇。

其中,计算语料集中每个问题到k个质心的距离的方法如下:

其中xj为语料集中每个问题对应的坐标(特征矩阵),μi为k个质心对应的坐标(特征矩阵)。

步骤三,根据新生成的簇,重新计算质心。

步骤四,重复执行上述步骤一至三,直到质心不变或者变化幅度小于阈值。

通过上述迭代过程,服务器基于问题的特征矩阵,将问题划分至不同的簇中,每个簇即对应一种问题类别。

示意性的,经过聚类后,某一问题类别中包括如下问题:

“库存,增加,是,利多,还是,利空,啊”;

“余,老师,白银,数量,增加,是不是,会,利空,白银”;

“赵,老师,原油,数量,增加,是,利多,基本,金属,而,利空,贵金属,的,对,吗,谢谢”;

“持仓,增加,是,利多,还是,利多”;

“白银,昨天,多头,持仓,增加,不少,老师,怎么,看”;

“全球,最大,白银,持仓,较,上,日,增加,了,吨,当前,持仓量,为,吨,是,利空,还是,多”;

“老师,黄金,持仓,是,增加,的,吗”。

步骤204,根据各个预设问题类别中包含的问题,生成各个预设问题类别对应的关键词库。

在一种可能的实施方式中,服务器在确定问题类别对应的关键词库时,获取该问题类别中各个问题对应的特征矩阵,并根据特征矩阵所指示的各个词汇的特征权重,确定该问题类别对应的关键词库。

可选的,服务器预先设置权重阈值,当特征矩阵指示问题中某一词汇对应的特征权重大于权重阈值时,将该词汇确定为关键词,并将该关键词添加到所述问题类别的关键词库。比如,该权重阈值设置为0.8。

可选的,为进一步提高关键词提取的准确性,服务器针对每类问题下每个问题的特征矩阵,累加每个词汇在各个问题中的特征权重,当某一个词汇对应的的特征权重的累加值大于权重阈值时,将该词汇确定为关键词,并将该关键词添加到所属问题类别的关键词库。

针对步骤203中的例子,该问题类别对应的关键词库中包括的关键词为:“白银”“贵金属”“黄金”。

本实施例中,服务器通过对语料集进行分词处理,进而根据分词结果得到语料集的语料词典和词频矩阵,并通过计算词频矩阵中各个词汇的特征权重得到每个问题对应的特征矩阵,通过特征矩阵对语料集进行聚类,并根据特征矩阵得到各个问题类别对应的关键词库,提高了问题类别和关键词库训练的准确性,进而提高了服务器生成答案的准确性。

由于上述实施例中根据特征矩阵问题进行分类的过程中,忽略了语义逻辑,因此,为了进一步提高问题分类的合理性,在一种可能的实现方式中,如图4所示,上述步骤204后还包括步骤205和步骤206:

步骤205,计算同一关键词库中关键词的第一相似度;若第一相似度小于阈值,则对关键词库对应的预设问题类别进行拆分。

为保证同一关键词库中的关键词属于同一类别,服务器计算同一关键词库中关键词的第一相似度,若一个关键词库中关键词的第一相似度大于阈值,即各个关键词间的相似程度较高,进而确认该关键词库中的关键词属于一类;若一个关键词库中关键词间的第一相似度小于阈值,即各个关键词间的相似度较低,进而确认该关键词库中的关键词不属于一类。

当第一相似度小于阈值时,该关键词库中的关键词不属于一类,服务器将关键词库进行拆分,并根据关键词库的拆分结果对相应的问题类别进行拆分。

在一种可能的实现方式中,关键词库中的关键词较少,当服务器确定相似度小于阈值后,由客服人员确定关键词库的拆分方法,并将该拆分方法通过终端输入到服务器中,由服务器根据该拆分方法对预设问题类别进行拆分。

步骤206,计算不同关键词库中关键词的第二相似度;若第二相似度大于阈值,则对不同关键词库对应的预设问题类别进行合并。

为保证不同关键词库中的关键词间没有语义包含或重复,服务器计算不同关键词库中关键词的第二相似度,若第二相似度大于阈值,则确定两个关键词库关联程度较大,即两个关键词库可能属于同一类问题;若第二相似程度小于阈值,则确定两个关键词库关联程度较小。

当第二相似度大于阈值时,两个关键词库中关键词的关联程度较大,服务器将两个关键词库进行合并,并根据关键词库的合并结果将对应的问题类别进行合并。

针对确定目标问题类别的过程,在一种可能的实施方式中,在图1的基础上,如图4所示,步骤102包括步骤102a和步骤102b,步骤103还包括步骤103a至步骤103c,步骤104还包括步骤104a至步骤104c。

步骤101,接收待回答问题,并对待回答问题进行分词处理。

步骤102a,确定分词结果中各个词汇所属的目标关键词库。

本实施例中,服务器在确定待回答问题所属的目标问题类别时,首先确定待回答问题对应分词结果中各个词汇所属的目标关键词库。

可选的,服务器中存储有关键词库与预设问题类别的对应关系,当获得到待回答问题的分词结果后,服务器将分词结果与各个问题类别的关键词库进行匹配,当确定分词结果中某一词汇与一关键词库匹配时,确定该关键词库为目标关键词库。

例如,服务器中存储的关键词库a中包含关键词“白银”、“黄金”,当用户提问为:“白银最近都在震荡,今晚发布了非农数据,要怎么操作?做多还是做空?谢谢老师!”时,由于该问题对应的分词结果中包含“白银”一词,且“白银”属于关键词库a,因此服务器将关键词库a确定目标关键词库。

步骤102b,将目标关键词库对应的预设问题类别确定为目标问题类别。

当确定分词结果中各个词汇所属的目标关键词库后,服务器根据关键词库与预设问题类别的对应关系中,查找得到目标关键词库对应的预设问题类别,并将该预设问题类别确定为目标问题类别。

结合步骤102a中的例子,服务器将关键词库a对应的问题类别确定为目标问题类别。

步骤103a,当目标问题类别对应的数据库为宏观数据库时,将宏观数据库中与分词结果对应的宏观经济数据确定为备选答案数据,宏观数据库中的数据定时更新。

由于不同问题类别对应的数据库不同,因此,服务器从数据库中获取的备选答案数据也不同。当目标问题类别对应的数据库为宏观数据库时,服务器根据待回答问题的分词结果在宏观数据库中查找相关宏观经济指标对应的宏观经济数据,并将该宏观经济数据确定为备选答案数据。

其中,宏观数据库中存储的数据定时更新,且更新频率较低。可选的,宏观数据库中存储有各项宏观经济指标的指标说明信息、更新频率、最新公布数据的数值以及预期值、未来将要发布的日期和预期值等数据。比如,宏观经济指标包括,与财经日历相关的美国核心pce物价指标年率以及消费者信心指数终值等。

在一种可能的实施方式中,服务器根据宏观经济数据库中数据的更新时刻,将最近更新的宏观经济数据确定为备选答案数据,或,服务器将宏观经济数据库中的历史统计宏观经济数据确定为备选答案数据。

步骤103b当目标问题类别对应的数据库为技术指标数据库时,将技术指标数据库中与分词结果对应的技术指标数据确定为备选答案数据,技术指标数据库中的数据用于指示信号的统计信息和分布情况。

当目标类别对应的数据库为技术指标数据库时,服务器根据待回答问题的分词结果在技术指标数据库中查找相关技术指标,并读取相关技术指标的名称、时间线、产生的时间、操作方向和收益等信息,即技术指标数据,进而将该技术指标数据确定为备选答案数据。其中,技术指标数据库中的数据由服务器每隔预定时间间隔对信号线进行分析后得到。

其中,技术指标包括rsi(relativestrengthindex,相对强弱指标)、kd(stochasticsoscillator,随机指标)、dmi(directionalmovementindex,趋向指标)、macd(movingaverageconvergence/diverge,平滑异同平均线)、心理线(psy)和乖离率(bias)等,用于指示信号的统计信息和分布情况。在一种可能的实施方式中,服务器根据技术指标数据库中数据的更新时刻,将最近更新的技术指标数据确定为备选答案数据。

步骤103c,当目标问题对应的数据库为客服问答数据库时,在客服问答数据库中查找与分词结果相似度最高的目标客服问题,客服问答数据库中包括问答文档中的客服问题和客服答案;将目标客服问题对应的目标客服答案确定为备选答案数据。

在一种可能的实施方式中,当目标问题对应的数据库为客服问答数据库时,服务器计算待回答问题的特征矩阵,并将该特征矩阵与客服问答数据库中各个问题对应的特征矩阵进行匹配,计算得到矩阵相似度,从而将矩阵相似度最高的客服问题确定为目标客服问题。

其中,客服问答数据库中包括的问答文档是客服人员根据工作经验总结出来的针对客户常见问题的回答文档,也即客服问答数据库中包括常见的客服问题以及客服问题对应的答案。

当确定目标客服问题后,服务器在客服问答数据库中查找目标客服问题对应的目标客服答案,并将该目标客服答案确定为备选答案数据。

步骤104a,当备选答案数据为宏观经济数据和/或技术指标数据时,根据备选答案数据确定交易策略信息,交易策略包括做多做空策略和长短线策略;

当备选答案数据为宏观经济数据时,服务器对宏观经济数据进行分析,从而确定出相应的交易策略信息。在一种可能的实施方式中,当备选答案数据指示做多信号多于做空信号时,服务器确定交易策略为做多策略;当备选答案数据指示长线信号多于短线信号时,服务器确定交易策略为长线策略。

在一个示意性的例子时,当备选答案数据为消费者信心指数终值时,服务器结合历史统计及历史经验,根据公布数据与预期数据的关系得到如下交易策略信息:

当公布的数据比预期高时,公布后2小时内,当计算得到白银价格有35%的时候会上涨,65%的时候会下跌时,确定交易策略为做空;

当公布的数据比前值高时,公布后2小时内,当计算得到白银价格有65%的时候会上涨,35%的时候会下跌时,确定交易策略为做多。

当备选答案数据为技术指标数据时,服务器根据信号的统计信息和分布情况,生成交易策略相关的答案。

在一种可能的实施方式中,针对做多做空策略,当备选答案数据包含本日信号时,服务器统计本日内做多做少信号的数量,当本日产生的信号中做多信号较多时,服务器确定交易策略为做多;当没有做多信号或做空信号只有平多信号时,服务器确定交易策略为谨慎做多;当做多信号较少时,服务器确定交易策略为做空。

在另一种可能的实现方式中,当备选答案数据不包含本日信号时,服务器选取最近信号产生所在日进行统计,并在最近信号产生所在日中做多信号较多时,服务器确定交易策略为做多;当没有做多信号或做空信号只有平多信号时,服务器确定交易策略为谨慎做多;当做多信号较少时,服务器确定交易策略为做空。

例如:服务器获取到的备选答案数据指示今日共产生5个信号,其中做多信号3个,占今日所有产生信号的60%,由于做多信号所占比例较大,因此服务器确定交易策略为做多。

长线短线交易策略的确定方法与做多做空交易策略的确定方法相同,本实施例对此不再赘述。

例如:服务器获取到的备选答案数据指示今日共产生5个长线信号,其中1个做多信号,4个做空信号,由于做空信号数量较多,因此服务器确定交易策略为长线做空。

步骤104b,根据交易策略信息和答案生成模板生成待回答问题对应的答案。

确定出交易策略信息后,服务器根据交易策略信息和答案生成模板生成待回答问题对应的答案。其中,答案生成模板存储在服务器中,由客服人员根据工作经验总结而成。

在一种可能的实施方式中,当交易策略信息由宏观经济数据确定时,服务器将备选答案数据和交易策略信息填入如下答案生成模板:

最近公布的一期是在xxxx时公布的。数值为m1,市场预期值为m2。前期公布的数据为m3。我们看到,公布的数据比预期m4,根据历史经验,这种情况下在未来两个小时内下跌的概率m5,推荐m6。

其中,当m1小于m2时,m4为低,m5为较高;当m1大于m2时,m4为高,m5为较低,m6为服务器确定的交易策略。

在示意性的例子中,服务器生成的待回答问题对应的答案为:美国密歇根大学消费者信心指数终值最近公布的一期是在2017-02-2422:00:00公布的。数值为96.3,市场预期值为95.7。前期公布的数据为95.70。我们看到,当公布的数据比预期高,根据历史经验,这种情况下白银在未来两个小时内下跌的概率较高,推荐做空。

在一种可能的实施方式中,当交易信息由技术指标数据生成时,服务器将备选答案数据和交易策略信息填入答案生成模板。

其中,当问题涉及到今日信号概况时,答案生成模板如下:

今日共产生m7个信号,其中做多信号m8个,占今日所有产生信号的m9,故推荐m10。

今日产生m11个平多信号,要谨慎做多。

其中,m9由m8除m7得到的百分数,m10为确定的交易策略信息。

当今日未产生任何信号时,答案生成模板如下:

今日没有任何信号产生,情况不明朗。

或,今日没有任何信号产生,最新信号产生的时间是xxxx,共产生m12个信号,其中做多信号m13个,占当日所有产生信号的m14,故推荐m15。

其中,时间由技术指标数据中获得,m14由m13与m12相除得到的百分数,m15为确定的交易策略信息。

当问题涉及到收益情况时,答案生成模板如下:

今日产生的信号中,到目前为止,收益最好的信号是xxxx,是在xx产生的,方向xx,收益为xx。

今日没有任何信号产生,最新信号产生的时间是xxxx,为xx信号,方向xx,收益为xx。

当问题涉及到行情问题时,答案生成模板如下:

今日共产生m16个长线信号,其中m17个做多,m18个做空信号,m19信号数量较多,推荐m20。

其中,当m17大于m18时,确定m19为做多,交易策略为长线做多,当m17小于m18时,确定m19为做空,交易策略为长线做空,m20为服务器确定的交易策略。

今日共产生m21个长线信号,m22个短线信号,推荐m23操作。

其中,当m21大于m22时,推荐长线操作,m23为服务器确定的交易策略;当m21小于m22时,推荐短线操作,m23为服务器确定的交易策略。

当今日没有产生长线/短线信号时,答案生成模板如下:

今日没有任何信号产生,最新信号产生的一天是xxxx,有m24个长线信号。其中m25个做空信号,m26个做多信号,m27信号数量较多,推荐m28。

其中,当m25大于m26时,m27为做空,推荐长线做空;当m25小于m26时,m27为做多,推荐长线做多,m28为服务器确定的交易策略。

步骤104c,当备选答案数据为目标客服答案时,根据备选答案数据和答案生成模板生成待回答问题对应的答案。

由于目标客服答案即为待回答问题对应的答案,因此,服务器直接将所得的备选答案数据确定为待回答问题对应的答案。

本实施例中,针对不同答案数据库提出了不同的答案生成过程,进一步对答案的生成过程进行了分类,提高了服务器中生成待回答问题对应的答案的精准度。

参考图5,其示出了本申请一个示例性实施例提供的答案生成装置的结构框图。该消息提示装置可以通过软件、硬件以及两者的组合实现成为终端的全部或一部分。该消息提示装置包括:接收模块510、确定模块520、获取模块530、第一生成模块540。

接收模块510,用于接收待回答问题,并对待回答问题进行分词处理;

确定模块520,用于根据分词结果和预设问题类别对应的关键词库,确定待回答问题所属的目标问题类别,预设问题类别和关键词库根据语料集训练得到,语料集为问题集合;

获取模块530,用于从目标问题类别对应的数据库中获取待回答问题对应的备选答案数据;

第一生成模块540,用于根据备选答案数据和答案生成模板生成待回答问题对应的答案。

可选的,接收待回答问题,并对待回答问题进行分词处理之前,该装置还包括:

构建模块,用于根据语料集构建语料词典和词频矩阵,语料词典中包含对语料集中各个问题进行分词得到的词汇,词频矩阵中包含语料集中各个问题对应的特征向量,特征向量用于指示语料词典中的词汇在各个问题中出现的次数;

第一计算模块,用于根据词频矩阵计算每个问题中各个词汇的特征权重,并根据特征权重得到每个问题对应的特征矩阵,特征权重用于指示问题中各个词汇的重要程度;

聚类模块,用于根据各个问题对应的特征矩阵,对语料集中的问题进行聚类,得到预设问题类别,其中,同一问题类别中各个问题的语义相似度大于阈值;

第二生成模块,用于根据各个预设问题类别中包含的问题,生成各个预设问题类别对应的关键词库。

可选的,确定模块520,包括:

第一确定单元,用于确定分词结果中各个词汇所属的目标关键词库;

第二确定单元,用于将目标关键词库对应的预设问题类别确定为目标问题类别。

可选的,获取模块530,包括:

第三确定单元,用于当目标问题类别对应的数据库为宏观数据库时,将宏观数据库中与分词结果对应的宏观经济数据确定为备选答案数据,宏观数据库中的数据定时更新;

第四确定单元,用于当目标问题类别对应的数据库为技术指标数据库时,将技术指标数据库中与分词结果对应的技术指标数据确定为备选答案数据,技术指标数据库中的数据用于指示信号的统计信息和分布情况;

查找单元,用于当目标问题对应的数据库为客服问答数据库时,在客服问答数据库中查找与分词结果相似度最高的目标客服问题,客服问答数据库中包括问答文档中的客服问题和客服答案;第五确定单元,用于将目标客服问题对应的目标客服答案确定为备选答案数据。

可选的,第一生成模块540,包括:

第六确定单元,用于当备选答案数据为宏观经济数据和/或技术指标数据时,根据备选答案数据确定交易策略信息,交易策略包括做多做空策略和长短线策略;第一生成单元,用于根据交易策略信息和答案生成规则生成待回答问题对应的答案;

第二生成单元,用于当备选答案数据为目标客服答案时,根据备选答案数据和答案生成规则生成待回答问题对应的答案。

可选的,根据各个预设问题类别中包含的问题,生成各个预设问题类别对应的关键词库之后,该装置还包括:

第二计算模块,用于计算同一关键词库中关键词的第一相似度;拆分模块,用于若第一相似度小于阈值,则对关键词库对应的预设问题类别进行拆分;

第三计算模块,用于计算不同关键词库中关键词的第二相似度;合并模块,用于若第二相似度大于阈值,则对不同关键词库对应的预设问题类别进行合并。

综上所述,本实施例中,服务器接收到用户提出的待回答问题后,对待回答问题进行分词处理,并根据分词结果和预设问题类别对应的关键词库,确定待回答问题所属的目标问题类别,再针对待回答问题和目标问题类别对应的数据库确定备选答案数据,最后根据备选答案数据和答案生成模板生成待回答问题对应的答案;由于最终所得答案是基于待回答问题所属问题类别的数据库中的备选答案数据生成,因此答案与待回答问题的匹配度更高,且准确度更高,从而解决了由于问答数据库中问题和答案有限,导致最终反馈的答案的准确度较低的问题。

需要说明的是:上述实施例提供的答案生成装置在生成答案时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的答案生成方法及装置实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1