语句相似度的分析方法、装置及计算机设备与流程

文档序号:20875320发布日期:2020-05-26 16:25阅读:151来源:国知局
语句相似度的分析方法、装置及计算机设备与流程

本发明涉及计算机技术领域,尤其涉及到一种语句相似度的分析方法、装置及计算机设备。



背景技术:

语义相似度计算也可以称作文本匹配,语句间相似度的计算在自然语言处理的各个领域都占有很重要的地位,在自然语言处理应用中,如保险服务、网络互助服务中的智能客服问答系统,语句间相似度的计算是一个非常关键的问题。

当前中文语义相似性计算方法可如附图1所示,主要是将两个语句分别分词后使用预训练好的词向量对词进行表达,然后将词向量输入序列神经网络模型,计算出语句的句向量,再将生成的两个句向量进行拼接,输入分类神经网络模型,输出两个语句的相似度。

然而现有计算语句相似度的方法仅仅根据词向量序列计算得到句向量,并对句向量表达信息进行非线性计算,未能考虑语句向量之间的交互对比信息,丢失了重要的语句对比特征,使分析结果误差较大,不够精确。



技术实现要素:

本发明实施例所要解决的技术问题是现有计算语句相似度的方法未能考虑语句向量之间的交互对比信息,从而丢失了重要的语句对比特征,使分析结果误差较大,不够精确。

根据本发明的一个方面,提供了一种语句相似度的分析方法,该方法包括:

将接收到的文本语句与知识库中存储的任意一个基础语句,确定为待分析相似度的目标语句;

根据词语间的相关性,配置目标语句中各个词语对应的目标权重;

基于所述目标权重,构建所述目标语句的目标句向量;

分析两个目标语句分别对应的目标句向量之间的交互对比信息;

基于所述交互对比信息,确定所述两个目标语句之间的语句相似度。

可选地,所述根据词语间的相关性,配置目标语句中各个词语对应的目标权重,具体包括:

从目标语句中拆分出目标词语;

依据注意力模型确定所述目标词语各自对应的隐向量;

利用所述隐向量计算所述目标词语间的相关性;

根据所述相关性配置所述目标词语对应的目标权重。

可选地,所述基于所述目标权重,构建目标语句的目标句向量,具体包括:

计算所述目标词语的目标权重与对应隐向量乘积的累加和,将所述累加和确定为目标词向量;

依据所述目标词语各自所在所述目标语句中的位置信息,拼接所述目标词向量,获取得到所述目标语句的目标句向量。

可选地,所述分析两个目标语句分别对应的目标句向量之间的交互对比信息,具体包括:

获取第一目标语句构建的第一目标句向量,以及第二目标语句构建的第二目标句向量,所述第一目标句向量对应所述文本语句的句向量,所述第二目标句向量对应所述基础语句的句向量;

计算所述第一目标句向量和所述第二目标句向量间的曼哈顿距离,作为交互对比信息。

可选地,所述基于所述交互对比信息,确定所述两个目标语句之间的语句相似度,具体包括:

将所述曼哈顿距离分别拼接至所述第一目标句向量和所述第二目标句向量的末端;

将拼接曼哈顿距离后的所述第一目标句向量和所述第二目标句向量输入至语句相似性计算模型中,获取得到所述两个目标语句之间的语句相似度。

可选地,在所述将拼接曼哈顿距离后的所述第一目标句向量和所述第二目标句向量输入至语句相似性计算模型中,获取得到所述两个目标语句之间的语句相似度之前,具体还包括:

训练语句相似性计算模型,使所述语句相似性计算模型符合预设标准。

可选地,所述训练语句相似性计算模型,使所述语句相似性计算模型符合预设标准,具体包括:

从文本库中随机筛选出两个样本语句,并确定所述样本语句的句向量,以及所述样本语句间的目标语句相似度,所述句向量由配置权重的各个词向量及曼哈顿距离拼接而成;

将所述句向量输入至语句相似性计算模型,获取得到预测语句相似度;

若判定所述预测语句相似度与所述目标语句相似度之间的误差小于预设阈值,则判定所述语句相似性计算模型通过训练;

若判定所述预测语句相似度与所述目标语句相似度之间的误差大于或等于所述预设阈值,则利用所述目标语句相似度重复训练修正所述语句相似性计算模型,使所述语句相似性计算模型符合所述预设标准。

可选地,在所述将拼接曼哈顿距离后的所述第一目标句向量和所述第二目标句向量输入至语句相似性计算模型中,获取得到所述两个目标语句之间的语句相似度之后,具体还包括:

将与所述文本语句的语句相似度最高的基础语句确定为目标基础语句;

获取所述目标基础语句对应的目标应答输出结果;

将所述目标应答输出结果作为所述文本语句对应的问答结果输出。

可选地,在获取所述目标基础语句对应的目标应答输出结果之前,具体还包括:

为各个基础语句配置对应的应答输出结果;

以三元组结构的方式创建所述基础语句与对应应答输出结果的知识库。

可选地,所述获取所述目标基础语句对应的目标应答输出结果,具体包括:

在所述知识库中提取出与所述目标基础语句匹配的目标应答输出结果。

根据本发明的另一个方面,提供了一种语句相似度的分析装置,该装置包括:

确定模块,用于将接收到的文本语句与知识库中存储的任意一个基础语句,确定为待分析相似度的目标语句;

配置模块,用于根据词语间的相关性,配置目标语句中各个词语对应的目标权重;

构建模块,用于基于所述目标权重,构建所述目标语句的目标句向量;

分析模块,用于分析两个目标语句分别对应的目标句向量之间的交互对比信息;

确定模块,还用于基于所述交互对比信息,确定所述两个目标语句之间的语句相似度。

可选地,所述配置模块包括:

拆分单元,用于从目标语句中拆分出目标词语;

第一确定单元,用于依据注意力模型确定所述目标词语各自对应的隐向量;

第一计算单元,用于利用所述隐向量计算所述目标词语间的相关性;

第一配置单元,用于根据所述相关性配置所述目标词语对应的目标权重。

可选地,所述构建模块包括:

第二计算单元,用于计算所述目标词语的目标权重与对应隐向量乘积的累加和,并将所述累加和确定为目标词向量;

第一拼接单元,用于依据所述目标词语各自所在所述目标语句中的位置信息,拼接所述目标词向量,获取得到所述目标语句的目标句向量。

可选地,所述分析模块包括:

第一获取单元,用于获取第一目标语句构建的第一目标句向量,以及第二目标语句构建的第二目标句向量,所述第一目标句向量对应所述文本语句的句向量,所述第二目标句向量对应所述基础语句的句向量;

第三计算单元,用于计算所述第一目标句向量和所述第二目标句向量间的曼哈顿距离,作为交互对比信息。

可选地,所述确定模块包括:

第二拼接单元,用于将所述曼哈顿距离分别拼接至所述第一目标句向量和所述第二目标句向量的末端;

第一输入单元,用于将拼接曼哈顿距离后的所述第一目标句向量和所述第二目标句向量输入至语句相似性计算模型中,获取得到所述两个目标语句之间的语句相似度。

可选地,所述装置还包括:训练模块;

所述训练模块,用于训练语句相似性计算模型,使所述语句相似性计算模型符合预设标准。

可选地,所述训练模块包括:

第二确定单元,用于从文本库中随机筛选出两个样本语句,并确定所述样本语句的句向量,以及所述样本语句间的目标语句相似度,所述句向量由配置权重的各个词向量及曼哈顿距离拼接而成;

第二输入单元,用于将所述句向量输入至语句相似性计算模型,获取得到预测语句相似度;

判定单元,用于若判定所述预测语句相似度与所述目标语句相似度之间的误差小于预设阈值,则判定所述语句相似性计算模型通过训练;

修正单元,用于若判定所述预测语句相似度与所述目标语句相似度之间的误差大于或等于所述预设阈值,则利用所述目标语句相似度重复训练修正所述语句相似性计算模型,使所述语句相似性计算模型符合所述预设标准。

可选地,所述装置还包括:获取模块、输出模块;

所述确定模块还包括:

第三确定单元,用于将与所述文本语句的语句相似度最高的基础语句确定为目标基础语句;

所述获取模块包括:

第二获取单元,用于获取所述目标基础语句对应的目标应答输出结果;

所述输出模块包括输出单元,用于将所述目标应答输出结果作为所述文本语句对应的问答结果输出。

可选地,所述装置还包括:创建模块;

所述配置模块还包括:第二配置单元,用于为各个基础语句配置对应的应答输出结果;

所述创建模块包括创建单元,用于以三元组结构的方式创建所述基础语句与对应应答输出结果的知识库;

可选地,所述第二获取单元,具体用于在所述知识库中提取出与所述目标基础语句匹配的目标应答输出结果。

根据本发明的另一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述语句相似度的分析方法。

根据本发明的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述语句相似度的分析方法。

借由上述技术方案,本发明提供的一种语句相似度的分析方法、装置及计算机设备,与目前计算语句相似度的方法相比,本发明提供了一种新的语句相似性分析方法,即在语句的相似性比对中加入词语的权重信息,对于垂直领域中的语料,领域相关的词语和非领域相关的词语会被赋予不同的表达权重,能够基于表达权重区分语句中的关键词和非关键词,从而使语句对应的句向量表达更为准确,降低分析误差;同时还在语句相似性分析中加入了两个句子向量的距离信息,进一步丰富句子的表达信息,通过增加语句对比特征,使分析结果更为精确。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。

参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:

图1示出了本领域常用的语句相似度分析的模型结构示意图;

图2示出了本发明实施例提供的一种语句相似度的分析方法的流程示意图;

图3示出了本发明实施例提供的另一种语句相似度的分析方法的流程示意图;

图4示出了本发明实施例提供的一种语句相似度的分析装置的结构示意图;

图5示出了本发明实施例提供的另一种语句相似度的分析装置的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

针对目前在计算语句相似度时,分析结果误差较大,不够精确的问题,本发明实施例提供了一种语句相似度的分析方法,如图2所示,该方法包括:

101、将接收到的文本语句与知识库中存储的任意一个基础语句,确定为待分析相似度的目标语句。

本申请的执行主体可为保险服务、网络互助服务中智能客服的问答系统,可预先配置各个问答场景的基础语句,为各个基础语句关联对应的应答输出结果,并将基础语句和对应的应答输出结果以三元组结构的方式存储于知识库中。当接收到客户端发送的问答请求时,将问答请求中的文本语句分别与各个基础语句构建目标语句对,并通过本实施例中的相似度计算方法对目标语句对进行相似度分析,进一步确定出与客户端输入的文本语句相似度最高的基础语句,从而将该基础语句对应关联的应答输出结果自动发送给对应的客户端,实现智能问答。

102、根据词语间的相关性,配置目标语句中各个词语对应的目标权重。

其中,目标语句中词语间的相关性可基于注意力模型(attentionmodel)获取得到,通过将目标语句中的词语两两进行注意力计算,进一步确定出目标语句中词语各自对应的目标权重。

103、基于目标权重,构建目标语句的目标句向量。

对于本实施例,在确定出目标语句中各个词语对应的目标权重后,可将目标权重添加至原来的词向量中,最后通过拼接重组添加权重后的词向量,构建得到两个目标语句分别对应的目标句向量。

104、分析两个目标语句分别对应的目标句向量之间的交互对比信息。

其中,交互对比信息为目标语句之间的语句对比特征,例如可为两个目标句向量的夹角余弦、欧氏距离、切比雪夫距离、闵可夫斯基距离、曼哈顿距离等,在本实施例中,交互对比信息可选为两个目标句向量之间的曼哈顿距离,通过计算两个目标句向量之间的曼哈顿距离,将曼哈顿距离作为用于确定语句相似度的附加对比特征。

105、基于交互对比信息,确定两个目标语句之间的语句相似度。

对于本实施例,在分析出两个目标句向量之间的曼哈顿距离后,可将曼哈顿距离分别拼接至目标句向量中,进一步对拼接后的目标句向量进行分析,确定出两个目标语句之间的语句相似度。

通过本实施例语句相似度的分析方法,可在语句的相似性比对中加入词语的权重信息,即对于垂直领域中的语料,领域相关的词语和非领域相关的词语会被赋予不同的表达权重,能够基于表达权重区分语句中的关键词和非关键词,从而使语句对应的句向量表达更为准确,降低分析误差;同时还在语句相似性分析中加入了两个句子向量的距离信息,进一步丰富句子的表达信息,通过增加语句对比特征,使分析结果更为精确,进而使问答系统的应答输出结果更能符合用户的需求。

进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种语句相似度的分析方法,如图3所示,该方法包括:

201、将接收到的文本语句与知识库中存储的任意一个基础语句,确定为待分析相似度的目标语句。

对于本实施例,在具体的应用场景中,知识库中存储有多种类型的基础语句,在接收到用户输入的文本语句后,可依次将各个类型的基础语句与文本语句进行相似度对比,进一步确定出相似度最高的基础语句,进而智能匹配并输出对应的应答结果。

202、从目标语句中拆分出目标词语。

其中,目标词语为两个待分析相似度的目标语句中所包含的所有词段,在具体的应用场景中,在筛选目标词语时,可以数据库中存储的词段为拆分基础,进一步确定出目标语句中包含的所有目标词语。

203、依据注意力模型确定目标词语各自对应的隐向量。

其中,本实施例中的注意力模型可为selfattention模型,利用selfattention模型可以捕获同一个句子单词之间的一些句法特征或者语义特征,即进一步确定出目标词语各自对应的隐向量。

204、利用隐向量计算目标词语间的相关性。

其中,相关性为同一语句中不同词语之间的影响程度,相关性的计算公式可为:eij=a(si-1,hj),其中,a为注意力打分函数,si-1是在目标语句中位置i处词语的隐向量表示,hj是位置j处词语的隐向量表示,eij表示一个对齐模型,用于衡量语句中位置j处的词语对于语句中位置i处词语的影响程度。

205、根据相关性配置目标词语对应的目标权重。

其中,目标权重的计算公式为:其中,aij是一个softmax模型输出,代表语句中位置j处的词对于句子中位置i处的词的影响程度(影响权重)的归一化计算结果,即目标权重,tx为所输入目标语句的长度,eik为语句中位置k处的词语对于语句中位置i处词语的影响程度。

206、计算目标词语的目标权重与对应隐向量乘积的累加和,将累加和确定为目标词向量。

其中,计算目标词向量的公式为:其中,ci为目标语句中位置i处的词语与目标语句中所有词语隐向量进行加权求和计算得到的最终向量表示,即位置i处的目标词向量,hj是位置为j的词语的隐向量表示。

207、依据目标词语各自所在目标语句中的位置信息,拼接目标词向量,获取得到目标语句的目标句向量。

对于本实施例,在具体的应用场景中,在基于实施例步骤201,从目标语句中筛选出目标词语时,可同时按照目标词语在目标语句中的排列位置,以序号的形式对目标词语进行位置标注,在拼接目标词向量时,可根据对应目标词语的标注序号进行逐次拼接,进而获取得到目标语句的目标句向量。

例如,若确定第一目标语句中共包含5个目标词语,对应标注序号为1-5,在确定第一目标语句对应的目标句向量时,可按照标注序号的顺序逐次拼接目标词向量,即首先将标注序号为2的目标词向量拼接于标注序号为1的目标词向量的末端,再将标注序号为3的目标词向量拼接于标注序号为2的目标词向量的末端,将标注序号为4的目标词向量拼接于标注序号为3的目标词向量的末端,再将标注序号为5的目标词向量拼接于标注序号为4的目标词向量的末端后,即获取得到目标语句的目标句向量。

208、获取第一目标语句构建的第一目标句向量,以及第二目标语句构建的第二目标句向量。

其中,第一目标语句为待分析相似度的文本语句,第二目标语句为基础语句,第一目标句向量对应文本语句的句向量,第二目标句向量对应基础语句的句向量。在具体的应用场景中,可通过实施例步骤207中的步骤,获取得到第一目标语句对应的第一目标句向量,及第二目标语句对应的第二目标句向量。

209、计算第一目标句向量和第二目标句向量间的曼哈顿距离,作为交互对比信息。

其中,曼哈顿距离的计算公式为:其中,d12为第一目标句向量和第二目标句向量间的曼哈顿距离,x1k为第一目标语句对应n维句向量中各个维度的向量值,x2k为第二目标语句对应n维句向量中各个维度的向量值。

210、将曼哈顿距离分别拼接至第一目标句向量和第二目标句向量的末端。

对于本实施例,将曼哈顿距离拼接至目标句向量的目的是用于向句向量中加入交互信息,从而增添语句相似度的附加对比特征,使语句的向量表达更为精确,增强分析结果的准确性。

需要说明的,在本实施例中,将曼哈顿距离添加至目标句向量中的方式并不局限于本实施例中将曼哈顿距离拼接至目标句向量末端的方式,还可包括其他拼接方式,在此不作详细说明。

211、训练语句相似性计算模型,使语句相似性计算模型符合预设标准。

对于本实施例,在具体的应用场景中,为了训练得到符合预设标准的语句相似性计算模型,实施例步骤210具体可以包括:从文本库中随机筛选出两个样本语句,并确定样本语句的句向量,以及样本语句间的目标语句相似度,句向量由配置权重的各个词向量及曼哈顿距离拼接而成;将句向量输入至语句相似性计算模型,获取得到预测语句相似度;若判定预测语句相似度与目标语句相似度之间的误差小于预设阈值,则判定语句相似性计算模型通过训练;若判定预测语句相似度与目标语句相似度之间的误差大于或等于预设阈值,则利用目标语句相似度重复训练修正语句相似性计算模型,使语句相似性计算模型符合预设标准。

212、将拼接曼哈顿距离后的第一目标句向量和第二目标句向量输入至语句相似性计算模型中,获取得到两个目标语句之间的语句相似度。

对于本实施例,在分析出两个目标句向量之间的曼哈顿距离并拼接至目标句向量中后,进一步通过训练好的语句相似性计算模型对拼接后的目标句向量进行分析,以确定出两个目标语句之间的语句相似度。

213、将与文本语句的语句相似度最高的基础语句确定为目标基础语句。

对于本实施例,在具体的应用场景中,可根据语句相似度的大小,从各类基础语句中确定出与文本语句最接近的目标基础语句,即将与文本语句的语句相似度最高的基础语句确定为目标基础语句。

214、获取目标基础语句对应的目标应答输出结果。

对于本实施例,在具体的应用场景中,在获取所述目标基础语句对应的索引文件之前,具体还包括:为各个基础语句配置对应的应答输出结果;以三元组结构的方式创建所述基础语句与对应应答输出结果的知识库。即分别将各个基础语句和对应的应答输出结果作为独立的实体,以三元组结构的方式将两个实体之间通过关系建立联系,并利用两个实体创建知识库。进一步的,在所述知识库中提取出与所述目标基础语句匹配的目标应答输出结果。

215、将目标应答输出结果作为文本语句对应的问答结果输出。

通过上述语句相似度的分析方法,可在语句的相似性比对中加入词语的权重信息,即对于垂直领域中的语料,领域相关的词语和非领域相关的词语会被赋予不同的表达权重,能够基于表达权重区分语句中的关键词和非关键词,从而使语句对应的句向量表达更为准确,降低分析误差;同时还在语句相似性分析中加入了两个句子向量的距离信息,进一步丰富句子的表达信息,通过增加语句对比特征,使分析结果更为精确,之后还基于神经网络模型训练得到语句相似性计算模型,利用符合预设标准的语句相似性计算模型对添加了权重和距离信息的两个句向量进行相似度识别,进一步确定出两个目标语句之间的语句相似度,并进一步根据语句相似度匹配输出应答响应结果,使问答系统的应答输出结果更能符合用户的需求。

需要说明的是,在具体的应用场景中,还可将本发明中语句相似度的分析方法应用于各个文本识别场景,而非局限于本实施例中的智能问答系统。

进一步的,作为图2和图3所示方法的具体体现,本发明实施例提供了一种语句相似度的分析装置,如图4所示,该装置包括:确定模块31、配置模块32、构建模块33、分析模块34。

确定模块31,可用于将接收到的文本语句与知识库中存储的任意一个基础语句,确定为待分析相关性的目标语句;

配置模块32,可用于根据词语间的相关性,配置目标语句中各个词语对应的目标权重;

构建模块33,可用于基于目标权重,构建目标语句的目标句向量;

分析模块34,可用于分析两个目标语句分别对应的目标句向量之间的交互对比信息;

确定模块31,还可用于基于交互对比信息,确定两个目标语句之间的语句相似度。

在具体的应用场景中,为了配置目标语句中词语各自对应的目标权重,如图5所示,配置模块32包括:

拆分单元321,用于从目标语句中拆分出目标词语;

第一确定单元322,用于依据注意力模型确定目标词语各自对应的隐向量;

第一计算单元323,用于利用隐向量计算目标词语间的相关性;

第一配置单元324,用于根据相关性配置目标词语对应的目标权重。

相应的,为了构建出目标语句的目标句向量,如图5所示,构建模块33包括:

第二计算单元331,用于计算目标词语的目标权重与对应隐向量乘积的累加和,并将累加和确定为目标词向量;

第一拼接单元332,用于依据目标词语各自所在目标语句中的位置信息,拼接目标词向量,获取得到目标语句的目标句向量。

在具体的应用场景中,为了分析出两个目标语句分别对应的目标句向量之间的交互对比信息,如图5所示,分析模块34包括:

第一获取单元341,用于获取第一目标语句构建的第一目标句向量,以及第二目标语句构建的第二目标句向量,第一目标句向量对应文本语句的句向量,第二目标句向量对应基础语句的句向量;

第三计算单元342,用于计算第一目标句向量和第二目标句向量间的曼哈顿距离,作为交互对比信息。

相应的,为了根据交互对比信息,确定出两个目标语句之间的语句相似度,如图5所示,确定模块31包括:

第二拼接单元311,用于将曼哈顿距离分别拼接至第一目标句向量和第二目标句向量的末端;

第一输入单元312,用于将拼接曼哈顿距离后的第一目标句向量和第二目标句向量输入至语句相似性计算模型中,获取得到两个目标语句之间的语句相似度。

在具体的应用场景中,为了训练得到符合预设标准的语句相似性计算模型,如图5所示,本装置还包括:训练模块35;

训练模块35包括:

第二确定单元351,用于从文本库中随机筛选出两个样本语句,并确定样本语句的句向量,以及样本语句间的目标语句相似度,句向量由配置权重的各个词向量及曼哈顿距离拼接而成;

第二输入单元352,用于将句向量输入至语句相似性计算模型,获取得到预测语句相似度;

判定单元353,用于若判定预测语句相似度与目标语句相似度之间的误差小于预设阈值,则判定语句相似性计算模型通过训练;

修正单元354,用于若判定预测语句相似度与目标语句相似度之间的误差大于或等于预设阈值,则利用目标语句相似度重复训练修正语句相似性计算模型,使语句相似性计算模型符合预设标准。

在具体的应用场景中,为了根据语句相似度确定并输出应答响应结果,如图5所示,本装置还包括:获取模块36、输出模块37;

确定模块31还包括:第三确定单元313,用于将与文本语句的语句相似度最高的基础语句确定为目标基础语句;

获取模块36包括:

第二获取单元361,用于获取目标基础语句对应的目标应答输出结果;

输出模块37包括输出单元371,用于将目标应答输出结果作为文本语句对应的问答结果输出。

在具体的应用场景中,为了在确定文本语句最接近的基础语句后,问答系统能够自动输出对应的应答响应结果,如图5所示,本装置还包括:创建模块38;

配置模块32还包括:

第二配置单元325,用于为各个基础语句配置对应的应答输出结果;

创建模块38包括创建单元381,用于以三元组结构的方式创建基础语句与对应应答输出结果的知识库。

相应的,第二获取单元361具体用于在知识库中提取出与目标基础语句匹配的目标应答输出结果。

需要说明的是,本实施例提供的语句相似度的分析装置所涉及各功能单元的其它相应描述,可以参考图2和图3中的对应描述,在此不再赘述。

基于上述如图2和图3所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图2和图3所示的方法。

基于这样的理解,本实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施场景所述的方法。

基于上述如图2和图3所示的方法,以及图4和图5所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种语句相似度分析的实体设备,具体可以为计算机,智能手机,平板电脑,智能手表,服务器,或者网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图2和图3所示的方法。

可选的,该实体设备还可以包括用户接口、网络接口、摄像头、射频(radiofrequency,rf)电路,传感器、音频电路、wi-fi模块等等。用户接口可以包括显示屏(display)、输入单元比如键盘(keyboard)等,可选用户接口还可以包括usb接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如wi-fi接口)等。

本领域技术人员可以理解,本实施例提供的一种语句相似度分析的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本实施例的技术方案,可在语句的相似性比对中加入词语的权重信息,即对于垂直领域中的语料,领域相关的词语和非领域相关的词语会被赋予不同的表达权重,能够基于表达权重区分语句中的关键词和非关键词,从而使语句对应的句向量表达更为准确,降低分析误差;同时还在语句相似性分析中加入了两个句子向量的距离信息,进一步丰富句子的表达信息,通过增加语句对比特征,使分析结果更为精确,之后根据语句相似度匹配输出应答响应结果,使问答系统的应答输出结果更能符合用户的需求。

本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1