本申请涉及自然语言处理技术领域,尤其涉及一种智能问答系统知识与问题匹配的方法及装置。
背景技术:
智能问答系统是一种通过人机互动客户自助查询问题答案的系统,通常包括网络连接的客户端和服务器,服务器中预置有知识库和与知识库对应的答案库,知识库中的知识与答案库中的答案一一对应,服务器根据从客户端获取的问题的文本,匹配预置知识库中的知识,再将所述知识对应的答案返回给客户端以解答客户的问题。
匹配问题文本与预置知识通常有两种方法,第一种是基于用户输入问题的文本与预置知识库中知识相同,第二种是基于用户输入问题的文本与预置知识库中知识的相似度最高。对于第一种方式,用户提出的问题与数据库中的问题往往不完全相同,例如,预先建立的知识库中包含四条知识:1.信用卡办理流程、2.信用卡注销流程、3.公交卡办理流程和4.公交卡注销流程,当客户输入“信用卡办理流程”时,智能问答系统则会匹配知识1,当客户输入“信用卡怎么办理”时,智能问答系统则无法匹配成功。对于第二种方式,常用的相似度计算方法存在系统性的偏差,经常出现问题与对应知识的相似度并不是最大值,可能导致问题与知识匹配错误,进而导致出现答非所问的情况,如上述示例中,当客户输入“信用卡怎么办理”时,智能问答系统认为该问题与3的相似度最高,而为客户提供了3相对应的答案,即,该方法的准确性差。
因此,亟待开发一种用于智能问答系统,根据用户的模糊提问能够准确匹配相关知识的方法及装置。
技术实现要素:
本申请提供了一种智能问答系统知识-问题匹配的方法以及装置,以解决智能问答系统问题与知识匹配不准确,导致提取的答案准确率低的问题。
本发明的目的在于提供以下几个方面:
第一方面,本申请提供了一种智能问答系统知识-问题匹配的方法,该方法包括:
获取客户端发送的问题;
利用知识词和问题词分别获取每一条备选知识与所述问题的权重相似度;
利用知识词和问题词分别获取每一条所述备选知识与所述问题的向量相似度;
利用所述权重相似度和所述向量相似度,分别计算每一条备选知识与所述问题的总相似度;
获取总相似度符合预设规则的备选知识,作为与所述问题相匹配的知识。
可选地,在所述分别获取每一条备选知识与所述问题的权重相似度之前还包括:
生成知识库,所述知识库中包含至少一条所述备选知识;
知识预处理,对所述备选知识进行分词处理,去掉分词处理结果中的停用词,从而获得所述备选知识中的知识词。
可选地,所述知识词通过以下方法获得:
对所述备选知识进行分词处理;
去掉分词处理结果中的停用词,从而获得所述备选知识中的知识词;
可选地,所述问题词通过以下方法获得:
对所述问题进行分词处理;
去掉分词处理结果中的停用词,从而获得所述问题中的问题词。
可选地,所述利用知识词和问题词分别获取每一条所述备选知识与所述问题的权重相似度包括:
获取备选知识中知识词的权重;
根据预设的权重赋予规则给问题中问题词赋予权重;
利用知识词的权重与问题词的权重计算所述权重相似度。
可选地,所述获取备选知识中知识词的权重,包括:
获取每个知识词的权重,所述知识词的权重为所述知识词在本条知识中的权重;
对所述每个知识词的权重进行归一化处理。
可选地,所述权重赋予规则为判断所述问题词是否符合赋予预设权重的条件,若符合,则给所述问题词赋予预设权重;
若不符合,则所述问题中问题词的权重为所有与问题词相同的知识词在每一条备选知识中权重的平均值;
所述赋予预设权重的条件为所述知识词中不包括所述问题词。
可选地,所述利用知识词和问题词获取每一条所述备选知识与所述问题的向量相似度,包括:
获取所述备选知识的向量,
获取所述问题的向量,
利用所述备选知识的向量和所述问题的向量计算所述向量相似度。
可选地,所述获取所述备选知识的向量包括:
获取知识词的词向量,所述知识词的词向量为所述知识词在所述备选知识中的词向量;
利用所述知识词的词向量计算所述备选知识的向量。
可选地,所述获取所述问题的向量包括:
获取问题词的词向量,所述问题词的词向量与相同的所述知识词的词向量相同;
利用知识词的词向量计算所述问题的向量。
可选地,所述权重相似度采用jaccard(雅可比距离)、汉明距离和编辑距离中一种或者多种结合的方式获取;
所述向量相似度采用余弦方式获取;
所述备选知识与所述问题的总相似度为同一条备选知识与所述问题的所述权重相似度与所述向量相似度的线性加权之和。
可选地,所述预设规则为将所有所述备选知识与所述问题的总相似度排序,总相似度最大者中选。
本申请在智能问答系统的知识-问题匹配方法中融合了权重相似度和向量相似度两种相似度评价体系,弥补了单一相似度评价方式存在的系统误差,而且,本申请的方案在计算权重相似度和向量相似度之前,对分词结果进行了预处理,去除分词结果中的停用词,减小了误触率,此外,对预处理后得到的知识词的权重进行了归一化处理,使其阈值在[0,1],减小了由于不同知识词权重差别大而导致的权重相似度计算偏差,从而使得问题与备选知识的权重相似度更加准确,进而提高了总相似度的准确性,进一步提高了智能问答系统知识-问题匹配的准确性。
第二方面,本申请还提供了一种智能问答系统的知识-问题匹配装置,所述装置包括:
问题获取单元,用于获取客户端发送的问题;
权重相似度获取单元,用于利用知识词和问题词分别获取每一条备选知识与所述问题的权重相似度;
向量相似度获取单元,用于利用知识词和问题词分别获取每一条所述备选知识与所述问题的向量相似度;
总相似度计算单元,用于利用所述权重相似度和所述向量相似度,分别计算每一条备选知识与所述问题的总相似度;
知识-问题匹配单元,用于获取总相似度符合预设规则的备选知识,作为与所述问题相匹配的知识。
可选地,所述知识词通过以下方法获得:
对所述备选知识进行分词处理;
去掉分词处理结果中的停用词,从而获得所述备选知识中的知识词;
可选地,所述问题词通过以下方法获得:
对所述问题进行分词处理;
去掉分词处理结果中的停用词,从而获得所述问题中的问题词。
可选地,所述权重相似度获取单元包括:
知识词权重获取子单元,用于获取备选知识中知识词的权重;
问题词权重赋予子单元,用于根据预设的权重赋予规则给问题中问题词赋予权重;
权重相似度计算子单元,用于利用知识词的权重与问题词的权重计算所述权重相似度。
可选地,所述知识词权重获取子单元包括:
普通权重获取从单元,用于获取每个知识词的权重,所述知识词的权重为所述知识词在本条知识中的权重;
归一化处理从单元,用于对所述每个知识词的权重进行归一化处理。
可选地,所述问题词权赋予子单元中,所述权重赋予规则为判断所述问题词是否符合赋予预设权重的条件,若符合,则给所述问题词赋予预设权重;若不符合,则所述问题中问题词的权重为所有与问题词相同的知识词在每一条备选知识中权重的平均值;
所述赋予预设权重的条件为所述知识词中不包括所述问题词。
可选地,所述向量相似度获取单元包括:
知识向量获取子单元,用于获取所述备选知识的向量;
问题向量获取子单元,用于获取所述问题的向量;
向量相似度计算子单元,用于利用所述备选知识的向量和所述问题的向量计算所述向量相似度。
可选地,所述知识向量获取子单元包括:
知识词的词向量获取从单元,用于获取知识词的词向量,所述知识词的词向量为所述知识词在所述备选知识中的词向量;
知识向量计算从单元,用于利用所述知识词的词向量计算所述备选知识的向量。
可选地,所述问题向量获取子单元包括:
问题词的词向量获取从单元,用于获取问题词的词向量,所述问题词的词向量与相同的所述知识词的词向量相同;
问题向量计算从单元,用于利用知识词的词向量计算所述问题的向量。
可选地,所述权重相似度采用jaccard(雅可比距离)、汉明距离和编辑距离中一种或者多种结合的方式获取;
所述向量相似度采用余弦的方式获取;
所述备选知识与所述问题的总相似度为同一条备选知识与所述问题的所述权重相似度与所述向量相似度的线性加权之和;
所述预设规则为将所有所述备选知识与所述问题的总相似度排序,总相似度最大者中选。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请智能问答系统知识-问题匹配方法的一个实施例的流程图;
图2为本申请s102获取权重相似度一个实施例的流程图;
图3为本申请s103获取向量相似度的一个实施例的流程图;
图4为本申请智能问答系统知识-问题匹配装置一个实施例的装置结构示意图;
图5为本申请权重相似度获取单元402一个实施例的结构示意图;
图6为本申请向量相似度获取单元403一个实施例的装置结构示意图;
图7为本申请实施例提供的计算机系统的结构示意图。
具体实施方式
下面通过对本发明进行详细说明,本发明的特点和优点将随着这些说明而变得更为清楚、明确。
以下详述本发明。
根据本申请的第一方面,提供了一种智能问答系统的知识-问题匹配方法,如图1所示,其中,该方法包括:
s101获取客户端发送的问题;
s102利用知识词和问题词分别获取每一条备选知识与所述问题的权重相似度;
在本申请中,知识词是备选知识的分词结果;问题词是客户端发送的问题的分词结果。
s103利用知识词和问题词分别获取每一条所述备选知识与所述问题的向量相似度;
s104利用所述权重相似度和所述向量相似度,分别计算每一条备选知识与所述问题的总相似度;
s105获取总相似度符合预设规则的备选知识,作为与所述问题相匹配的知识。
在本申请中,所述知识词通过以下方法获得:
对所述备选知识进行分词处理;
去掉分词处理结果中的停用词,从而获得所述备选知识中的知识词。
在本申请中,所述问题词通过以下方法获得:
对所述问题进行分词处理;
去掉分词处理结果中的停用词,从而获得所述问题中的问题词。
在本申请中,所述备选知识包括一个标准问和任选的扩展问,其中,所述扩展问为标准问的不同表达形式,其均表达同一语义,如以银行业关于如何办理信用卡为例进行说明,在所述知识库中存储有与“如何办理信用卡”有关的备选知识包括:“信用卡办理流程”、“我到哪里可以办理信用卡”、“办理信用卡步骤”等,将上述问题的其中一个问题作为标准问,其他三个问题作为扩展问。在本实施例中,比如可以将排在最前面的一个问题“信用卡办理流程”作为标准问,将另外的三个问题作为相应的扩展问,在其他实施例中也可以指定其它问题为标准问。
需要说明的是,所述标准问和所述扩展问均既可以采用语义表达式的形式,也可以采用具体的问句形式,其都在本发明的保护范围中。
在本申请中,基于每条所述备选知识,所述知识词是去重后的结果,即,在同一条备选知识的分词处理结果中,相同的词条仅按照一个词条计,例如:备选知识为“我想办理信用卡,我该如何办理招行信用卡”,分词处理后的结果分别为“我”、“办理”、“信用卡”、“我”、“如何”、“办理”、“招行”、“信用卡”,即,该条备选知识中虽然包括两个相同的字符串“我”、“办理”、“信用卡”,但该条备选知识的分词处理的结果为“我”、“办理”、“信用卡”、“如何”和“招行”。
去掉停用词处理是预先建立一个停用词列表,去掉停用词时,分词处理结果中每一个词条与停用词列表中的词进行匹配,如果该词条存在于停用词列表中,则将该词条从中文分词处理后的词条串中删除。
本申请中所述停用词为无实际意义的词,如语气助词或者结构助词等,例如“的”、“地”、“了”、“吗”、“吧”等。
本发明人发现,去掉停用词后,能够去除所述问题中的噪音,从而使所述备选知识与所述问题的相似度更为准确,从而提高知识-问题匹配的准确率,进而提高智能问答系统答案的准确率。
在本申请中,步骤s111和步骤s112可以在步骤s101之前也可以在步骤s101之后。
在本申请s101中,获取客户端发送的问题即为获取客户端发送问题的文本。
在本申请中,如图1所示,对步骤s102和步骤s103的顺序不做特别限定,可为任意顺序,即所述两个步骤的顺序可以为s102-s103,也可以为s103-s102。
在本申请中,所述权重相似度是指基于知识词与问题词的权重计算的所述知识与所述问题的相似度。
在本申请s102中,如图2所示,所述利用知识词和问题词分别获取每一条备选知识与所述问题的权重相似度包括:
s201获取备选知识中知识词的权重;
s202根据预设的权重赋予规则给问题中问题词赋予权重;
s203利用知识词的权重与问题词的权重计算所述权重相似度。
在本申请s201中,所述获取备选知识中知识词的权重包括:
s2011获取每个知识词的权重,所述知识词的权重为所述知识词在本条知识中的权重;
s2012对所述每个知识词的权重进行归一化处理。
在本申请s2011中,所述每个知识词的权重通过tf-idf(termfrequency–inversedocumentfrequency,词频-逆文档率)方法获取。
在本申请s2012中,对所述每个知识词的权重经过归一化处理,使其阈值为[0,1]。
本发明人发现,通过tf-idf方法获得的权重数值范围大,例如会达到[1,4000],如果以该权重计每个知识词的权重,则会导致权重小的知识词在计算相似度时被约为0,从而导致计算得到的权重相似度与真实相似度差别巨大,即,权重相似度严重失准,进而导致智能问答系统提供的答案准确率低。
本申请对所述每个知识词的权重经过归一化处理,使其阈值为[0,1],既保持了各个知识词权重的分布特点,也缩小了各个知识词权重的差距,使得备选知识与所述问题的相似度计算更为合理准确。
在本申请s202中,所述权重赋予规则为判断所述问题词是否符合赋予预设权重的条件,若符合,则给所述问题词赋予预设权重;若不符合,则所述问题中问题词的权重为所有与问题词相同的知识词在每一条备选知识中权重的平均值。
在本申请中,所述赋予预设权重的条件为所述知识词中不包括所述问题词。
在本申请中,所有符合赋予预设权重的条件的问题词的预设权重全部相同,如获取的问题为“我怎么办理信用卡”,分词处理并去掉信用词后的结果为“我”、“怎么”、“办理”、“信用卡”,知识词中只有“怎么”、“办理”、“信用卡”,即,知识词中不包括问题词“我”,因此,赋予问题词“我”预设权重(如0.2)。
在本申请s2023中,对不同备选知识进行分词处理,可能得到相同的知识词,在不同备选知识中,上述相同的知识词的权重可能相同也可能不同,当它们不同时,选取任何一个权重赋予问题词都是片面的,不准确的,而取上述知识词在所有备选知识中的平均权重则具有普遍意义,能够使得知识权重与问题权重更为准确。
在本申请一个实施例中,备选知识为“信用卡办理流程”、“信用卡注销流程”、“公交卡办理流程”和“公交卡注销流程”,则知识词在每一条备选知识中权重的平均值如下获取:
其中,每个知识词在每一条备选知识中权重的平均值分别为:
在本申请中,在s202获取所述问题中问题词的权重前,还包括:
s221对所述问题进行分词处理;
s222去掉分词处理结果中的停用词,从而获得所述问题中的问题词。
在本申请中,对所述问题进行分词处理方式与对所述备选知识进行分词处理的方式相同。
在本申请中,去掉所述问题分词结果中停用词的方式与所述去掉所述备选知识分词结果中停用词的方式相同。
在本申请s203中,所述利用知识词的权重与问题词的权重计算所述权重相似度通过jaccard(雅可比距离)、汉明距离和编辑距离中一种或者多种结合的方式获取。
在本申请一个实施例中,计算所述备选知识为“信用卡办理流程”与所述问题为“我怎么办理信用卡呢”的权重相似度的方法为:
设定集合a为所述问题词及其权重的集合,集合b为知识词及其权重的集合,则集合a为“我”、“怎么”、“办理”和“信用卡”,权重分别为1/5、1/3、1/3和1/3,集合b为“信用卡”、“办理”和“流程”,权重分别为1/3、1/3和1/3,所述问题与所述备选知识的权重相似度为:
jaccard(a,b)=|aintersectb|/|aunionb|
其中,jaccard(a,b)表示集合a与b的权重相似度;
|aintersectb|表示a、b两集合交集的权重之和;
|aunionb|表示a、b两集合并集的权重之和;
对于本实施例,a、b两集合的交集为“办理”和“信用卡”,权重分别为1/3和1/3,a、b两集合的并集为“我”、“怎么”、“办理”、“信用卡”和“流程”,权重分别为1/5、1/3、1/3、1/3和1/3;
则jaccard(a,b)=(1/3+1/3)/(1/5+1/3+1/3+1/3+1/3)=(2/3)/(5/7)=10/21,即,所述备选知识与所述问题的权重相似度为10/21。
在本申请s103中,如图3所示,所述利用知识词和问题词分别获取每一条所述备选知识与所述问题的向量相似度包括:
s301获取所述备选知识的向量,
s302获取所述问题的向量,
s303利用所述备选知识的向量和所述问题的向量计算所述向量相似度。
在本申请中,所述向量相似度是指基于知识词与问题词的向量计算的所述知识与所述问题的相似度。
在本申请s301中,所述获取所述备选知识的向量,包括:
s3011获取知识词的词向量,所述知识词的词向量为所述知识词在所述备选知识中的词向量;
s3012利用所述知识词的词向量计算所述备选知识的向量。
在本申请中,所述问题词词向量的维度与所述知识词词向量的维度相同。
在所述知识库中相同知识词的词向量相同,所述知识词的词向量通过word2vec(word2vector,即词嵌入)或者one-hot(one-hotencoding,即独热编码)中的一种方式获取。
在本申请中,所述备选知识的向量为所述问题中所有知识词的平均词向量,即,所有知识词在每一维度上取平均值所得到的向量,如所述备选知识为“信用卡办理流程”,分词处理的结果为“信用卡”、“办理”和“流程”,它们的向量表示分别为:
信用卡向量表示[8/10,1/10,1/10]
办理向量表示[3/10,6/10,1/10]
流程向量表示[4/10,2/10,4/10]
则该备选知识的向量为[(8/10+3/10+4/10)/3,(1/10+6/10+2/10)/3,(1/10+1/10+4/10)/3]=[1/2,3/10,1/5]。
在本申请s302中,所述获取所述问题的向量,包括:
s3021获取问题词的词向量,所述问题词的词向量与相同的所述知识词的词向量相同;
s3022利用知识词的词向量计算所述问题的向量。
在本申请中,所述获取所述问题的向量与所述获取所述备选知识的向量的方法相同。
在本申请s303中,所述利用所述备选知识的向量和所述问题的向量计算所述向量相似度,所述向量相似度采用余弦的方式获取。
在本申请一个实施方式中,以余弦方式为例说明向量相似度的获取:例如,计算备选知识“信用卡办理流程”与所述问题“我如何办理信用卡”的向量相似度,设定知识词与问题词的词向量均为三维,将所述备选知识进行分词处理并去掉停用词,得到结果为:
信用卡向量表示[8/10,1/10,1/10]
办理向量表示[3/10,6/10,1/10]
流程向量表示[4/10,2/10,4/10]
则该备选知识的向量用a表示为[(8/10+3/10+4/10)/3,(1/10+6/10+2/10)/3,(1/10+1/10+4/10)/3]=[1/2,3/10,1/5],即,a=[1/2,3/10,1/5];
将所述问题进行分词处理并去掉停用词,得到结果为:
则问题的向量用b表示为[(1/10+5/10+3/10+8/10)/4,(3/10+4/10+6/10+1/10)/4,(6/10+1/10+1/10+1/10)/4]=[17/40,14/40,9/40],即b=[17/40,14/40,9/40];
则所述备选知识与所述问题的向量相似度为a与b的夹角θ的余弦等于:
具体地,a=[1/2,3/10,1/5],b=[17/40,14/40,9/40],则:
a与b的相似度
cosθ=
[(17/40*1/2)+(14/40*3/10)+(9/40*1/5)]/sqrt[(17/40*17/40+14/40*14/40+9/40*9/40)*(1/2*1/2+3/10*3/10+1/5*1/5)]
=98/100,
即,所述备选知识与所述问题的向量相似度为98/100。
在本申请s104中,所述利用所述权重相似度和所述向量相似度,分别计算每一条备选知识与所述问题的总相似度,为求当前备选知识与所述问题的所述权重相似度和所述向量相似度的线性加权之和,即,分别赋予权重相似度第一预设系数,向量相似度第二预设系数,分别计算权重相似度与第一预设系数的乘积,和向量相似度与第二预设系数的乘积,总相似度为两乘积之和。
在本申请s104中,所述总相似度根据下述公式i进行计算:
d总=a*d权重+b*d向量公式i
其中,d总表示总相似度,
d权重表示权重相似度,
d向量表示向量相似度,
a表示第一预设系数,
b表示第二预设系数,
并且,0<a<1,a+b=1。
在本申请s105中,所述预设规则为将所有所述备选知识与所述问题的总相似度排序,总相似度最大者中选。
为更充分地理解本发明所述的智能问答系统提取知识的方法,下面列举一个具体实施例进行说明。
所述问题为“我怎么办理信用卡”,备选知识为“信用卡办理流程”、“信用卡注销流程”、“公交卡办理流程”和“公交卡注销流程”,则所述备选知识与所述问题匹配的过程为:
(1)对所述备选知识进行分词处理,去掉其中的停用词,获得知识词,再利用tf-idf计算各知识词在本条备选知识中的权重,结果如下:
(2)根据(1)的结果,计算每个知识词在每一条备选知识中权重的平均值分别为:
(3)对所述问题进行分词处理,去掉其中的停用词,获得问题词,根据预设的权重赋予规则给所述问题词赋予权重,在本实施例中,预设的权重为1/5,对问题词赋予权重结果如下:
则,备选知识“信用卡办理流程”与所述问题“我怎么办理信用卡”的权重相似度为:jaccard(a,b)=|aintersectb|/|aunionb|=(1/3+1/3)/(1/5+1/3+1/3+1/3+1/3)=(2/3)/(5/7)=10/21,即,所述备选知识与所述问题的权重相似度为10/21;其余备选知识与所述问题的权重相似度按照相同的方法依次计算,得到结果如下表1所示;
(4)在本实施例中,设定每个知识词以及问题词的词向量均为三维,使用word2vec获取每个知识词以及问题词的词向量,以备选知识“信用卡办理流程”为例,计算所述备选知识与所述问题的向量相似度,如下:
所述备选知识的知识词向量依次为:
信用卡向量表示[8/10,1/10,1/10]
办理向量表示[3/10,6/10,1/10]
流程向量表示[4/10,2/10,4/10],
则该备选知识的向量用a表示为[(8/10+3/10+4/10)/3,(1/10+6/10+2/10)/3,(1/10+1/10+4/10)/3]=[1/2,3/10,1/5],即,a=[1/2,3/10,1/5];
将所述问题进行分词处理并去掉停用词,得到结果为:
则问题的向量用b表示为[(1/10+5/10+3/10+8/10)/4,(3/10+4/10+6/10+1/10)/4,(6/10+1/10+1/10+1/10)/4]=[17/40,14/40,9/40],即b=[17/40,14/40,9/40];
则所述备选知识与所述问题的向量相似度为a与b的夹角θ的余弦等于:
具体地,a=[1/2,3/10,1/5],b=[17/40,14/40,9/40],则:
a与b的相似度
cosθ=[(17/40*1/2)+(14/40*3/10)+(9/40*1/5)]/sqrt[(17/40*17/40+14/40*14/40+9/40*9/40)*(1/2*1/2+3/10*3/10+1/5*1/5)]
=98/100,
即,所述备选知识与所述问题的向量相似度为98/100,其余备选知识与所述问题的向量相似度按照相同的方法依次计算,得到结果如下表1所示;
(5)分别计算同一备选知识与所述问题的权重相似度和向量相似度的线性加权之和,其中,第一预设系数为a=0.4,第二预设系数为b=0.6,结果如表1所示。
表1备选知识与问题的相似度结果
(6)比较表1中“总相似度”,数值最大的备选知识为“信用卡办理流程”,即,匹配结果为“信用卡办理流程”。
根据本申请的第二方面,还提供了一种智能问答的知识-问题匹配装置,如图4所示,所述装置包括:
问题获取单元401,用于获取客户端发送的问题;
权重相似度获取单元402,用于利用知识词和问题词分别获取每一条备选知识与所述问题的权重相似度;
向量相似度获取单元403,用于利用知识词和问题词分别获取每一条所述备选知识与所述问题的向量相似度;
总相似度计算单元404,用于利用所述权重相似度和所述向量相似度,分别计算每一条备选知识与所述问题的总相似度;
知识-问题匹配单元405,用于获取总相似度符合预设规则的备选知识,作为与所述问题相匹配的知识。
在本申请中,所述知识词通过以下方法获得:
对所述备选知识进行分词处理;
去掉分词处理结果中的停用词,从而获得所述备选知识中的知识词;
在本申请中,所述问题词通过以下方法获得:
对所述问题进行分词处理;
去掉分词处理结果中的停用词,从而获得所述问题中的问题词。
在本申请中,如图5所示,所述权重相似度获取单元402包括:
知识词权重获取子单元4021,用于获取备选知识中知识词的权重;
问题词权重赋予子单元4022,用于根据预设的权重赋予规则给问题中问题词赋予权重;
权重相似度计算子单元4023,用于利用知识词的权重与问题词的权重计算所述权重相似度。
在本申请中,所述知识词权重获取子单元4021包括:
普通权重获取从单元40211,用于获取每个知识词的权重,所述知识词的权重为所述知识词在本条知识中的权重;
归一化处理从单元40212,用于对所述每个知识词的权重进行归一化处理。
在本申请中,所述问题词权赋予子单元4022中,所述权重赋予规则为判断所述问题词是否符合赋予预设权重的条件,若符合,则给所述问题词赋予预设权重;若不符合,则所述问题中问题词的权重为所有与问题词相同的知识词在每一条备选知识中权重的平均值;
所述赋予预设权重的条件为所述知识词中不包括所述问题词。
在本申请中,如图6所示,所述向量相似度获取单元403包括:
知识向量获取子单元4031,用于获取所述备选知识的向量;
问题向量获取子单元4032,用于获取所述问题的向量;
向量相似度计算子单元4033,用于利用所述备选知识的向量和所述问题的向量计算所述向量相似度。
在本申请中,所述知识向量获取子单元4031包括:
知识词的词向量获取从单元40311,用于获取知识词的词向量,所述知识词的词向量为所述知识词在所述备选知识中的词向量;
知识向量计算从单元40312,用于利用所述知识词的词向量计算所述备选知识的向量。
在本申请中,所述问题向量获取子单元4032包括:
问题词的词向量获取从单元40321,用于获取问题词的词向量,所述问题词的词向量与相同的所述知识词的词向量相同;
问题向量计算从单元40322,用于利用知识词的词向量计算所述问题的向量。
在本申请中,所述权重相似度采用jaccard(雅可比距离)、汉明距离和编辑距离中一种或者多种结合的方式获取;
所述向量相似度采用余弦的方式获取;
所述备选知识与所述问题的总相似度为同一条备选知识与所述问题的所述权重相似度与所述向量相似度之和;
所述预设规则为将所有所述备选知识与所述问题的总相似度排序,总相似度最大者中选。
图7示出了可以在其上实施实施例的计算机系统800的方框图。计算机系统800包括处理器810、存储介质820、系统存储器830、监视器840、键盘850、鼠标860、网络接口820和视频适配器880。这些部件通过系统总线890耦合在一起。
存储介质820(例如硬盘)存储多个程序,包括操作系统、应用程序和其他程序模块。用户可以通过输入设备向计算机系统800中输入命令和信息,输入设备例如是键盘850、触摸板(未示出)和鼠标860。使用监视器840来显示文本和图形信息。
操作系统运行于处理器810上并且用于协调和提供图7中的个人计算机系统800内的各种部件的控制。此外,可以在计算机系统800上使用计算机程序以实施上述各种实施例。
要认识到,图7中所示的硬件部件仅仅出于例示的目的,而实际部件可能根据为实施本发明而部署的计算设备而变化。
此外,计算机系统800例如可以是台式计算机、服务器计算机、膝上型计算机或无线设备,例如移动电话、个人数字助理(pda)、手持式计算机等。
要认识到,可以将本发明范围内的实施例实现为计算机程序产品的形式,计算机程序产品包括计算机可执行指令,例如程序代码,其可以运行于结合适当操作系统的任何适当计算环境上,操作系统例如是microsoftwindows、linux或unix操作系统。本发明范围内的实施例还可以包括程序产品,程序产品包括计算机可读介质用于承载或存储计算机可执行指令或数据结构于其上。这样的计算机可读介质可以是任何能够通过通用或专用计算机访问的可用介质。例如,这样的计算机可读介质可以包括ram、rom、eprom、eeprom、cd-rom、磁盘存储器或其他存储装置,或能够用于以计算机可执行指令形式承载或存储期望的程序代码并可以由通用或专用计算机访问的任何其他介质。
根据本发明提供的智能问答系统提取答案的方法、装置以及系统,具有以下有益效果:
(1)对权重进行了归一化处理,从而使用权重作为评判因素更为准确;
(2)综合权重和向量两种因素评判问题与知识的相似度,使得相似度判断更为准确;
(3)减少了人工修正问题的工作,节省了企业大量的人工成本。
以上结合具体实施方式和范例性实例对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。