智能问答方法、知识库优化方法及装置、智能知识库的制作方法

文档序号:10534931阅读:300来源:国知局
智能问答方法、知识库优化方法及装置、智能知识库的制作方法
【专利摘要】本发明公开了一种智能问答方法、知识库优化方法及装置、智能知识库。该方法包括:提供知识库,知识库包括多个知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类;获取用户的输入信息;将输入信息与知识点中的问题进行语义相似度计算,当计算得到的最大语义相似度值大于预设阈值时,将最大语义相似度值对应的知识点中的答案发送给用户,其中,至少部分词类包括修正权重标记,在进行语义相似度计算时,根据修正权重标记对对应的词类的原始权重进行修正处理。借助于本发明的技术方案,能够优化知识库的结构,提高计算相似度的准确性,提高匹配成功率。
【专利说明】
智能问答方法、知识库优化方法及装置、智能知识库
技术领域
[0001] 本发明涉及计算机技术领域,特别是涉及一种智能问答方法及装置、知识库优化 方法及装置、智能知识库。
【背景技术】
[0002] 在问答系统中,知识库起着至关重要的作用,知识库包括多个知识点,每个知识点 包括答案、一个标准问和/或对应于标准问的多个扩展问。标准问以及扩展问既可以采用普 通问题形式,也可以采用语义表达式形式,两者根据是否包括词类进行区分。语义表达式中 包括词类,词类是按照词的语义进行划分的,把一组相关的词组织在一起形成一个树状结 构的词类库,在这个树状结构中的任意一个非叶子结点都称作一个词类(即,广义词类),其 中直接包含词的第一级词类称为狭义词类。狭义词类是对一组相关词的汇总,词类由词类 名和一组相关词所组成。词类名是在这组相关词中具有标签作用的词,即词类的代表。一个 词类中至少包含一个词(即词类本身)。定义词类的目的主要是为了分词、构造语义表达式 以及使用其携带的语义信息进行语义相似度计算。
[0003] 词或词类的权重作为语义相似度计算的基础,它的准确性直接影响到了相似度计 算的准确性,由于领域知识的知识量有限,因此基于统计意义的词频及文档频率计算出的 权重就不能保证一定的正确性。例如,在根据语义表达式进行相似度计算时,会出现如下问 题:有的词类在某个语义表达式中或者从全局来看,权重都是比较低的,但在其他语义表达 式中,该词类可能需要比较高的权重。但是,按照现有技术中的词或词类的基于统计意义的 词频及文档频率计算出的权重,不会考虑上述情况,从而会出现计算出权重不准确的问题, 从而导致语义相似度计算的不准确,最终导致不能够为用户输入进行准确的匹配,从而推 送给用户答案不是用户所需要的。

【发明内容】

[0004] 鉴于现有技术中在计算相似度时没有考虑词类在某些语义表达式中需要较高的 权重从而导致相似度计算不准确的问题,提出了本发明以便提供一种克服上述问题或者至 少部分地解决上述问题的智能问答方法及装置、知识库优化方法及装置、智能知识库。
[0005] 本发明提供一种智能问答方法,包括:提供知识库,知识库包括多个知识点,每个 知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式 包括词类;获取用户的输入信息;将输入信息与知识点中的问题进行语义相似度计算,当计 算得到的最大语义相似度值大于预设阈值时,将最大语义相似度值对应的知识点中的答案 发送给用户,其中,至少部分词类包括修正权重标记,在进行语义相似度计算时,根据修正 权重标记对对应的词类的原始权重进行修正处理。
[0006] 本发明还提供了一种知识库优化方法,知识库包括多个知识点,每个知识点包括 答案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类,该 方法包括:确定语义表达式中的特定词类;对特定词类添加修正权重标记,修正权重标记用 于调整特定词类在该语义表达式中的重要程度。
[0007] 本发明还提供了一种智能知识库,该知识库包括多个知识点,每个知识点包括答 案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类,至少 部分词类包括修正权重标记。
[0008] 本发明还提供了一种智能问答方法装置,包括:知识库模块,用于提供知识库,知 识库包括多个知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采 用语义表达式,语义表达式包括词类;处理模块,用于获取用户的输入信息;将输入信息与 知识点中的问题进行语义相似度计算,当计算得到的最大语义相似度值大于预设阈值时, 将最大语义相似度值对应的知识点中的答案发送给用户,其中,至少部分词类包括修正权 重标记;处理模块具体用于:在进行语义相似度计算时,根据修正权重标记对对应的词类的 原始权重进行修正处理。
[0009] 本发明还提供了一种知识库优化装置,知识库包括多个知识点,每个知识点包括 答案以及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类,该 装置具体包括:确定模块,用于确定语义表达式中的特定词类;添加模块,用于对特定词类 添加修正权重标记,修正权重标记用于调整特定词类在该语义表达式中的重要程度。
[0010] 本发明有益效果如下:
[0011] 通过对特定词类添加修正权重标记,在进行语义相似度计算时,根据修正权重标 记对对应的词类的原始权重进行修正处理,解决了现有技术中在计算相似度时没有考虑词 类在某些语义表达式中需要较高或较低的权重从而导致相似度计算不准确的问题,能够优 化知识库的结构,提高计算相似度的准确性,提高匹配成功率。
[0012] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0013] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0014] 图1是本发明实施例的智能问答方法的流程图;
[0015] 图2是本发明实施例的知识库优化方法的流程图;
[0016] 图3是本发明装置实施例的智能问答装置的示意图;
[0017] 图4是本发明装置实施例的知识库优化装置的示意图。
【具体实施方式】
[0018] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0019] 为了解决现有技术中在计算相似度时没有考虑词类在某些语义表达式中需要较 高或较低的权重从而导致相似度计算不准确的问题,本发明提供了一种智能问答方法及装 置、知识库优化方法及装置、智能知识库,以下结合附图以及实施例,对本发明进行进一步 详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
[0020] 方法实施例一
[0021] 根据本发明的实施例,提供了一种智能问答方法,图1是本发明实施例的智能问答 方法的流程图,如图1所示,根据本发明实施例的智能问答方法包括如下处理:
[0022] 步骤101,提供知识库,知识库包括多个知识点,每个知识点包括答案以及一个或 多个问题,其中,至少部分数目的问题采用语义表达式,语义表达式包括词类,在至少部分 语义表达式中,至少部分词类包括修正权重标记。
[0023]在步骤101中,知识库中的知识点最原始和最简单的形式就是平时常用的FAQ,一 般的形式是"问_答"对,其中,该"问"就是标准问,该"答"就是答案。例如,"彩铃的资费"就 是表达清晰的标准问描述。知识库里的每个知识点还可以有对应于一个标准问的扩展问, 该扩展问与标准问表达形式略有差异,但是表达的含义相同。其中,知识点中的标准问和扩 展问可以采用语义表达式进行表达。
[0024]语义表达式主要由词、词类以及他们的"或"关系构成,其核心依赖于词类,词类即 为一组有共性的词(如:同义词)。为了区分语义表达式中的词与词类,在语义表达式中,词 类可以出现在方括号"[]"中。需要说明的是,在本发明实施例中,方括号中出现的词类一般 为"狭义词类",在实际应用中,也可通过配置系统参数以支持"广义词类"。此外,语义表达 式与用户问句(即输入信息)之间关系是通过量化的值即相似度来表示的。
[0025]在本发明实施例中,至少部分词类包括修正权重标记,该修正权重标记用于调整 所标记的词类在该语义表达式中的重要程度。优选地,可以使用"*n"或"*rT"表示修正权重 标记。具体地,在本发明实施例中,修正权重标记包括修正趋势以及修正系数,修正趋势为 增加或缩减,修正系数大于0。例如,"*rT"中的减号表示修正趋势为缩减,而不带有减号的 "*n"表示修正趋势为增加,其中,n表示修正系数,根据具体情况修正系数可以取不同的值, 如:10%、20%、50%、90%等。
[0026] 步骤102,获取用户的输入信息;该输入信息可以是用户提问。
[0027] 步骤103,将输入信息与知识点中的问题进行语义相似度计算,在进行语义相似度 计算时,根据修正权重标记对对应的词类的原始权重进行修正处理;当计算得到的最大语 义相似度值大于预设阈值时,将最大语义相似度值对应的知识点中的答案发送给用户。
[0028] 在步骤103中,原始权重可以通过以下方式进行计算:
[0029] 根据公式1计算特定词或词类的文档频率idf:
[0030] idf = l+log(N/(n+l))公式 1;
[0031] 其中,N为知识库中的总知识点数,n为特定词或词类出现的知识点数;
[0032]根据公式2计算特定词或词类的词频tf:
[0033] tf = sqrt(n'/N')公式2;
[0034] 其中,N'为特定词或词类所在知识点的词以及词类的总数,n'为该知识点中出现 特定词或词类的数;
[0035 ]根据公式3计算特定词或词类的原始权重w:
[0036] w=idf*tf 公式 3。
[0037] 在步骤103中,需要根据修正权重标记对对应的词类的原始权重进行修正处理,其 中,当修正趋势为增加时,修正处理后的权重w'为w' =w+w*n;当修正趋势为缩减时,修正处 理后的权重w'为w' = w-w*n;其中:w为原始权重,n为修正系数。
[0038] 具体地,在计算相似度时,任一标准问或扩展问可以描述为由组成标准问或扩展 问的n个词(或词类)的权重构成的n维向量cU = (W1 i,W12,…,W1 n);用户问句可以描述为由 组成问句的词的权重构成的另一个n维向量d = (W2i,W22,…,W2n)。Wl4PW2n为原始权重,此 时,需要根据修正权重标记对对应的词类的原始权重进行修正处理,其中,当修正趋势为增 加时,修正处理后的权重Wlk和W2k为:Wlk = Wln+Wln*n,W2k = W2n+W2n*n;当修正趋势为缩减 时,修正处理后的权重Wlk和W2k为:Wlk=Wl n-Wln*n,W2k=W2n-W2n*n;其中:n为修正系数。根 据上述修正处理,Wl k和W2k为对词类进行权重修正后的权重。如公式6所示,用户问句和标准 问或扩展问的相似度可以利用各自转化形成的向量在n维空间的向量夹角余弦来计算。
.公式6_;:
[0040] 用户问句和知识点中问题的相似度可以用公式7计算。
[0041] Sim(d,D) =Max[Sim(d,diGD)]公式 7;
[0042] 其中,D为目标文档(知识库^心为目标文档中的标准问、扩展问或语义表达式展 开后的简单模板。
[0043]需要说明的是,在本发明的其他实施例中,还可以采用其它方法计算相似度值,其 不限制本发明的保护范围。
[0044]以下结合实例,对本发明实施例的上述技术方案进行举例说明。
[0045]需要说明的是,测试问是针对知识点编写的一些测试样例文本,主要用来进行语 义正确性检测。
[0046] 知识库中有如下标准问和测试问:
[0047]标准问1:是否可以代办信用卡
[0048] 扩展问1:[他人|家属|代办][信用卡][能否|是否]
[0049] 测试问1:能不能找他人帮忙办理信用卡
[0050] 测试问2:能不能找其他人帮我办张额度高点的信用卡 [0051]测试问3:是否可以找家属帮我办信用卡
[0052]其中,"家属"是词类:可以包括哥哥、姐姐、亲人和父母等同义词;"他人"是词类, 可以包括其他人和他人等同义词,"I"表示或者的关系。
[0053]标准问2:办理高额度信用卡的条件
[0054]测试问4:办一张额度高点的信用卡需要准备什么
[0055]标准问3:代办信用卡需要提供什么证件
[0056]测试问5:其他人帮忙办理信用卡需要提供什么证件
[0057] 标准问4:林志玲姐姐好漂亮啊
[0058]从上面的4个标准问的例子可以看出。测试问1和测试问3中"他人"或"家属"是一 个比较重要的词,但是在第4个例子中,基本上可以忽略"姐姐"这个词。从全局来讲"他人" 或"家属"这类词都会是权重比较低的词。例如,标准问1中的测试问2:能不能找其他人帮我 办张额度高点的信用卡,里面的关键词为:办、额度、高、信用卡,直接会触发到标准问题2。 若此时整体提高测试问2与标准问1的扩展问1的相似度,那么标准问3及测试问5都会被扩 展问1抢掉。
[0059 ]因此,根据本发明实施例的技术方案,在标准问1和标准问3中"他人"和"家属"这 类全局权重不能设置的较高,但是在特定句子中权重又确实比较高的词类,也就是说,某些 词或词类从专业领域的角度来看并不重要,但是在某些句子中却是非常重要的,此时可将 该词或词类在语义表达式中将其标注为特定词或词类。在本实例中,可以在语义表达式: [他人I家属I代办][信用卡][能否I是否]中的[他人I家属I代办]上设置修正权重标记*n, 表示该表达式中这类词的重要程度。
[0060]综上所述,通过在进行语义相似度计算时,根据修正权重标记对对应的词类的原 始权重进行修正处理,能够提高计算相似度的准确性,提高匹配成功率。
[0061 ]方法实施例二
[0062]根据本发明的实施例,提供了一种知识库优化方法,图2是本发明实施例的知识库 优化方法的流程图,如图2所示,根据本发明实施例的知识库优化方法包括如下处理:
[0063] 步骤201,确定语义表达式中的特定词类。
[0064]需要说明的是,在本发明实施例中,上述语义表达式设置于知识库中,知识库包括 多个知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表 达式,语义表达式包括词类。
[0065]在步骤201中,优选地,在本发明实施例中,特定词类可以在建立知识库之后,通过 分析错误日志数据库获得。具体地,根据错误日志数据库,确定语义表达式中引起语义理解 错误的词类,并确定引起语义理解错误的原因是否为所述词类的权重设置不合理,如果判 断为是,则确定所述词类为所述特定词类。
[0066] 在实际应用中,也可以在建立知识库时就确定该特定词类。
[0067] 步骤202,对特定词类添加修正权重标记,修正权重标记用于调整特定词类在该语 义表达式中的重要程度。其中,修正权重标记包括修正趋势以及修正系数,修正趋势为增加 或缩减,修正系数大于0。
[0068] 在步骤202中,修正权重标记可以通过以下方式确定:
[0069]提供一个或多个测试问;调整修正权重标记直至通过语义相似度计算从知识库中 为每个测试问提供正确的答案。
[0070] 此外,在确定修正权重标记后,本发明实施例的技术方案还可以对带有所述权重 标记的语义表达式中的修正系数进行调整。
[0071] 以下具体举例三种确定(或调整)修正权重标记的方式:
[0072] 方式一:在对词类进行权重计算的过程中,虽然某些词类标记了修正权重标记,但 发现通过统计计算出的权重低于经验阈值,那么就参照该问题中的其他词的权重,对该词 类的修正权重标记进行调整。例如,"彩铃"在词类中标注了修正权重标记,在领域知识较少 时,往往统计出的权重就不能准确反应其重要程度或者反应的重要程度不够,这时可以通 过对比问句中其他非重点词,若其值比其他非重点词低且低于设定的阈值,那么可以将修 正权重标记中的修正系数调整为问句中非重点词的权重最大值乘以一个系数。
[0073]方式二:当问句中仅包含唯一的重要词性(例如名词或动词)的词,且通过统计计 算的权重较低,那么可以将该词类的修正权重标记中的修正系数乘以加权系数的方式予以 提尚。
[0074]方式三:通过简单的句型分析(句子主干判断),也可以将具有修正权重标记的词 或词类的统计权重与句中的剩余词的统计权重进行对比,对修正权重标记进行一些适当的 修正处理。例如,"我想知道gprs是什么东西"这个句子,"grps是什么"具有修正权重标记, 则可以对比句中非主干词(如:"知道")的权重,对修正权重标记进行适当的修正。
[0075]综上所述,借助于本发明实施例的技术方案,通过对特定词类添加修正权重标记, 能够对知识库的结构进行优化。
[0076] 装置实施例一
[0077] 根据本发明的实施例,提供了一种智能知识库,根据本发明实施例的智能知识库 包括:包括多个知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采 用语义表达式,语义表达式包括词类,至少部分词类包括修正权重标记,其中,修正权重标 记包括修正趋势以及修正系数,修正趋势为增加或缩减,修正系数大于0。
[0078] 知识库中的知识点最原始和最简单的形式就是平时常用的FAQ,一般的形式是 "问-答"对,其中,该"问"就是标准问,该"答"就是答案。例如,"彩铃的资费"就是表达清晰 的标准问描述。知识库里的每个知识点还可以有对应于一个标准问的扩展问,该扩展问与 标准问表达形式略有差异,但是表达的含义相同。其中,知识点中的标准问和扩展问可以采 用语义表达式进行表达。
[0079] 语义表达式主要由词、词类以及他们的"或"关系构成,其核心依赖于词类,词类即 为一组有共性的词,为了区分语义表达式中的词与词类,在语义表达式中,词类可以出现在 方括号"[]"中,需要说明的是,在本发明实施例中,方括号中出现的词类一般为"狭义词 类",在实际应用中,也可通过配置系统参数以支持"广义词类"。此外,语义表达式与用户问 句(即输入信息)之间关系是通过量化的值即相似度来表示的。
[0080] 在本发明实施例中,至少部分词类包括修正权重标记,该修正权重标记用于调整 所标记的词类在该语义表达式中的重要程度,优选地,可以使用"*n"或"*rT"表示修正权重 标记。具体地,在本发明实施例中,修正权重标记包括修正趋势以及修正系数,修正趋势为 增加或缩减,修正系数大于0。例如,"*rT"中的减号表示修正趋势为缩减,而不带有减号的 "*n"表示修正趋势为增加,其中,n表示修正系数,根据具体情况修正系数可以取不同的值, 如:10%、20%、50%、90%等。
[0081] 装置实施例二
[0082]根据本发明的实施例,提供了一种智能问答装置,图3是本发明装置实施例的智能 问答装置的示意图,如图3所示,根据本发明实施例的智能问答方法装置包括:知识库模块 30、以及处理模块32,以下结合附图,对本发明实施例的上述模块进行详细说明。
[0083] 知识库模块30,用于提供知识库,知识库包括多个知识点,每个知识点包括答案以 及一个或多个问题,至少部分数目的问题采用语义表达式,语义表达式包括词类;其中,至 少部分词类包括修正权重标记。
[0084] 知识库中的知识点最原始和最简单的形式就是平时常用的FAQ,一般的形式是 "问-答"对,其中,该"问"就是标准问,该"答"就是答案。例如,"彩铃的资费"就是表达清晰 的标准问描述。知识库里的每个知识点还可以有对应于一个标准问的扩展问,该扩展问与 标准问表达形式略有差异,但是表达的含义相同。其中,知识点中的标准问和扩展问可以采 用语义表达式进行表达。
[0085]语义表达式主要由词、词类以及他们的"或"关系构成,其核心依赖于词类,词类即 为一组有共性的词,为了区分语义表达式中的词与词类,在语义表达式中,词类可以出现在 方括号"[]"中。需要说明的是,在本发明实施例中,方括号中出现的词类一般为"狭义词 类",在实际应用中,也可通过配置系统参数以支持"广义词类"。此外,语义表达式与用户问 句(即输入信息)之间关系是通过量化的值即相似度来表示的。
[0086]在本发明实施例中,至少部分词类包括修正权重标记,该修正权重标记用于调整 所标记的词类在该语义表达式中的重要程度,优选地,可以使用"*n"或"*rT"表示修正权重 标记。具体地,在本发明实施例中,修正权重标记包括修正趋势以及修正系数,修正趋势为 增加或缩减,修正系数大于0。例如,"*rT"中的减号表示修正趋势为缩减,而不带有减号的 "*n"表示修正趋势为增加,其中,n表示修正系数。
[0087]处理模块32,用于获取用户的输入信息,将输入信息与知识点中的问题进行语义 相似度计算,在进行语义相似度计算时,根据修正权重标记对对应的词类的原始权重进行 修正处理。当计算得到的最大语义相似度值大于预设阈值时,将最大语义相似度值对应的 知识点中的答案发送给用户。
[0088] 处理模块32具体用于:
[0089] 通过以下方式对原始权重进行计算:
[0090] 根据公式1计算特定词或词类的文档频率idf:
[0091] idf = l+log(N/(n+l))公式 1;
[0092] 其中,N为知识库中的总知识点数,n为特定词或词类出现的知识点数;
[0093]根据公式2计算特定词或词类的词频tf:
[0094] tf = sqrt(n'/N')公式 2;
[0095] 其中,N'为特定词或词类所在知识点的词以及词类的总数,n'为该知识点中出现 特定词或词类的数;
[0096] 根据公式3计算特定词或词类的原始权重w:
[0097] w=idf*tf 公式 3。
[0098]处理模块32需要根据修正权重标记对对应的词类的原始权重进行修正处理,其 中,当修正趋势为增加时,修正处理后的权重w'为w' =w+w*n;当修正趋势为缩减时,修正处 理后的权重w'为w' = w-w*n;其中:w为原始权重,n为修正系数。
[0099]具体地,处理模块32在计算相似度时,任一标准问或扩展问可以描述为由组成标 准问或扩展问的n个词(或词类)的权重构成的n维向量d i = (W1 i,W12,…,W1 n);用户问句可 以描述为由组成问句的词的权重构成的另一个n维向量d = (W2i,W22,…,W2n),Wl4PW2n为原 始权重,此时,需要根据修正权重标记对对应的词类的原始权重进行修正处理,其中,当修 正趋势为增加时,修正处理后的权重Wlk和W2k为:Wlk=Wl n+Wln*n,W2k=W2n+W2n*n;当修正趋 势为缩减时,修正处理后的权重Wlk和W2k为:Wlk=Wl n-Wln*n,W2k=W2n-W2n*n;其中:n为修正 系数。根据上述修正处理,Wl k和W2k为对词类进行权重修正后的权重。如公式6所示,用户问 句和标准问或扩展问的相似度可以利用各自转化形成的向量在n维空间的向量夹角余弦来 计算。
公式6:
[0101] 用户问句和知识点中问题的相似度可以用公式7计算。
[0102] Sim(d,D) =Max[Sim(d,diGD)]公式 7;
[0103] 其中,D为目标文档(知识库沁心为目标文档中的标准问、扩展问或语义表达式展 开后的简单模板。
[0104] 装置实施例三
[0105] 根据本发明的实施例,提供了一种知识库优化装置,图4是本发明装置实施例的知 识库优化装置的示意图,如图4所示,根据本发明实施例的知识库优化装置包括:确定模块 40、以及添加模块42,以下结合附图,对本发明实施例的上述模块进行详细说明。
[0106] 确定模块40,用于确定语义表达式中的特定词类。
[0107] 需要说明的是,在本发明实施例中,上述语义表达式设置于知识库中,知识库包括 多个知识点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表 达式,语义表达式包括词类。
[0108] 优选地,在本发明实施例中,特定词类可以在建立知识库之后,通过分析错误日志 数据库获得。具体地,根据错误日志数据库,确定语义表达式中引起语义理解错误的词类, 并确定引起语义理解错误的原因是否为所述词类的权重设置不合理,如果判断为是,则确 定所述词类为所述特定词类。
[0109] 在实际应用中,也可以在建立知识库时就确定该特定词类。
[0110] 添加模块42,用于对特定词类添加修正权重标记,修正权重标记用于调整特定词 类在该语义表达式中的重要程度。其中,修正权重标记包括修正趋势以及修正系数,修正趋 势为增加或缩减,修正系数大于0。特定词类通过分析错误日志数据库获得。
[0111] 添加模块42还用于:通过以下方式可以确定修正权重标记:
[0112] 提供一个或多个测试问;调整修正权重标记直至通过语义相似度计算从知识库中 为每个测试问提供正确的答案。
[0113]此外,在确定修正权重标记后,本发明实施例的技术方案还可以对带有所述权重 标记的语义表达式中的修正系数进行调整。
[0114] 以下具体举例三种添加模块42确定(或调整)修正权重标记的方式:
[0115] 方式一:在对词类进行权重计算的过程中,虽然某些词类标记了修正权重标记,但 发现通过统计计算出的权重低于经验阈值,那么就参照该问题中的其他词的权重,对该词 类的修正权重标记进行调整。例如,"彩铃"在词类中标注了修正权重标记,在领域知识较少 时,往往统计出的权重就不能准确反应其重要程度或者反应的重要程度不够,这时可以通 过对比问句中其他非重点词,若其值比其他非重点词低且低于设定的阈值,那么可以将修 正权重标记中的修正系数调整为问句中非重点词的权重最大值乘以一个系数。
[0116] 方式二:当问句中仅包含唯一的重要词性(例如名词或动词)的词,且通过统计计 算的权重较低,那么可以将该词类的修正权重标记中的修正系数乘以加权系数的方式予以 提尚。
[0117] 方式三:通过简单的句型分析(句子主干判断),也可以将具有修正权重标记的词 或词类的统计权重与句中的剩余词的统计权重进行对比,对修正权重标记进行一些适当的 修正处理。例如,"我想知道gprs是什么东西"这个句子,"grps是什么"具有修正权重标记, 则可以对比句中非主干词(如:"知道")的权重,对修正权重标记进行适当的修正。
[0118] 综上所述,借助于本发明实施例的技术方案,通过对特定词类添加修正权重标记, 在进行语义相似度计算时,根据修正权重标记对对应的词类的原始权重进行修正处理,解 决了现有技术中在计算相似度时没有考虑词类在某些语义表达式中需要较高的权重从而 导致相似度计算不准确的问题,能够优化知识库的结构,提高计算相似度的准确性,提高匹 配成功率。
[0119] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含这些改动和变型在内。
[0120]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在 上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施 例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保 护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面 的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此, 遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身 都作为本发明的单独实施例。
[0121]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行 的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用 微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的加载有排序网址的客户端 中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的 方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样 的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形 式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形 式提供。
【主权项】
1. 一种智能问答方法,包括:提供知识库,所述知识库包括多个知识点,每个知识点包 括答案以及一个或多个问题,至少部分数目的问题采用语义表达式,所述语义表达式包括 词类;获取用户的输入信息;将所述输入信息与所述知识点中的问题进行语义相似度计算, 当计算得到的最大语义相似度值大于预设阈值时,将所述最大语义相似度值对应的知识点 中的答案发送给用户,其特征在于,至少部分词类包括修正权重标记,在进行语义相似度计 算时,根据所述修正权重标记对对应的词类的原始权重进行修正处理。2. 如权利要求1所述的方法,其特征在于,所述修正权重标记包括修正趋势以及修正系 数,所述修正趋势为增加或缩减,所述修正系数大于〇。3. 如权利要求2所述的方法,其特征在于,所述原始权重通过以下方式进行计算: 根据公式1计算特定词或词类的文档频率idf: idf =l+log(N/ (n+1))公式 I; 其中,N为知识库中的总知识点数,η为特定词或词类出现的知识点数; 根据公式2计算特定词或词类的词频tf: tf = sqrt(n'/Ν')公式2; 其中,Ν'为特定词或词类所在知识点的词以及词类的总数,η'为该知识点中出现特定 词或词类的数; 根据公式3计算特定词或词类的原始权重w: W= idf*tf 公式 3; 当修正趋势为增加时,根据公式4确定修正处理后的权重w',当修正趋势为缩减时,根 据公式5确定修正处理后的权重w' ; w'=w+w*n 公式 4; w'=w_w*n 公式 5; 其中:w为原始权重,η为修正系数。4. 一种知识库优化方法,所述知识库包括多个知识点,每个知识点包括答案以及一个 或多个问题,至少部分数目的问题采用语义表达式,所述语义表达式包括词类,其特征在 于,所述方法包括: 确定所述语义表达式中的特定词类; 对所述特定词类添加修正权重标记,所述修正权重标记用于调整所述特定词类在该语 义表达式中的重要程度。5. 如权利要求4所述的方法,其特征在于,所述修正权重标记包括修正趋势以及修正系 数,所述修正趋势为增加或缩减,所述修正系数大于〇。6. 如权利要求4所述的方法,其特征在于,所述特定词类通过分析错误日志数据库获 得。7. 如权利要求4所述的方法,其特征在于,所述修正权重标记通过以下方式确定: 提供一个或多个测试问; 调整所述修正权重标记直至通过语义相似度计算从所述知识库中为每个所述测试问 提供正确的答案。8. -种智能知识库,其特征在于,所述知识库包括多个知识点,每个知识点包括答案以 及一个或多个问题,至少部分数目的问题采用语义表达式,所述语义表达式包括词类,至少 部分词类包括修正权重标记。9. 如权利要求8所述的智能知识库,其特征在于,所述修正权重标记包括修正趋势以及 修正系数,所述修正趋势为增加或缩减,所述修正系数大于O。10. -种智能问答装置,包括:知识库模块,用于提供知识库,所述知识库包括多个知识 点,每个知识点包括答案以及一个或多个问题,至少部分数目的问题采用语义表达式,所述 语义表达式包括词类;处理模块,用于获取用户的输入信息;将所述输入信息与所述知识点 中的问题进行语义相似度计算,当计算得到的最大语义相似度值大于预设阈值时,将所述 最大语义相似度值对应的知识点中的答案发送给用户,其特征在于,至少部分词类包括修 正权重标记;所述处理模块具体用于:在进行语义相似度计算时,根据所述修正权重标记对 对应的词类的原始权重进行修正处理。11. 如权利要求10所述的装置,其特征在于,所述修正权重标记包括修正趋势以及修正 系数,所述修正趋势为增加或缩减,所述修正系数大于〇。12. 如权利要求11所述的装置,其特征在于, 所述处理模块具体用于: 通过以下方式对所述原始权重进行计算: 根据公式1计算特定词或词类的文档频率idf: idf =l+log(N/ (n+1))公式 I; 其中,N为知识库中的总知识点数,η为特定词或词类出现的知识点数; 根据公式2计算特定词或词类的词频tf: tf = sqrt(n'/Ν')公式2; 其中,Ν'为特定词或词类所在知识点的词以及词类的总数,η'为该知识点中出现特定 词或词类的数; 根据公式3计算特定词或词类的原始权重w: W= idf*tf 公式 3; 所述处理模块进一步用于: 通过以下方式对所述原始权重进行修正: 当修正趋势为增加时,根据公式4确定修正处理后的权重w',当修正趋势为缩减时,根 据公式5确定修正处理后的权重w' ; w'=w+w*n 公式 4; w'=w_w*n 公式 5; 其中:w为原始权重,η为修正系数。13. -种知识库优化装置,所述知识库包括多个知识点,每个知识点包括答案以及一个 或多个问题,至少部分数目的问题采用语义表达式,所述语义表达式包括词类,其特征在 于,所述装置具体包括: 确定模块,用于确定所述语义表达式中的特定词类; 添加模块,用于对所述特定词类添加修正权重标记,所述修正权重标记用于调整所述 特定词类在该语义表达式中的重要程度。14. 如权利要求13所述的装置,其特征在于,所述修正权重标记包括修正趋势以及修正 系数,所述修正趋势为增加或缩减,所述修正系数大于〇。15. 如权利要求13所述的装置,其特征在于,所述特定词类通过分析错误日志数据库获 得。16. 如权利要求13所述的装置,其特征在于,所述添加模块还用于: 通过以下方式确定所述修正权重标记: 提供一个或多个测试问; 调整所述修正权重标记直至通过语义相似度计算从所述知识库中为每个所述测试问 提供正确的答案。
【文档编号】G06F17/30GK105893476SQ201610186030
【公开日】2016年8月24日
【申请日】2016年3月29日
【发明人】曾永梅, 李波, 朱频频
【申请人】上海智臻智能网络科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1