基于历史咨询数据构建知识库的方法

文档序号:6502565阅读:165来源:国知局
基于历史咨询数据构建知识库的方法
【专利摘要】本发明公开一种基于历史咨询数据构建知识库的方法,是基于历史咨询数据自动构建知识库,包括对历史咨询数据进行切分咨询场景、提取每个场景的问答对、计算答案相似度、过滤相似答案频率低的答案、提取高频率答案对应的问句、提取问句集的核心关键字顺序规则、存储知识。本发明通过历史咨询数据自动构建知识库,减少了人工建设知识库和维护近义词库的工作量。
【专利说明】基于历史咨询数据构建知识库的方法
【技术领域】
[0001]本发明涉及计算机及问答系统的知识库领域,尤其涉及基于历史咨询数据构建知识库的方法。
【背景技术】
[0002]在自动问答系统中,知识库是问答系统的重要数据来源,它在整个系统中起到了非常重要的作用,一个高质量的知识库能够大大提高问答系统的效率与准确率。
[0003]目前业内对知识库的建设一般有2种方式:
[0004]第一种是知识库建设还停留在手工建设阶段,由于行业领域限制的原因,所以很多知识都是纯手工构建,而且手工构建一般都是某行业特殊的技术人员来完成,其工作效率低、质量不高,维护难度大。
[0005]第二种是采用语义匹配度,进行构建知识库。问答系统中通常是使用知网(How-net)或近义词表来实现,但是知网(How-net)和近义词表都是靠人工整理,实现起来工作量相当庞大,而且覆盖范围窄。
[0006]假设自动问答系统知识库中存在以下多对一的问答集,并且包括一个用户输入自然语言句子(以下简称问句)和系统应答(以下简称答案句),如以下例子:
[0007]在淘宝网的服装行业中常见的问答句:
[0008]问句:这件牛仔裤会不会褪色?
[0009]问句:这件宝贝会不会褪色啊?
[0010]问句:真的不会褪色吗?
[0011]问句:牛仔裤洗几次会褪色吗?
[0012]问句:你们卖的牛仔裤是褪色吗?
[001 3] OOOOOO
[0014]答案句:不会褪色的,亲。
[0015]当用户输入“牛仔裤洗几次会褪色吗”的时候,系统会找到这组问答集,并将该答案句返回给用户。但是,当用户输入“这件宝贝洗了几次会掉色吗?”的时候,技术人员必须手工在知网(How-net)或近义词表中设置“宝贝”(电商行业通常用“宝贝”来代替商品名)与“牛仔裤”关联,“褪色”与“掉色”关联。系统才能准确把答案句返回给用户,不然系统无法计算出真实的答案。以上不光技术人员要设置近义词的关联,还有把答案句“不会褪色的,亲。”对应η种问法都收集起来,此种做法,无论是从工作量还是系统效率的角度来看,都是不可接受的。

【发明内容】

[0016]本发明的目的在于,提供一种基于历史咨询数据构建知识库的方法,解决现有知识库构建效率低下的问题。
[0017]为了实现上述目的,本发明提供一种基于历史咨询数据构建知识库的方法,其包括以下步骤:
[0018]I)读取历史咨询数据;
[0019]2)切分咨询场景;
[0020]3)提取每个场景的问答对;
[0021]4)计算答案相似度;
[0022]5)过滤相似答案频率低的答案;
[0023]6)提取高频率答案对应的问句;
[0024]7)提取问句集的核心关键字顺序规则;
[0025]8)存储知识。
[0026]其中,在所述步骤2)中,根据咨询者进行切分场景,切成多组单个客服与单个咨询者的咨询场景。
[0027]其中,在所述步骤3)中,根据客服与咨询者的身份来提取问答对,客服说的内容设为答案,咨询者说的内容设为问句。
[0028]其中,在所述步骤4)中,计算答案相似度是计算所有场景的问答对中的答案相似值,首先对答案句进行分词,其次过滤停用词,最后计算每句答案句之间的相似值。
[0029]其中,所述答案句的相似度包括词的相似度、句子长度相似度、及词序相似度,其之间的关系为
[0030]SentenceSim(X,Y) = λ ffordSim(X, Y) + λ 2*LenSim(x, y) + λ 3*0rderSim(X, Y),SentenceSim(X,Y)表示答案句X及答案句Y的相似度,WordSim(X,Y)表示答案句X的词与答案句Y的词之间的相似度,LenSim (X, Y)表示答案句X的句子长度与答案句Y的句子长度之间的相似度,OrderSim (X,Y)表示答案句X的词序与答案句Y的词序之间的相似度,λ 1、λ 2、λ 3分别是常数,且满足λ 1+λ 2+λ 3 = I。
[0031]其中,所述WordSim(X, Y)的计算公式为:
【权利要求】
1.一种基于历史咨询数据构建知识库的方法,其特征在于,包括以下步骤: 1)读取历史咨询数据; 2)切分咨询场景; 3)提取每个场景的问答对; 4)计算答案相似度; 5)过滤相似答案频率低的答案; 6)提取高频率答案对应的问句; 7)提取问句集的核心关键字顺序规则; 8)存储知识。
2.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,在所述步骤2)中,根据咨询者进行切分场景,切成多组单个客服与单个咨询者的咨询场景。
3.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,在所述步骤3)中,根据客服与咨询者的身份来提取问答对,客服说的内容设为答案,咨询者说的内容设为问句。
4.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,在所述步骤4)中,计算答案相似度是计算所有场景的问答对中的答案相似值,首先对答案句进行分词,其次过滤停用词,最后计算每句答案句之间的相似值。
5.如权利要求4所述的基于历史咨询数据构建知识库的方法,其特征在于,所述答案句的相似度包括词的相似度、句子长度相似度、及词序相似度,其之间的关系为 SentenceSim (X,Y) = λ ffordSim (X, Y) + λ 2*LenSim (x,y) + λ 3*0rderSim (X, Y),SentenceSim(X,Y)表示答案句X及答案句Y的相似度,WordSim(X,Y)表示答案句X的词与答案句Y的词之间的相似度,LenSim (X, Y)表示答案句X的句子长度与答案句Y的句子长度之间的相似度,OrderSim (X,Y)表示答案句X的词序与答案句Y的词序之间的相似度,λ 1、λ 2、λ 3分别是常数,且满足λ 1+λ 2+λ 3 = I。
6.如权利要求4所述的基于历史咨询数据构建知识库的方法,其特征在于,所述WordSim (X, Y)的计算公式为:
7.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,在所述步骤5)中,相似答案频率是指每句答案句在整个历史咨询数据中所占的比率,然后根据阈值过滤低频率的答案,高于阈值认定为高频率答案即高质量答案。
8.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,所述步骤6)依据高频率答案,查找每句答案相对应的问句。
9.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,所述步骤7)采用统计学的原理, 通过对问句集进行分词,提取频率大于阈值且有顺序规则的关键字。
10.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,所述步骤8)存储的内容包括答案、问句、核心关键字顺序规则,该括答案、问句、及核心关键字顺序规则之间的关系是多对多的关系。
【文档编号】G06F17/30GK103455535SQ201310168964
【公开日】2013年12月18日 申请日期:2013年5月8日 优先权日:2013年5月8日
【发明者】冯梓洋, 刁应君, 卢铄波, 胡欢, 刘洋, 杨大川, 宋战 申请人:深圳市明唐通信有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1