基于历史咨询数据构建知识库的方法

文档序号：6502565阅读：165来源：国知局

基于历史咨询数据构建知识库的方法
【专利摘要】本发明公开一种基于历史咨询数据构建知识库的方法，是基于历史咨询数据自动构建知识库，包括对历史咨询数据进行切分咨询场景、提取每个场景的问答对、计算答案相似度、过滤相似答案频率低的答案、提取高频率答案对应的问句、提取问句集的核心关键字顺序规则、存储知识。本发明通过历史咨询数据自动构建知识库，减少了人工建设知识库和维护近义词库的工作量。
【专利说明】基于历史咨询数据构建知识库的方法
【技术领域】
[0001]本发明涉及计算机及问答系统的知识库领域，尤其涉及基于历史咨询数据构建知识库的方法。
【背景技术】
[0002]在自动问答系统中，知识库是问答系统的重要数据来源，它在整个系统中起到了非常重要的作用，一个高质量的知识库能够大大提高问答系统的效率与准确率。
[0003]目前业内对知识库的建设一般有2种方式:
[0004]第一种是知识库建设还停留在手工建设阶段，由于行业领域限制的原因，所以很多知识都是纯手工构建，而且手工构建一般都是某行业特殊的技术人员来完成，其工作效率低、质量不高，维护难度大。
[0005]第二种是采用语义匹配度，进行构建知识库。问答系统中通常是使用知网(How-net)或近义词表来实现,但是知网(How-net)和近义词表都是靠人工整理,实现起来工作量相当庞大，而且覆盖范围窄。
[0006]假设自动问答系统知识库中存在以下多对一的问答集，并且包括一个用户输入自然语言句子(以下简称问句)和系统应答(以下简称答案句)，如以下例子:
[0007]在淘宝网的服装行业中常见的问答句:
[0008]问句:这件牛仔裤会不会褪色？
[0009]问句:这件宝贝会不会褪色啊？
[0010]问句:真的不会褪色吗？
[0011]问句:牛仔裤洗几次会褪色吗？
[0012]问句:你们卖的牛仔裤是褪色吗？
[001 3] OOOOOO
[0014]答案句:不会褪色的，亲。
[0015]当用户输入“牛仔裤洗几次会褪色吗”的时候，系统会找到这组问答集，并将该答案句返回给用户。但是，当用户输入“这件宝贝洗了几次会掉色吗？”的时候，技术人员必须手工在知网(How-net)或近义词表中设置“宝贝”(电商行业通常用“宝贝”来代替商品名)与“牛仔裤”关联，“褪色”与“掉色”关联。系统才能准确把答案句返回给用户，不然系统无法计算出真实的答案。以上不光技术人员要设置近义词的关联，还有把答案句“不会褪色的，亲。”对应η种问法都收集起来，此种做法，无论是从工作量还是系统效率的角度来看，都是不可接受的。

【发明内容】

[0016]本发明的目的在于，提供一种基于历史咨询数据构建知识库的方法，解决现有知识库构建效率低下的问题。
[0017]为了实现上述目的，本发明提供一种基于历史咨询数据构建知识库的方法，其包括以下步骤:
[0018]I)读取历史咨询数据；
[0019]2)切分咨询场景；
[0020]3)提取每个场景的问答对；
[0021]4)计算答案相似度；
[0022]5)过滤相似答案频率低的答案；
[0023]6)提取高频率答案对应的问句；
[0024]7)提取问句集的核心关键字顺序规则；
[0025]8)存储知识。
[0026]其中，在所述步骤2)中，根据咨询者进行切分场景，切成多组单个客服与单个咨询者的咨询场景。
[0027]其中，在所述步骤3)中，根据客服与咨询者的身份来提取问答对，客服说的内容设为答案，咨询者说的内容设为问句。
[0028]其中，在所述步骤4)中，计算答案相似度是计算所有场景的问答对中的答案相似值，首先对答案句进行分词，其次过滤停用词，最后计算每句答案句之间的相似值。
[0029]其中，所述答案句的相似度包括词的相似度、句子长度相似度、及词序相似度，其之间的关系为
[0030]SentenceSim(X，Y) = λ ffordSim(X, Y) + λ 2*LenSim(x, y) + λ 3*0rderSim(X, Y),SentenceSim(X，Y)表示答案句X及答案句Y的相似度，WordSim(X，Y)表示答案句X的词与答案句Y的词之间的相似度，LenSim (X, Y)表示答案句X的句子长度与答案句Y的句子长度之间的相似度，OrderSim (X，Y)表示答案句X的词序与答案句Y的词序之间的相似度，λ 1、λ 2、λ 3分别是常数，且满足λ 1+λ 2+λ 3 = I。
[0031]其中，所述WordSim(X, Y)的计算公式为:
【权利要求】
1.一种基于历史咨询数据构建知识库的方法，其特征在于，包括以下步骤: 1)读取历史咨询数据； 2)切分咨询场景； 3)提取每个场景的问答对； 4)计算答案相似度； 5)过滤相似答案频率低的答案； 6)提取高频率答案对应的问句； 7)提取问句集的核心关键字顺序规则； 8)存储知识。
2.如权利要求1所述的基于历史咨询数据构建知识库的方法，其特征在于，在所述步骤2)中，根据咨询者进行切分场景，切成多组单个客服与单个咨询者的咨询场景。
3.如权利要求1所述的基于历史咨询数据构建知识库的方法，其特征在于，在所述步骤3)中，根据客服与咨询者的身份来提取问答对，客服说的内容设为答案，咨询者说的内容设为问句。
4.如权利要求1所述的基于历史咨询数据构建知识库的方法，其特征在于，在所述步骤4)中，计算答案相似度是计算所有场景的问答对中的答案相似值，首先对答案句进行分词，其次过滤停用词，最后计算每句答案句之间的相似值。
5.如权利要求4所述的基于历史咨询数据构建知识库的方法，其特征在于，所述答案句的相似度包括词的相似度、句子长度相似度、及词序相似度，其之间的关系为 SentenceSim (X，Y) = λ ffordSim (X, Y) + λ 2*LenSim (x，y) + λ 3*0rderSim (X, Y)，SentenceSim(X，Y)表示答案句X及答案句Y的相似度，WordSim(X，Y)表示答案句X的词与答案句Y的词之间的相似度，LenSim (X, Y)表示答案句X的句子长度与答案句Y的句子长度之间的相似度，OrderSim (X，Y)表示答案句X的词序与答案句Y的词序之间的相似度，λ 1、λ 2、λ 3分别是常数，且满足λ 1+λ 2+λ 3 = I。
6.如权利要求4所述的基于历史咨询数据构建知识库的方法，其特征在于，所述WordSim (X, Y)的计算公式为:
7.如权利要求1所述的基于历史咨询数据构建知识库的方法，其特征在于，在所述步骤5)中，相似答案频率是指每句答案句在整个历史咨询数据中所占的比率，然后根据阈值过滤低频率的答案，高于阈值认定为高频率答案即高质量答案。
8.如权利要求1所述的基于历史咨询数据构建知识库的方法，其特征在于，所述步骤6)依据高频率答案，查找每句答案相对应的问句。
9.如权利要求1所述的基于历史咨询数据构建知识库的方法，其特征在于，所述步骤7)采用统计学的原理，通过对问句集进行分词，提取频率大于阈值且有顺序规则的关键字。
10.如权利要求1所述的基于历史咨询数据构建知识库的方法，其特征在于，所述步骤8)存储的内容包括答案、问句、核心关键字顺序规则，该括答案、问句、及核心关键字顺序规则之间的关系是多对多的关系。
【文档编号】G06F17/30GK103455535SQ201310168964
【公开日】2013年12月18日申请日期:2013年5月8日优先权日:2013年5月8日
【发明者】冯梓洋, 刁应君, 卢铄波, 胡欢, 刘洋, 杨大川, 宋战申请人:深圳市明唐通信有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯梓洋;刁应君;卢铄波;胡欢;刘洋;杨大川;宋战
技术所有人：深圳市明唐通信有限公司
我是此专利的发明人

上一篇：通用访问装置制造方法
上一篇：为金属片部件的深冲压加工模拟创建计算机模型的系统和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。