基于相似度计算的问答知识库的建立方法、装置及系统的制作方法

文档序号:9911689阅读:384来源:国知局
基于相似度计算的问答知识库的建立方法、装置及系统的制作方法
【技术领域】
[0001]本发明涉及数据处理技术,特别涉及一种基于相似度计算的问答知识库的建立方法、装置及系统。
【背景技术】
[0002]知识库,又称为智能数据库或人工智能数据库。知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。
[0003]知识库有着广泛的应用,典型的应用有智能问答系统或自动问题系统或问答知识库,自动问题系统中存储着一些预设的问题,并存储预设问题对应的答案信息,在公众用户提出问题时,自动问题系统会将公众用户提出的问题与预设的问题进行匹配,若匹配成功,自动问题系统会将该预设问题对应的答案信息反馈给公众用户。
[0004]参考图1,图1为现有技术智能问答系统中的知识库建立装置的结构示意图,包括:人机界面10,用于输入待存储的问题;存入单元11,用于接收人机界面10输入的待存储问题,并将接收的待存储问题存入问题库12;问题库12,用于存储接收的待存储问题。
[0005]由于不同用户提出问题的角度不同以及表达方式不同,为了提高智能问答系统的准确性,在对问题库中的问题进行预设时,需要人工从人机界面输入不同表达方式的多个问题,耗时耗力,效率较低,因而现有的存储装置进行问题存储时的效率有待改善。

【发明内容】

[0006]本发明解决的问题是怎样提高智能问答知识库建立的效率。
[0007]为解决上述问题,本发明提供一种基于相似度计算的问答知识库的建立方法,包括:
[0008]提供领域知识数据库,所述领域知识数据库包括多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;接收初始请求信息;将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算,并判断语义相似度计算结果的最大值是否大于相似度阈值,当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库。
[0009]可选的,所述语义相似度计算采用以下一种或多种方式的结合:基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。
[0010]可选的,分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度,并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。
[0011]可选的,所述相似度阈值大于或等于0.7且小于或等于1.0。
[0012]可选的,在进行相似度计算之前还包括:对所述初始请求信息进行文本预处理,从待更新信息中抽取出有代表性的特征,作为相似度计算的基础。
[0013]可选的,所述文本预处理包括分词处理和去停用词处理。
[0014]可选的,所述方法还包括:将所述初始请求信息存入智能问答知识库的同时,提供与所述初始请求信息对应的答案,并将该答案一并存入智能问答知识库。
[0015]可选的,所述方法还包括:当停止接收初始请求信息之后,从领域知识数据库中至少提取未存入智能问答知识库的部分数目的预置知识,并将提取的预置知识存入智能问答知识库,所述预置知识还包括答案。
[0016]本发明还提供了一种基于相似度计算的问答知识库的建立装置,包括:
[0017]预置知识获取单元,用于获取多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;
[0018]接收单元,用于接收初始请求信息;
[0019]计算单元,用于将所述初始请求信息与所述预置知识进行语义相似度计算;
[0020]判断单元,用于判断语义相似度计算结果的最大值是否大于相似度阈值;
[0021]存入单元,用于当相似度计算结果的最大值大于相似度阈值时,将相似度计算结果的最大值对应的预置知识中的标准问和扩展问以及对应的初始请求信息存入智能问答知识库。
[0022]可选的,所述计算单元采用以下一种或多种方式的结合进行语义相似度计算:基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。
[0023]可选的,所述计算单元分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度,并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。
[0024]可选的,所述相似度阈值大于或等于0.7且小于或等于1.0。
[0025]可选的,所述装置还包括文本预处理单元:用于对所述初始请求信息进行文本预处理,从待更新信息中抽取出有代表性的特征,作为相似度计算的基础。
[0026]可选的,还包括:答案提供单元,用于提供与初始请求信息对应的答案;所述存入单元将所述初始请求信息存入智能问答知识库的同时,将答案提供单元提供的答案一并存入智能问答知识库。
[0027]可选的,其特征在于,还包括:提取单元,用于当接收单元停止接收初始请求信息之后,从预置知识获取单元中至少提取未存入智能问答知识库的部分数目的预置知识;所述存入单元将提取单元提取的预置知识存入智能问答知识库。
[0028]本发明还提供一种基于相似度计算的问答知识库的建立系统,包括:
[0029]领域知识数据库,所述领域知识数据库包括多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;
[0030]前述的建立装置。
[0031]与现有技术相比,本发明的技术方案具有以下优点:
[0032]本发明基于相似度计算的问答知识库的建立方法,在接收初始请求信息后,将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算,并判断语义相似度计算结果的最大值是否大于相似度阈值,当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库。本发明的方法,在接收到用户输入的一条初始请求信息后,在进行语义相似度计算以及将相似度计算结果与相似度阈值进行比较后,将相似度计算结果的最大值对应的预置知识及对应的初始请求信息存储到智能问答知识库中存储到智能问答知识库中,因而用户在建立智能问答知识库时,无需多次向智能问答知识库输入相关联的多个问题,从而提高了智能问答知识库建立效率。
[0033]进一步,在进行语义相似度计算之前,可对初始请求信息与领域知识数据库中的预置知识进行文本预处理,以从初始请求信息与领域知识数据库中的预置知识中抽取出有代表性的特征,作为相似度计算的基础,以提高进行相似度计算时的准确性。
[0034]进一步,当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库的同时,将领域知识数据库存储的与该预置知识对应的答案也一并存储到智能问答知识库中,进一步提高了智能问答知识库建立效率。
[0035]本发明基于相似度计算的问答知识库的建立装置,接收单元在接收到用户输入的一条初始请求信息后,计算单元将所述初始请求信息与所述预置知识进行语义相似度计算,判断单元将所述初始请求信息与所述预置知识进行语义相似度计算,存入单元在当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库,因而用户在使用本发明的装置建立智能问答知识库时,无需多次向智能问答知识库输入相关联的多个问题,从而提高了智能问答知识库建立效率。
[0036]本发明基于相似度计算的问答知识库的建立系统,除了包括建立装置外还包括领域知识数据库,领域知识数据库用于提供预置知识,因而在基于相似度计算的问答知识库的建立时,一个领域知识数据库可以向不同的建立装置提供数据信息。
【附图说明】
[0037]图1为现有技术智能问答系统中的知识库建立装置的结构示意图;
[003
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1