基于抽象语义推荐的问答知识库建立方法、装置及系统的制作方法

文档序号:9865756阅读:274来源:国知局
基于抽象语义推荐的问答知识库建立方法、装置及系统的制作方法
【技术领域】
[0001]本发明涉及数据处理技术领域,特别涉及一种基于抽象语义推荐的问答知识库建立方法、装置及系统。
【背景技术】
[0002]知识库,又称为智能数据库或人工智能数据库。知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。
[0003]知识库有着广泛的应用,典型的应用有智能问答系统或自动问题系统或者问答知识库,自动问题系统中存储着一些预设的问题,并存储预设问题对应的答案信息,在公众用户提出问题时,自动问题系统会将公众用户提出的问题与预设的问题进行匹配,若匹配成功,自动问题系统会将该预设问题对应的答案信息反馈给公众用户。
[0004]参考图1,图1为现有技术智能问答系统中的知识库建立装置的结构示意图,包括:人机界面10,用于输入待存储的问题;存入单元11,用于接收人机界面10输入的待存储问题,并将接收的待存储问题存入问题库12;问题库12,用于存储接收的待存储问题。
[0005]由于不同用户提出问题的角度不同以及表达方式不同,为了提高智能问答系统的准确性,在对问题库中的问题进行预设时,需要人工从人机界面输入不同表达方式的多个问题,耗时耗力,效率较低,因而现有的存储装置进行问题存储时的效率有待改善。

【发明内容】

[0006]本发明解决的问题是怎样提高智能问答知识库建立的效率。
[0007]为解决上述问题,本发明提供一种基于抽象语义推荐的问答知识库建立方法,包括:
[0008]提供抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;接收初始请求信息;根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理,当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式,将该初始请求信息以及所述具体语义表达式存入智能问答知识库。
[0009]可选的,所述抽象语义推荐处理包括:
[0010]对所述初始请求信息进行分词处理,得到若干单独词;
[0011 ]将每个单独词识别为语义规则词或非语义规则词;
[0012]分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
[0013]分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
[0014]对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
[0015]根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
[0016]可选的,所述抽象语义推荐处理包括:
[0017]对所述初始请求信息进行分词处理,得到若干单独词;
[0018]分别对每个单独词进行词性标注处理,得到每个单独词的词性信息;
[0019]分别对每个单独词进行词类判断处理,得到每个单独词的词类信息;
[0020]对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
[0021]根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
[0022]可选的,在进行匹配处理之前还包括:判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内,当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。
[0023]可选的,所述抽象语义表达式还包括语义规则词;所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。
[0024]可选的,与所述初始请求信息匹配的抽象语义表达式满足以下条件:
[0025]缺失语义成分对应的词性包括对应的填充内容的词性;
[0026]初始请求信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类;
[0027]该抽象语义表达式与初始请求信息的顺序相同。
[0028]可选的,当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,还包括:
[0029]分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,从所述初始请求信息中提取与得分较高的N个抽象语义表达式的缺失语义成分对应的内容,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表达式。
[0030]可选的,所述打分处理采用以下一种或多种方式的结合:
[0031 ]缺失语义成分匹配的数量越多,得分越高;
[0032]设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失语义成分与该核心语义成分的距离越近,得分越高;
[0033]词性置信度越大,得分越高;
[0034]根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高;
[0035]根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,得分越高。
[0036]可选的,还包括:当无法获得与所述初始请求信息对应的抽象语义表达式时,通过人工方式在所述智能问答知识库中添加与所述初始请求信息对应的扩展问。
[0037]可选的,还包括:将所述初始请求信息存入智能问答知识库的同时,提供与所述初始请求信息对应的答案,并将该答案一并存入智能问答知识库。
[0038]本发明还提供了一种基于抽象语义推荐的问答知识库建立装置,包括:
[0039]抽象语义表达式获取单元,用于获取多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
[0040]接收单元,用于接收初始请求信息;
[0041]抽象语义推荐模块,用于根据所述抽象语义表达式获取单元获取的多个抽象语义表达式对所述初始请求信息进行抽象语义推荐处理,获得与所述初始请求信息对应的一个或多个抽象语义表达式;
[0042]填充单元,用于当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式;
[0043]存入单元,用于将所述具体语义表达式以及对应的初始请求信息存入智能问答知识库。
[0044]可选的,所述抽象语义推荐模块包括:分词单元、规则词识别单元、词性标注单元、词类判断单元、搜索单元和匹配单元,其中,
[0045]所述分词单元,用于对所述初始请求信息进行分词处理,得到若干单独词;
[0046]规则词识别单元,用于将每个单独词识别为语义规则词或非语义规则词;
[0047]词性标注单元,用于分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
[0048]词类判断单元,用于分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
[0049]搜索单元,用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
[0050]匹配单元,用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
[0051]可选的,抽象语义推荐模块包括:分词单元、词性标注单元、词类判断单元、搜索单元和匹配单元,其中,
[0052]分词单元,用于对所述初始请求信息进行分词处理,得到若干单独词;
[0053]词性标注单元,用于分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息;
[0054]词类判断单元,用于分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息;
[0055]搜索单元,用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
[0056]匹配单元,用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
[0057]可选的,所述抽象语义推荐模块还包括:数目判断单元、去除单元和补充单元,其中:数目判断单元,用于判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内;去除单元,用于当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;补充单元,用于当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。
[0058]可选的,所述抽象语义表达式还包括语义规则词;所述搜索单元搜索得到的所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。
[0059]可选的,所述匹配单元得到与所述初始请求信息匹配的抽象语义表达式满足以下条件:
[0060]缺失语义成分对应的词性包括对应的填充内容的词性;
[0061]初始请求信息中填充内容外对应的关键词与语义规则词相同或两者属于同一词类;
[0062]该抽象语义表达式与初始请求信息的顺序相同。
[0063]可选的,所述基于抽象语义推荐的问答知识库建立装置还包括打分单元,用于当抽象语义推荐模块获得的与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表达式。
[0064]可选的,所述打分单元采用以下一种或多种方式的结合进行打分处理:
[0065]缺失语义成分匹配的数量越多,得分越高;
[0066]设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失语义成分与该核心语义成分的距离越近,得分越高;
[0067]词性置信度越大,得分越高;
[0068]根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高;
[0069]根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,得分越高。
[0
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1