基于抽象语义推荐的问答知识库建立方法、装置及系统的制作方法_6

文档序号:9865756阅读:来源:国知局
初始请求信息存入智能问答知识库。本发明的建立装置,用户使用本发明的装置只需要输入一条初始请求信息,本发明的装置可以对该初始请求信息进行自动的扩展,获得与该初始请求信息相关的若干条信息(一个或多个具体语义表达式),存入智能问答知识库,从而提高了基于抽象语义推荐的问答知识库建立效率。
[0231]本发明实施例基于抽象语义推荐的问答知识库建立系统,除了包括建立装置外还包括抽象语义数据库,抽象语义数据库用于提供抽象语义表达式,因而在基于抽象语义推荐的问答知识库建立时,一个抽象语义数据库可以向不同的建立装置提供数据信息。
[0232]本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:R0M、RAM、磁盘或光盘等。
[0233]虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
【主权项】
1.一种基于抽象语义推荐的问答知识库建立方法,其特征在于,包括: 提供抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分; 接收初始请求信息; 根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理,当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式,将该初始请求信息以及所述具体语义表达式存入智能问答知识库。2.如权利要求1所述的建立方法,其特征在于,所述抽象语义推荐处理包括: 对所述初始请求信息进行分词处理,得到若干单独词; 将每个单独词识别为语义规则词或非语义规则词; 分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息; 分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息; 对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式; 根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。3.如权利要求1所述的建立方法,其特征在于,所述抽象语义推荐处理包括: 对所述初始请求信息进行分词处理,得到若干单独词; 分别对每个单独词进行词性标注处理,得到每个单独词的词性信息; 分别对每个单独词进行词类判断处理,得到每个单独词的词类信息; 对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式; 根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。4.如权利要求2或3所述的建立方法,其特征在于,在进行匹配处理之前还包括:判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内,当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。5.如权利要求2或3所述的建立方法,其特征在于,所述抽象语义表达式还包括语义规则词;所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。6.如权利要求5所述的建立方法,其特征在于,与所述初始请求信息匹配的抽象语义表达式满足以下条件: 缺失语义成分对应的词性包括对应的填充内容的词性; 初始请求信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类; 该抽象语义表达式与初始请求信息的顺序相同。7.如权利要求2或3所述的建立方法,其特征在于,当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,还包括: 分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,从所述初始请求信息中提取与得分较高的N个抽象语义表达式的缺失语义成分对应的内容,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表达式。8.如权利要求7所述的建立方法,其特征在于,所述打分处理采用以下一种或多种方式的结合: 缺失语义成分匹配的数量越多,得分越高; 设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失语义成分与该核心语义成分的距离越近,得分越高; 词性置信度越大,得分越高; 根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高; 根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,得分越高。9.如权利要求1所述的建立方法,其特征在于,还包括:当无法获得与所述初始请求信息对应的抽象语义表达式时,通过人工方式在所述智能问答知识库中添加与所述初始请求信息对应的扩展问。10.如权利要求1所述的建立方法,其特征在于,还包括:将所述初始请求信息存入智能问答知识库的同时,提供与所述初始请求信息对应的答案,并将该答案一并存入智能问答知识库。11.一种基于抽象语义推荐的问答知识库建立装置,其特征在于,包括: 抽象语义表达式获取单元,用于获取多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分; 接收单元,用于接收初始请求信息; 抽象语义推荐模块,用于根据获取多个抽象语义表达式获取的所述多个抽象语义表达式对所述初始请求信息进行抽象语义推荐处理,获得与所述初始请求信息对应的一个或多个抽象语义表达式; 填充单元,用于当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式;存入单元,用于将所述具体语义表达式以及对应的初始请求信息存入智能问答知识库。12.如权利要求11所述的建立装置,其特征在于,所述抽象语义推荐模块包括:分词单元、规则词识别单元、词性标注单元、词类判断单元、搜索单元和匹配单元,其中, 所述分词单元,用于对所述初始请求信息进行分词处理,得到若干单独词; 规则词识别单元,用于将每个单独词识别为语义规则词或非语义规则词; 词性标注单元,用于分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息; 词类判断单元,用于分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息; 搜索单元,用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式; 匹配单元,用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。13.如权利要求11所述的建立装置,其特征在于,抽象语义推荐模块包括:分词单元、词性标注单元、词类判断单元、搜索单元和匹配单元,其中,分词单元,用于对所述初始请求信息进行分词处理,得到若干单独词; 词性标注单元,用于分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息; 词类判断单元,用于分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息; 搜索单元,用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式; 匹配单元,用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。14.如权利要求12或13所述的建立装置,其特征在于,所述抽象语义推荐模块还包括:数目判断单元、去除单元和补充单元,其中:数目判断单元,用于判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内;去除单元,用于当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;补充单元,用于当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。15.如权利要求12或13所述的建立装置,其特征在于,所述抽象语义表达式还包括语义规则词;所述搜索单元搜索得到的所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。16.如权利要求15所述的建立装置,其特征在于,所述匹配单元得到与所述初始请求信息匹配的抽象语义表达式满足以下条件: 缺失语义成分对应的词性包括对应的填充内容的词性; 初始请求信息中填充内容外对应的关键词与语义规则词相同或两者属于同一词类; 该抽象语义表达式与初始请求信息的顺序相同。17.如权利要求12或13所述的建立装置,其特征在于,所述基于抽象语义推荐的问答知识库建立装置还包括打分单元,用于当抽象语义推荐模块获得的与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表达式。18.如权利要求17所述的建立装置,其特征在于,所述打分单元采用以下一种或多种方式的结合进行打分处理: 缺失语义成分匹配的数量越多,得分越高; 设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失语义成分与该核心语义成分的距离越近,得分越高; 词性置信度越大,得分越高; 根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高; 根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,得分越高。19.如权利要求11所述的建立装置,其特征在于,还包括:答案提供单元,用于提供与初始请求信息对应的答案;所述存入单元将所述初始请求信息存入智能问答知识库的同时,将答案提供单元提供的答案一并存入智能问答知识库。20.一种基于抽象语义推荐的问答知识库建立系统,其特征在于,包括: 抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分; 权利要求11?19任一项所述的建立装置。
【专利摘要】一种基于抽象语义推荐的问答知识库建立方法、装置及系统,其中所述建立方法包括:提供抽象语义数据库,抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;接收初始请求信息;根据抽象语义数据库对所述初始请求信息进行抽象语义推荐处理,当获得与初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式,将该初始请求信息以及所述具体语义表达式存入智能问答知识库。本发明建立方法、建立装置及建立系统提高了智能问答知识库的建立效率。
【IPC分类】G06F17/30
【公开号】CN105631032
【申请号】CN201511028179
【发明人】李波, 曾永梅, 朱频频
【申请人】上海智臻智能网络科技股份有限公司
【公开日】2016年6月1日
【申请日】2015年12月31日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1