基于抽象语义推荐的问答知识库建立方法、装置及系统的制作方法_4

文档序号:9865756阅读:来源:国知局
e、步骤S103f、步骤S103g进行详细说明,本实施例中的其他步骤请参考前述实施例,在此不再赘述。
[0139]在对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式后,进行步骤S103e,判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内,当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,进行步骤S103f,去除部分抽象语义表达式;当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,进行步骤S103g,从默认集合中补充部分抽象语义表达式;当所述抽象语义候选集中抽象语义表达式的数目位于预定范围内时,直接进行步骤S103h,根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
[0140]所述预定范围可以预先设定,其可以是一个具体的数值,也可以是一个数值范围。
[0141]当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式,然后将抽象语义候选集中剩余的抽象语义表达式进行后续步骤S103h。在一实施例中,所述去除部分抽象语义表达式去除方式可以随机去除,或者按照一定的规则去除,比如去除序号为奇数(或偶数)的抽象语义表达式,或者每间隔固定数量的抽象语义表达式去除一个或多个抽象语义表达式。
[0142]当所述抽象语义候选集中抽象语义表达式的数目小于预定范围内时,从默认集合中补充部分抽象语义表达式,然后将补充默认集合的抽象语义候选集进行后续步骤S103h。
[0143]在又一实施例中,请参考图5,所述步骤S103包括步骤S1031、步骤S103j、步骤S103k、步骤S1031、步骤S103m和步骤S103n六个子步骤,具体包括:
[0144]步骤S103i,对所述初始请求信息进行分词处理,得到若干单独词;
[0145]步骤S103j,将每个单独词识别为语义规则词或非语义规则词;
[0146]步骤S103k,分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
[0147]步骤S1031,分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
[0148]步骤S103m,对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
[0149]步骤S103n,根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
[0150]本实施例与前述实施例的区别在于,在进行词性标注处理和词类判断处理之前,进行识别每个单独词为语义规则词或非语义规则词的步骤,然后对识别为非语义规则词的每个单独词进行词性标注处理,对识别为语义规则词的每个单独词进行词类判断处理,因而词性标注处理和词类判断处理的对象分别是部分单独词,减少了词性标注处理和词类判断处理所需的时间,提高了处理效率。
[0151]下面对步骤S103j进行详细说明,本实施例中步骤S103j之外的其他步骤与前述实施例的部分步骤类似,具体请参考前述实施例相关部分的描述,在此不再赘述。
[0152]进行步骤S103j,将每个单独词识别为语义规则词或非语义规则词。
[0153]识别单独词为语义规则词或语义规则词的过程为:提供语义规则词库,所述语义规则词库中包括若干语义规则词;判断若干单独词是否存在于语义规则词库中,若某一单独词存在于语义规则词库中,则该单独词为语义规则词,若某一单独词不存在于语义规则词库中,则该单独词为非语义规则词。
[0154]在具体的实施例中,提供的语义规则词库中包括语义规则词:“通过”,“如何”,“怎么”,“怎么办”等,初始请求信息为“通过网上银行如何开通信用卡”,通过分词处理,得到若干单独词“通过”,“网上银行”,“如何”,“开通”,“信用卡”;判断单独词“通过”,“网上银行”,“如何”,“开通”,“信用卡”是否存在于语义规则词库中。通过判断,单独词“如何”存在于语义规则库,因而识别单独词“如何”为语义规则词,单独词“通过”存在于语义规则库,因而识别单独词“通过”为语义规则词,而单独词“网上银行”,“开通”和“信用卡”不存在于语义规则词库中,则识别单独词“网上银行”,“开通”和“信用卡”为非语义规则词。后续在进行词类判断处理时,只对语义规则词“如何”和“通过”进行词类判断处理,获得语义规则词“如何”和“通过”的词类信息;在进行词性标注处理时,只对非语义规则词“网上银行”,“开通”和“信用卡”进行词性标注处理,分别获得非语义规则词“网上银行”,“开通”和“信用卡”的词性信息。
[0155]需要说明的是,在其他实施例中,在进行步骤S103m之后,进行步骤S103n之前,还可以包括步骤:判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内,当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。
[0156]请继续参考图2,进行步骤S104,当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式。
[0157]具体的,与所述初始请求信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式包括:通过[conceptl ]($如何)[act1n] [concept2],从初始请求信息中提取单独词“网上银行”填充对应的缺失语义成分[conceptl],从初始请求信息中提取单独词“开通”填充对应的缺失语义成分[act1n],从初始请求信息中提取单独词“信用卡”填充对应的缺失语义成分[concept〗],形成具体语义表达式:通过网上银行($如何)($开通)信用卡,($如何)表示语义规则词“如何”可以为关键词“怎么”、“怎么样”或“怎样”替代,($开通)表示单独词“开通”可以被“办理”、“订贝勾”或“申请”替代;[act1nl] [conceptl] ($如何)[act1n2][c o n c e p 12 ],从初始请求信息中提取单独词“网上银行”填充对应的缺失语义成分[conceptl],从初始请求信息中提取单独词“通过”填充对应的缺失语义成分[act1nl],从初始请求信息中提取单独词“信用卡”填充对应的缺失语义成分[cone印t2],从初始请求信息中提取单独词“开通”填充对应的缺失语义成分[act1n2],形成具体语义表达式:通过网上银行($如何)开通信用卡;通过[conceptl]($如何)开通[concept2],从初始请求信息中提取单独词“网上银行”填充对应的缺失语义成分[conceptl],从初始请求信息中提取单独词“信用卡”填充对应的缺失语义成分[concept〗],形成具体语义表达式:通过网上银行($如何)开通信用卡。
[0158]在一实施例中,在进行步骤S104前,当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,还包括:分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理。
[0159]具体请参考图6,步骤S104包括步骤S104a、步骤S104b、步骤S104c、步骤S104d四个子步骤。
[0160]首先进行步骤S104a,判断与所述初始请求信息匹配的抽象语义表达式的数目M是否大于需要存入智能问答知识库中具体语义表达式的数目N,当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,进行步骤S104c;当与所述初始请求信息匹配的抽象语义表达式的数目M小于需要存入智能问答知识库中具体语义表达式的数目N时,进行步骤S104b;
[0161]步骤S104c,分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,然后进彳丁步骤S104d ;
[0162]步骤S104d,从所述初始请求信息中提取与得分较高的N个抽象语义表达式的缺失语义成分对应的内容,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表达式,接着进行步骤S105 ;
[0163]步骤S104b,从所述初始请求信息中提取与M个抽象语义表达式的缺失语义成分对应的内容,将提取的内容填充到对应的M个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的M个具体语义表达式;然后进行步骤S105。
[0164]需要说明的是,当与所述初始请求信息匹配的抽象语义表达式的数目M等于需要存入智能问答知识库中具体语义表达式的数目N时,既可以进行步骤S104c,也可以进行步骤S104b。
[0165]进行打分处理的目的是将与初始请求信息最匹配的预定数目的具体语义表达式存入智能问答知识库。
[0166]在一实施例中,所述打分处理采用以下一种或多种方式的结合:
[0167]方式一,缺失语义成分匹配的数量越多,得分越高。
[0168]比如,通过匹配处理,得到与所述初始请求信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式:通过[conceptl ]($如何)[act1n] [concept2],该语义表达式中相应的缺失语义成分[conceptl]与单独词“网上银行”对应,缺失语义成分[act1n]与单独词“开通”对应,缺失语义成分[concept〗]与单独词“信用卡”对应,每个缺失语义成分均有对应的填充内容,因而该抽象语义表达式的缺失语义成分匹配的数量很多,得分较高。
[0169]方式二,设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失语义成分与该核心语义成分的距离越近,得分越高。
[0170]比如,通过匹配处理,得到与所述初始请求信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式,包括,抽象语义表达式I:通过[concept I ] ($如何)[act1n][concept2];抽象语义表达式2: [act1nl ] [conceptl ]($如何)[act1n2] [concept2]。
[0171 ]设定缺失语义成分[concept2]为核心语义成分,由于抽象语义表达式2中,缺失语义成分[act1nl]距离核心语义成分[concept2]的距离大于抽象语义表达式I中缺失语义成分[concept I]距离核心语义成分[concept2]的距离,抽象语义表达式I的得分高于抽象语义表达式2的得分。
[0172]方式三,词性置信度越大,得分越高。当多个单独词构成的内容填充抽象语义表达式中对应的某一缺失语义成分时,若填充内容的某个位置的一个单独词为业务属性词汇时,则该抽象语义表达式得分较高。
[0173]在一实施例中,当至少两个单独词构成的内容填充抽象语义表达式中对应的某一缺失语义成分时,若所述内容的末尾的一个单独词为业务属性词汇,则该抽象语义表达式得分较高。
[0174]比如,当填充某一填充抽象语义表达式中某一缺失语义成分对应的内容为“个人信用卡”时,该内容有两个单独词“个人”和“信用卡”构成,“个人信用卡”中的末尾的一个单独词为“信用卡”,单独词“信用卡”属于业务属性词
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1