一种用于多轮问答系统中缺失语义补充的方法

文档序号:9826241阅读:585来源:国知局
一种用于多轮问答系统中缺失语义补充的方法
【技术领域】
[0001] 本发明涉及信息处理技术领域,尤其涉及一种用于多轮问答系统中缺失语义补充 的方法。
【背景技术】
[0002] 自动问答系统,又称QA(Question Answering)系统,可称为新一代的搜索引擎,用 户不需要把自己的问题分解成关键字,可把整个问题直接交给该系统,既能用自然语言句 子提问,又能为用户直接返回答案,可更好地满足用户的检索需求,因此,自动问答系统成 为企业智能客服的首选,但是该系统目前还存在一些缺点,例如用户每次输入的语句都彼 此独立,不能建立准确的上下文语境,因而对用户而言,每次检索必须输入语义完整的问 句,与人的语言行为相违背。根据上文信息建立语境,从指代和省略两个角度,对当前提问 信息进行语义补充,从而允许用户可以使用省略句进行提问,提高人机交互的流畅性和准 确性,提供更好的用户体验。
[0003] 在交互式问答中,人们在提问的同时,会建立相应的语境,在这个语境中的接下来 的问题,往往会出现指代和省略现象,由此造成单个提问语义缺失的问题,给问题检索带来 大量的麻烦。语义缺失主要包括以下两种情况:
[0004] 1.指代型语义缺失。用户输入问题上下文相关,为保障上下文连贯性,后一个问题 与前一个问题之间存在指代关系,即后一个问题中存在某个指代词指代前一个问题中的名 词,由此造成指代型语义缺失,例如,连续两个问题:"朝阳区海关可以办理什么业务?","它 的电话是多少?"。在后一个问题中,"它"指代的是"朝阳区海关",缺失语义"朝阳区海关"信 息。
[0005] 2.省略型语义缺失。用户输入问题上下文相关,后一个问题中应该具备的成分,有 时出于上下文连贯性的需要,在后一个问句中并不出现,构成省略型语义缺失,例如,连续 两个问题:"银行卡转账如何办理?","收费吗?"。第二个问句中省略了主语"银行卡转账", 缺失"银行卡转账"信息。
[0006] 目前的检索系统,依然要求用户输入语义完整的句子,对于语义缺失的句子并不 能有效找到正确答案,如百度研发的小度机器人,虽然针对客观问题有极高的准确率,但不 能准确检索出多轮问答中存在语义缺失问题的答案。

【发明内容】

[0007] 本发明所要解决的技术问题在于如何克服现有技术中在多轮问答系统中,对于语 义缺失的句子无法找到正确答案的缺陷。
[0008] 为了解决上述技术问题,本发明提供了一种用于多轮问答系统中缺失语义补充的 方法,其特征在于,包括以下步骤:
[0009] S1、获取用户在问答系统中输入的问题;
[0010] S2、根据用户输入的在先问题对当前问题进行缺失语义补充,且所述缺失语义补 充是从指代消解和/或省略恢复的角度进行语义补充;
[0011] S3、对缺失语义补充后的当前问题进行检索。
[0012] 进一步地,所述步骤S2中的从指代消解的角度进行语义补充,具体包括以下步骤: [0013] S21、根据用户在问答系统中输入的问题构建表述对;
[0014] S22、抽取表述对的特征,所述表述对的特征包括人工特征、词向量特征和交互特 征中的一种或多种;
[0015] S23、根据表述对的特征进行代词消解。
[0016] 进一步地,所述步骤S21中构建表述对具体包括以下步骤:
[0017] S211、根据用户在问答系统中输入的问题,将指代词和候选先行语分别做集合;
[0018] S212、将指代词集合和候选先行语集合进行笛卡尔积运算,得到表述对集合。
[0019] 进一步地,所述步骤S22中,人工特征包括14维指代词和10维先行语,且指代词和 先行语的每一维均为布尔类型,其中14维指代词分别为"指人"、"指物"、"单数"、"复数"、 "男"、"女"、"地点"、"时间"、"自己"、"专有名词"、"非人"、"非物"、"非地点"、"指机构",10 维先行语分别为"人"、"男"、"女"、"单数"、"复数"、"物品"、"机构团体"、"地名"、"新词"、 "时间"。
[0020] 进一步地,所述步骤S22中的词向量特征包括指代词词向量特征、先行语词向量特 征、指代词上下文特征和先行语上下文特征,所述指代词词向量特征和先行语词向量特征 分别为指代词和先行语的词向量,所述指代词上下文特征和先行语上下文特征由以下公式 得到:
[0022]其中,WQ,W1,···,Wi,…,Wm为一个句子中每个词的词向量,Wi为待计算上下文特征的 词的词向量,η为窗口大小,即包含候选词前后各η个词,k为窗口大小为η中所包含的词的个 数,ν为第i个词的上下文特征。
[0023]进一步地,所述步骤S22中的交互特征为指代词和先行语之间的交互信息,包括指 代词和先行语所在的句子的偏移,指代词和先行语在句子中的偏移,指代词和先行语之间 的句子距离和词距离,其中句子偏移和句子距离以句子为基本单位来计算,在句子中的偏 移和词距离以词为单位计算。
[0024] 进一步地,所述步骤S2中的从省略恢复的角度进行语义补充,具体包括以下步骤:
[0025] S24、根据用户在问答系统中输入的问题构建共现语言模型,并计算出共现语言模 型中的候选目标词与当前句子中的词的共现概率;
[0026] S25、将计算结果分值最高的先行语作为最佳先行语进行省略恢复。
[0027 ] 进一步地,所述步骤S24具体包括以下步骤:
[0028] S241、根据用户在问答系统中输入的问题进行词性标注;
[0029] S242、将词性标注为名词或动词作为候选目标词;
[0030] S243、在以所述候选目标词为中心的前后各η个词范围内,设计大小为η的滑动窗 Ρ;
[0031] S244、在所述滑动窗口中,以候选目标词为中心,从第一个词滑向最后一个词,依 次统计出窗口中候选目标词与当前句子中的词的共现概率。
[0032] 进一步地,所述步骤S244中共现概率由以下计算公式得到:
[0034] 其中,Wi为当前句子中出现的词,Wj为候选目标词,W为词表,c(Wi,Wj)表示Wi和Wj的 共现计数。
[0035] 进一步地,所述步骤S25具体为:将共现概率p(Wi,Wj)与概率阈值d进行比较,将p (Wi,Wj)>d且未在当前句子中出现的词作为最佳先行语,并将所述最佳先行语补充到当前句 子中。
[0036] 本发明的用于多轮问答系统中缺失语义补充的方法,具有如下有益效果:
[0037] 1、本发明通过指代消解和/或省略恢复对当前问题进行缺失语义补充,能够针对 用户输入的问题进行准确的回答。
[0038] 2、本发明方法允许用户使用省略句进行提问,提高了人机交互的流畅性和准确 性,获得更好的用户体验。
【附图说明】
[0039] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其它附图。
[0040] 图1是本发明中用于多轮问答系统中缺失语义补充的方法的流程图;
[0041 ]图2是本发明实施例中的指代消解模块的整体框图;
[0042]图3是本发明实施例中的指代消解模块模型训练的数据流图;
[0043]图4是本发明实施例中的指代消解模块实现指代消解的数据流图;
[0044] 图5是本发明实施例中的省略恢复模块训练过程的流程图;
[0045] 图6是本发明实施例中的语义补充模块的整体框图。
【具体实施方式】
[0046]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其 他实施例,都属于本发明保护的范围。
[0047] 本发明提供了一种用于多轮问答系统中缺失语义补充的方法,其特征在于,包括 以下步骤:
[0048] S1、获取用户在问答系统中输入的问题;
[0049] S2、根据用户输入的在先问题对当前问题进行缺失语义补充,且所述缺失语义补 充是从指代消解和/或省略恢复的角度进行语义补充,从指代消解的角度进行语义补充具 体包括以下步骤:
[0050] S21、根据用户在问答系统中输入的问题构建表述对,构建表述对具体包括以下步 骤:
[0051] S211、根据用户在问答系统中输入的问题,将指代词和候选先行语分别做集合;
[0052] S212、将指代词集合和候选先行语集合进行笛卡尔积运算,得到表述对集合;<
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1