一种省略恢复方法及问答系统的制作方法_2

文档序号:9616247阅读:来源:国知局
率值的候选对;
[0055]相应的,所述第三确定单元,用于确定使所述联合模型取得最大概率值的候选对中的候选名词为缺省词,添加所述候选名词至所述句子的相应位置,以恢复所述句子的完整性。
[0056]本发明实施例提供的省略恢复方法及问答系统,所述方法包括:在对话中句子有缺省词时,获取所述缺省词的候选代词以及候选名词;依据所述候选代词及所述候选名词,确定所述缺省词的候选对;确定第一概率和第二概率,所述第一概率用于表示所述候选代词作为所述缺省词的概率,所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率;依据所述第一概率和所述第二概率,确定所述候选对中的候选名词为所述缺省词;利用本发明实施例的技术方案,可提高对省略部分的识别率以及省略恢复的正确率。
【附图说明】
[0057]图1为本发明实施例提供的省略恢复方法的流程示意图;
[0058]图2为本发明实施例的一个应用场景示意图;
[0059]图3为本发明实施例的问答系统的组成示意图。
【具体实施方式】
[0060]以下结合附图对本发明的优选实施例进行详细说明,应当理解,以下所说明的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0061]本发明实施例提供了一种省略恢复方法,所述方法应用于问答系统中,在所述问答系统参与的对话中,所述问答系统的对方可以为用户。
[0062]图1为本发明实施例提供的省略恢复方法的流程示意图;如图1所示,所述方法包括:
[0063]步骤101:对话中句子有缺省词时,获取所述缺省词的候选代词以及候选名词;
[0064]这里,将对话中的每一个句子进行词汇划分,形成至少两个词,利用berkelyparser转换工具将分好词的句子转化为语法树,再利用Penn2Malt转换工具将语法树转化为依存树,得到句子的词法信息、句法结构信息和依存信息;依据所得到的上述信息,通过所构建的分类器确定每个词的前面是否存在有缺省词,如果某个词的前面存在缺省词,通过所述分类器得到能够替代该缺省词的至少一个候选代词、以及每个候选代词作为所述缺省词的概率f (w,t),并视f (w,t)为第一概率;其中,w代表缺省词、t代表可替代该缺省词的候选代词,可视(《,t)为该缺省词与候选名词之间的对应候选关系;其中,在所述分类器中所包括的候选代词包括:我、你、他、它、我们、你们、他们、它们等;通过所述分类器得到的能够替代该缺省词的候选代词为以上所述的候选代词中的至少一种;在省略恢复技术领域,通常视上述不同类型的候选代词为零代词类别t,故上述方案也可称之为零代词类别的恢复过程。
[0065]其中,所述分类器由机器学习算法中的最大熵模型来构建,这里不再赘述。
[0066]步骤102:依据所述候选代词及所述候选名词,确定所述缺省词的候选对;
[0067]这里,在当前句子之前的η个句子中,η为预先设置的正整数,提取η个句子中的所有名词c,并将所提取出的名词c作为能够将所述候选代词替换掉的候选名词,并将所获取到的候选代词t与所提取出的候选名词C进行两两组合,形成代词名词对即候选对(w,t,C),利用分类器获取到每一个候选对(w,t,c)中的候选名词C将相应候选代词t替换掉的概率f (w,t,c),视概率f (w,t,c)为第二概率;其中,所述候选对(w,t,c)包括三个元素,第一个元素为缺省词、第二个元素为候选代词、第三个元素为候选名词。
[0068]上述方案中,通过分类器确定缺省词及计算概率f(w,t)、概率f (w,t,c)的过程具体请参见相关说明,这里不再赘述。
[0069]步骤103:确定第一概率和第二概率,所述第一概率用于表示所述候选代词作为所述缺省词的概率,所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率;
[0070]这里,如前所述,在确定每一候选代词时,利用分类器获取每个候选代词作为所述缺省词的概率f(w,t)(第一概率);在确定每一候选对时,利用分类器获取到每一个候选对(W,t,c)中的候选名词C将相应候选代词t替换掉的概率f (w,t,c)(第二概率)。
[0071]步骤104:依据所述第一概率和所述第二概率,确定所述候选对中的候选名词为所述缺省词。
[0072]进一步的,获取模型系数;依据所述第一概率、第二概率及所述模型系数,建立联合模型;
[0073]其中,所建立的联合模型的表达式如公式(1)所示:
[0074]Score = al*f (w, t) +a2*f (w, t, c)(1)
[0075]其中,Score为目标分值,由概率值来表征;al、a2为模型系数,通过机器学习中的支持向量机算法(SVM)训练而得;将与每一个候选对相对应的第一概率与第二概率代入至所述联合模型,得到所述联合模型的至少一个概率值;在所述至少一个候选对中,选取使所建立的联合模型的目标分值取得最大值的候选对;确定所选取的候选对中的候选名词为所述缺省词。
[0076]具体的,对于词w,通过前述方法得到其每一个候选对(w,t,c)时,将该候选对所对应的概率f (W, t)、f (w, t, c)分别代入至公式(1),得到不同的Score,选取使Score取值为最大的候选对(w, tl, cl),该候选对中的候选名词cl就是词w之前被省略掉的缺省词;将该缺省词添加至词w之前的位置,恢复出完整的句子,以恢复当前句子的完整性。上述对于恢复出缺省词的过程,在问答系统中,可称为零代词指代消解。
[0077]需要说明的是,上述零代词类别恢复与零代词指代消解等过程均可由分类器来实现,该分类器可通过机器学习方法中的最大熵模型来构建。
[0078]由此可见,本发明实施例中,在对话中句子有缺省词时,获取所述缺省词的候选代词以及候选名词;依据所述候选代词及所述候选名词,确定所述缺省词的候选对;确定第一概率和第二概率,所述第一概率用于表示所述候选代词作为所述缺省词的概率,所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率;依据所述第一概率和所述第二概率,确定所述候选对中的候选名词为所述缺省词,提高了对省略部分即缺省词的识别率、及省略恢复的正确率;同时,本发明实施例依据第一概率和所述第二概率,建立联合模型;将零代词类别恢复与零代词指代消解这两个过程一同融合在联合模型中,仅通过对联合模型的一步求解就可得出当前句子的缺省词,提高了恢复效率,同时也减少了因多步骤求解而带来的求解误差。
[0079]图2为本发明实施例的一个应用场景示意图;在图2所示的对话中,Quest1n代表着用户输入至问答系统的问题,Answer为问答系统输出的答案;可见,第3个问题“多少钱”为省略句,经过本发明实施例的技术方案,问答系统可将省略掉的名词“Iphone手机”恢复出来,并正确的回答了 “Iphon手机4999”,以“多少钱”为对话中的当前句子为例,
[0080]首先,将“多少钱”进行词汇划分,形成两个词,分别为:多少、钱;依据句子的词法信息、句法结构信息和依存信息,通过分类器分别确定在第一个词(《1 =多少)“多少”、第二个词(w2 =钱)“钱”的前面是否存在缺省词;确定为第一个词“多少”前面缺少缺省词,第二个词“钱”的前面不存在缺省词,对w2的处理结束;针对wl前的缺省词,分类器输出针对该缺省词的候选代词“他”(tl =他)和“它”(t2 =它)、以及每一个候选代词作为所述缺省词的概率如f (wl, tl) = f (多少,他)=0.32、f (wl, t2) = f
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1