意图估计装置以及意图估计方法_2

文档序号：8435844阅读：来源：国知局

7]意图层次图数据示出意图节点21?27、各意图节点21?27的层次关系、以及将子节点的意图共现权重数值化而示出的意图共现权重28、29。这里，子节点例如表示在意图节点21的情况下位于该意图节点21的下一层的意图节点22。
[0058]意图层次图数据基本上是以假想的意图节点为顶点并将功能层次化而示出的构造，越趋向下层则越表示具体的意图。在图2的例子中，以假想的“根”的意图节点21为顶点，下层的意图节点23是“目的地设定□”，再下一层的意图节点24是“目的地设定[设施=?]”，再下一层的意图节点25是“目的地设定[设施=$设施$]”。意图节点23表示进行目的地设定但未确定任何设定条件的状态，意图节点24表示使用设施的名称进行目的地设定但具体的设施名称未确定的状态，意图节点25表示具体的设施名称被指定为“ $设施$ ”，用具体的设施名称进行目的地设定的状态。
[0059]另一方面，从意图节点26的“设施检索[设施=$设施$ ] ”到意图节点25的“目的地设定[设施=$设施$ ] ”的图的路径26a(以下称作图路径)、以及从意图节点26的“设施检索[设施=$设施$ ] ”到意图节点27 “经由地设定[设施=$设施$ ] ”的图路径26b，是基于假定的汽车导航应用的功能而生成的图路径。意图节点26 “设施检索[设施=$设施$ ] ”只要求搜索具体的设施“ $设施$ ” ；到意图节点25 “目的地设定[设施=$设施$] ”的图路径26a、以及到意图节点27 “经由地设定[设施=$设施$] ”的图路径26b，表示作为应用最终需要选择目的地设定、经由地设定等的意图。
[0060]另外，意图共现权重28示为“1.2”，这表示子节点以下的意图出现多个时的意图共现权重为“1.2”。即，即使多个意图共同出现也没有问题，进而表示多个意图共同出现的频率大的情况。另一方面，意图共现权重29示为“0.0”，这表示子节点以下的意图出现多个时的意图共现权重为“0.0”。即，表示多个意图不会共同出现的情况。
[0061]图3是示出实施方式I的意图估计装置的从输入语音提取意图估计单位的处理的具体例的图。
[0062]输入语音31作为输入例示出用户发出“〇〇卜'、一厶?乙立态寄0 T扣6、XX 7 >卜'、t 乙行 ?/?Ο (〇〇 doomu ni tachiyottekara, X X lando ni ikitai (在〇〇 Dome 停，然后去X XLand)) ”的情况。语音识别结果32是语音识别部I对输入语音31进行语音识别而得到的结果。具体而言，语音识别结果32由“〇〇卜'、一乙立与寄0 T扣6ΛΛ7夕才奁聞? U ”以语音识别评分“0.6”被求出的语音识别结果例33、以及“〇〇F 一 A ?乙立^寄ο T扣6、X X歹V卜'' ?乙行? fc U ”以语音识别评分“0.4”被求出的语音识别结果例34构成。
[0063]语素分析结果35是语素分析部2对语音识别结果32进行语素分析而得到的结果。意图估计单位提取结果36、40是意图估计单位提取部4从语素分析结果35基于语言的语法制约提取意图估计单位的结果。在意图估计单位提取结果36中，示出3个提取模式37、38、39。如图3所示在语言为日语的情况下，依据对独立语附加附属语串的性质，文节是最小的意图估计单位，进而依据前方的体言与后方的用言相关的性质，将复合的文节作为意图估计单位提取。提取模式37、38、39所示的意图估计结果提取单位是仅提取在此说明的依存的构造成立的模式而得到的。
[0064]此后，参照意图估计单位提取结果36、40的各提取模式，意图估计部6使用意图估计模型进行各提取模式的部分意图的估计并计算部分评分。该意图估计部6的具体处理结果如图4以及图5所示。
[0065]图4以及图5是示出实施方式I的意图估计装置的意图估计部6的处理的图。更详细地说，图4示出基于图3所示的意图估计单位提取结果36的部分意图的估计，图5示出基于图3所示的意图估计单位提取结果40的部分意图的估计。
[0066]此外，图4以及图5中对将独立语的原型作为术语提取的情况进行说明。首先，参照图4对部分意图的估计处理进行说明。
[0067]术语串41表示从意图估计单位提取结果36生成的部分意图估计中使用的术语串，表示针对“〇〇卜'、一厶I (OO (10011111/1^)”生成“$设施$ — 1”，针对“立态寄0/ T / 力> 6 (tachiyot/te/kara) ” 生成“立7^ 寄(tachiyoru) ”，针对 “ X X 歹夕才 / $-(X Xraj1/wo) ”生成“ $无线电台$ — 1”，针对“聞各/ tz ^ (kiki/tai) ”生成“聞<(kiku) ”的情况。
[0068]而且，在图4中，针对术语串41示出分割采用权重以及多个提取模式。作为提取模式，在图4的例子中，示出基于图3所示的提取模式37、38、39的提取模式A、B、C、D以及非提取模式E、F、G0实线箭头42、43、44表示意图估计单位提取部4提取出的意图估计单位的范围。另外，在该实线箭头42、43、44的下方，示出意图估计部6估计出的结果的部分意图、以及该估计出的部分意图的部分评分。另外，虚线箭头45、46表示意图估计单位提取部4未提取的范围。在该虚线箭头45、46的下方，记载有意图估计部6估计出的结果的部分意图、以及该估计出的部分意图的部分评分。而且，记载于术语串41的下方的分割点采用权重47，在采用各指定位置作为意图估计单位的分割点的情况下，是与评分相乘的数值，在未采用各指定位置作为意图估计单位的分割点的情况下，是将从I减去该分割点采用权重47而得到的值与评分相乘的数值。
[0069]接下来，参照图5对部分意图的估计处理进行说明。
[0070]术语串51表示从意图估计单位提取结果40生成的部分意图估计中使用的术语串，表示针对“〇〇卜'、一厶/ ?乙”生成“ $设施$—1”，针对“立态寄0 / T /扣6”生成“立态寄苍”，针对“XX 卜生成“ $设施$ —2”，针对“行各/fcU”生成“行< ”的情况。
[0071]而且，在图5中，针对术语串51示出分割采用权重以及多个提取模式。作为提取模式，在图5的例子中，示出基于图3所示的提取模式的提取模式A'、B'、C'、D'以及非提取模式E'、F'、G'。实线箭头52、53、54表示意图估计单位提取部4提取出的意图估计单位的范围。另外，在该箭头52、53、54的下方，示出意图估计部6估计出的结果的部分意图、以及该估计出的部分意图的部分评分。另外，虚线箭头55、56示出意图估计单位提取部4未提取的范围。在该虚线箭头55、56的下方，记载有意图估计部6估计出的结果的部分意图、以及该估计出的部分意图的部分评分。而且，记载于术语串51的下方的分割点采用权重57，在采用各指定位置作为意图估计单位的分割点的情况下，是与评分相乘的数值，在未采用各指定位置作为意图估计单位的分割点情况下，是将从I减去该分割点采用权重57而得到的值与评分相乘的数值。
[0072]接下来，意图串估计部3利用意图估计部6估计出的部分意图估计结果生成针对语音识别结果例33、34的部分意图估计结果的组合，并计算各组合的最终评分。意图串估计部3的具体处理结果如图6以及图7所示。
[0073]图6以及图7是示出实施方式I的意图估计装置的意图串估计部3的处理的图。更详细地说，图6示出基于图4所示的部分意图估计结果的组合的最终评分的计算例，图7示出基于图5所示的部分意图估计结果的组合的最终评分的计算例。
[0074]将针对各意图估计单位的全部连续的部分意图串的部分评分相乘，进而将意图估计单位的妥当性、以及意图共现权重计算部8计算出的意图共现权重相乘，由此计算最终评分。
[0075]图6示出针对语音识别结果例33的最终评分的计算例，该语音识别结果例33的语音识别评分61示为“0.6”。另外，部分评分62表示使用术语串41的各提取模式下的部分意图估计结果的部分评分。整体评分63是取部分意图估计结果的各部分评分之积而得到的。分割权重64是依据采用分割点或不采用分割点而计算权重的结果。分割权重64的值是表示意图分割的可能性的数字，在取该分割权重64的值的总和时为“1.0”。分割权重评分(表不意图串的似然性的评分)65是整体评分63与分割权重64的积。
[0076]意图共现权重66是根据图2所示的意图层次图和部分意图串求出的数值。最终评分67是将分割权重评分65和语音识别评分61和意图共现权重66相乘而得到的值。提取模式A的意图串68记载有作为语音识别结果例33的意图串模式在全部的文节中进行分割时的最终评分。另外，提取模式B+C的意图串69记载有将复句结构的各句作为一个块时的最终评分。
[0077]图7示出针对语音识别结果例34的最终评分的计算例，该语音识别结果例34的语音识别评分71示为“0.4”。另外，术语串51、整体评分72、分割权重73、分割权重评分74、意图共现权重75以及最终评分76与图6中说明的构成相同。另外，提取模式B' +C'的意图串77记载有将复句结构的各句作为一个块时的最终评分。
[0078]图8是示出实施方式I的意图估计装置的动作的流程图。
[0079]语音识别部I进行输入语音的语音识别(步骤STl)。语素分析部2针对在步骤STl中得到的语音识别结果进行语素分析(步骤ST2)。意图估计单位提取部4将在步骤ST2中得到的语素分析结果即语素串分割成部分语素，并提取全部估计意图的单位即意图估计单位(步骤ST3)。意图估计部6针对在步骤ST3中提取出的全部意图估计单位进行部分意图估计，得到部分意图估计结果以及部分评分(步骤ST4)。
[0080]意图串估计部3基于在步骤ST4中得到的部分意图估计结果，将部分意图连结而生成与语音识别结果的整体一致的意图串，并计算生成的意图串的整体评分(步骤ST5)。另外，意图串估计部3对在步骤ST5中生成的意图串的整体评分乘以意图共现权重计算部8计算出的意图共现权重以及语音识别评分，从而计算针对意图串的最终评分(步骤ST6)。进而，意图串估计部3参照在步骤ST6中计算出的最终评分，输出具有最大的最终评分的意图串，作为最适合输入语音的意图串估计结果(步骤ST7)，结束处理。
[0081]接下来，参照图2至图7所示的具体例对图8所示的流程图进行说明。此外，以下假定进行语音输入的情况进行说明。
[0082]首先，作为语音输入，输入图3所示的输入语音31 “〇〇卜'、一 A (乙立与寄0 T扣6 XX歹>针对该输入语音31，作为步骤ST1，语音识别部I进行语音识另IJ，得到语音识别结果32。作为语音识别结果32，语音识别结果例33的“〇〇F — A ?乙立^寄oT扣6ΛΛ歹夕才奁聞U ”得到评分0.6，语音识别结果例34的“〇〇卜'、一厶?乙irJb寄οτ加6 XX歹V Π乙行§ fcu”得到评分0.4。该语音识别结果例33、34被输出至语素分析部2。
[0083]语素分析部2作为步骤ST2，基于已知的语素分析手法进行语音识别结果例33、34的语素分析，生成图3所示的语素分析结果35。图3的例子中，在语素分析结果35中记载有表层的语素和词类以及活用形，但是，也可以输出除此以外的详细的词类分类、语素的原形、语素的语意标签等的信息，最低限度包含语素的原形。
[0084]语素分析结果35由2个

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6