语音对话装置及语音对话方法与流程

文档序号：14959327发布日期：2018-07-18 00:12阅读：337来源：国知局

本发明涉及根据对用户的说话进行识别而得到的结果来操作对象设备的语音对话装置及语音对话方法。

背景技术：

搭载于现有的车载导航装置等的语音对话装置中，为了防止因用户说话以外的杂音等而导致的误识别，从用户处接受语音识别开始的指示。因此，例如，在方向盘等上设置有指示语音识别开始的按钮(以下，称为“语音识别开始指示按钮”)。用户在按下语音识别开始指示按钮之后，说出用于对作为操作对象的设备进行操作的指令等(以下，称为“设备操作指令等”)。语音对话装置在检测出按下了语音识别开始指示按钮后开始识别，并根据所发出的语音来识别设备操作指令等。

此外，使用语音对话装置的用户中，关于语音对话的习惯程度，从初学者到熟练者各自不同，因此，语音对话装置需要与各种熟练度的用户相对应。为此，专利文献1中记载了如下技术：根据用户对语音对话的熟悉度来变更系统响应，该系统响应包含与用户应当作出响应的内容相关的指南。

现有技术文献

专利文献

专利文献1：

日本专利特开2004-258233号公报

技术实现要素：

发明所要解决的技术问题

现有的语音对话装置中，通过按下语音识别开始指示按钮从而开始设备操作指令等的语音识别，并在指南的输出次数超过规定的阈值时变更系统响应的模式等，一边推进对话一边变更响应模式。因此，响应模式的变更需要时间。特别地，如车载导航装置等车载设备那样，当存在由语音对话熟练度不同的多个用户共同使用的情况时，无法在说话者改变的瞬间变更响应模式。

作为用于快速变更响应模式的语音对话装置的结构，考虑以下结构：在画面中显示预先定义有响应模式的按钮(以下，称为“预设按钮”。)，并在与由用户按下的预设按钮相对应的响应模式下开始语音对话。然而，如车载导航装置等车载设备那样，当存在由语音对话熟练度不同的多个用户共同使用的情况时，每当说话者发生变化，用户就需要从多个预设按钮中选择并按下定义有所希望的响应模式的预设按钮，比较耗费精力。此外，在车载设备那样的存在显示限制的装置中，显示多个预设按钮比较困难。

由于现有的语音对话装置具有如上所述的结构，因此存在无法在语音对话中瞬间且简单地对响应的形态进行变更的问题。

本发明是为了解决上述问题而完成的，其目的在于，在语音对话中瞬间且简单地变更响应的模式。

解决技术问题所采用的技术方案

本发明所涉及的语音识别装置包括：语音识别部，该语音识别部识别说话语音；响应模式选择部，该响应模式选择部使用定义了指示语音对话开始的关键字与响应的模式之间的对应关系的响应模式对应表格，来选择与语音识别部的识别结果中所包含的关键字相对应的响应的模式；对话控制部，该对话控制部在语音识别部的识别结果中包含了关键字的情况下开始语音对话，根据之后来自语音识别部的识别结果来决定响应，并将该响应的模式控制为响应模式选择部所选择的模式；以及语音输出控制部，该语音输出控制部根据由对话控制部进行控制的响应生成语音数据，并输出至扬声器。

发明效果

根据本发明，控制为与指示开始语音对话的关键字相对应的响应的模式，因此，通过由用户说出指示开始语音对话的关键字，从而语音对话装置开始语音对话，并切换响应的模式。因此，能在语音对话中瞬间且简单地变更响应的模式。

附图说明

图1是示出应用了本发明实施方式1所涉及的语音对话装置的语音对话系统的整体结构的框图。

图2是示出实施方式1所涉及的语音对话装置的结构例的框图。

图3是示出实施方式1所涉及的语音对话装置中的响应模式对应表格的示例的图。

图4是示出实施方式1所涉及的语音对话装置中的响应模式数据库的示例的图。

图5a是示出在实施方式1所涉及的语音对话装置中等待用于开始语音对话的指示时的动作的流程图。

图5b是示出在实施方式1所涉及的语音对话装置中语音对话开始后的语音识别时的动作的流程图。

图6是在实施方式1所涉及的语音对话装置中面向初学者的、信息量较多的响应显示例。

图7是在实施方式1所涉及的语音对话装置中面向中级者的、信息量较为普通的响应显示例。

图8是在实施方式1所涉及的语音对话装置中面向熟练者的、信息量较少的响应显示例。

图9是示出本发明实施方式2所涉及的语音对话装置的结构例的框图。

图10是示出在实施方式2所涉及的语音对话装置1中登记用户id时的动作的流程图。

图11是示出在实施方式2所涉及的语音对话装置1中将用户id与响应模式id对应起来进行登记时的动作的流程图。

图12是示出在实施方式2所涉及的语音对话装置1中按下指示语音对话开始的按钮时的动作的流程图。

图13是应用了本发明各实施方式所涉及的语音对话装置的语音对话系统的硬件结构图。

具体实施方式

下面，为了更详细地说明本发明，根据附图对用于实施本发明的方式进行说明。

实施方式1.

图1是示出应用了本发明实施方式1所涉及的语音对话装置1的语音对话系统的整体结构的框图。该语音对话系统中，语音对话装置1与用户进行语音对话，并根据对用户的说话语音进行识别而得到的结果来操作对象设备6。该语音对话装置1连接有麦克风2、语音输入部3、扬声器4、显示器5以及对象设备6。以下，以将语音对话系统搭载于车辆的情况为例，对实施方式1进行说明。

图1的示例中，示出了语音对话装置1与对象设备6相互独立的结构，然而也可以设为将语音对话装置1组装入对象设备6的结构。例如，语音对话装置1为pc(personalcomputer：个人计算机)、平板pc或智能手机等移动信息终端。或者，语音对话装置1也可以组装入作为对象设备6的车载导航装置或汽车音响装置等。或者，语音对话装置1所具有的功能也可以分散在网络上的服务器、智能手机等移动信息终端、以及车载导航装置等车载设备中。

图2是示出实施方式1所涉及的语音对话装置1的结构例的框图。语音对话装置1包括：语音识别部10、辞典选择部11、本地语音识别辞典12、响应模式选择部13、响应模式对应表格14、对话控制部15、响应模式db(database：数据库)16、语音输出控制部17以及显示输出控制部18。

麦克风2获取由用户发出的语音，并将其输出至语音输入部3。语音输入部3例如通过pcm(pulsecodemodulation：脉冲编码调整)对来自麦克风2的语音进行a/d(analog/digital：模拟/数字)转换，并输入至语音对话装置1。

语音识别部10包括本地识别部10a及服务器识别部10b。其中，服务器识别部10b并不是必须的结构。

语音识别部10从语音输入部3接收数字化后的语音数据。语音识别部10从语音数据中检测出相当于用户所说话的内容的语音区间(以下，称为“说话区间”)，并输出至本地识别部10a或服务器识别部10b。

本地识别部10a从所输入的说话区间的语音数据中提取出特征量。然后，本地识别部10a基于该特征量，使用本地语音识别辞典12的待机用辞典12a或语音对话用辞典12b来进行识别处理，并将识别结果输出至响应模式选择部13或对话控制部15。作为本地识别部10a中的识别处理的方法，利用例如hmm(hiddenmarkovmodel：隐马尔可夫模型)法那样的一般方法即可，因此省略详细的说明。

服务器识别部10b将所输入的说话区间的语音数据输出到网络上的语音识别服务器7，并接收来自语音识别服务器7的识别结果。语音识别服务器7具备未图示的语音识别辞典，对从服务器识别部10b接收到的语音数据进行识别处理，并将识别结果输出至服务器识别部10b。在语音对话装置1中存储器容量存在限制，但在语音识别服务器7中并不存在存储器容量的限制，因此语音识别服务器7能使用比存储在语音对话装置1中的本地语音识别辞典12更大规模的语音识别辞典来进行高性能的识别处理。

语音识别部10在由后述的辞典选择部11选择了待机用辞典12a的情况下，在预先设定的期间内，即使没有用户所发出的语音对话开始的指示，也对从语音输入部3接收到的语音数据检测说话区间，并进行上述识别处理。“预先设定的期间”包含例如从语音对话装置1启动或重新开始到结束或停止为止的期间、或者语音识别部10正在启动的期间等期间。

此外，语音识别部10在由辞典选择部11选择了待机用辞典12a的情况下，将识别结果输出至响应模式选择部13，而在选择了语音对话用辞典12b的情况下，将识别结果输出至对话控制部15。

另外，将从语音识别部10输出的识别结果设为指令等具体的字符串来进行说明，然而，只要是例如用数字来表示的id等能够对指令等彼此进行区分的形式即可。

此外，虽然可以利用本地识别部10a和服务器识别部10b中的任一个来进行识别处理，但在本实施方式1中，在由辞典选择部11选择了待机用辞典12a的情况下，进行由本地识别部10a所进行的使用了待机用辞典12a的识别处理，而在选择了语音对话用辞典12b的情况下，进行由本地识别部10a所进行的使用了语音对话用辞典12b的识别处理，或进行由服务器识别部10b所进行的利用了语音识别服务器7的识别处理。在选择了语音对话用辞典12b的情况下，由后述的对话控制部15来通知用本地识别部10a或服务器识别部10b中的哪一个来进行识别处理的指示。

辞典选择部11按照对话控制部15的指示，选择本地语音识别辞典12的待机用辞典12a或语音对话用辞典12b。辞典选择部11在语音对话装置1启动或重新开始时、或语音识别部10启动时，选择待机用辞典12a。然后，在用户指示语音对话开始且对话控制部15指示辞典切换后，辞典选择部11选择辞典选择部11b。

本地语音识别辞典12存储在语音对话装置1内，包括待机用辞典12a及语音对话用辞典12b。

待机用辞典12a中预先定义了用于用户指示语音对话开始的“关键字”。关键字用于当用户对语音对话装置1说出用于操作对象设备6的指令等(以下，称为“设备操作指令等”。)时，明示出语音对话的开始。在本实施方式1中，用户说出关键字相当于指示语音对话开始。

另外，可以使得关键字能由用户进行定义，从而能对待机用辞典12a进行适当变更。

语音对话用辞典12b是在语音对话开始后由语音识别部10来进行使用的辞典。语音对话用辞典12b中预先定义了设备操作指令等。语音对话用辞典12b的内容依赖于对象设备6，因此省略详细的说明，然而，例如当对象设备6为车载导航装置时，在语音对话用辞典12b中定义“放大地图”等指令、设施名以及住所等，以作为识别词汇。

响应模式选择部13从语音识别部10接收识别结果。然后，响应模式选择部13参照响应模式对应表格14，选择与该识别结果中所包含的关键字相对应的响应模式id，并将响应模式id输出至对话控制部15。

此处，图3中示出了响应模式对应表格14的一个示例。响应模式对应表格14例如如图3所示，将响应模式id与作为语音对话开始的指示的关键字相对应。

另外，图3的示例中，响应模式对应表格14中所定义的响应模式id为字母，然而只要是字符串或用数字来表示的id等可以对响应模式彼此进行区分的形式即可。

响应模式db16存储每个响应模式id的响应模式。

此处，图4中示出了响应模式db16的一个示例。响应模式db16中，将语音种类、语言种类、识别种类、熟练度种类或输出种类中的至少1个种类与响应模式id相对应。

语音种类表示从扬声器4输出的响应语音的速度、性别、年龄层、音量或音程中的至少1个。

语言种类表示从扬声器4输出的响应语音或显示器5中显示的响应显示的语言、或者各语言内的方言中的至少1个。

识别种类表示使用本地识别部10a的识别结果或服务器识别部10b的识别结果中的哪一个来作为识别结果。

熟练度种类表示与面向初学者、面向中级者、或面向熟练者等的熟练度相对应的响应的信息量。图4的示例中，在面向初学者的情况下，使响应的信息量增加并进行细致的语音响应或显示响应，而在面向中级者、熟练者的情况下，语音对话的熟练度越是高，则越是使响应的信息量减少并进行简单的语音响应或显示响应。

输出种类表示响应的语音从扬声器4输出的输出方式或响应的显示在显示器5中显示的输出方式中的任一方或双方。

另外，可以使得响应模式能由用户进行定义，从而能对响应模式db16进行适当变更。

首先，在语音对话装置1启动或重新开始之后，或语音识别部10启动之后，对话控制部15接收与指示语音对话开始的关键字相对应的响应模式id。然后，对话控制部15参照响应模式db16来获取与响应模式id相对应的响应模式，并设定与该响应模式相对应的语音对话的方案。

方案例如表示开始与用户的语音对话后到对象设备6的操作完成为止的、语音对话装置1针对用户的说话的响应的规则。例如，使对象设备6即车载导航装置执行周边设施检索的方案包含用于让用户说出住所等的检索范围的响应、用于让用户说出设施名的响应、提示使用了设施名的检索结果一览来让用户选择所希望的设施名的响应等。

对话控制部15可以基于从响应模式db16获取到的响应模式动态地生成方案，也可以选择预先针对每个响应模式而定义的方案。例如，在响应模式为面向初学者的设定的情况下，设定使用户一个一个地说出上述周边设施检索所必需的检索范围及设施名等的方案，另一方面，在响应模式为面向熟练者的设定的情况下，设定使用户自由地说出周边设施检索所必需的检索范围及设施名等的方案。

然后，在方案的设定完成之后，对话控制部15向辞典选择部11指示从待机用辞典12a切换为语音对话用辞典12b。此外，对话控制部15向语音识别部10发出指示，以开始设备操作指令等的语音识别。另外，在从响应模式db16获取到的响应模式中设定有识别种类的情况下，对话控制部15向语音识别部10指示本地识别部10a与服务器识别部10b的切换。

在语音识别部10中开始进行使用了语音对话用辞典12b的识别处理之后，对话控制部15从语音识别部10接收识别结果，根据方案决定与识别结果相对应的响应，控制为从响应模式db16获取到的模式，并向语音输出控制部17或显示输出控制部18输出。

此外，对话控制部15根据方案进行语音对话，并在从语音识别部10接收到设备操作指令等的识别结果后，向对象设备6通知该设备操作指令等。例如，在设备操作指令等的识别结果为“放大地图”的情况下，对话控制部15向对象设备6发出指示，以放大地图画面。

语音输出控制部17基于从对话控制部15接收的响应和模式来生成合成语音，并将所生成的合成语音数据输出至扬声器4。关于语音合成，使用公知技术即可，因此省略说明。扬声器4从语音输出控制部17接收合成语音数据，并进行语音输出。

显示输出控制部18基于从对话控制部15接收的响应和形态来生成显示数据，并将所生成的显示数据输出至显示器5。显示器5从显示输出控制部18接收显示数据，并进行显示。显示器5是液晶显示器、有机el(electroluminescence：电致发光)显示器或平视显示器等。

另外，语音对话中来自用户的输入不限于利用了语音识别的语音输入，也可以是利用了触摸面板或硬键等输入装置的手动操作所进行的输入。例如，当显示器5中显示有周边设施检索的执行结果即设施一览的信息时，用户可以从设施一览中说出所希望的设施名，也可以操作输入装置来选择所希望的设施。对话控制部15接收设施名的识别结果或来自输入装置的输入。

接着，使用图5a与图5b所示的流程图与具体示例来说明实施方式1所涉及的语音对话装置1的动作例。图5a是示出在等待用于开始语音对话的指示时的语音对话装置1的动作的流程图。图5b是示出语音对话开始后的语音识别时的语音对话装置1的动作的流程图。

首先，对图5a的等待用于开始语音对话的指示时的语音对话装置1的动作进行说明。

在步骤st001中，辞典选择部11选择待机用辞典12a。

在步骤st002中，语音识别部10经由麦克风2和语音输入部3开始语音数据的获取。该状态下，若用户说出例如如图3所示的“简单语音操作开始”这样的关键字，则该说出的语音数据将被输入至语音识别部10。

在步骤st003中，语音识别部10检测从语音输入部3接收到的语音数据的说话区间，并将说话区间的语音数据输出至本地识别部10a。

在步骤st004中，本地识别部10a从说话区间的语音数据中提取出特征量。然后，本地识别部10a基于特征量，进行使用了待机用辞典12a的识别处理，并检测成为语音对话开始的指示的关键字。

在步骤st005中，本地识别部10a在检测到成为语音对话开始的指示的关键字的情况下(步骤st005“是”)，前进至步骤st006，而在没有检测到该关键字的情况下(步骤st005“否”)，返回步骤st002。

在步骤st006中，本地识别部10a将所检测到的关键字输出至响应模式选择部13。响应模式选择部13从响应模式对应表格14中选择与来自本地识别部10a的关键字相对应的响应模式id，并输出至对话控制部15。本示例中，如图3所示，由于关键字为“简单语音操作开始”，因此选择响应模式id“a”。

在步骤st007中，对话控制部15从响应模式db16中获取与来自响应模式选择部13的响应模式id相对应的语音种类等响应模式。然后，对话控制部15设定与从响应模式db16获取到的响应模式相对应的方案。本示例中，由于选择了响应模式id“a”，因此如图4所示，响应模式如下：较慢的速度、年轻层的女性说话者的语音、日语、本地语音识别、面向初学者的信息量、基于语音和显示的响应。

接着，对图5b的语音对话开始后的语音识别时的语音对话装置1的动作进行说明。

对话控制部15在图5a的步骤st007中设定了语音对话的方案之后，前进至图5b的步骤st008。

在步骤st008中，对话控制部15向辞典选择部11发出指示，以从待机用辞典12a切换成语音对话用辞典12b。辞典选择部11按照来自对话控制部15的指示，选择语音对话用辞典12b。

此外，在作为响应形态而设定了识别种类的情况下，对话控制部15向语音识别部10发出指示，以使得根据该设定切换成本地识别部10a或服务器识别部10b。本示例中，由于设定本地语音识别来作为响应模式id“a”的响应模式，因此，语音识别部10根据来自对话控制部15的指示，切换成本地识别部10a。

在步骤st009中，语音识别部10经由麦克风2和语音输入部3开始语音数据的获取。该状态下，若用户说出例如“周边设施检索”，则该说出的语音数据将被输入至语音识别部10。

在步骤st010中，语音识别部10检测从语音输入部3接收到的语音数据的说话区间，并将说话区间的语音数据输出至本地识别部10a。

在步骤st011中，本地识别部10a从说话区间的语音数据中提取出特征量。然后，本地识别部10a基于特征量，进行使用了语音对话用辞典12b的识别处理，获取设备操作指令等的识别结果，并输出至对话控制部15。

在步骤st012中，对话控制部15根据方案，进行与来自本地识别部10a的识别结果相对应的处理。本示例中，在对话控制部15接收到识别结果“周边设施检索”后，向语音输出控制部17发出指示，使得以较慢的速度和年轻层女性的语音对“开始周边设施检索。请在哔之后清楚地说出设施名。”这样的信息量较多的日语的响应进行语音输出。并且，对话控制部15向显示输出控制部18发出指示，以显示例如如图6所示那样的信息量较多的日语的响应。语音输出控制部17根据来自对话控制部15的指示，使扬声器4输出响应语音。显示输出控制部18根据来自对话控制部15的指示，使显示器5输出响应显示。

在步骤st013中，对话控制部15在根据方案完成了语音对话的情况下(步骤st013“是”)，返回步骤st001，而在未完成的情况下(步骤st013“否”)，返回步骤st009。另外，对话控制部15除了判定是否根据方案完成了语音对话以外，还可以在例如通过利用了语音识别的语音输入或利用了输入装置的手动操作所进行的输入等从用户接收到结束的指示的情况下，也判定为语音对话完成。

此处，在图6、图7和图8中，示出了与识别结果“周边设施检索”相对应的响应显示的示例。

图6是面向初学者的、信息量较多的响应显示例。显示器5中显示有“请在哔之后“清楚地”说出设施名。”这样的细致的句子和说话例。并且，也显示有用于结束“周边设施检索”的引导。

此外，作为面向初学者的、信息量较多的响应语音例，从扬声器4输出例如“开始周边设施检索。请在哔之后清楚地说出设施名。”这样的具有细致的内容的合成语音。

图7是面向中级者的、信息量较为普通的响应显示例。显示器5中显示有“请说出设施名。”这样的简单的句子和说话例。在面向中级者的情况下，省略用于结束“周边设施检索”的引导的显示。

此外，作为面向中级者的、信息量较为普通的响应语音例，从扬声器4输出例如“请说出设施名。”这样的具有简单的内容的合成语音。

图8是面向熟练者的、信息量较少的响应显示例。显示器5中，对“请说出设施名。”这样的简单的句子进行缩小显示，以使得原本所显示的地图画面不被遮挡。在面向熟练者的情况下，省略“周边设施检索”的说话例和结束引导的显示。

此外，作为面向熟练者的、信息量较少的响应语音例，例如从扬声器4不输出合成语音，而仅输出通知说话开始的声音。

如上所述，实施方式1所涉及的语音对话装置1构成为包括：语音识别部10，该语音识别部10识别说话语音；响应模式选择部13，该响应模式选择部13使用定义了指示语音对话开始的关键字与响应的模式之间的对应关系的响应模式对应表格14，来选择与语音识别部10的识别结果中所包含的关键字相对应的响应的模式；对话控制部15，该对话控制部15在语音识别部10的识别结果中包含了关键字的情况下开始语音对话，根据之后来自语音识别部10的识别结果决定响应，并将该响应的模式控制为响应模式选择部13所选择的模式；以及语音输出控制部17，该语音输出控制部17基于由对话控制部15进行控制的响应和模式来生成语音数据，并输出至扬声器4。根据该结构，能通过用户的说话来进行语音对话开始的指示，并且，能根据指示该语音对话开始的说话内容来变更响应模式。因此，能在语音对话中瞬间且简单地变更响应模式。特别是，当语音对话装置1搭载于车辆时，在驾驶座的用户和副驾驶座的用户等多人共同利用语音对话装置1、且每个用户对语音对话的熟悉度和偏好等不同的情况下，响应模式的切换有可能频繁地发生，因此尤为有效。

此外，根据实施方式1，响应模式选择部13构成为选择响应的语音的速度、性别、年龄、音量或音程，以作为响应模式。此外，响应模式选择部13可以构成为选择响应的语言或各语言内的方言来作为响应形态。另外，响应模式选择部13也可以构成为选择由扬声器4进行的语音响应或由显示器5进行的显示响应中的任一方或双方来作为响应模式。由此，能切换为与用户的偏好相匹配的响应形态。

此外，根据实施方式1，语音识别部10构成为包括：本地识别部10a，该本地识别部10a使用语音对话装置1内的本地语音识别辞典12来识别说话语音；以及服务器识别部10b，该服务器识别部10b利用外部的语音识别服务器7来识别说话语音并获取识别结果。对话控制部15构成为使用本地识别部10a的识别结果或服务器识别部10b的识别结果来决定响应。由此，用户能利用由语音识别服务器7提供的高性能的语音识别。

另外，根据实施方式1，响应模式选择部13构成为选择与用户对语音对话的熟练度相对应的响应的信息量，来作为响应模式。由此，能切换为与用户的熟练度相匹配的响应模式。

实施方式2.

上述实施方式1中，构成为通过用户的说话来进行语音对话开始的指示。与此相对，本实施方式2中，构成为由用户按下按钮来进行语音对话开始的指示。

图9是示出本发明实施方式2所涉及的语音对话装置1的结构例的框图。在应用了实施方式2所涉及的语音对话装置1的语音对话系统中，追加了指示语音对话开始的按钮21、摄像头22、以及图像信息输入部23。此外，在语音对话装置1中，追加了对操作指示语音对话开始的按钮21的用户进行识别的个人识别部31、对用户的识别所必需的数据进行管理的个人识别数据管理部32、以及定义了用户和响应的模式之间的对应关系的用户响应模式对应表格33。

另外，对于图9中与图1和图2相同或相当的部分标注相同的标号，并省略说明。

以下，以将语音对话系统搭载于车辆的情况为例，对实施方式2进行说明。

在实施方式2中，麦克风2为麦克风阵列。语音输入部3根据麦克风阵列的声音接收信号的相位差等，确定说话的音源方向，生成表示从驾驶座和副驾驶座的哪一侧说话的说话方向信息，并输出至个人识别部31。

指示语音对话开始的按钮21在被用户按下后，向对话控制部15和个人识别部31通知开始语音对话。该按钮21例如是触摸面板或硬键等输入装置。

摄像头22对车厢内进行拍摄，并将图像信息输出至图像信息输入部23。该摄像头22例如拍摄驾驶座和副驾驶座的各用户的上半身。

图像信息输入部23从摄像头22接收图像信息，并输出至个人识别部31。

图10是示出在实施方式2所涉及的语音对话装置1中登记用户id时的动作的流程图。

在步骤st101中，在个人识别部31通过语音输入或向未图示输入装置进行的输入而从用户接收到用户id登记的指示的情况下，经由摄像头22和图像信息输入部23接收图像信息，并从该图像信息中获取脸部图像。

在步骤st102中，个人识别部31将用户的脸部图像和任意的id对应起来，登记在个人识别数据管理部32中。例如，当用户坐在驾驶座和副驾驶座这两者中时，个人识别部31将坐在驾驶座中的用户的脸部图像登记为用户id“001”，并将坐在副驾驶座中的用户的脸部图像登记为用户id“002”。

图11是示出在实施方式2所涉及的语音对话装置1中将用户id与响应模式id对应起来进行登记时的动作的流程图。本实施方式2中，当作为语音对话开始的指示的关键字被说出时，不仅与上述实施方式1同样地控制为与该关键字相对应的响应模式，还进行如下处理：识别说出了关键字的用户，并将该用户和响应模式对应起来进行登记。

在语音对话装置1等待用于开始语音对话的指示时，在步骤st201中，个人识别部31从图像信息输入部23接收图像信息。

在步骤st202中，个人识别部31与步骤st201并行地从语音输入部3接收说话方向信息。

在步骤st203中，个人识别部31根据从图像信息输入部23接收到的图像信息检测坐在驾驶座和副驾驶座中的各用户的脸部图像，并与由个人识别数据管理部32所管理的脸部图像进行核对来实施个人识别，从而获取用户id。作为核对方法，例如使用傅里叶谱的kl(karhunen-loeve)展开法那样的一般方法即可，因此省略说明。

然后，个人识别部31基于从语音输入部3接收到的说话方向信息，判定说话的是坐在驾驶中的用户和坐在副驾座中的用户中的哪一个，并将说话的用户的用户id输出至响应模式选择部13。个人识别部31向响应模式选择部13输出的用户id就是示出当前正在说话中的用户的用户id。

步骤st204～st208的处理与上述实施方式1中图5a所示的步骤st001～st005的处理相同，因此省略说明。另外，与步骤st201～st203的处理并行地进行步骤st204～st208的处理。

在响应模式选择部13从语音识别部10接收到成为语音对话开始的指示的关键字后，在步骤st209中，从响应模式对应表格14中选择与关键字相对应的响应模式id。

在步骤st210中，响应模式选择部13在从语音识别部10获取到关键字的时刻，将从个人识别部31接收到的用户id和从响应模式对应表格14中选择出的响应模式id对应起来，登记在用户响应模式对应表格33中。由此，说出了关键字的用户的用户id与由该用户说出关键字来进行指示的应用模式id相对应。

在步骤st211中，响应模式选择部13将步骤st209中所选择出的响应模式id输出至对话控制部15。对话控制部15从响应模式db16中获取与来自响应模式选择部13的响应模式id相对应的语音种类等响应模式。然后，在对话控制部15设定了与从响应模式db16获取到的响应模式相对应的方案之后，前进至上述实施方式1的图5b所示的步骤st008～st013。

另外，用户响应模式对应表格33中，可以仅将最新的1个响应模式id与1个用户id对应起来进行登记，也可以在例如由某个用户多次进行了利用关键字的操作的情况下，将多个响应模式id与表示该用户的1个用户id对应起来进行登记。若在登记多个响应模式id时使得每个响应模式id的次数或登记顺序等可知，则在响应模式选择部13从用户响应模式对应表格33中获取与某个用户id相对应的响应模式id时，能获取与该用户id相对应起来的最新的响应模式id，或者能获得与该用户id对应起来最多的响应模式id。

图12是示出在实施方式2所涉及的语音对话装置1中按下指示语音对话开始的按钮21时的动作的流程图。

在语音对话装置1等待用于开始语音对话的指示时，在步骤st301中，个人识别部31开始从图像信息输入部23接收图像信息。

在步骤st302中，若指示语音对话开始的按钮21被按下，则由按钮21向对话控制部15和个人识别部31输出语音对话开始的指示。

在步骤st303中，若个人识别部31从按钮21接收到语音对话开始的指示，则例如使用svm(supportvectormachine：支持向量机)等模式识别方法，根据图像信息对与预先学习过的按下按钮21时的运动模型同样的用户动作进行检测。预先学习过的运动模型是坐在驾驶座中的用户按下按钮21时的动作与坐在副驾驶座中的用户按下按钮21时的动作的模型。个人识别部31在检测到与运动模型同样的动作时，识别是驾驶座或副驾驶座中的哪一侧的用户按下了按钮21，并生成按钮按下方向信息。

在步骤st304中，个人识别部31对坐在驾驶座和副驾驶座中的各用户的脸部图像与由个人识别数据管理部32所管理的脸部图像进行核对来实施个人识别，从而获取各用户的用户id。然后，个人识别部31使用坐在驾驶座和副驾驶座中的各用户的识别结果以及按钮按下方向信息，来识别按下了按钮21的用户，并将与该用户相对应起来的用户id输出至响应模式选择部13。例如，当坐在驾驶座中的用户按下了指示语音对话开始的按钮21时，从个人识别部31向响应模式选择部13输出与该用户相对应的用户id“001”。

在步骤st305中，响应模式选择部13从用户响应模式对应表格33中选择与来自个人识别部31的用户id相对应的响应模式id，并输出至对话控制部15。该示例中，在用户响应模式对应表格33中，与用户id“001”相对应地存储有响应模式id“a”，因此，响应模式id“a”从响应模式选择部13被输出至对话控制部15。

步骤st306～st311的处理与上述实施方式1中图5b所示的步骤st008～st013的处理相同，因此省略说明。

在进行了用户id和响应模式id之间的对应后，不仅在说出用于开始语音对话的关键字的情况下，在按下指示语音对话开始的按钮21的情况下，也能瞬间切换为与用户的偏好或熟练度等相匹配的响应模式，从而能进一步减轻用户的负担。

另外，通过并行地进行图11的流程图所示的动作与图12的流程图所示的动作，语音对话装置1也可以在说出关键字和按下按钮21的任意一方的情况下开始语音对话。

如上所述，实施方式2所涉及的语音对话装置1构成为具备个人识别部31，该个人识别部31对操作指示开始语音对话的按钮21的用户进行识别。然后，响应模式选择部13使用定义有用户和响应的模式之间的对应关系的用户响应模式对应表格33，来选择与个人识别部31所识别出的用户相对应的响应的模式。对话控制部15在按钮21被操作的情况下开始语音对话，根据之后来自语音识别部10的识别结果决定响应，并将该响应的模式控制为响应模式选择部13所选择的模式。根据该结构，能通过操作按钮来进行语音对话开始的指示，并且，能根据操作了该按钮的用户来变更响应模式。因此，能在语音对话中瞬间且简单地变更响应的模式。此外，以往，需要在画面中显示预先定义了响应模式的多个预设按钮，然而根据本实施方式2，按钮只需1个即可，因此对于车载设备那样的存在显示限制的装置尤为有效。

此外，根据实施方式2，个人识别部31构成为对说出指示开始语音对话的关键字的用户进行识别，响应模式选择部13构成为将个人识别部31所识别出的用户以及与关键字相对应的响应模式对应起来登记在用户响应模式对应表格33中。由此，当用户说出关键字并开始语音对话时，能自动地进行用户id和响应模式id之间的对应，因此，在进行了对应后，通过按下指示语音对话开始的按钮21，也能瞬间切换为与用户的偏好或熟练度等相匹配的响应模式，从而能进一步减轻用户的负担。

最后，参照图13，对本发明各实施方式所涉及的语音对话系统的硬件结构例进行说明。

在图13中，语音对话系统包括处理器101、存储器102、通信装置103、输入装置104、输出装置105以及对象设备6。

在服务器识别部10b中，与语音识别服务器7进行通信的功能由通信装置103来实现。

麦克风2、语音输入部3、指示语音对话开始的按钮21、摄像头22以及图像信息输入部23为输入装置104。扬声器4及显示器5为输出装置105。

此外，语音对话装置1中的语音识别部10、辞典选择部11、响应模式选择部13、对话控制部15、语音输出控制部17、显示输出控制部18以及个人识别部31为执行存储器102中所储存的程序的处理器101。处理器101也被称为cpu(centralprocessingunit：中央处理单元)、处理装置、运算装置、微处理器、微机或dsp(digitalsignalprocessor：数字信号处理器)等。

语音识别部10、辞典选择部11、响应模式选择部13、对话控制部15、语音输出控制部17、显示输出控制部18以及个人识别部31的各功能通过软件、固件、或软件和固件的组合来实现。软件或固件以程序的形式来表述，并储存于存储器102。处理器101读取存储于存储器102的程序并执行，从而实现各部分的功能。即，语音对话装置1具备用于存储程序的存储器102，该程序在由处理器101来执行时最终执行图5a、图5b、图10、图11及图12所示的各步骤。此外，该程序也可以说是使计算机执行语音对话装置1各部分的步骤或方法的程序。

此外，语音对话装置1中的本地语音识别辞典12、响应模式对应表格14、响应模式db16、个人识别数据管理部32及用户响应模式对应表格33为存储器102。存储器102例如可以是ram(randomaccessmemory：随机存取存储器)、rom(readonlymemory：只读存储器)、闪存、eprom(erasableprogrammablerom：可擦写可编程只读存储器)、eeprom(electricallyeprom：电可擦写可编程只读存储器)等非易失性或易失性的半导体存储器，也可以是硬盘、软盘等磁盘，也可以是小型磁盘、cd(compactdisc：高密度磁盘)、dvd(digitalversatiledisc：数字多功能光盘)等光盘。

此外，本发明可以在该发明的范围内对各实施方式进行自由组合，或对各实施方式的任意构成要素进行变形，或省略各实施方式的任意的构成要素。

此外，实施方式1、2中，对将语音对话装置1搭载于车辆的用途进行了说明，然而也可以使用在车辆以外的用途中。

工业上的实用性

本发明所涉及的语音对话装置能瞬间且简单地变更语音对话中的响应模式，因此适用于由对语音对话的熟练度不同的多个用户共同使用的语音对话装置等，如车载导航装置等车载设备。

标号说明

1语音对话装置、2麦克风、3语音输入部、4扬声器、5显示器、6对象设备、7语音识别服务器、10语音识别部、10a本地识别部、10b服务器识别部、11辞典选择部、12本地语音识别辞典、12a待机用辞典、12b语音对话用辞典、13响应模式选择部、14响应模式对应表格、15对话控制部、16响应模式db、17语音输出控制部、18显示输出控制部、21按钮、22摄像头、23图像信息输入部、31个人识别部、32个人识别管理表格、33用户响应模式对应表格、101处理器、102存储器、103通信装置、104输入装置、105输出装置。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马场直哉;古本友纪;大泽政信;武井匠
技术所有人：三菱电机株式会社
我是此专利的发明人

上一篇：一种新型耐火阻燃电梯轿厢的制作方法
上一篇：一种安全防火电梯的制作方法