对话系统、具有对话系统的车辆以及控制对话系统的方法与流程

文档序号:30762949发布日期:2022-07-15 21:54阅读:153来源:国知局
对话系统、具有对话系统的车辆以及控制对话系统的方法与流程

1.本公开涉及一种对话系统、具有对话系统的车辆以及控制对话系统的方法,该对话系统通过与用户的对话来识别用户意图并且提供用户所需的信息或服务。


背景技术:

2.对于车辆的音频-视频-导航(avn)装置、车辆中的空调或大多数移动装置,当向用户提供视觉信息或接收用户输入时,装置中提供的小屏幕及小按钮可能会给用户带来不便。
3.具体来说,在车辆驾驶期间,当用户将他或她的手从方向盘移开时或者当用户抬头检查视觉信息或操作车辆中的装置时,这可能会对安全驾驶构成严重危险。
4.因此,当将对话系统应用于车辆时,可以更方便及更安全的方式提供服务,其中对话系统能够通过与用户的对话来识别用户意图并且提供用户所期望的信息或服务。


技术实现要素:

5.本公开的一个方面提供一种对话系统、具有对话系统的车辆以及控制对话系统的方法,该对话系统从现有对话信息及用户选择的目标信息针对用户说出的模糊语言识别用户意图。
6.本公开的另一方面提供一种对话系统、具有对话系统的车辆以及控制对话系统的方法,该对话系统从现有对话信息及用户选择的目标信息构建经验数据库并且基于所构建的经验数据库的信息识别用户意图。
7.在以下说明中部分地阐述本公开的附加方面,且本公开的附加方面应部分地从本说明中显而易见或者可通过实践本公开来了解本公开的附加方面。
8.根据本公开的一个方面,一种对话系统包括存储装置,存储装置被配置成存储关于模糊语言的目标及目标值的目标信息。对话系统还包括第一输入装置,第一输入装置被配置成接收语音信号。对话系统还包括对话管理器,对话管理器被配置成将在第一输入装置中接收的语音信号转换成文本。对话管理器还被配置成基于所接收的语音信号确定用户意图。对话管理器还被配置成基于确定所确定的用户意图对应于请求意图且经转换的文本对应于模糊语言,从存储在存储装置中的目标信息获取与模糊语言对应的目标及目标值。对话系统还包括结果处理器,结果处理器被配置成基于从对话管理器获取的目标及目标值而生成响应并且控制所生成的响应的输出。
9.响应于在所接收的语音信号之中存在与对模糊语言的查询对应的语音信号,对话管理器可被配置成基于与查询对应的语音信号来更新存储在存储装置中的与模糊语言对应的目标信息。
10.对话系统还可包括第二输入装置,第二输入装置被配置成接收除语音之外的用户输入。响应于在通过第二输入装置接收的用户输入之中存在与对模糊语言的查询对应的用户输入,对话管理器可被配置成基于与查询对应的用户输入来更新存储在存储装置中的与
模糊语言对应的目标信息。
11.对话系统还可包括第二输入装置,第二输入装置被配置成接收除语音之外的用户输入。对话管理器可被配置成基于通过第一输入装置以及第二输入装置接收的每个模糊语言的目标值的选择信息来获取每个模糊语言的目标值的历史概率。结果处理器可被配置成基于所获取的每个模糊语言的目标值的历史概率而生成多个响应并且输出所生成的多个响应。
12.对话管理器可被配置成:基于与用户的对话信息确定是否存在模糊语言;响应于基于对话信息确定存在模糊语言,基于对话信息生成模糊语言的目标信息作为经验信息;以及将所生成的经验信息存储在存储装置中。
13.模糊语言可包括修改目标的语言。
14.根据本公开的另一方面,一种车辆包括第一输入装置,第一输入装置被配置成接收语音信号。车辆还包括存储装置,存储装置被配置成存储关于模糊语言的目标及目标值的目标信息。车辆还包括对话系统,对话系统被配置成将在第一输入装置中接收的语音信号转换成文本。对话系统还被配置成基于所接收的语音信号确定用户意图。对话系统还被配置成基于确定所确定的用户意图对应于请求意图且经转换的文本对应于模糊语言,从存储在存储装置中的目标信息获取与模糊语言对应的目标及目标值。对话系统还被配置成基于所获取的目标及目标值而生成响应。对话系统还被配置成控制所生成的响应的输出。
15.车辆还可包括:显示器,显示器被配置成将所生成的响应作为图像输出;以及扬声器,扬声器被配置成将所生成的响应作为音频输出。
16.响应于在所接收的语音信号之中存在与对模糊语言的查询对应的语音信号,对话系统被配置成基于与查询对应的语音信号来更新存储在存储装置中的与模糊语言对应的目标信息。
17.车辆还可包括第二输入装置,第二输入装置被配置成接收除语音之外的用户输入。响应于在通过第二输入装置接收的用户输入之中存在与对模糊语言的查询对应的用户输入,对话系统可被配置成基于与查询对应的用户输入来更新存储在存储装置中的与模糊语言对应的目标信息。
18.车辆还可包括第二输入装置,第二输入装置被配置成接收除语音之外的用户输入。对话系统可被配置成基于通过第一输入装置以及第二输入装置接收的每个模糊语言的目标值的选择信息来获取每个模糊语言的目标值的历史概率。对话系统可被配置成基于所获取的每个模糊语言的目标值的历史概率而生成多个响应。对话系统还可被配置成输出所生成的多个响应。
19.对话系统可被配置成基于与用户的对话信息确定是否存在模糊语言。对话系统可被配置成响应于基于对话信息确定存在模糊语言,基于对话信息生成模糊语言的目标信息作为经验信息。对话系统可被配置成将所生成的经验信息存储在存储装置中。
20.车辆还可包括控制器,控制器被配置成响应于来自对话系统的响应输出而控制空调、车窗、车门、座椅、音频/视频/导航(avn)装置、加热器、雨刷、侧镜、内部灯或外部灯中的至少一个。
21.响应于用户的请求意图是目的地搜索请求意图,对话系统可被配置成基于在重启之前的对话信息及在重启之后的对话信息而生成模糊语言的目标信息作为经验信息,并且
将所生成的经验信息存储在存储装置中。
22.对话系统可被配置成基于至少一个装置的目的地历史信息、语音识别使用信息及控制信息而生成经验信息。
23.对话系统可被配置成:根据驾驶时的时间推移、基于对话信息获取至少一个装置的控制信息;以及基于所获取的至少一个装置的控制信息而生成经验信息。
24.根据本公开的另一方面,一种控制对话系统的方法包括接收语音信号。控制对话系统的方法还包括将所接收的语音信号转换成文本。控制对话系统的方法还包括基于经转换的文本识别用户话语的意图。控制对话系统的方法还包括响应于所识别的用户话语的意图是请求意图且经转换的文本是针对模糊语言的文本,基于存储在经验数据库中的经验信息获取与模糊语言对应的目标信息。控制对话系统的方法还包括确定与所获取的目标信息对应的动作。控制对话系统的方法还包括生成与所确定的动作对应的响应。控制对话系统的方法还包括输出所生成的响应。
25.方法还可包括:基于所输出的语音信号以及所接收的语音信号生成经验信息;以及将所生成的经验信息存储在经验数据库中。
26.方法还可包括基于通过第二输入装置接收除语音之外的用户输入,确定在所接收的用户输入之中是否存在与对模糊语言的查询对应的用户输入。方法还可包括响应于确定存在与对模糊语言的查询对应的用户输入,基于与查询对应的用户输入来更新存储在经验数据库中的与模糊语言对应的目标信息。
27.输出所生成的响应可包括:基于通过第一输入装置及第二输入装置接收的每个模糊语言的目标值的选择信息来获取每个模糊语言的目标值的历史概率;基于所获取的每个模糊语言的目标值的历史概率而生成多个响应;以及输出所生成的多个响应。
附图说明
28.本公开的这些和/或其他方面应该从以下结合附图的实施例的描述中变得显而易见且更容易理解:
29.图1是示出根据实施例的设置有对话系统的车辆的内部的视图。
30.图2是根据实施例的设置有对话系统的车辆的控制配置图。
31.图3是根据实施例的对话系统的详细配置图。
32.图4是根据实施例的对话系统的输入处理器的详细配置图。
33.图5是根据实施例的对话系统的对话管理器的详细配置图。
34.图6是示出根据实施例的对话系统的模糊解算器的模糊分析机制的视图。
35.图7a及图7b是根据实施例的在对话系统中获取与用户意图对应的目标特定模糊语言的使用历史及历史概率的视图。
36.图8是根据实施例的从对话系统与用户之间的对话信息获取经验信息的视图。
37.图9a是根据实施例的对话系统与用户之间的针对搜索目的地的对话的视图。
38.图9b是从图9a的对话信息中更新经验信息的视图。
39.图10a是根据实施例的对话系统与用户之间的针对控制空调的对话的视图。
40.图10b是从图10a的对话信息中更新经验信息的视图。
41.图11是根据实施例的对话系统的经验数据库的视图。
42.图12是根据实施例的对话系统的结果处理器的详细配置图。
43.图13a及图13b是示出根据实施例的对话系统的对话响应生成器中的响应生成的视图。
44.图14是根据实施例的对话系统的控制流程图。
具体实施方式
45.在说明书通篇中,相同的附图标记指代相同的元件。并未描述本公开的实施例的所有元件,且省略对所属领域公知的内容或实施例中彼此重叠的内容的说明。说明书通篇中使用的例如“~部分”、“~模块”、“~构件”、“~区块”等用语可在软件和/或硬件中实施,且多个“~部分”、“~模块”、“~构件”或“~区块”可在单个元件中实施,或者单个“~部分”、“~模块”、“~构件”或“~区块”可包括多个元件。
46.还应理解,用语“连接”及其派生词是指直接连接及间接连接二者,且间接连接包括通过无线通信网络的连接。
47.除非另有说明,否则用语“包括(include)(或包括(including))”及“包含(comprise)(或包含(comprising))”是包含性的或开放式的,且不排除附加的或未被引用的元件或方法步骤。
48.应理解,尽管用语第一、第二、第三等在本文中可用于描述各种元件、组件、区、层和/或区段,然而这些元件、组件、区、层和/或区段不应受这些用语的限制。这些用语仅用于对一个元件、组件、区、层或区段与另一区、层或区段进行区分。
49.应理解,除非上下文另有明确规定,否则单数形式“一(a)”、“一(an)”及“该(the)”包括复数引用。
50.用于方法步骤的附图标记仅是为了便于阐释,而不是用于限制步骤的次序。因此,除非上下文另有明确规定,否则书面次序可以其他方式实施。当本公开的组件、装置、元件等被描述为具有目的或执行操作、功能等时,组件、装置或元件在本文中应被认为是“被配置成”满足目的或执行操作或功能。
51.在下文中,参照附图描述本公开的操作原理及实施例。
52.图1是示出根据实施例的设置有对话系统的车辆的内部的视图。
53.参照图1,车辆1可包括具有外部部分及内部部分的车身以及底盘,底盘是车辆1的除车身之外的部分,在底盘上安装有驾驶所需的机械装置。
54.车身的外部部分可包括前、后、左及右车门101、安装在前、后、左及右车门101上的车窗玻璃102(或车窗)、以及为车辆1的驾驶员提供车辆1的后方视野的侧镜103。
55.车身的内部部分可包括供乘客坐在上面的座椅104、驾驶台(dashboard)105及仪表盘(instrument panel)106(即,组合仪表),仪表盘106放置在驾驶台105上并且配备有转速表、速度计、冷却剂温度计、燃油表、转向指示器、高光指示器、警示灯、安全带警示灯、里程表、自动换档选择器灯、车门打开警示灯、发动机机油警示灯及燃油不足警示灯。车身的内部部分还可包括具有用于音频系统的节气门及加热器/空调的中心仪表板(center fascia)107。
56.中心仪表板107可配备有通风孔、照明装置、音频/视频/导航(avn)装置108等。avn 108可以是车辆终端。在下文中,avn 108被描述为车辆终端。
57.车辆终端108可基于由多个卫星提供的位置信息来计算车辆1的当前位置,并且通过将位置信息与地图进行匹配来显示当前位置。
58.另外,车辆终端108可从用户接收目的地,基于路线搜索算法执行从当前位置到目的地的路线搜索,通过匹配地图来显示搜索到的路线,并且引导用户沿着路线到达目的地。
59.车辆终端108可执行语音识别功能。车辆终端108可通过语音识别接收操作命令或者通过语音识别接收目的地地址,并且通过语音识别选择先前存储的多个地址中的任意一个。
60.车辆1的底盘还包括发电装置、电力传输装置、行进装置、转向装置、制动装置、悬架装置、传输装置、燃油装置、前后车轮等。
61.另外,为了乘员的安全,在车辆1中提供各种安全装置。车辆稳定装置可包括各种类型的安全装置,例如车辆碰撞时的安全气囊控制装置以及在车辆1的加速或转弯期间控制车辆姿态的电子稳定控制装置(esc)。
62.车辆1还可包括感测装置,例如用于检测车辆1后方或侧面的障碍物或另一车辆的接近传感器、用于检测降雨及降雨量的雨水传感器等。
63.另外,车辆1可选择性地包括电子装置(即,负载),例如免提装置、全球定位系统(gps)、音频装置、蓝牙装置(即,通信装置)、后相机、充电装置、黑匣子、座椅的发热丝、高通装置等。电子装置可通过语音识别接收操作命令。
64.图2是根据实施例的设置有对话系统的车辆的控制配置图。图3是根据实施例的对话系统的详细配置图。图4是根据实施例的对话系统的输入处理器的详细配置图。图5是根据实施例的对话系统的对话管理器的详细配置图。图6是根据实施例的对话系统的结果处理器的详细配置图。
65.参照图2,车辆1可包括第一输入装置110、第二输入装置120、对话系统130、输出装置140、控制器150、检测器160、通信装置170以及多个电子装置101、102、104、108及109。
66.第一输入装置110可接收作为语音(即,说话命令)的用户控制命令。第一输入装置110可包括麦克风,麦克风被配置成接收声音并且然后将声音转换成电信号。
67.为实现有效的语音输入,第一输入装置110可安装到头部衬垫,但第一输入装置110可安装到驾驶台105或方向盘上。另外,第一输入装置110可安装到任何位置,只要位置适合于接收用户语音即可。
68.第二输入装置120可通过用户操纵接收用户命令。第二输入装置120可包括按钮、按键、开关、触摸板、踏板或杠杆中的至少一个。
69.第二输入装置120还可包括拍摄用户的相机。用户在输入命令时使用的手势、面部表情或凝视方向可通过由相机拍摄的图像来识别。可选地,也可通过相机拍摄的图像来掌握用户的状态(例如困倦)。
70.第二输入装置120可被实施为触摸面板,且输出装置140的显示器141可被实施为例如lcd的平板显示面板。换句话说,第二输入装置120的显示器141及输出装置140可被实施为触摸屏,其中触摸面板与平板显示面板一体地形成。
71.第二输入装置120还可包括微动拨盘,用于输入显示在显示器141上的光标的移动命令及选择命令。
72.第二输入装置120可将用户操作的按钮或微动拨盘的信号发送到控制器150并且
还可将触摸面板触摸的位置的信号发送到控制器150。
73.对话系统130可使用经由第一输入装置110输入的用户语音、经由第二输入装置120输入的用户命令以及经由控制器150输入的各种信息来识别用户意图及语境。对话系统130可输出响应以执行与用户意图对应的动作。
74.对话系统130可将通过第一输入装置110输入的用户语音转换成文本,并且确定经转换的文本是否是针对模糊语言的文本。
75.模糊语言可以是不具有用于确定用户意图的参考的语言,或者是缺乏用于设定参考的基础的语言。
76.模糊语言可包括在语义上限制目标对象的修饰语。
77.例如,模糊语言可包括:修饰距离的周围、环绕、近、远等;修饰时间的短、长等;以及修饰成本的便宜、昂贵、高价、低价等。模糊语言可包括修饰数量的多、少、适当等,且可包括修饰大小或水平的大、小、高、低等。
78.关于味道水平、距离、时间、成本、温度、风量、风向、音量等,当目标在说出的语言中的目标值(例如控制值)或设定值没有用数字表示时,对话系统130可确定说出的语言(即,用户语音)是模糊语言。
79.换句话说,模糊语言可以是其中用于确定目的地的目标的目标值或用于确定控制对象的控制值的目标值是模糊的语言。
80.当说出的语言包括在一种类型的对象的更高级用语中时,对话系统130可确定说出的语言(即,用户语音)是模糊语言。
81.例如,模糊语言可包括肉、韩国食物、西餐、中餐、日本食物、地区名称及国家名称。
82.当确定经转换的文本是针对模糊语言的文本时,对话系统130可基于所存储的对话信息及用户的选择信息来针对模糊语言识别用户意图。
83.当确定经转换的文本是针对模糊语言的文本时,对话系统130可基于存储在经验数据库中的信息来针对模糊语言识别用户意图。
84.对话系统130可基于用户意图及语境输出用于对用户说出的语言执行动作的响应。
85.通过控制器150输入的车辆信息可包括通过设置在车辆1中的检测器160的各种传感器获取的车辆状态信息或周围环境信息并且还可包括基本上存储在车辆1中的信息(例如车辆的类型)。
86.对话系统130可识别用户的真实意图并且通过基于预先获取的信息考虑不是由用户说出的内容来主动提供与意图对应的信息。因此,可减少用于提供用户所期望的服务的对话步骤及时间。
87.如图3中所示,对话系统100可包括输入处理器131、对话管理器132、结果处理器133及存储装置134。
88.输入处理器131可对包括用户语音及除语音之外的输入的用户输入、与车辆1相关的信息、或者包括与用户相关的信息的输入进行处理。
89.输入处理器131可接收两种输入,例如用户语音及除语音之外的输入。除语音之外的输入可包括识别用户的手势、除通过输入装置110及120的操作输入的用户语音之外的输入、指示车辆状态的车辆状态信息、与车辆1的驾驶信息相关的驾驶环境信息以及指示用户
状态的用户信息。另外,除上述信息之外,与用户及车辆1相关的信息可被输入到输入处理器131,只要信息用于识别用户意图或者向用户或车辆1提供服务即可。用户可包括车辆乘员(例如驾驶员及乘客)。
90.输入处理器131可通过识别用户语音将用户语音转换成文本类型中的话语,并且通过将自然语言理解算法应用于用户话语来识别用户意图。
91.输入处理器131可收集除用户语音之外的、与车辆状态或车辆驾驶环境相关的信息,并且然后使用所收集的信息理解语境。
92.输入处理器131可将通过自然语言理解技术获取的用户意图及与语境相关的信息发送到对话管理器132。
93.对话管理器132可使用输入处理器131的处理结果来掌握用户意图或车辆的状态,并且确定与用户意图或车辆的状态对应的动作。
94.对话管理器132可确定由输入处理器131转换的文本是否是用户请求意图的模糊语言的文本。当确定经转换的文本是用户请求意图的模糊语言的文本时,对话管理器132可基于所存储的对话信息及用户的选择信息来针对模糊语言识别用户意图。
95.对话管理器132可控制模糊语言的查询信息的输出。当确定由输入处理器131处理的文本是与查询信息对应的文本时,对话管理器132可将所确定的文本作为与模糊语言对应的目标值存储在存储装置134中。
96.对话管理器132可基于通过第一输入装置及第二输入装置接收的每个模糊语言的目标值的选择信息来获取每个模糊语言的目标值的历史概率。
97.由输入处理器131处理的文本是通过第一输入装置接收的语音信号的文本并且可以是用户选择的目标信息。
98.换句话说,对话管理器132可更新存储在经验数据库中的经验信息。
99.所存储的对话信息及用户的选择信息可以是存储在经验数据库中的信息。
100.对话管理器132可基于用户意图、从输入处理器131发送的与语境相关的信息以及是否确定为模糊语言来确定与用户意图或当前语境对应的动作。对话管理器132可管理执行对应的动作所需的参数。
101.根据形式,动作可表示用于提供某种服务的各种种类的动作,并且动作的种类可预先确定。
102.对话管理器132可向结果处理器133发送与所确定的动作相关的信息。
103.结果处理器133根据对话管理器132的输出结果输出用于继续进行对话或提供特定服务的系统话语。
104.结果处理器133生成并输出执行所发送的动作所需的对话响应及命令。对话响应可以文本、图像或音频类型输出。当输出命令时,可执行与输出命令对应的服务(例如车辆控制及外部内容提供)。
105.存储装置134可存储对话系统130执行各种操作所必需的各种信息。
106.存储装置134可存储用于对话处理及服务提供的各种信息。例如,存储装置134可预先存储与用于自然语言理解的域、动作、语音动作及实体名称相关的信息以及用于从输入信息理解语境的语境理解表。另外,存储装置140可预先存储由设置在车辆中的传感器检测到的数据、与用户相关的信息以及动作所需的信息。
107.存储装置134可包括stt(语音到文本)数据库(db)及域/动作推断规则db。域/动作推断规则db可包括预先定义的动作,例如道路引导、车辆状况检查、加油站推荐等。因此,可从预先定义的动作提取与用户话语对应的动作(即,用户想要的动作)。
108.另外,存储装置134可包括关联的动作db,动作db存储与车辆1中发生的事件相关联的动作。
109.存储装置134可存储以往的对话信息并且存储与用户意图及模糊语言对应的目标信息,但可存储用户在目标信息之中选择的目标信息。
110.存储装置134可存储每个用户的以往的对话信息并且存储从与用户意图及模糊语言对应的目标信息之中为每个用户选择的目标信息。
111.存储装置134可存储以往的对话信息、用户意图信息、目标信息及所选择的目标信息作为经验信息。存储装置134可包括用于存储经验信息的经验数据库g4(参照图5)。
112.存储装置134可存储用户接收的目的地的目的地历史信息、用于在驾驶或停车时车辆控制的车辆控制历史信息、以及识别用户语音的语音识别使用信息。存储装置134可包括目的地历史数据库g1(见图5)、车辆控制历史数据库g2(见图5)及语音识别使用数据库g3(见图5)。
113.用于在驾驶或停车时的车辆控制的车辆控制历史信息可以是在语音识别期间执行的车辆控制信息。
114.目的地历史信息可包括通过第二输入装置输入的目的地信息及通过第一输入装置由语音输入的目的地信息。
115.如上所述,对话系统130可提供适合于车辆环境的对话处理技术。对话系统130的所有组件或一些组件可包含在车辆1中。
116.当应用适合车辆环境的对话处理技术(例如对话系统130)时,对话处理技术可容易地识别及响应于驾驶员直接驾驶车辆的关键环境。可通过对影响驾驶的参数(例如汽油短缺及疲劳驾驶)应用权重来提供服务,或者可基于车辆1在大多数情况下移动到目的地的状况来容易地获取服务所需的信息(例如驾驶时间及目的地信息)。
117.以下参照图4、图5及图6描述对话系统130的详细配置。
118.输出装置140是被配置成以视觉、听觉或触觉方式向说话者提供输出的装置。输出装置140可包括设置在车辆1中的显示器141及扬声器142。
119.显示器141及扬声器142可以视觉或听觉方式输出对用户话语的响应、关于用户的问题或用户请求的信息。另外,可通过在方向盘中安装振动器来输出振动。
120.显示器141可由各种显示装置中的任意一种来实施,例如液晶显示器(lcd)、发光二极管(led)、等离子体显示面板(pdp)、有机发光二极管(oled)及阴极射线管(crt)。
121.显示器141可根据控制器150的指令显示与驾驶信息、道路环境信息及路线引导信息相关的地图。换句话说,显示器141可显示与车辆1的当前位置匹配的地图、操作状态及其他附加信息。
122.显示器141可显示与电话呼叫相关的信息或者与音乐播放相关的信息并且还可显示外部广播信号作为图像。
123.显示器141还可以对话模式显示对话屏幕。
124.扬声器142可允许与车辆1内的用户进行对话,或者输出提供用户期望的服务所需
的声音。
125.扬声器142可输出用于导航路线引导的语音、包含在音频及视频内容中的声音或语音、用于提供用户期望的信息或服务的语音以及作为对用户话语的响应而生成的系统话语。
126.此外,根据从对话系统130输出的响应,控制器150可控制车辆1执行与用户意图或当前语境对应的动作。
127.除了由设置在车辆1中的检测器160获取的信息之外,车辆1还可经由通信装置170收集从外部内容服务器或外部装置获取的信息,例如驾驶环境信息及用户信息(例如交通状况、天气、温度、乘客信息及驾驶员个人信息)。车辆1可将信息发送到对话系统130。
128.由设置在车辆1中的检测器160获取的信息(例如剩余燃油量、降雨量、降雨速度、周围障碍物信息、速度、发动机温度、轮胎压力、当前位置等)可经由控制器150输入到对话系统130。
129.根据来自对话系统130的响应输出,控制器150可控制设置在车辆1中的空调109、车窗102、车门101、座椅104或avn 108。另外,控制器150可根据来自对话系统130的响应输出来控制音频系统/装置、加热器、雨刷、侧镜或内部灯或外部灯中的至少一个。
130.控制器150可包括存储器及处理器,在存储器中存储用于执行上述操作及下述操作的程序,处理器用于执行所存储的程序。可提供至少一个存储器及一个处理器,且当提供多个存储器及处理器时,多个存储器与处理器可集成在一个芯片上或者在实体上隔开。
131.检测器160可包括多个传感器并且将由多个传感器检测到的车辆状态信息或驾驶环境信息(例如剩余燃油量、降雨量、降雨速度、周围障碍物信息、轮胎压力、当前位置、发动机温度、车辆速度等)发送到控制器150。
132.通信装置170可包括被配置成与车辆1的内部装置及外部装置进行通信的至少一个通信模块。例如,通信装置170可包括短程通信模块、有线通信模块或无线通信模块中的至少一个。外部装置可包括服务器、另一车辆、用户终端、基础设施等。
133.短程通信模块可包括各种短程通信模块,被配置成使用在短程中的无线通信模块(例如蓝牙模块、红外通信模块、射频识别(rfid)通信模块、无线局域网(wlan)通信模块、nfc通信模块及zigbee通信模块)来发送及接收信号。
134.有线通信模块可包括各种有线通信模块(例如局域网(lan)模块、广域网(wan)模块或增值网络(van)模块)以及各种电缆通信模块(例如通用串行总线(usb)、高清多媒体接口(hdmi)、数字可视接口(dvi)、推荐标准232(rs-232)、电力线通信或普通老式电话服务(pots))。
135.无线通信模块可包括支持多种无线通信方法的无线通信模块,例如wifi模块、无线宽带模块、全球移动系统(gsm)通信、码分多址(cdma)、宽带码分多址(wcdma)、时分多址(tdma)、长期演进(lte)、4g及5g。
136.另外,通信装置还可包括内部通信模块,用于车辆1中的电子装置之间的通信。车辆1的通信协议可使用控制器局域网(can)、本地互连网络(lin)、flexray及以太网。
137.如图4中所示,输入处理器131可包括语音输入处理器131a及语境信息处理器131b。
138.语音输入处理器131a可包括语音识别器a11、自然语言理解部分a12及对话输入管
理器a13。
139.语音识别器a11可通过识别输入用户语音来输出文本类型中的话语。语音识别器a11可包括语音识别引擎且语音识别引擎可通过将语音识别算法应用于输入语音来识别用户说出的语音并且生成识别结果。
140.由于输入语音被转换成对语音识别更有用的形式,因此语音识别器a11可通过从语音信号检测起点及终点来检测包含在语音中的实际语音区段。这被称为终点检测(epd)。
141.语音识别器a11可通过应用特征向量提取技术(例如倒谱、线性预测系数:(lpc)、梅尔频率倒谱系数(mfcc)或滤波器组能量)从所检测的区段中提取输入语音的特征向量。
142.语音识别器a11可通过将所提取的特征向量与经训练的参考模式进行比较来获取识别的结果。语音识别器a11可使用建模及比较语音的信号特征的声学模型,并且可使用与识别词汇对应的单词或音节的语言次序关系进行建模的语言模型。为此,存储装置134可存储声学模型及语言模型db。
143.声学模型可被分类为将识别目标设定为特征向量模型并且将特征向量模型与语音信号的特征向量进行比较的直接比较方法及以统计方式处理识别目标的特征向量的统计方法。
144.语音识别器a11可使用上述语音识别方法中的任意一种。例如,语音识别器a11可使用应用隐马尔可夫模型(hmm)的声学模型或者声学模型与语音模型相结合的n-最佳搜索方法。通过使用声学模型及语言模型选择n个或更少的识别结果候选并且然后重新估测识别结果候选的次序,n-最佳搜索方法可改善识别性能。
145.语音识别器a11可计算置信度值以确保识别结果的可靠性。置信度值可以是表示语音识别结果可靠程度的标准。例如,关于作为识别结果的音素或单词,置信度值可被定义为从不同的音素或单词说出对应的音素或单词的概率的相对值。因此,置信度值可被表示为0与1之间或者1与100之间的值。
146.当置信度值大于预定阈值时,语音识别器111a可输出识别结果,以允许执行与识别结果对应的操作。当置信度值等于或小于阈值时,语音识别器a11可拒绝识别结果。
147.语音识别器a11可基于存储在stt db 134a中的信息被校正为与用户意图及语境对应的文本类型的话语,而不是由语音识别器a11直接理解文本类型的话语。
148.stt db 134a可被设置在存储装置134中。
149.stt db 134a可存储与具有相同含义的文本对应的至少一个语音信号。
150.语音识别器a11可包括精确识别动作的stt模块。
151.语音识别器a11可从stt db 134a接收用于将语音转换为文本的信息并且基于语音识别结果更新存储在stt db 134a中的信息。
152.语音识别器a11可识别stt db 134a中的语音信号与所接收的语音信号之间的相似度水平,并且识别在所识别的相似度之中具有高于特定水平的相似度水平的至少一个语音信号。语音识别器a11可识别与至少一个语音信号对应的文本。
153.语音识别器a11可基于语音的识别结果执行stt学习并且基于学习结果更新stt db 134a中的信息。
154.语音识别器a11还可在不分析用户意图或语境的状态下基于语音识别结果设定stt转换参数,并且将所设定的stt参数存储在stt db 134a中。
155.语音识别器a11可改善用户说出的语音的词汇理解并且准确地掌握用户意图。
156.作为语音识别器a11的识别结果的文本类型的话语可作为自然语言理解部分a12输入。
157.自然语言理解部分a12可将自然语言理解技术应用于话语,以掌握话语中包含的用户意图。
158.自然语言理解部分a12可通过应用自然语言理解技术来识别包括在话语语言中的用户话语的意图。因此,用户可通过自然对话输入控制命令,并且对话系统130也可通过经由对话诱导控制命令的输入并提供用户所需的服务。
159.自然语言理解部分a12可对文本形式的话语执行形态分析。语素是最小的含义单位且表示无法再细分的最小语义元素。因此,形态分析是自然语言理解的第一步骤并且将输入字符串转换成语素字符串。
160.自然语言理解部分a12可基于形态分析结果从话语提取域。域可用于识别用户话语语言的主题,且指示各种主题(例如,路线引导、天气搜索、交通搜索、日程管理、燃油管理及空调控制)的域可被存储为数据库。
161.自然语言理解部分a12可从话语识别实体名称。实体名称可以是专有名词(例如人名、地名、组织名、时间、日期及货币),且实体名称识别可被配置成识别句子中的实体名称并确定所识别的实体名称的类型。自然语言理解部分a12可使用实体名称识别从句子提取重要关键词并识别句子的含义。
162.另外,实体名称还可包括企业名称、建筑名称等。
163.自然语言理解部分a12可从话语识别标准或目标不清楚的模糊语言。
164.自然语言理解部分a12可分析话语中包含的语音动作。语音动作分析可被配置成识别用户话语的意图,例如用户是否提问、用户是否提出或做出请求、用户是否响应或者用户是否简单地表达情感。
165.自然语言理解部分a12提取与用户话语意图对应的动作。自然语言理解部分a12可基于信息(例如,域、实体名称及语音动作)来识别用户话语的意图并提取与话语对应的动作。动作可由对象及操作符定义。
166.自然语言理解部分a12可提取与动作执行相关的参数。与动作执行相关的参数可以是动作执行直接需要的有效参数或者可以是用于提取有效参数的无效参数。
167.自然语言理解部分a12可提取被配置成表达单词之间或句子之间的关系的工具(例如解析树)。
168.作为自然语言理解部分a12的处理结果的形态分析结果、域信息、动作信息、语音动作信息、所提取的参数信息、实体名称信息及解析树可被发送到对话输入管理器a13。
169.作为自然语言理解部分a12的处理结果的模糊语言确定信息可被发送到对话输入管理器a13。
170.对话输入管理器a13可向对话管理器120发送自然语言理解结果及语境信息。
171.语境信息处理器131b可包括语境信息收集器a21、语境信息收集管理器a22及语境理解部分a23。
172.语境信息收集器a21可从第二输入装置120及控制器150收集信息。
173.语境信息收集器a21可周期性地收集数据,或者仅当发生特定事件时才收集数据。
另外,当发生特定事件时,语境信息收集器a21可周期性地收集数据并且然后另外地收集数据。此外,当从语境信息收集管理器a22接收到数据收集请求时,语境信息收集器a21可收集数据。
174.在语境信息中可包含除第二输入装置120的语音之外的输入。换句话说,语境信息可包括车辆状态信息、驾驶环境信息及用户信息。
175.车辆状态信息可包括指示车辆状态并由设置在车辆1中的传感器获取的信息以及与车辆相关并存储在车辆1中的信息(例如车辆的燃油类型)。
176.驾驶环境信息可以是由设置在车辆1中的传感器获取的信息。驾驶环境信息可包括由前相机、后相机或立体相机获取的图像信息、由传感器(例如,雷达、激光雷达、超声波传感器)获取的障碍物信息、以及与降雨量相关的信息、以及由雨水传感器获取的雨水速度信息。
177.驾驶环境信息还可包括经由车辆到一切(v2x)获取交通状态信息、交通灯信息及相邻车辆通行或相邻车辆碰撞风险信息。
178.用户信息可包括由设置在车辆1中的相机或生物特征读取器测量的与用户状态相关的信息、由用户使用设置在车辆1中的输入装置110及120直接输入的与用户相关的信息、与用户相关并存储在外部内容服务器中的信息、以及存储在连接到车辆1的移动装置中的信息。
179.语境信息收集器a21可收集车辆控制信息(例如车辆加速、减速、转向、停止、停车、倒车、换档)以及车载装置的控制信息。
180.语境信息收集管理器a22可管理语境信息的收集。
181.语境信息收集管理器a22可通过语境信息收集器a21收集必要的语境信息并且向语境理解部分a23发送确认信号。
182.当语境信息收集管理器a22确定由于语境信息收集器a21收集的数据满足预定条件而发生特定事件时,语境信息收集管理器a22可向语境理解部分a23发送动作触发信号。
183.语境理解部分a23可基于自然语言理解结果及所收集的语境信息来理解语境。
184.语境理解部分a23可搜索语境理解表用于搜索与对应事件相关的语境信息。当搜索到的语境信息未存储在语境理解表中时,语境理解部分a23可再次向语境信息收集管理器a22发送语境信息请求信号。
185.语境理解部分a23可参考存储在语境理解表中的每个动作的语境信息,以确定与执行和用户话语意图对应的动作相关联的语境信息。
186.如图5中所示,对话管理器132可包括对话流管理器132a、对话动作管理器132b、模糊解算器132c、参数管理器132d、动作优先级确定器132e、外部信息管理器132f及经验信息生成器132g。
187.对话流管理器132a可请求生成、删除及更新对话或动作。
188.更具体来说,对话流管理器132a可搜索与对话输入管理器a13的输入对应的对话任务或动作任务是否存在于对话及动作状态db中。
189.对话及动作状态db可以是用于管理对话状态及动作状态的存储空间,且因此对话及动作状态db可存储当前正在进行的对话及动作以及与将要处理的初步动作相关的对话状态及动作状态。例如,对话及动作状态db可存储与完成的对话及动作、停止的对话及动
作、正在进行的对话及动作以及将要处理的对话及动作相关的状态。
190.当未提取与用户话语对应的域及动作时,对话及动作状态db可生成对话动作管理器132b参考最近所存储的任务的随机任务或请求。
191.当与输入处理器131的输入对应的对话任务或动作任务不存在于对话及动作状态db中时,对话流管理器132a可请求对话动作管理器132b生成新的对话任务或动作任务。
192.当对话流管理器132a管理对话流时,对话流管理器132a可参考对话策略db。
193.对话策略db可存储继续对话的策略,其中,该策略可表示用于选择、开始、建议、停止及终止对话的策略。
194.另外,对话策略db可存储系统输出响应的时间点并且可存储关于方法的策略。对话策略db可存储用于通过对多个服务进行链接来生成响应的策略以及用于删除先前动作并用另一动作替换动作的策略。
195.当与输入处理器131的输出对应的对话任务或动作任务存在于对话及动作状态db中时,对话流管理器132a可请求对话动作管理器132b参考对应的对话任务或动作任务。
196.对话动作管理器132b可根据对话流管理器132a的请求生成、删除及更新对话或动作。
197.对话动作管理器132b可以向对话及动作状态db指定存储空间并且生成与输入处理器131的输出对应的对话任务及动作任务。
198.当不可能从用户话语提取域及动作时,对话动作管理器132b可生成随机对话状态。在此种情形中,如下所述,模糊解算器132c可基于用户话语的内容、环境状况、车辆状态及用户信息来识别用户意图,并且确定适合于用户意图的动作。
199.模糊解算器132c可处理对话或语境中的模糊。例如,当对话中包含回指(例如人、昨天的那个地方、父亲、母亲、祖母及儿媳)时,可能会存在模糊,因为不清楚回指表示的人或事物。在此种情形中,模糊解算器132c可通过参考语境信息db、长期存储器或短期存储器来解算模糊或者提供解算模糊的引导。
200.模糊解算器132c可将周围环境信息及车辆状态信息与用户话语集成在一起,即使用户话语或语境是模糊的。模糊解算器132c可准确地识别并提供用户实际希望的动作或用户实际需要的动作。
201.模糊解算器132c可向对话动作管理器132b发送关于所确定的动作的信息。在此种情形中,对话动作管理器132b可基于所发送的信息更新对话及动作状态db。
202.当从自然语言理解部分a12接收到关于请求用户意图的话语中的模糊语言的信息时,模糊解算器132c可基于存储在经验数据库g4中的经验信息准确地识别用户实际需要的动作。
203.当用户意图是目的地搜索请求时,在导航模式的执行期间针对模糊语言的动作可以是用于选择目的地以引导用户的动作。
204.例如,当话语包含诸如周围、短、韩国食物等模糊语言,且话语是指地方还是距离(例如,目标值)是模糊的时,模糊解算器132c可参考经验数据库g4来解算模糊或提供解算模糊的引导。
205.当用户意图是车辆控制请求时,在执行车辆控制模式时对模糊语言的动作可以是选择用于控制装置的目标值的动作。
206.例如,当控制车载装置时,当模糊语言所指的模糊到什么程度(例如,目标值)不明确时,模糊解算器132c可参考经验db g4来解算模糊或提供解算模糊的引导。
207.换句话说,模糊解算器132c可包括获取与模糊语言对应的目标信息,并且基于所获取的目标信息呈现引导。目标信息可包括目标及目标值。这里参照图6、图7a及图7b进行描述。
208.模糊解算器132c可对存储在经验数据库g4中的信息执行学习。
209.如图6中所示,模糊解算器132c可通过学习将模糊语言转换成向量空间中的向量,使用聚类算法将向量空间中相似的模糊语言之间的单词距离分组成与目标对应的信息,并且转换成用户意图的目标以获取历史概率。
210.单词距离如下所示。
[0211][0212]
如图7a及图7b中所示,可获取与用户意图对应的目标特定模糊语言的使用历史及历史概率。
[0213]
如图7a中所示,可获取与餐馆搜索对应的目标特定模糊语言的使用历史及历史概率。如图7b中所示,可获取与空调控制对应的目标特定模糊语言的使用历史及历史概率。
[0214]
参数管理器132d可管理动作执行所需的参数。
[0215]
参数管理器132d可在动作参数db中搜索用于执行每个候选动作的参数(以下被称为动作参数)。
[0216]
由参数管理器132d获取的参数值可被发送到对话动作管理器132b,且对话动作管理器132b可通过将根据候选动作的参数值添加到动作状态来更新对话及动作状态db。
[0217]
参数管理器132d可获取所有候选动作的参数值,或者参数管理器132d可仅获取被确定为可由动作优先级确定器132e执行的候选动作的参数值。
[0218]
参数管理器132d可选择性地使用指示相同信息的不同类型初始值之中的初始值。例如,用于路线引导的必要参数可包括当前位置及目的地,且替代参数可包括路线的类型。替代参数的初始值可被存储为快速路线。
[0219]
动作优先级确定器132e可确定是否可执行关于多个候选动作的动作且确定多个候选动作的优先级。
[0220]
动作优先级确定器132e可搜索关系动作db以搜索与包含在输入处理器131的输出中的动作或事件相关的动作列表。动作优先级确定器125然后可提取候选动作。
[0221]
关系动作db可指示彼此相关的动作、动作之间的关系、与事件相关的动作以及事件之中的关系。例如,路线引导、车辆状态检查及加油站推荐可被分类为关系动作,且关系动作之间的关系可对应于关联。
[0222]
所提取的候选动作列表可被发送到对话动作管理器132b,且对话动作管理器132b可通过添加候选动作列表来更新对话的动作状态及动作状态db。
[0223]
动作优先级确定器132e可在动作执行条件db中搜索执行每个候选动作的条件。
[0224]
动作优先级确定器132e可向对话动作管理器132b发送候选动作的执行条件,且对话动作管理器132b可根据每个候选动作添加执行条件并且更新对话的动作状态及动作状态db。
[0225]
动作优先级确定器132e可从语境信息db、长期存储器、短期存储器或对话及动作状态db中搜索确定动作执行条件所需的参数(以下被称为条件确定参数)。动作优先级确定器132e还可使用搜索到的参数来确定是否可能执行候选动作。
[0226]
动作优先级确定器132e可使用用于确定动作执行条件的参数来确定是否可能执行候选动作。另外,动作优先级确定器132e可基于是否执行候选动作及存储在对话策略db中的优先级确定规则来确定候选动作的优先级。
[0227]
动作优先级确定器132e可通过搜索与用户话语、语境信息及与其相关的动作列表直接连接的动作且通过确定动作之间的优先级来向用户提供最需要的服务。
[0228]
动作优先级确定器132e可向对话动作管理器132b发送候选动作执行的可能性及优先级。对话动作管理器132b可通过添加所发送的信息来更新对话的动作状态及动作状态db。
[0229]
外部信息管理器132f可管理外部内容列表及相关信息并且管理外部内容查询所需的因素信息。
[0230]
经验信息生成器132g可基于存储在目的地历史数据库g1中的目的地历史信息、存储在车辆控制历史数据库g2中的车辆控制信息及存储在语音识别使用数据库g3中的语音信息来获取模糊语言的目标及目标值。经验信息生成器132g还可生成包括所获取的目标及目标值的目标信息作为经验信息。
[0231]
存储在语音识别使用数据库g3中的语音信息可包括用户选择的目标及目标值。
[0232]
如图8中所示,在驾驶员与对话系统进行对话的状态下,当确定用户意图是目的地(餐馆)搜索请求且模糊语言包括在说出的语言中时,可生成与作为模糊语言的“周围、菜单及种类”对应的“距离5km、猪肉饭及韩国食物”的目标信息。这可作为经验信息存储在经验数据库g4中。
[0233]
经验信息生成器132g可基于重启时间、基于在重启之前的对话信息及基于在重启之后的对话信息来更新存储在经验数据库4中的经验信息。这将在以下参照图9a及图9b进行描述。
[0234]
如图9a中所示,当在重启之前从用户与对话系统之间的对话信息确定用户意图是作为目的地的餐馆搜索请求且模糊语言包括在说出的语言中时,经验信息生成器132g可生成与模糊语言“周围及种类”对应的“距离5km、餐馆”的目标信息,且可将其作为经验信息存储在经验数据库g4中。
[0235]
如图9b中所示,经验信息生成器132g可在重启之后从用户与对话系统之间的对话信息获取用户对于餐馆使用的使用信息,并且将所获取的使用信息作为经验信息存储在经验数据库g4中。
[0236]
使用信息可包括使用项目或评估信息。
[0237]
换句话说,经验信息生成器132g可在重启之后通过与用户的对话信息向经验数据库g4中的使用历史项目之中没有信息的项目添加新的信息。
[0238]
经验信息生成器132g可基于当前对话信息生成新的经验信息或者更新存储在经验数据库g4中的经验信息。
[0239]
经验信息生成器132g可基于与驾驶时的时间推移对应的对话信息来更新存储在经验数据库g4中的经验信息。这将在以下参照图10a及图10b进行描述。
[0240]
如图10a中所示,经验信息生成器132g可从用户与对话系统之间的对话信息生成与空调的控制请求对应的经验信息,但可通过与用户的对话信息生成与“目标及目标值”对应的“温度、20度”的目标信息,且可将其作为经验信息存储在经验数据库g4中。
[0241]
如图10b中所示,经验信息生成器132g可在经过一定时间之后从用户与对话系统之间的对话信息获取用户用于控制空调的使用信息,且可将所获取的使用信息作为经验信息存储在经验数据库g4中。
[0242]
例如,经验信息生成器132g可从空调的当前控制信息(即,第三级及身体)生成与模糊语言“强烈及向下”对应的在第四级及腿部的方向上的目标信息,且可将其作为经验信息存储在经验数据库g4中,但可在启动起始时间及启动中间时间作为空调的控制信息被存储。
[0243]
经验信息生成器132g可基于从第二输入装置输入的空调的控制信息来更新存储在经验数据库g4中的经验信息。
[0244]
经验信息生成器132g可将使用历史中的最后使用历史存储在经验信息中。
[0245]
如图11中所示,经验数据库g4可分别存储与用户意图及模糊语言匹配的目标及目标值。
[0246]
目标值可以是最后使用历史。
[0247]
经验数据库g4可分别存储与用户意图及模糊语言匹配的目标及目标值。
[0248]
如图12中所示,结果处理器133可包括响应生成管理器133a、对话响应生成器133b、输出管理器133c、服务编辑器133d、存储器管理器133e及命令生成器133f。
[0249]
通过与用户话语或语境对应而输出的响应可包括对话响应、车辆控制及外部内容提供。对话响应可包括初始对话、问题及包含信息的回答。对话响应可作为响应模板存储在数据库中。
[0250]
响应生成管理器133a可请求对话响应生成器133b及命令生成器133f生成执行动作所需的响应,响应由对话管理器132确定。
[0251]
为此,响应生成管理器133a可向对话响应生成器133b及命令生成器133f发送与将要执行的动作相关的信息,其中与将要执行的动作相关的信息可包括动作名称及参数值。当生成响应时,对话响应生成器133b及命令生成器133f可参考当前对话状态及动作状态。
[0252]
响应生成管理器133a可将从对话响应生成器133b发送的对话响应发送到输出管理器133c。
[0253]
响应生成管理器133a还可将从对话响应生成器133b、命令生成器133f或服务编辑器133d发送的响应发送到存储器管理器133c。
[0254]
对话响应生成器133b可根据响应生成管理器133a的请求生成文本、图像或音频类型的响应。
[0255]
对话响应生成器133b可基于模糊解算器132c中的模糊分析信息来识别每个目标的历史概率及目标值,获取具有最高历史概率的每个目标的目标值,并且基于所获取的每个目标的目标值来生成响应。
[0256]
对话响应生成器133b可根据目标组合或目标值组合的变化生成多个响应。以下参照图13a及图13b对此进行描述。
[0257]
如图13a中所示,对话响应生成器133b可从“在附近找到便宜的必去餐馆”的话语
中识别用户意图。当所识别的用户意图是目的地搜索请求时,对话响应生成器133b可获取“邻近的、便宜的及必去的餐馆”,这是与目的地相关的模糊语言,且可识别与所获取的“邻近的、便宜的及必去的餐馆”对应的目标。
[0258]
如图13b中所示,对话响应生成器133b可从经验数据库获取与“周围及目标”对应的目标值,获取与“便宜及目标”对应的目标值,获取“必去餐馆及目标”,并且基于目标值的历史概率生成多个响应,但可基于高的历史概率的次序生成多个响应。
[0259]
例如,对话响应生成器133b可生成如下的响应:在响应中,在5km内的10,000韩元或少于10,000韩元的3级韩国食物之中的出售肉的餐馆是第一优先级目的地。
[0260]
对话响应生成器133b可生成对作为优先级目的地的在5km内以低于10,000韩元的价格出售3级韩国食物的餐馆的响应。
[0261]
对话响应生成器133b可生成将在5km内供应3级韩国食物的餐馆作为第三优先级目的地的响应。
[0262]
对话响应生成器133b可生成将在5km内的3级餐馆作为第四优先级目的地的响应。
[0263]
如果在基于与第一优先级对应的信息搜索目的地时未找到目的地,则对话响应生成器133b可基于与第二优先级对应的信息搜索目的地。当基于与第二优先级对应的信息搜索目的地时未找到目的地时,对话响应生成器133b可基于与第三优先级对应的信息搜索目的地。换句话说,对话响应生成器133b可按照搜索优先级的次序搜索目的地,直到搜索到目的地为止。
[0264]
对话响应生成器133b可显示关于与搜索结果对应的目的地的信息。
[0265]
对话响应生成器133b可通过搜索响应模板来提取对话响应格式,并且通过填充所提取的对话响应格式所需的自变量值来创建对话响应。所生成的对话响应被传送到响应生成管理器133a。
[0266]
对话响应生成器133b可通过搜索响应模板来提取对话响应模板,并且通过利用参数值填充所提取的对话响应模板来生成对话响应。所生成的对话响应可被发送到响应生成管理器133。
[0267]
输出管理器133c可输出生成的文本类型响应、图像类型响应或音频类型响应,输出由命令生成器133f生成的命令,或者当输出是多个时确定输出的次序。
[0268]
输出管理器133c可确定由对话响应生成器133b生成的对话响应及由命令生成器133f生成的命令的输出定时、输出次序及输出位置。
[0269]
输出管理器133c可通过以适当的定时以适当的次序将由对话响应生成器133b生成的对话响应及由命令生成器133f生成的命令发送到适当的输出位置来输出响应。
[0270]
输出管理器133c可经由扬声器142输出文本到语音(tts)响应,并且经由显示器141输出文本响应。当输出tts类型中的对话响应时,输出管理器133c可使用车辆1中设置的tts模块,或者可选地,输出管理器133c可包括tts模块。
[0271]
输出管理器133c可通过扬声器141输出由对话响应生成器133b生成的对话响应。
[0272]
根据控制目标,命令可被发送到控制器150或通信装置170,用于与外部内容服务器进行通信。
[0273]
服务编辑器133d依序或分散地执行多个服务及其收集结果,以提供用户所期望的服务。
[0274]
存储器管理器133e基于响应生成管理器133a及输出管理器133c的输出来管理长期存储器及短期存储器。
[0275]
命令生成器133f根据响应生成管理器133a的请求而使用外部内容生成用于车辆控制或服务提供的命令。
[0276]
当命令生成器133f包括车辆控制或外部内容提供时,命令生成器133f可生成用于执行对用户话语或语境的响应的命令。例如,当由对话管理器132确定的动作是空调、车窗、座椅或avn的控制时,可生成用于执行控制的命令并将其发送到响应生成管理器133a。
[0277]
当存在由命令生成器133f生成的多个命令时,服务编辑器133d可确定执行多个命令的方法及次序,并将其发送到响应生成管理器133a。
[0278]
另外,当用户输入表达情感的话语时,可不从用户话语提取特定域或动作,但对话系统130可使用周围环境信息、车辆状态信息及用户状态信息等来掌握用户意图并展开对话。
[0279]
图14是根据实施例的对话系统的控制流程图。
[0280]
对话系统可通过麦克风由语音接收用户命令(201)。在此种情形中,对话系统可接收声音并且然后将声音转换成电信号(即,语音信号)。
[0281]
对话系统可基于语音信号识别用户语音(202)。
[0282]
对话系统可将语音信号转换成文本类型的话语并且通过将自然语言理解算法应用于用户话语来识别用户意图(203)。
[0283]
更具体来说,当对话系统将语音信号转换成文本类型的话语时,对话系统可根据用户意图及语境来校正文本类型的话语,而不是照原样转换话语。
[0284]
对话系统还可确定经转换的文本是否是针对模糊语言(204)。
[0285]
当确定经转换的文本不是针对模糊语言的文本时(204中的否),对话系统可持续执行与用户的对话(205)。
[0286]
当确定经转换的文本是针对模糊语言的文本时(204中的是),对话系统可确定所识别的用户意图是否是请求意图(206)。
[0287]
对话系统可通过对话语应用自然语言理解来识别话语中包含的用户意图,以文本类型对话语执行语素分析,并且然后基于语素分析结果从话语提取域。换句话说,对话系统可执行自然语言理解。
[0288]
对话系统可分析话语的语音动作以分析用户话语的意图,基于信息(例如,域、实体名称及语音)识别用户话语的意图以及与话语对应的动作。
[0289]
对话系统还可接收通过用户操纵接收的用户命令及由相机捕获的用户图像,并且还可接收车辆状态信息以掌握用户意图或语境。
[0290]
当确定用户话语的意图不是请求意图时(206中的否),对话系统可从对话信息获取模糊语言的目标及目标值,并且可基于所获取的目标及目标值生成经验信息(207)。
[0291]
当生成经验信息时,对话系统可基于存储在目的地历史数据库g1中的目的地历史信息、存储在车辆控制历数据库g2中的车辆控制信息、存储在语音识别使用数据库g3中的语音信息以及当前对话信息来获取模糊语言的目标及目标值。对话系统还可生成包括所获取的目标及目标值的目标信息作为经验信息。
[0292]
对话系统可基于当前对话信息更新存储在经验数据库g4中的经验信息。
[0293]
当确定用户话语的意图是请求意图时(206中的是),对话系统可基于存储在经验数据库g4中的经验信息来分析模糊语言(208),获取与所分析的模糊对应的目标及目标值,并且获取与每个目标值对应的历史概率。
[0294]
对话系统可基于与每个目标值对应的历史概率来生成响应(209)。对话系统可基于目标值的数量及历史概率生成多个响应。
[0295]
当用户意图是目的地搜索请求意图时,对话系统可在对模糊语言多个响应之中识别具有历史概率大于或等于参考概率的目标值,且可通过对所识别的目标值来进行组合生成多个响应。
[0296]
作为搜索具有最高优先级响应的目的地的结果,当未找到目的地时,对话系统可搜索具有下一优先级响应的目的地。
[0297]
对话系统可输出关于搜索到的目的地的信息(210)。换句话说,对话系统可将关于搜索到的目的地的信息作为图像或声音输出。
[0298]
当用户意图是空调的控制意图时,对话系统可在对模糊语言的多个响应之中识别具有历史概率大于或等于参考概率的目标值,且可通过对所确认的目标值进行组合来生成多个响应。
[0299]
对话系统可输出多个响应,且在此种情形中,对话系统还可基于用户选择的响应来控制空调。
[0300]
对话系统可通过搜索响应模板来提取对话响应模板,并且通过利用参数值填充所提取的对话响应模板来生成对话响应。
[0301]
响应可作为文本、图像或音频类型的响应而生成。
[0302]
对话系统可通过扬声器142输出tts响应。
[0303]
对话系统可基于关于输出响应的信息来更新存储在经验数据库中的经验信息。
[0304]
对话系统可基于在与用户对话期间通过第二输入装置接收的空调的控制信息或目的地的选择信息来更新存储在经验数据库中的经验信息。
[0305]
对话系统可在与用户对话期间识别目的地的重访意图及使用信息,并且基于所识别的重访意图或使用信息更新存储在经验数据库中的经验信息。
[0306]
例如,如果重访意图是肯定的且使用信息是肉,则模糊语言可被设定为必去餐馆,且目的地目标位置的信息可被存储。
[0307]
对话系统可在驾驶时基于存储在经验数据库中的经验信息输出目的地推荐信息。
[0308]
对话系统可基于按日期、时日及时间的驾驶历史或每个时间段的驾驶模型来确定是否定期驾驶,存储关于定期访问的目的地的信息,并基于当前日期、时日及时间信息输出目的地推荐信息。
[0309]
根据本公开的实施例,即使当基于所存储的对话信息及用户的目标信息在对话期间接收到不充分的信息时,也可通过精确地识别用户意图来改善语音识别的识别率并提供适合于用户意图或用户所需的服务。
[0310]
根据本公开,当用户说出模糊语言时,可通过消除模糊来减少不必要的交互,从而提供具有高可用性的服务。换句话说,本公开可将用户与对话系统之间的交互最小化。
[0311]
本公开可提出对车辆中提供的多个功能中的至少一个功能的控制,并且可实现系统与多个扬声器之间的顺利对话。
[0312]
通过对话功能,可改善车辆的质量,增加商业性,增加用户的满意度,且改善用户的便利性及车辆的安全性。
[0313]
所公开的实施例可以存储可由处理器执行的计算机可执行指令的记录介质的形式来实施。指令可以程序代码的形式存储,且当由处理器执行时,指令可生成程序模块来执行所公开的实施例的操作。记录介质可被实施为非暂时性计算机可读记录介质。
[0314]
非暂时性计算机可读记录介质可包括存储可由计算机解释的命令的所有类型的记录介质。例如,非暂时性计算机可读记录介质可以是只读存储器(rom)、随机存取存储器(ram)、磁带、磁盘、闪存、光学数据存储装置等。
[0315]
至此已参照附图描述了本公开的实施例。对于所属领域中的普通技术人员来说显而易见的是,在不改变本公开的技术思想或基本特征的条件下,本公开可以除上述实施例之外的其他形式实践。上述实施例仅是示例性的,且不应被解释为具有限制性意义。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1