交互服务器及其控制方法和交互系统的制作方法

文档序号:6535142阅读:223来源:国知局
交互服务器及其控制方法和交互系统的制作方法
【专利摘要】提供一种交互服务器及其控制方法和交互系统。所述交互服务器包括:通信器,与显示设备进行通信来接收第一发音信号;存储装置,存储在接收到第一发音信号之前从显示设备接收的第二发音信号的发音历史信息;提取器,从接收的第一发音信号提取发音元素;控制器,基于存储在存储装置中的发音历史信息和提取的发音元素中的至少一个产生响应信息,并将所述响应信息发送到显示设备。因此,交互服务器针对关于用户的各种发音,理解用户的意图,以根据意图产生响应信息,并将响应信息发送到显示设备。
【专利说明】交互服务器及其控制方法和交互系统
[0001]本申请要求于2013年I月7日提交到韩国知识产权局的第10-2013-0001829号韩国专利申请的优先权,其公开通过引用全部合并于此。
【技术领域】
[0002]与示例性实施例一致的设备、方法和系统总体涉及提供一种交互服务器及其控制方法和交互系统,更具体地讲,涉及提供一种提供与用户的各种发音相应的响应信息的交互服务器及其控制方法和交互系统。
【背景技术】
[0003]一般地,在交互式系统中能够识别语言的显示设备收集用户的发音,并将收集的发音发送到通过网络连接的外部服务器。当外部服务器接收到发音时,外部服务器对发音进行解析来理解用户的意图,产生与发音相应的响应信息,并将响应信息发送到显示设备。因此,显示设备执行与用户的发音相应的功能,或基于从外部服务器接收的响应信息,提供与用户的发音相应的信息。
[0004]然而,传统的交互系统在解析用户的发音和基于解析结果理解用户的意图方面存在限制。例如,在用户的清楚发音(如,“显示第一内容”)的情况下,外部服务器对发音进行解析,以正确地理解用户的意图,产生与发音相应的响应信息,并将响应信息发送到显示设备。因此,显示设备基于响应信息显示由用户请求的第一内容。
[0005]然而,在用户的模糊发音(如,“显示这个”)的情况下,外部服务器无法从模糊发音清楚地理解用户的意图。换句话说,交互系统仅针对预定义的发音理解用户的意图,并执行与预定义的发音相应的操作,或提供与预定义的发音相应的信息,从而限制了用户的发音。

【发明内容】

[0006]示例性实施例至少解决上述问题和/或缺点以及上面未描述的其他缺点。此外,示例性实施例不需要克服上述缺点,并且示例性实施例可以不克服上面描述的任何问题。
[0007]示例性实施例提供一种交互服务器、所述交互服务器的控制方法和交互系统,其中,交互服务器在交互系统中执行与用户的各种发音相应的操作。
[0008]根据示例性实施例的一方面,提供一种交互服务器,包括:通信器,被构造为与设备进行通信来接收第一发音信号;存储装置,被构造为存储在接收到第一发音信号之前从所述设备接收的第二发音信号的发音历史信息;提取器,被构造为从接收的第一发音信号提取发音元素;控制器,被构造为基于存储在存储装置中的发音历史信息和提取的发音元素之中的至少一个来产生响应信息,并将所述响应信息发送到所述设备。
[0009]如果分别与提取的发音元素相应的执行语言和命令被存储在存储装置中,则控制器可将分别与发音元素相应的执行语言和命令进行组合来产生响应信息。如果分别与提取的发音元素相应的执行语言和命令未被存储在存储装置中,则控制器可基于存储在存储装置中的发音历史信息,估计分别与提取的发音元素相应的执行语言和命令,并将估计的执行语言和命令进行组合来产生响应信息。
[0010]第一发音信号可包括第一发音元素和第二发音元素。如果分别与提取的发音元素相应的执行语言和命令未被存储在存储装置中,则控制器可获取在基于接收到第二发音信号的时间的预设时间范围内存储的发音历史信息,并将获取的发音历史信息内的与第一发音元素相应的执行语言和与第二发音元素相应的命令估计为与第一发音信号相应的执行语目和命令。
[0011]如果存储在存储装置中的发音历史信息不包括在基于接收到第二发音信号的时间的预设时间内存储的发音历史信息,则控制器可以不产生响应信息。
[0012]如果第一发音信号不包括第一发音元素和第二发音元素中的至少一个,则控制器可根据在基于接收到第二发音信号的时间的预设时间范围内存储的发音历史信息,产生与第二发音信号相应的响应信息。
[0013]交互服务器可还包括:语音处理器,被构造为将接收的第一语音信号转换为文本信息。
[0014]根据示例性实施例的另一方面,提供一种控制交互服务器的方法。所述方法可包括:从设备接收第一发音信号;从接收的第一发音信号提取发音元素;基于存储的发音历史信息和提取的发音元素之中的至少一个来产生响应信息;将产生的响应信息发送到所述设备。存储的发音历史信息可以是在接收到第一发音信号之前基于从所述设备接收的第二发音信号产生的信息。
[0015]所述方法可还包括:确定分别与提取的发音元素相应的执行语言和命令是否存在。如果分别与发音元素相应的执行语言和命令存在,则分别与发音元素相应的执行语言和命令可被组合来产生响应信息,并且如果分别与发音元素相应的执行语言和命令不存在,则与提取的发音元素相应的执行语言和命令可基于存储的发音历史信息被估计并可被组合来产生响应信息。
[0016]第一发音信号可包括第一发音元素和第二发音元素。如果分别与发音元素相应的执行语言和命令不存在,则可获取在基于接收到第二发音的时间的预设时间范围内存储的发音历史信息,并且获取的发音历史信息内的与第一发音元素相应的执行语言和与第二发音元素相应的命令可被估计为与第一发音信号相应的执行语言和命令。
[0017]如果发音历史信息不包括在基于接收到第二发音信号的时间的预设时间范围内存储的发音历史信息,则可以不产生响应信息。
[0018]如果第一发音信号可不包括第一发音元素和第二发音元素中的至少一个,则可根据在基于接收到第二发音信号的时间的预设时间范围内存储的发音历史信息产生与第一发音信号相应的响应信息。
[0019]所述方法可还包括:将接收的第一发音信号转换为文字信息。
[0020]根据示例性实施例的另一方面,提供一种交互系统,包括:设备,如果输入了用户的发音,则执行与输入的发音相应的功能;交互服务器,如果从所述设备接收到第一语音信号,则从第一发音信号提取发音元素,基于存储的发音历史信息和提取的发音元素中的至少一个来产生响应信息,将所述响应信息发送到所述设备。所述设备可基于从交互服务器接收的响应信息,执行与用户的意图相应的功能。
[0021]如果分别与提取的发音元素相应的执行语言和命令存在,则交互服务器可基于分别与发音元素相应的执行语言和命令,产生响应信息,并且如果分别与提取的发音元素相应的执行语言和命令不存在,则交互服务器基于存储的发音历史信息估计分别与提取的发音元素相应的执行语言和命令,并将估计的执行语言和命令进行组合来产生响应信息。
[0022]根据不例性实施例的一方面,上面提及的时间可与第一发音信号和第二发音信号的发音之间的时间差相关。根据另一示例性实施例的一方面,上面提及的设备可以是显示设备。
[0023]根据示例性实施例的另一方面,第一发音信号可由第一用户发出,发音历史信息可与第二用户的发音输入相关。
[0024]根据本总体发明构思的各种示例性实施例,在交互系统中,交互服务器可针对用户的各种发音理解用户的意图,产生各种发音的响应信息,并将所述响应信息发送到显示设备。
【专利附图】

【附图说明】
[0025]通过参照附图对特定示例性实施例进行描述,以上和/或其他方面将更加清楚,其中:
[0026]图1是示出根据本总体发明构思的示例性实施例的提供适用于用户的发音的响应信息的交互系统的示图;
[0027]图2是示出根据本总体发明构思的另一示例性实施例的提供适用于用户的发音的响应信息的交互系统的示图;
[0028]图3是示出根据本总体发明构思的示例性实施例的交互服务器的框图;
[0029]图4是示出根据本总体发明构思的示例性实施例的基于显示在显示设备的屏幕上的对象的显示状态产生发音信息的方法的示图;
[0030]图5是示出根据本总体发明构思的示例性实施例的显示设备的框图;
[0031]图6是示出根据本总体发明构思的示例性实施例的控制交互服务器的方法的流程图;
[0032]图7是示出根据本总体发明构思的示例性实施例的通过交互服务器产生响应信息的方法的流程图。
【具体实施方式】
[0033]参照附图更详细地描述示例性实施例。
[0034]在下面的描述中,即使在不同的附图中,相同的附图标号也被用于相同的元件。提供在描述中被定义的内容(诸如详细的结构和元件)以帮助对示例性实施例的全面的理解。因此,明显的是,在没有那些明确定义的内容的情况下,示例性实施例能被执行。并且,因为公知的功能或结构会以不必要的细节模糊本示例性实施例,所以不对其进行详细描述。
[0035]图1是示出根据本总体发明构思的示例性实施例的提供适用于用户的发音的响应信息的交互系统的示图。
[0036]参照图1,根据本示例性实施例的交互系统包括显示设备100和交互服务器200。
[0037]显示设备100可被实现为上网的各种类型的电子设备,诸如,智能TV、诸如智能电话的便携式电话、桌上型PC、笔记本PC、导航系统等。如果用户的发音被输入,则显示设备100执行与用户的发音相应的操作。详细地,显示设备100输出与用户的发音相应的响应信息,或执行与用户的发音相应的功能。换句话说,显示设备10对输入的发音进行解析,来确定输入的发音是否可内部执行,并根据确定结果执行与输入的发音相应的功能,或基于从交互服务器200接收的响应信息执行操作。
[0038]例如,如果发音“调高音量”被输入,则显示设备100基于与输入的发音相应的预存控制信息条中的一个来调整音量。
[0039]作为另一示例,如果发音“今天天气如何? ”被输入,则显示设备100将输入的发音的发音信号发送到交互服务器200。这里,所述发音可以是模拟信号。因此,显示设备100将作为模拟信号的发音转换为数字信号(以下称为“发音”)并将所述数字信号发送到交互服务器200。显示设备100基于从交互服务器200接收的响应信息,将今天天气的结果输出为语音或文本格式图像。
[0040]作为另一示例,如果发音“显示〇〇〇(内容名称)”被输入,则显示设备100将输入的发音发送到交互服务器200。如果从交互服务器200接收到响应信息,则显示设备100基于接收的响应信息显示“〇〇〇(内容名称)”的搜索列表。这里,搜索列表可包括每个剧集的内容信息。因此,用户检查显示在搜索列表上的剧集的内容信息,以做出用于选择用户想观看的剧集的〇〇〇(内容名称)的发音。例如,用户做出“显示第一个”的发音,以观看与显示在搜索列表上的内容信息中的第一个相应的“〇〇〇(内容名称)”。因此,显示设备100接收发音“显示第一个”,并将发音“显示第一个”发送到交互服务器200。如果从交互服务器200接收到与所述发音相应的响应信息,则显示设备100从内容提供服务器300接收与第一内容信息相应的“〇〇〇(内容名称)”,并基于接收的响应信息显示“〇〇〇(内容名称)”。[0041]交互服务器200基于从显示设备100接收的用户的发音,来提供适用于用户的意图的响应信息。详细地,如果从显示设备100接收到用户的发音,则交互服务器200从接收的发音提取发音元素,并基于提取的发音元素产生并发送与用户的发音相关的响应信息。如上所述,从显示设备100接收的用户的发音可以是数字信号。因此,如果接收到被转换为数字信号的发音,则交互服务器200将发音产生为文本信息,对所述文本信息进行解析来提取发音元素,并基于提取的发音元素来产生与用户的发音相应的响应信息。从被转换为数字信号的发音产生文本信息是公知技术,从而这里将省略对其的详细描述。
[0042]发音元素是用于执行用户请求的操作的用户的发音的核心关键字,并被分类为根据域、用户动作和特征而提取的发音元素。如上所述,如果针对用户的发音“今天天气如何? ”产生了文本信息,则交互服务器200提取发音元素“今天”、“天气”和“如何”。交互服务器200将发音元素“今天”和“天气”分类为特征(以下称为待执行的对象)的发音元素(以下称为第一发音元素),并将发音元素“如何? ”分类为用户动作(以下称为执行命令)的发音元素(以下称为第二发音元素)。交互服务器200基于提取的发音元素将域的发音元素(以下称为第三发音元素)分类为属于网络搜索域。当从用户的发音的文本信息分类出第一发音元素至第三发音元素时,从提供各种类型的内容的外部服务器400将天气信息提供给交互服务器200,并且交互服务器200产生包括天气信息的响应信息,并将响应信息发送到显示设备100。因此,显示设备100基于从交互服务器200接收的响应信息通过语音和文本中的至少一个来显示关于今天天气的信息。[0043]如果发音“选择第一个”的文本信息被产生,则交互服务器200从产生的文本信息提取第一发音元素“第一个”和第二发音元素“选择”。如果第一发音元素和第二发音元素被提取,则交互服务器200基于提取的第一发音元素和第二发音元素来确定是否产生适合用户的意图的响应信息。根据示例性实施例,交互服务器200可根据与提取的第一发音元素和第二发音元素相应的信息是否存在于数据库(DB)中,来确定是否产生适合用户的意图的响应信息。这里,与第一发音元素和第二发音元素相应的信息可以是分别与第一发音元素相应的执行语言和与第二发音元素相应的命令。因此,交互服务器200确定分别与第一发音元素和第二发音元素相应的执行语言和命令是否存在于DB中。如果确定与第一发音元素和第二发音元素相应的信息不存在于DB中,则交互服务器200基于就在发音“选择第一个”被接收之前存储的发音历史信息和提取的第一发音元素和第二发音元素中的一个来产生响应信息,并将所述响应信息发送到显示设备100。例如,可就在接收到发音“选择第一个”之前接收到发音“搜索〇〇〇(内容名称)”,并且关于发音“〇〇〇(内容名称)”的发音历史信息可被存储。因此,交互服务器200基于先前的发音历史信息产生与“〇〇〇(内容名称)”的内容执行相关的响应信息,并将响应信息发送到显示设备100。因此,显示设备100基于从交互服务器200接收的响应信息来显示“〇〇〇(内容名称)”的第一内容。
[0044]交互服务器200可包括第一服务器10和第二服务器20,其中,所述第一服务器10将被转换为数字信号的用户的发音产生为文本信息,所述第二服务器20产生与被产生为文本信息的发音相应的响应信息。现在将详细描述通过显示设备100和第一服务器10以及第二服务器20提供适合用户的发音的响应信息的交互系统。
[0045]图2是示出根据本总体发明构思的另一示例性实施例的提供适合用户的发音的响应信息的交互系统的 示图。
[0046]如图2中所示,如果从用户输入了发音,则显示设备100将输入的发音转换为数字信号,并将所述数字信号发送到第一服务器10。如果接收到被转换为数字信号的发音,则第一服务器10根据存储的各种发音的特定模式产生用户的发音的文本信息,并将文本信息发送到显示设备100。
[0047]显示设备100从第一服务器10接收用户的发音的文本信息,并将用户的发音的文本信息发送到第二服务器20。第二服务器20接收用户的发音的文本信息,并对接收的文本信息进行解析以提取发音元素,基于提取的发音元素产生用于执行与用户的发音相应的操作的响应信息,并将响应信息发送到显示设备100。
[0048]已简要地示意性描述了在包括显示设备100和交互服务器200的交互系统中提供与用户的发音相应的响应信息的操作。现在将详细描述显示设备100的元件和交互服务器200的元件。
[0049]图3是示出根据本总体发明构思的示例性实施例的交互服务器200的框图。
[0050]参照图3,交互服务器200包括通信器210、语音处理器220、存储装置230、提取器240和控制器250。
[0051]通信器210与提供用户的发音的显示设备100进行通信。具体地,通信器210接收发音的数字信号(以下称为发音),其中,所述发音包括指示待执行对象的第一发音元素和指示执行命令的第二发音元素。这里,指示待执行对象的第一发音元素是被分类为用户的发音中的特征的发音元素。另外,指示执行命令的第二发音元素是被分类为用户的发音中的用户动作的发音元素。例如,在发音“搜索动作电影”中,“动作”可以是被分类为特征的第一发音元素,“搜索”可以是分类为用户动作的第二发音元素。
[0052]如果如上所述包括第一发音元素和第二发音元素的发音被接收到,则语音处理器220将接收的发音转换为文本信息。根据示例性实施例,语音处理器220可通过使用语音到文本(STT)算法将接收的用户的发音转换为文本。然而,本总体发明构思不限于此,并且因此,通信器210可从显示设备100接收用户的发音的文本信息。在这种情况下,显示设备100从语音识别设备(未示出)(诸如第一服务器10)接收用户的发音的文本信息,并将用户的发音的文本信息发送到交互服务器200。因此,通信器210从显示设备100接收用户的发音的文本信息。如果从显示设备100接收到用户的发音的文本信息,则可省略语音处理器220的配置。
[0053]如果用户的发音被转换为文本信息,或者用户的发音的文本信息被从显示设备100接收,则提取器240从被转换为文本信息的发音提取发音元素。如上所述,提取器240可从被转换为文本信息的发音提取指示特征的第一发音元素和指示执行命令的第二发音元素。
[0054]如上述示例中,提取器240可从发音“搜索动作电影”提取第一发音元素“动作”和“电影”以及第二发音元素“搜索”。作为另一示例,提取器240可从发音“执行这个”提取第一发音元素“这个”和第二发音元素“执行”。
[0055]如果如上所述的发音元素被提取,则控制器250基于存储在存储装置230中的发音历史信息和提取的发音元素产生响应信息,并将产生的响应信息发送到显示设备100。这里,存储装置230是存储操作交互服务器200所需的各种类型的程序的存储介质,并可被实现为存储器、硬盘驱动器(HDD)等。例如,存储装置230可包括存储用于执行控制器250的操作的程序的只读存储器(ROM)、临时存储根据控制器250的操作的执行而产生的数据的随机存取存储器(RAM)等。存储装置230可还包括存储各种类型的参考数据的电可擦除和可编程ROM(EEROM)。具体地,存储装置230存储从显示设置100接收的发音的发音历史信息。这里,发音历史信息指基于在从显示设备100接收到当前发音之前所接收的发音而产生的信息。详细地,存储装置230存储发音历史信息,所述发音历史信息包括从接收自显示设备100的发音所产生的文本信息、关于当接收到相应的发音时的时间信息、基于相应的发音产生的响应信息和关于当产生所述响应信息时的时间信息中的至少一个。
[0056]因此,控制器250基于在接收到当前发音之前存储在存储装置230中的先前发音历史信息和从接收的发音所提取的发音元素中的至少一个来产生响应信息,并将响应信息发送到显示设备100。详细地,控制器250确定与由提取器240提取的发音元素相应的信息是否存在于存储装置230中。如果确定与提取的发音元素相应的信息存在于存储装置230中,贝1J控制器250基于与提取的发音兀素相应的信息产生响应信息。这里,与提取的发音兀素相应的信息可包括与指示待执行的对象的第一发音元素相应的执行语言和与指示执行命令的第二发音元素相应的命令中的至少一个。执行语言和命令可被存储在存储装置230中。换句话说,存储装置230可还包括根据第一发音元素定义的执行语言和根据第二发音元素定义的命令。例如,间接指示待执行对象“这个”的第一发音元素可被定义为执行语言“$这个$”。间接指示待执行对象“下一个”的第一发音元素可被定义为执行语言“$下一个$”。间接指示待执行对象“第三个”的第一发音元素可被定义为执行语言“$第三个$”。直接指示待执行对象如“〇〇〇(内容名称)”的第一发音元素可被定义为执行语言“$ OOO(内容名称)$”。基于直接指示待执行对象的第一发音元素和提供与发音相应的响应信息的执行区域,指示执行命令的第二发音元素可被分类为内容搜索、内容推荐、装置功能执行、装置用户界面(UI)控制和网络搜索。可根据分类的类型定义命令。因此,如果发音元素被从用户的发音提取,则控制器250确定与提取的发音元素相应的执行语言和命令是否已被存储在存储装置230中。如果确定与提取的语音元素相应的执行语言和命令已被存储在存储装置230中,则控制器250获取与提取的发音元素相应的执行语言和命令,并将获取的执行语言和命令进行组合以产生响应信息。
[0057]例如,提取器240可从发音“搜索〇〇〇(内容名称)”提取第一发音元素“〇〇〇(内容名称)”和第二发音元素“搜索”。如果第一发音元素和第二发音元素被从发音“搜索〇〇〇(内容名称)”提取,则控制器250基于提取的第一发音元素确定执行区域是内容。控制器250还参照存储在存储装置230中的根据第一发音元素定义的执行语言,获取与第一发音元素“〇〇〇(内容名称)”相应的执行语言“ $〇〇〇(内容名称)$”。控制器250基于确定为内容的执行区域来确定第二发音元素“搜索”的类型与内容搜索相关。因此,控制器250从存储在存储装置230中的根据第二发音元素定义的命令获取与内容搜索相应的命令“content^earch (内容搜索)”。控制器250将分别与第一发音元素和第二发音元素相应的执行语言“$〇〇〇(内容名称)$”和命令“content_search”进行组合,来产生执行命令脚本“content^earch ($〇〇〇(内容名称)$)”。如果执行命令脚本被产生,则控制器250将包括产生的执行命令脚本的响应信息发送到显示设备100。因此,显示设备100基于包括在从交互服务器200接 收的响应信息中的执行命令脚本,从内容提供服务器300接收“〇〇〇(内容名称)”的剧集的内容信息,并在屏幕上显示剧集的接收的内容信息的内容列表。
[0058]然而,本总体发明构思不限于此,从而控制器250可基于执行命令脚本“content_search ($〇〇〇(内容名称)$)”,从存储在存储装置230中的电子节目指南(EPG)获取“〇〇〇(内容名称)”的剧集的内容信息,或可从外部服务器400接收内容信息,并将内容信息发送到显示设备100。
[0059]作为另一示例,提取器240可从发音“进行就寝时间预订”提取第一发音元素“就寝时间预订”和第二发音元素“进行”。如果第一发音元素和第二发音元素被从发音“进行就寝时间预订”提取,则控制器250基于提取的第一发音元素确定执行区域是装置控制。控制器250还参照存储在存储装置230中的根据第一发音元素定义的执行语言,获取与第一发音元素“就寝时间预订”相应的执行语言“$就寝时间预订$”。控制器250基于被确定为装置控制的执行区域,确定第二发音元素“进行”的类型与装置功能执行相应。因此,控制器250从存储在存储装置230中的根据第二发音元素定义的命令获取与装置功能执行相应的命令“devidexecute (装置执行)”。控制器250将分别与第一发音元素和第二发音元素相应的执行语言“$就寝时间预订$”和命令“device_execute”进行组合,来产生执行命令脚本“device_execute ($就寝时间预订$)”。如果产生了执行命令脚本,则控制器250将包括产生的执行命令脚本的响应信息发送到显示设备100。因此,显示设备100基于从交互服务器200接收的响应信息的执行命令脚本来设置就寝时间预订,并通过语音和文本中的至少一个来输出显示已设置了就寝时间预订的通知消息。[0060]作为另一示例,如果包括发音“选择第一个”和执行信息的发音信息被接收到,则提取器240从发音“选择第一个”提取第一发音元素“第一个”和第二发音元素“选择”。如果第一发音元素和第二发音元素被从发音“选择第一个”提取,则控制器250参照存储在存储装置230中的根据第一发音元素定义的执行语言,获取与第一发音元素“第一个”相应的执行语言“$第一个$”。控制器250基于接收的发音信息的执行信息确定执行区域是装置UI控制,并基于确定的执行区域确定第二发音元素“选择”的类型与装置UI控制相应。因此,控制器250从存储在存储装置230中的根据第二发音元素定义的命令获取与装置UI控制相应的命令“deVice_select (装置选择)”。如果获取了与第一发音元素“第一个”相应的执行语言“$第一个$”,则控制器250基于从显示设备100接收的发音信息的执行信息,将执行语言转换为与获取的执行语言“$第一个$”相应的执行语言。控制器250将从获取的执行语言“$第一个$”转换的执行语言与命令进行组合来产生执行命令脚本。
[0061]现在将描述如上述示例中的将发音和包括执行信息的发音信息从显示设备100发送到交互服务器200的操作和基于交互服务器200中的从显示设备100接收的发音信息产生响应信息的操作。
[0062]图4是示出根据本总体发明构思的示例性实施例的基于显示在显示设备的屏幕上的对象的显示状态产生发音信息的方法的示图。
[0063]如图4中所示,显示设备100通过用户请求的频道接收并显示第一内容30。显示设备100还基于用户命令在屏幕上显示用户请求的第二内容的内容列表40。直到现在已广播的第二内容的剧集的内容信息41至45被显示在内容列表40上。显示设备100基于预设优先级将标识信息分配给显示在内容列表40上的内容信息41至45。当如上所述第一内容30和第二内容的内容列表40被显示在屏幕上时,用户参照显示在内容列表40上的内容信息41至45,做出发音以观看与特定剧集相应的第二内容。例如,用户做出发音“选择第三个”以观看与第三剧集的内容信息43相应的第二内容。如果输入了这样的发音,则显示设备100基于先前发音的输入时间,确定当前输入的发音是否在预设时间内被输入。如果确定当前输入的发音在预设时间内被输入,则显示设备100将发音“选择第三个”发送给交互服务器200。如果确定当前输入的发音没有在预定时间内被输入,则显示设备100将发音“选择第三个”和发音信息发送到交互服务器200,其中,发音信息包括分别分配给显示在内容列表40上的剧集的内容信息41至45的标识信息(上述执行信息)。
[0064]如果如上所述发音信息被接收到,则提取器240从接收的发音信息的发音提取第一发音元素“第三个”和第二发音元素“选择”。如果第一发音元素和第二发音元素被提取,则控制器250确定分别与提取的第一发音元素和第二发音元素相应的执行语言和命令是否已被存储在存储装置230中。如上所述,存储装置230可存储分别根据第一发音元素和第二发音元素定义的执行语言和命令。因此,控制器250参照存储在存储装置230中的根据第一发音元素定义的执行语言,获取与第一发音元素“第三个”相应的执行语言“$第三个$”。控制器250基于接收的发音信息的标识信息确定执行区域是装置UI控制,并基于确定的执行区域确定第二发音元素“选择”的类型是装置UI控制。因此,控制器250从存储在存储装置230中的根据第二发音元素定义的命令获取与装置UI控制相应的命令“device_select”。如果获取了与第一发音元素“第三个”相应的执行语言“$第三个$”,则控制器250基于包括在从显示设备100接收的发音信息中的标识信息,将执行语言转换为与获取的执行语言“$第三个$”相应的执行语言。例如,如果与执行语言“$第三个$”相应的内容信息43的标识信息是“#3”,则控制器250可将执行语言“$第三个$”转换为从获取的执行语言“$第三个$”转换的执行语言“#3”。控制器250将执行语言“#3”和命令“deVice_select”进行组合来产生执行命令脚本“device_select (#3)”,并将包括执行命令脚本“device_select (#3)”的响应信息发送到显示设备100。因此,显示设备100基于包括在从交互服务器200接收的响应信息中的执行命令脚本,从内容提供服务器300接收并显示与内容信息43相应的剧集的第二内容。
[0065]如果如上所述存在与从用户的发音提取的发音元素相应的执行语言和命令,则控制器250基于与发音元素相应的执行语言和命令,产生与用户的意图相应的响应信息。
[0066]如果不存在与从用户的发音提取的发音元素相应的执行语言和命令,则控制器250基于存储在存储装置230中的发音历史信息估计与提取的发音元素相应的执行语言和命令。控制器250将估计的执行语言和命令进行组合来产生适合用户的意图的响应信息。
[0067]根据示例性实施例,如果不存在与提取的发音元素(例如,第一发音元素和第二发音元素)相应的执行语言和命令,则控制器250从存储在存储装置230中的发音历史信息获取在基于接收到当前发音的时间的预设时间范围内存储的发音历史信息。控制器250将获取的发音历史信息内的与第一发音元素相应的执行语言和与第二发音元素相应的命令估计为与接收的发音相应的执行语言和命令。如果在存储在存储装置230中的发音历史信息之中,未基于接收到当前发音的时间存储在预设时间范围内存储的发音历史信息,则控制器250不产生响应信息。
[0068]如上所述,存储装置230可存储发音历史信息,其中,所述发音历史信息包括从接收自显示设备100的发音而产生的文本信息、关于当接收到相应的发音时的时间信息、基于相应的发音产生的响应信息和关于当产生响应信息时的时间信息中的至少一个。因此,如果分别与从当前接收的发音提取的第一发音元素和第二发音元素相应的执行语言和命令中的至少一个未被存储在存储装置230中,则控制器250基于存储在存储装置230中的发音历史信息估计分别与第一发音元素和第二发音元素相应的执行语言和命令。
[0069]例如,提取器240可从发音“选择第一个”提取第一发音元素“第一个”和第二发音元素“选择”。如果如上所述第一发音元素和第二发音元素被提取,则控制器250确定分别与第一发音元素和第二发音元素相应的执行语言和命令是否已被存储在存储装置230中。详细地,控制器250参照存储在存储装置230中的根据第一发音元素定义的执行语言,获取与发音元素“第一个”相应的执行语言“$第一个$ ”。控制器250确定是否可能基于第一发音元素确定执行区域。如果确定不可能从第一发音元素“第一个”确定执行区域,则控制器250不从存储装置230获取与第二发音元素“选择”相应的命令,其中,所述存储装置230存储根据第二发音元素定义的命令。因此,控制器250从发音“选择第一个”确定用于提供发音的服务的执行区域和执行命令不清楚。根据确定结果,控制器250确定在存储在存储装置230中的发音历史信息之中,在基于接收到发音“选择第一个”的时间的预设时间范围内的发音历史信息是否被存储。换句话说,控制器250确定发音“选择第一个”的接收时间和存储在存储装置230中的发音历史信息之中的最新的先前发音历史信息之间的时间差是否属于预设时间范围。如果确定最新的先前发音历史信息不属于预设时间范围,则控制器250不产生关于发音“选择第一个”的响应信息。如果确定最新的先前发音历史信息属于预设时间范围,则提取器240从包括在最新的先前发音历史信息中的发音的文本信息提取第
一发音元素和第二发音元素。
[0070]例如,如果包括在先前发音历史信息中的发音是“搜索“〇〇〇(内容名称)””,则提取器240提取第一发音元素“〇〇〇(内容名称)”和第二发音元素“搜索”。控制器250基于从先前发音历史信息的发音提取的第一发音兀素“〇〇〇(内容名称)”,将第一发音兀素“第一个”估计为第一发音元素“〇〇〇(内容名称)”。控制器250基于估计的第一发音元素确定执行区域是装置Π控制,并从存储在存储装置230中的根据第二发音元素定义的命令获取与装置UI控制相应的命令“device_select”。控制器250将与获取的第一发音元素相应的执行语言“$第一个$”和与第二发音元素相应的命令“deVice_select”进行组合来产生执行命令脚本“device_select ($第一个$)”。控制器250将包括产生的执行命令脚本的响应信息发送到显示设备100。因此,显示设备100基于从交互服务器200接收的响应信息通过语音和文字中的至少一个,来输出响应消息“你已选择了第一内容”。显示设备100还基于响应信息的执行命令脚本从内容提供服务器300接收第一内容,并显示第一内容。[0071]根据另一示例性实施例,如果接收的发音不包括第一发音元素和第二发音元素中的至少一个,则控制器250可基于存储在存储装置230中的发音历史信息之中的在基于接收到发音的时间的预设时间范围内存储的发音历史信息,产生响应信息。
[0072]例如,提取器240没有从发音“是”提取到第一发音元素和第二发音元素。在这种情况下,控制器250确定发音“是”不清楚,并从存储在存储装置230中的发音历史信息获取基于接收到发音“是”的时间的预设时间范围内存储的先前发音历史信息。例如,如果包括在获取的先前发音历史信息中的发音是“关闭TV”,则控制器250提取第一发音元素“TV”和第二发音元素“关闭”。控制器250基于提取的第一发音元素和第二发音元素将当前接收的发音“是”估计为“确认”。因此,控制器250基于从先前发音历史信息提取的第一发音元素“TV”确定执行区域是装置控制。控制器250参照存储在存储装置230中的根据第一发音元素定义的执行语音,获得与第一发音元素“TV”相应的执行语言“$TV$”。控制器250基于被确定为装置控制的执行区域确定第二发音元素“关闭”的类型是装置功能执行。因此,控制器250从存储在存储装置230中的根据第二发音元素定义的命令获取与装置功能执行相应的命令。控制器250从获取的与装置功能执行相应的命令获取与电源控制相应的命令“device_execute_turen off (装置执行关闭)”。控制器250将与第一发音元素相应的执行语言“$TV$”和与第二发音元素相应的命令“devicejxecutejuren off”进行组合来产生执行命令脚本“device_execute_turen off ($TV$)”。如果产生了执行命令脚本,贝丨J控制器250将包括产生的执行命令脚本的响应信息发送到显示设备100。因此,显示设备100基于包括在从交互服务器200接收的响应信息中的执行命令脚本,关闭TV。
[0073]已详细描述了根据本发明总体构思的交互服务器200的元件。现在将详细描述接收用户的发音的显示设备100的元件。
[0074]图5是示出根据本总体发明构思的示例性实施例的显示设备100的框图。
[0075]参照图5,显示设备100包括输入装置110、通信器120、显示装置130、控制器140和存储装置150。
[0076]输入装置110从用户接收发音。详细地,如果输入了用户的模拟发音,则输入装置110对用户的输入模拟发音进行采样来将模拟发音转换为数字信号。这里,如果用户的输入发音包括噪声(例如,空调声音、清洁器声音等),则输入装置110从用户的发音去除噪声,并随后将已去除噪声的用户的发音转换为数字信号。输入装置110还接收各种类型的用户控制,并将各种类型的用户控制发送到控制器130。在这种情况下,输入装置110通过触摸面板、键盘(包括各种类型的功能键、数字键、专用键、字母键等)或触摸屏接收用户控制命令。
[0077]通信器120将通过输入装置110输入的用户的发音发送到服务器设备(以下称为交互服务器),并接收与发送的发音相应的响应信息。这里,通信器120可包括各种类型的通信模块,诸如,近场通信(NFC)模块(未示出)、无线通信模块(未示出)等。这里,NFC模块(未示出)与交互服务器200和提供内容的外部服务器(未示出)进行通信,并可以是蓝牙通信模块、Zigbee通信模块等。这里,交互服务器200和外部服务器被放置在近场中。无线通信模块根据无线通信协议(诸如,WiF1、电气和电子工程师协会(IEEE)等)连接到外部网络,以执行通信。无线通信模块可还包括根据各种类型的移动通信标准(诸如,第三代(3G)、第三代合作伙伴计划(3GPP)、长期演进(LTE)等)接入移动通信网络以执行通信的移动通信模块。
[0078]显示装置130可被实现为液晶显示器(IXD)、有机发光显示器(0LED)、等离子显示面板(PDP)等,来通过显示设备100提供各种类型的显示屏幕。具体地,显示装置130基于从交互服务器200接收的响应信息,显示与用户的发音相应的内容或内容信息。[0079]控制器140控制显示设备100的元件。具体地,如果包括通过组合执行语言和命令而产生的执行命令脚本的响应消息被从交互服务器200接收到,则控制器140基于包括在接收的响应信息中的执行命令脚本执行操作。
[0080]如果如上述示例中用户的发音“搜索〇〇〇(内容名称)”被从交互服务器200接收至|J,则控制器140基于接收的响应信息的执行命令脚本,通过通信器120从内容提供服务器300接收“〇〇〇(内容名称)”的剧集的内容信息,并通过显示装置130在屏幕上显示剧集的内容信息的内容列表。详细地,从交互服务器200接收的响应信息可包括执行命令脚本“content_search ($〇〇〇(内容名称)$)”。因此,控制器140对执行命令脚本“content_search ($〇〇〇(内容名称)$)”进行解析来分类为执行语言“$〇〇〇(内容名称)$”和命令“content^earch”。如果如上所述从执行命令脚本分类出执行语言和命令,则控制器140基于分类的执行语言控制显示装置130从内容提供服务器300接收“〇〇〇(内容名称)”的剧集的内容信息,并在屏幕上显示剧集的内容信息的内容列表。然而,本总体发明构思不限于此,因此通信器120可从交互服务器200接收包括“〇〇〇(内容名称)”的剧集的内容信息的响应信息。在这种情况下,控制器140可通过显示装置130在屏幕上显示包括在从交互服务器200接收的响应信息中的“〇〇〇(内容名称)”的剧集的内容信息。
[0081]如果如另一上述示例关于用户的发音“进行就寝时间预订”的响应信息被从交互服务器200接收到,则控制器140基于包括在接收的响应信息中的执行命令脚本自动将就寝时间预订设置为预设时间。详细地,从交互服务器200接收的响应信息可包括执行命令脚本“device_execute ($就寝时间预订$)”。因此,控制器140对执行命令脚本“device_execute ($就寝时间预订$)”进行解析来分类为执行语言“$就寝时间预订$”和命令“装置执行”。如果从执行命令脚本分类出执行语言和命令,则控制器140基于分类的执行语言自动将就寝时间预订设置为预设时间。如果如上所述自动设置就寝时间预订,则控制器140基于接收的响应信息通过显示装置130在屏幕上输出文本格式通知消息“已完全设置就寝时间预订”。
[0082]如图4中所示,显示装置130可根据控制器140的控制命令通过用户请求的频道接收并显示第一内容30。显示装置130可基于用户命令在屏幕上显示用户请求的第二内容的内容列表40。如果如上所述包括第二内容的剧集的内容信息41至45的内容列表40被显示在屏幕上,则控制器140可基于预设优先级将标识信息分配给剧集的内容信息41至45中的每一个。如果第一内容30和第二内容的内容列表40被显示在屏幕上,则可从用户输入用于观看与特定剧集相应的第二内容的发音。例如,用户可做出发音“选择第三个”来观看与第三剧集的内容信息43相应的第二内容。如果此发音被输入,则控制器140确定发音“选择第三个”的发音历史信息是否已被存储在存储装置150中。这里,发音历史信息可包括从先前用户输入的发音和关于当相应的发音被输入时的时间信息。如果确定发音历史信息已被存储在存储装置150中,则控制器140将包括发音“选择第三个”的发音信息和分配给剧集的内容信息41至45的标识信息发送到交互服务器200。
[0083]如果确定发音历史信息已存储在存储装置150中,则控制器140基于包括在存储的发音历史信息中的时间信息,获取最新的发音历史信息。控制器140基于包括在获取的发音历史信息中的时间信息,确定发音“选择第三个”是否已在预设时间内被输入。如果确定发音“选择第三个”已在预设时间内被输入,则控制器140通过通信器120将发音“选择第三个”发送到交互服务器200。如果确定发音“选择第三个”在预设时间内未被输入,则控制器140将包括发音“选择第三个”的发音信息和分配给显示在内容列表40上的剧集的内容信息41至45的标识信息(上述执行信息)发送到交互服务器200。
[0084]如果关于发音“选择第三个”的响应信息被从交互服务器200接收到,则控制器140基于包括在接收的响应信息中的执行命令脚本,从内容提供服务器300接收与第三剧集的内容信息43相应的第二内容,并通过显示装置130显示第二内容。
[0085]已详细描述了识别用户的发音并基于与识别的发音相应的响应信息执行操作的显示设备100的元件。现在将详细描述控制提供与用户的发音相应的响应信息的交互服务器200的方法,以及控制基于响应信息执行操作的显示设备100的方法。
[0086]图6是示出根据本总体发明构思的示例性实施例的控制交互服务器的方法的流程图。
[0087]参照图6,在操作S610,交互服务器200从显示设备100接收发音信号(以下称为发音)。这里,用户的发音是从模拟语音信号转换为数字信号的语音信号。在操作S620,交互服务器200将接收的发音转换为文本信息。根据示例性实施例,交互服务器200可通过使用STT算法将用户的发音转换为文本。然而,本总体发明构思不限于此,因此交互服务器200可从显示设备100接收用户的发音的文本信息。在这种情况下,显示设备100从自动语音识别(ASR)服务器(诸如,第一服务器10)接收用户的发音的文本信息,并将所述文本信息发送到交互服务器200。因此,交互服务器200可从显示设备100接收用户的发音的文本信息。
[0088]如果用户的发音被转换为文本信息或从显示设备100接收到用户的发音的文本信息,则在操作S630,交互服务器200从转换为文本信息的发音提取发音元素。换句话说,交互服务器200从转换为文本信息的发音提取指示特征的第一发音元素和指示执行命令的第二发音元素。如果提取出第一发音元素和第二发音元素中的至少一个,则在操作S640,交互服务器200确定是否可能基于提取的发音元素产生适合用户的意图的响应信息。如果在操作S640确定不可能基于提取的发音元素产生响应信息,则交互服务器200不从用户的发音产生响应信息。如果在操作S640确定可能基于提取的发音元素产生响应信息,则在操作S650,交互服务器200从用户的发音产生响应信息。在操作S660,交互服务器200将响应信息发送到显示设备100。
[0089]详细地,如果从用户的发音提取出第一发音元素和第二发音元素,则交互服务器200确定分别与提取的第一发音元素和第二发音元素相应的执行语言和命令是否已被存储。这里,第一发音元素是指示特征的发音元素,第二发音元素是指示执行命令的发音元素。因此,交互服务器200确定与指示特征的第一发音元素相应的执行语言和与指示执行命令的第二发音元素相应的命令是否已被存储。如果确定分别与提取的第一发音元素和第二发音元素相应的执行语言和命令已被存储,则交互服务器200将分别与提取的第一发音元素和第二发音元素相应的执行语言和命令进行组合来产生执行命令脚本。如果确定分别与提取的第一发音元素和第二发音元素相应的执行语言和命令未被存储,则交互服务器200确定是否可能基于存储的发音历史信息估计分别与提取的第一发音元素和第二发音元素相应的执行语言和命令。如果确定可能基于存储的发音历史信息估计分别与提取的第一发音元素和第二发音元素相应的执行语言和命令,则交互服务器200将估计的执行语言和命令进行组合来产生执行命令脚本。如果确定不可能基于存储的发音历史信息估计分别与提取的第一发音元素和第二发音元素相应的执行语言和命令,则交互服务器200不产生用户的发音的响应信息。如上所述,交互服务器200确定是否可能基于从用户的发音提取的发音元素和存储的发音历史信息产生用户的发音的响应信息,并根据确定结果将产生的响应信息发送到显示设备100。
[0090]现在将参照图7详细描述在交互服务器200中基于从用户的发音提取的发音元素和存储的发音历史信息产生响应信息的方法。
[0091]图7是示出根据本总体发明构思的示例性实施例的在交互服务器中产生响应信息的方法的流程图。
[0092]参照图7,通过上述操作620,用户的发音被转换为文本信息或者转换为文本信息的发音被从显示设备100接收到。如果如上所述用户的发音被转换为文本信息或被接收至|J,则交互服务器200从转换为文本信息的发音提取发音元素。如果提取出发音元素,则在操作S710,交互服务器200对提取的发音元素进行解析来确定发音元素是否包括指示特征的第一发音元素和指示执行命令的第二发音元素。如果在S710确定提取的发音元素不包括第一发音元素和第二发音元素中的至少一个,则交互服务器200通过操作S740确定先前发音历史信息是否已被存储,将稍后对其进行描述。
[0093]如果从用户的发音提取出第一发音元素和第二发音元素,则在操作S720,交互服务器200确定分别与提取的第一发音元素和第二发音元素相应的执行语言和命令是否存在。如果在操作S720确定分别与提取的第一发音元素和第二发音元素相应的执行语言和命令存在,则在操作730,交互服务器200将分别与提取的第一发音元素和第二发音元素相应的执行语言和命令进行组合来产生响应信息。如果在操作S720确定分别与提取的第一发音元素和第二发音元素相应的执行语言和命令不存在,则在操作S740,交互服务器200确定发音的发音历史信息是否在接收到用户的发音之前存在。如果在操作S740确定发音历史信息不存在,则交互服务器200不产生关于用户的发音的响应信息。如果在操作S740确定发音历史信息存在,则在操作S750,交互服务器200获取在基于接收到用户的发音的时间的预设时间范围内存储的发音历史信息。在操作S760,交互服务器200将获取的发音历史信息内的与从用户的发音提取的第一发音元素相应的执行语言和与从用户的发音提取的第二发音元素相应的命令估计为的与用户的发音相应的执行语言和命令。如果如上所述从用户的发音提取执行语言和命令,则在操作S770,交互服务器200将估计的执行语言和命令进行组合来产生响应信息。
[0094]现在将描述如果从用户的发音提取的发音元素不包括第一发音元素和第二发音元素中的至少一个,则在交互服务器200中产生用户的发音的响应信息的方法。
[0095]例如,交互服务器200没有从发音“是”提取第一发音元素和第二发音元素。在这种情况下,交互服务器200确定发音“是”不清楚并从存储的发音历史信息获取在基于接收到发音“是”的时间的预设时间范围内存储的先前发音历史信息。例如,如果包括在获取的先前发音历史信息中的发音是“关闭TV”,则交互服务器200提取第一发音元素“TV”和第二发音元素“关闭”。交互服务器200基于提取的第一发音元素和第二发音元素将当前接收的发音“是”估计为“确认”。因此,交互服务器200基于从先前发音历史信息提取的第一发音元素“TV”确定执行区域是装置控制。交互服务器200参照根据存储的第一发音元素而定义的执行语言来获取与第一发音元素“TV”相应的执行语言“$TV$”。交互服务器200基于被确定为装置控制的 执行区域,确定第二发音元素“关闭”的类型与装置功能执行相关。因此,交互服务器200从根据存储的第二发音元素而定义的命令来获取与装置功能执行相应的命令。交互服务器200从获取的与装置功能执行相应的命令获取与电源控制相应的命令“devicejxecutejuren off”。交互服务器200将执行语言“$TV$ ”和第二发音元素相应的命令“device_execute_turen off”进行组合来产生执行命令脚本“device_execute_turen ofT($TV$)”。如果如上所述产生执行命令脚本,则交互服务器200产生包括产生的执行命令脚本的响应信息。
[0096]现在将描述如果分别与从用户的发音提取的第一发音元素和第二发音元素相应的执行语言和命令存在,则在交互服务器200中产生用户的发音的响应信息的方法。
[0097]如果输入了发音“搜索〇〇〇(内容名称)”,则交互服务器200从发音“搜索〇〇〇(内容名称)”提取第一发音元素“〇〇〇(内容名称)”和第二发音元素“搜索”。如果如上所述提取了第一发音元素和第二发音元素,则交互服务器200基于提取的第一发音元素确定执行区域是内容。交互服务器200从根据存储的第一发音元素定义的命令提取与第一发音元素“〇〇〇(内容名称)”相应的执行语言“$〇〇〇(内容名称)$”。交互服务器200基于被确定为内容的执行区域,确定第二发音元素“搜索”的类型与内容搜索相关。因此,交互服务器200从根据存储的第二发音元素定义的命令获取与内容搜索相应的命令“content_search,,。
[0098]如果如上所述获取了分别与第一发音元素和第二发音元素相应的执行语言和命令,则交互服务器200将执行语言“$〇〇〇(内容名称)丨”和命令“⑶社的七^册代^’进行组合来产生执行命令脚本“content_searCh ($〇〇〇(内容名称)$)”。如果产生了执行命令脚本,则交互服务器200产生包括产生的执行命令脚本的响应信息。[0099]现在将描述如果分别与从用户的发音提取的第一发音元素和第二发音元素相应的执行语言和命令不存在,则在交互服务器200中产生用户的发音的响应信息的方法。
[0100]例如,交互服务器200可从发音“选择第一个”提取第一发音元素“第一个”和第二发音元素“选择”。如果如上所述提取了第一发音元素和第二发音元素,则交互服务器200确定分别与第一发音元素和第二发音元素相应的执行语言和命令是否已被存储。详细地,交互服务器200参照根据存储的第一发音元素定义的执行语言,获取与第一发音元素“第一个”相应的执行语言“$第一个$”。交互服务器200确定是否可能基于提取的第一发音元素确定执行区域。如果确定不可能基于第一发音元素“第一个”确定执行区域,则交互服务器200不从根据存储的第二发音元素定义的命令获取与第二发音元素“选择”相应的命令。因此,交互服务器200从发音“选择第一个”确定用于提供发音的服务的执行区域和执行命令不清楚。根据确定结果,交互服务器200确定存储的发音历史信息是否包括在基于发音“选择第一个”的时间的预设时间范围内存储的发音历史信息。换句话说,交互服务器200确定发音“选择第一个”和存储的发音历史信息之中的最新存储的先前发音历史信息的时间之间的时间差是否属于预设时间范围。如果确定发音“选择第一个”和存储的发音历史信息之中的最新存储的先前发音历史信息的时间之间的时间差不属于预设时间范围,则交互服务器200不产生发音“选择第一个”的响应信息。如果确定最新存储的先前发音历史信息属于预设时间范围,则交互服务器200从包括在先前发音历史信息中的发音的文本信息提取第一发音元素和第二发音元素。
[0101]例如,如果包括在先前发音历史信息中的发音是“〇〇〇(内容名称)”,则交互服务器200提取第一发音元素“〇〇〇(内容名称)”和第二发音元素“搜索”。交互服务器200基于从包括在先前发音历史信息中的发音提取的第一发音元素和第二发音元素中的第一发音元素“〇〇〇(内容名称)”,将第一发音元素“第一个”估计为第一发音元素“〇〇〇(内容名称)”。交互服务器200基于估计的第一发音元素,确定执行区域是装置UI控制,并从根据存储的第二发音元素定义的命令获取与装置Π控制相应的命令“deViCe_SeleCt”。交互服务器200将与获取的第一发音元素相应的执行语言“$第一个$”和与第二发音元素相应的命令“device_select”进行组合来产生执行命令脚本“device_select ($第一个$)”。如果产生了执行命令脚本,则交互服务器200产生包括产生的执行命令脚本的响应信息。
[0102]如上所述,根据本总体发明构思的交互服务器200对用户的发音进行解析来理解用户的意图,并确定是否可能基于理解的用户的发音意图产生响应信息。如果确定不可能基于用户的发音意图产生响应信息,则交互服务器200基于用户的先前发音产生用户的当前发音的响应信息。因此,用户按照用户希望表达的方式来做出发音,而无需被限于特定发音,以被提供发音的服务。
[0103]上述示例性实施例和优点仅是示例性的,并且不应被解释为限制性的。本教导可容易地应用于其它类型的设备。此外,示例性实施例的描述意是说明,而不是限制权利要求的范围,并且许多替换、修改和变化对与本领域技术人员而言将是清楚的。
【权利要求】
1.一种交互服务器,包括: 通信器,被构造为与设备进行通信来接收第一发音信号; 存储装置,被构造为存储在接收到第一发音信号之前从所述设备接收的第二发音信号的发音历史信息; 提取器,被构造为从接收的第一发音信号提取发音元素; 控制器,被构造为基于存储在存储装置中的发音历史信息和提取的发音元素之中的至少一个来产生响应信息,并将所述响应信息发送到所述设备。
2.如权利要求1所述的交互服务器,其中, 如果分别与提取的发音元素相应的执行语言和命令被存储在存储装置中,则控制器将分别与发音元素相应的执行语言和命令进行组合来产生响应信息; 如果分别与提取的发音元素相应的执行语言和命令未被存储在存储装置中,则控制器基于存储在存储装置中的发音历史信息,估计分别与提取的发音元素相应的执行语言和命令,并将估计的执行语言和命令进行组合来产生响应信息。
3.如权利要求2所述的交互服务器,其中: 第一发音信号包括第一发音兀素和第二发音兀素; 如果分别与提取的发音元素相应的执行语言和命令未被存储在存储装置中,则控制器获取在基于接收到第二发音信号的时间的预设时间范围内存储的发音历史信息,并将获取的发音历史信息内的与第一发音元素相应的执行语言和与第二发音元素相应的命令估计为与第一发音信号相应的执行语言和命令。
4.如权利要求3所述的交互服务器,其中,如果存储在存储装置中的发音历史信息不包括在基于接收到第二发音信号的时间的预设时间内存储的发音历史信息,则控制器不产生响应信息。
5.如权利要求3所述的交互服务器,其中,如果第一发音信号不包括第一发音兀素和第二发音元素中的至少一个,则控制器根据在基于接收到第二发音信号的时间的预设时间内存储的发音历史信息,产生与第二发音信号相应的响应信息。
6.如权利要求1所述的交互服务器,还包括: 语音处理器,被构造为将接收的第一语音信号转换为文本信息。
7.—种控制交互服务器的方法,所述方法包括: 从设备接收第一发音信号; 从接收的第一发音信号提取发音元素; 基于存储的发音历史信息和提取的发音兀素之中的至少一个来产生响应信息; 将产生的响应信息发送到所述设备, 其中,存储的发音历史信息是在接收到第一发音信号之前基于从所述设备接收的第二发音信号产生的信息。
8.如权利要求7所述的方法,还包括: 确定分别与提取的发音元素相应的执行语言和命令是否存在, 其中,如果分别与提取的发音元素相应的执行语言和命令存在,则分别与发音元素相应的执行语言和命令被组合来产生响应信息,并且如果分别与发音元素相应的执行语言和命令不存在,则与提取的发音元素相应的执行语言和命令基于存储的发音历史信息被估计并被组合来产生响应信息。
9.如权利要求8所述的方法,其中: 第一发音信号包括第一发音兀素和第二发音兀素; 如果分别与发音元素相应的执行语言和命令不存在,则获取在基于接收到第二发音的时间的预设时间范围内存储的发音历史信息,并且获取的发音历史信息内的与第一发音元素相应的执行语言和与第二发音元素相应的命令被估计为与第一发音信号相应的执行语H和命令。
10.如权利要求9所述的方法,其中,如果发音历史信息不包括在基于接收到第二发音信号的时间的预设时间范围内存储的发音历史信息,则不产生响应信息。
11.如权利要求9所述的方法,其中,如果第一发音信号不包括第一发音元素和第二发音元素中的至少一个,则根据在基于接收到第二发音信号的时间的预设时间范围内存储的发音历史信息产生与第一发音信号相应的响应信息。
12.如权利要求7所述的方法,还包括: 将接收的第一发音信号转换为文字信息。
【文档编号】G06F3/0487GK103914234SQ201410006748
【公开日】2014年7月9日 申请日期:2014年1月7日 优先权日:2013年1月7日
【发明者】郑知惠, 李清宰, 李蕙汀, 申容旭 申请人:三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1