显示设备及其控制方法与流程

文档序号：16092317发布日期：2018-11-27 23:09阅读：223来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请要求于2017年5月12日在美国专利和商标局提交的美国临时申请编号62/505,363和2017年7月19日在韩国知识产权局提交的韩国专利申请号10-2017-0091494的权益，所述专利申请的全部内容通过引用的方式并入本文。

技术领域

符合本申请实施方案的装置和方法涉及显示设备及其控制方法，并且更具体地涉及支持各种语言的内容的语音识别的显示设备及其控制方法。

背景技术：

随着电子技术的发展，各种类型的显示设备已经被开发出来。特别地，诸如电视机、移动电话机、个人计算机、笔记本电脑、膝上型计算机、平板电脑、智能电话机、以及个人数字助理的各种电子设备被广泛采用。

近来，语音识别技术已经发展为更方便且更直观地控制显示设备。

常规地，由用户语音控制的显示设备通过使用语音识别引擎来执行语音识别。然而，语音识别引擎根据所使用的语言而变化，并且因此可以预先确定供使用的语音识别引擎。通常，显示设备的系统语言被确定为有待用于语音识别的语言。

然而，假定在显示设备上显示的超链接文本中使用英语并且韩语被用作显示设备的系统语言，则即使用户说出与超链接文本相对应的语音，语音也会通过韩国语音识别引擎来转换成韩语文本。因此，问题在于超链接文本不能够进行选择。

因此，当系统语言与显示设备上的语言不同时，通过语音来控制显示设备是有限制的。

技术实现要素：

示例性实施方案的各方面涉及对呈各种语言的内容提供语音识别控制的显示设备及其控制方法。

根据示例性实施方案的一个方面，提供了一种显示设备，包括：显示器；以及处理器，所述处理器被配置为控制所述显示器以显示包括多个文本对象的用户界面，控制所述显示器显示所述多个文本对象中的呈不同于预设语言的语言的文本对象以及预设符号，并且响应于由用户说出的语音的包括所述符号的识别结果，执行与对应于所述符号的文本对象有关的操作。

所述处理器进一步被配置为将在所述显示设备的设置菜单中设置的语言设置为所述预设语言，或者将针对所述多个文本对象最多使用的语言设置为所述预设语言。

所述用户界面可以是网页，并且所述处理器可以进一步被配置为将与所述网页的语言信息相对应的语言设置为所述预设语言。

所述处理器可以进一步被配置为基于至少两种语言的比率，将所述多个文本对象中具有所述至少两种语言的文本对象确定为呈与所述预设语言不同的语言的文本对象。

所述处理器可以进一步被配置为控制所述显示器以便邻近与所述符号相对应的文本对象显示所述符号。

所述显示设备还可以包括通信器，并且所述处理器可以进一步被配置为在所述通信器接收到与外部设备的特定按钮的选择相对应的信号的同时控制所述显示器显示所述符号。

所述外部设备可以包括送话器，所述通信器可以被配置为接收与通过所述外部设备的所述送话器输入的语音相对应的语音信号，并且所述处理器可以进一步被配置为响应于所接收的语音信号的包括所述符号的识别结果，执行与对应于所述符号的文本对象有关的操作。

所述处理器可以进一步被配置为响应于所接收的语音信号的包括与所述多个文本对象中的一个相对应的文本的识别结果，执行与所述文本对象有关的操作。

与所述文本对象有关的所述操作可以包括显示具有与所述文本对象相对应的URL地址的网页或执行与所述文本对象相对应的应用程序的操作。

所述多个文本对象可以被包括在第一应用的执行屏幕中，并且所述处理器可以进一步被配置为在显示所述第一应用的执行屏幕的同时，响应于确定了与所述用户说出的语音的识别结果相对应的对象未被包括在所述第一应用的所述执行屏幕中，执行与所述第一应用不同的第二应用并执行与所述语音识别结果相对应的操作。

所述第二应用可以提供搜索词的搜索结果，并且所述处理器可以进一步被配置为在显示所述第一应用的所述执行屏幕的同时，响应于确定了与所述用户说出的所述语音的所述识别结果相对应的所述对象未被包括在所述第一应用的执行屏幕中，执行所述第二应用并使用与所述语音识别结果相对应的文本作为搜索词来提供搜索结果。

所述显示设备还可以包括通信器，所述通信器被配置为执行与执行多种不同语言的语音识别的服务器的通信，并且所述处理器可以进一步被配置为控制所述通信器向所述服务器提供与所述用户说出的语音相对应的语音信号和关于所述预设语言的信息，并且响应于从所述服务器接收到的包括所显示数字的语音识别结果，执行与对应于所述符号的文本对象有关的操作。

所述处理器可以进一步被配置为响应于从所述服务器接收的包括与所述多个文本对象中的一个相对应的文本的所述语音识别结果，执行与所述文本对象有关的操作。

根据示例性实施方案的一个方面，提供了用于显示设备的控制方法，所述方法包括：显示包括多个文本对象的用户界面；显示呈不同于预设语言的语言的文本对象以及符号；以及响应于用户说出的语音的包括所述符号的识别结果，执行与对应于所述符号的文本对象有关的操作。

所述方法还可以包括将在所述显示设备的设置菜单中设置的语言设置为所述预设语言，或者将针对所述多个文本对象最多使用的语言设置为所述预设语言。

所述多个文本对象被包括在网页中并且用于所述显示设备的所述控制方法还可以包括将与所述网页的语言信息相对应的语言设置为所述预设语言。

所述方法还可以包括基于至少两种语言的比率，将所述多个文本对象中呈所述至少两种语言的文本对象确定为呈与所述预设语言不同的语言的文本对象。

所述文本对象以及所显示数字的显示可以包括邻近与所述符号相对应的文本对象显示所述符号。

所述文本对象以及所显示数字的显示可以包括在从所述外部设备接收到与外部设备的特定按钮的选择相对应的信号的同时控制所述显示器显示所述符号。

执行与所述文本对象有关的所述操作可以包括显示具有与所述文本对象相对应的URL地址的网页并执行与所述文本对象相对应的应用程序。

所述多个文本对象可以被包括在第一应用的执行屏幕中，并且所述方法还可以包括在显示所述第一应用的执行屏幕的同时，响应于确定了与所述用户说出的语音的识别结果相对应的对象未被包括在所述第一应用的所述执行屏幕中，执行与所述第一应用不同的第二应用并执行与所述语音识别结果相对应的操作。

所述方法还可以包括向服务器提供关于与所述用户说出的所述语音相对应的语音信号和预设语言的信息，所述服务器被配置为执行多种不同语言的语音识别，并且执行与所述文本对象有关的操作可以包括，响应于通过所述服务器接收的包括所显示数字的所述语音识别结果，执行与对应于所显示数字的文本对象有关的操作。

根据示例性实施方案的一个方面，提供了一种非暂时性计算机可读介质，其具有在其上具体化以用于执行控制显示设备的方法的程序，所述方法可以包括：控制所述显示设备显示包括多个文本对象的用户界面；已经显示呈不同于预设语言的语言的文本对象以及预设数字；以及响应于用户说出的语音的包括所述符号的识别结果，执行与对应于所述符号的文本对象有关的操作。

附图说明

图1和图2是示出根据本公开的示例性实施方案的用于向显示设备输入语音命令的方法的视图；

图3是示出根据本公开的示例性实施方案的语音识别系统的视图；

图4是示出根据本公开的示例性实施方案的显示设备的配置的框图；

图5、图6和图7是示出根据本公开的示例性实施方案的显示用于选择对象的数字的视图；

图8和图9是示出根据本公开的示例性实施方案的语音搜索方法的视图；

图10是示出根据本公开的示例性实施方案的显示设备的框图；并且

图11是示出根据本公开的示例性实施方案的控制显示设备的方法的流程图。

具体实施方式

在详细描述本公开之前，将描述描绘本说明书和附图的方法。

本说明书所使用的全部术语，包括技术或科学术语，具有与本领域技术人员通常理解的相同的含义。然而，这些术语可以根据本领域技术人员的意图、法律或技术解释以及新技术的出现而变化。另外，可以任意选择一些术语。这些术语可以本文定义的含义解释，并且除非另外说明，否则可以基于本说明书的全部内容和所属领域公知技术知识来解释。

诸如“第一”、“第二”等术语可以用于描述各种要素，但是要素不应受这些术语的限制。术语仅用于将一个要素和其他要素进行区分。这种序数的使用不应被解释为限制所述术语的含义。例如，与这样的序数相关联的组件不应当按照使用顺序、放置顺序等来限制。如有必要，每个序数可以互换使用。

在本申请中使用的术语仅用于描述特定的示例性实施方案，并不旨在进行限制。单数形式旨在也包括复数形式，除非上下文清楚地指示不包括。将进一步理解的是，诸如“包括”或“具有”等的术语旨在指示说明书中所公开的特征、数字、操作、动作、组件、部件或其组合的存在，并且不意图排除一个或多个其他特征、数字、操作、动作、组件、部件或其组合可能存在或可能被添加的可能性。

在示例性实施方案中，被配置为执行至少一个功能或操作的“模块”、“单元”或“部件”可以被实现为硬件和软件，所述硬件诸如处理器或集成电路，所述软件存储在存储器中、从存储器下载并由从存储器读取的处理器执行或其组合。另外，多个“模块”、多个“单元”或多个“部件”可以被集成到至少一个模块或芯片中，并且可以被实现为除了应当在特定硬件中实现的“模块”、“单元”或“部件”之外的至少一个处理器。

在下文中，将参考附图详细描述本公开的示例性实施方案。

图1是示出根据本公开的示例性实施方案的由语音识别控制的显示设备的视图。

参见图1，显示设备100可以是如图1所示的电视机(TV)，但不限于此。显示设备100可以被具体化为能够显示信息和图像的任何种类的装置，诸如智能电话机、台式PC、笔记本电脑或平板电脑、智能手表或其他用户外围设备、导航装置、冰箱或家用电器等。

显示设备100可以基于用户说出的语音的识别结果来执行操作或执行命令。例如，当用户说“切换到频道7”时，显示设备100可以调谐到频道7并且显示频道7上的节目，并且当用户说“切断电源”时，显示设备100的电力可以被切断。

因此，用户可以感知的是，显示设备100可以像显示设备与用户进行沟通一样进行操作。例如，当用户询问“广播节目的名称是什么？”时，显示设备可以通过语音或文本输出响应消息“广播节目的名称是xxx”。当用户通过语音询问“今天天气如何？”时，显示设备可以通过语音或文本输出消息“请告诉我你想知道温度的位置”，并且响应于此，当用户回答“首尔”时，显示设备100可以通过语音或文本输出消息“首尔的温度是xxx”。

如图1所示，显示设备100可以通过连接到显示设备100或附接到显示设备100的送话器来接收用户语音。显示设备100可以从外部设备接收与通过外部设备(诸如PC或智能电话机)的送话器接收的语音相对应的语音信号。这一点的详细描述将参考图2进行。

图2是示出根据本公开的示例性实施方案的显示系统的视图。

参见图2，显示系统可以包括显示设备100和外部设备200。

如图1所述，显示设备100可以根据语音识别结果进行操作。

图2示出外部设备200被具体化为远程控制器的实例，尽管外部设备200可以被具体化为诸如智能电话机、平板PC、智能手表等的电子设备。

外部设备200可以包括送话器并且将与通过送话器输入的语音相对应的信号传输到显示设备100。信号可以对应于用户的语音或与用户的语音相对应的由外部设备200转换为文本的文本。例如，外部设备200可以使用诸如红外(IR)、RF、蓝牙、WiFi等的无线通信方法将语音信号传输到显示设备100。

当预定事件发生时，外部设备200可以被启用，从而节省电力。例如，当外部设备200的送话器按钮210被按下时，送话器可以被启用，并且当送话器按钮210被释放时，送话器可以被禁用。换句话说，只有当送话器按钮210被按下时，送话器才可以接收语音。

外部服务器可以执行对通过显示设备100的送话器或外部设备200的送话器接收的语音的识别。

图3是示出根据本公开的示例性实施方案的语音识别系统的视图。

参见图3，语音识别系统200可以包括显示设备100和服务器300。如关于图2所描述的，所述系统还可以包括外部设备200。

显示设备100可以根据如图1所述的语音识别结果进行操作。显示设备100和/或外部设备200可以将与通过显示设备100的送话器或外部设备200的送话器输入的语音相对应的语音信号传输到服务器300。

显示设备100可以将指示基于哪种语言识别语音信号的信息(以下称为“语言信息”)连同语音信号一起传输到服务器300。虽然输入了相同的语音信号，但是语音识别结果可以根据使用哪种语言语音识别引擎而变化。

服务器300可以执行多种不同语言的语音识别。服务器300可以包括对应于相应语言的各种语音识别引擎。例如，服务器300可以包括韩语语音识别引擎、英语语音识别引擎、日语语音识别引擎等。服务器300可以响应于从显示设备100接收到的语音信号和语言信息，通过使用与语音信号和语言信息的相对应语音识别引擎来执行语音识别。

服务器300可以将语音识别结果传输到显示设备100，并且显示设备100可以执行与从服务器300接收到的语音识别结果相对应的操作。

例如，当从服务器300接收到的语音识别结果中包括的文本对应于显示设备100中包括的文本对象时，显示设备100可以执行与文本对象有关的操作。例如，当语音识别结果中包括的文本对应于网页中的文本对象时，显示设备100可以显示具有与文本对象相对应的URL地址的网页。然而，本公开不限于此，但可以通过语音识别来选择由显示设备100的各种应用提供的用户界面(UI)对象，并且可以执行对应的操作。

服务器300可以被具体化为一个服务器，但服务器300可以被具体化为分别对应于多种语言的多个服务器。例如，可以分开提供韩语语音识别服务器和英语语音识别服务器。

在所描述的实例中，语音识别可以由与显示设备100分离的服务器300执行，但根据另一个实施方案，显示设备100或外部设备200可以用作服务器300。换句话说，显示设备100或外部设备200可以与服务器300一体地实施。

图4是示出根据本公开的示例性实施方案的显示设备的框图。

显示设备100可以包括显示器110和处理器120。

显示器110可以被实施为液晶显示器(LCD)，例如阴极射线管(CRT)、等离子显示面板(PDP)、有机发光二极管(OLED)、透明OLED(TOLED)等。另外，显示器110可以被实施为能够感测用户的触摸操作的触摸屏。

处理器120可以控制显示设备100的整体操作。

例如，处理器120可以是与RAM、ROM和系统总线通信的中央处理单元(CPU)或微处理器。ROM可以存储用于系统引导的命令集。CPU可以根据存储在ROM中的命令将存储在显示设备100的存储装置中的操作系统复制到RAM中，执行操作系统并执行系统引导。当引导完成时，CPU可以将存储在存储装置中的各种应用复制到RAM中，执行应用并执行各种操作。尽管在上文的描述中处理器120被描述为仅包括一个CPU，但处理器120可以被具体化为多个CPU(或DSP、SoC等)或处理器核心。

响应于接收到用于选择在显示器110上显示的对象的用户命令，处理器120可以执行与由用户命令选择的对象有关的操作。所述对象可以是可选对象中的任何一个，例如超链接或图标。与所选择的对象有关的操作可以是例如显示连接到超链接的页面、文档、图像等的操作，或者执行与所述图标相对应的程序的操作。

用于选择对象的用户命令可以是通过连接到显示设备100的各种输入装置(例如，鼠标、键盘、触摸板等)输入的命令或者与由用户说出的语音相对应的语音命令。

虽然在图4中未示出，但显示设备100还可以包括用于接收用户语音的语音接收器。语音接收器可以通过送话器直接接收用户语音并生成语音信号，或者从外部设备200接收电子语音信号。当语音接收器从外部设备200接收到电子语音信号时，语音接收器可以被具体化为用于执行与外部设备200的有线/无线通信的通信器。语音接收器可以不包括在显示设备100中。例如，与通过外部设备200的送话器输入的语音相对应的语音信号可以通过另一设备而不是显示设备100来传输到服务器300，或者可以被直接从外部设备200传输到服务器300。在这种情况下，显示设备100可以仅接收来自服务器300的语音识别结果。

处理器120可以控制显示器110显示在显示器110上显示的文本对象中的呈与预设语言不同的语言的文本对象以及数字。

预设语言可以指用于语音识别的基本语言(有待用于语音识别的语音识别引擎的语言)。预设语言可以由用户手动设置或自动设置。当预设语言由用户手动设置时，例如，可以将被设置为在显示设备100的设置菜单中使用的语言(或系统语言)的语言设置为用于语音识别的基本语言。

当预设语言被自动设置时，处理器120可以标识主要用于在显示器110上显示的文本对象的语言并且将所述语言设置为用于语音识别的基本语言。

具体而言，处理器120可以对在显示器110上显示的多个文本对象中的每一个中包含的字符的类型(例如，韩语或字母)进行分析，并且将主要用于多个文本对象的字符的语言设置为用于语音识别的基本语言。

根据另一实施方案，当显示器110上显示的文本对象被包括在网页中时，处理器120可以将与网页的语言信息相对应的语言设置为用于语音识别的基本语言。网页的语言信息可以通过HTML的lang属性(例如，<html lang＝“en”>)来确认。

当设置了用于语音识别的基本语言时，处理器120可以控制显示器110以便以与基本语言不同的语言显示文本对象以及预设数字。用户可以通过说出在显示器110上显示的预设数字来选择文本对象。另外，由于图像可能不是通过语音来选择的，因此处理器120可以控制显示器110显示图像对象以及预设数字。

处理器120可以将呈用于语音识别的基本语言之外的语言的文本对象确定为呈与用于语音识别的基本语言不同的语言的文本对象。如果预设语言的比率小于预定比率，则处理器120可以将呈至少两种语言的文本对象确定为呈与用于语音识别的基本语言不同的语言的文本对象。

图5是示出显示设备上所显示的屏幕的视图。

参见图5，可以在显示器110上显示包括多个文本对象51至59的UI屏幕。当用于语音识别的基本语言是英语时，处理器120可以控制显示器以英语之外的语言显示文本对象51至56以及预设数字①至⑥。预设数字①至⑥可以被显示成与对应的文本对象51至56相邻。呈英语的文本对象51和58可以与特定图标57a和58a一起显示，以便通知用户可以通过说出文本对象51和58中包括的文本来选择文本对象51和58。如图5所示，图标57a和58a可以由“T”表示，但是不限于此，而是以诸如“文本”的各种形式表示。

关于呈至少两种语言的文本对象59，处理器120可以确认英语比率是否大于预定比率(例如，50％)，并且如果所述比率小于预定比率，则控制显示器显示呈至少两种语言的文本对象59以及数字。图5中的文本对象59可以是韩语和英语，但由于英语比率大于预定比率(例如50％)，因此可能不一起显示数字。相反，通过说出在文本对象中包括的文本，指示文本对象是可选择的图标59a可以被显示成与文本对象59相邻。

参见图5，数字被示出为具有例如“①”的形式，但数字的形式不受限制。例如，正方形或圆形可以环绕数字“1”，或者数字可以简单地用“1”表示。根据本公开的另一实施方案，数字可以由用于语音识别的基本语言的单词表达。如果用于语音识别的基本语言是英语，则数字可以用“one”表示，或者如果语言是西班牙语，则数字可以用“uno”表示。

尽管在图5中未示出，但可以连同数字在显示器100上进一步显示鼓励用户说出数字的短语诸如“可以选择与所述数字相对应的对象”。

根据另一示例性实施方案，如果呈至少两种语言的文本对象的第一单词与用于语音识别的语言不同，则处理器120可以确定的是，文本对象不同于呈用于语音识别的基本语言的文本对象。

图6是示出显示器上所显示的屏幕的视图。

参见图6，可以在显示器110上显示包括多个文本对象61至63的UI屏幕。当有待用于语音识别的语言是韩语时，处理器120可以将呈至少两种语言的文本对象61确定为呈与用于语音识别的基本语言不同的语言的文本对象，因为文本对象61的第一单词“AAA”是英语，而不是作为用于语音识别的基本语言的韩语。因此，处理器120可以控制显示器110显示文本对象61以及数字①。

根据参考图6的示例性实施方案，即使在呈至少两种语言的文本对象中用于语音识别的基本语言的比率大于预定比率，如果文本对象的第一单词不是用于语音识别的基本语言，则也可以显示数字。相反第，即使在呈至少两种语言的文本对象中用于语音识别的基本语言的比率小于预定比率，如果文本对象的第一单词是用于语音识别的基本语言，则可以不显示数字。这是因为用户可能会说出文本对象的第一单词来选择文本对象。

根据另一示例性实施方案，可以不通过语音来选择图像对象。因此，数字可以与图像对象一起显示。

图7是示出显示器上所显示的屏幕的视图。

参见图7，可以在显示器110上显示第一图像对象71、第二图像对象72、第三图像对象74、第一文本对象73以及第二文本对象75。处理器120可以控制显示器110显示图像对象71以及数字①。

根据另一示例性实施方案，当在显示器110上显示的多个对象各自具有URL链接时，处理器120可比较多个对象的URL链接。如果具有相同URL链接的对象不能通过语音识别来选择，则处理器120可控制显示器110显示数字以及多个对象中的一个，并且如果多个对象中的任何一个可通过语音识别来选择，则处理器120可以控制显示器110不显示数字。

具体而言，当在显示器110上显示不能通过语音识别选择的具有相同的URL链接的多个对象(即，呈与用于语音识别的基本语言不同的语言的文本对象或图像对象)时，可以在多个对象中的一个附近显示数字。参见图7，第二图像对象72不能通过语音来选择，并且第一文本对象73可以是与作为用于语音识别的基本语言的韩语不同的语言。因此，由于第二图像对象72和第一文本对象73不能通过语音来选择，但两者在被选择时均连接到相同的URL链接，所以数字②可以显示在第二图像对象72附近或者在第一文本对象73附近。这是为了减少显示器110上显示的数字的数量。

为了减少显示器110上显示的数字的数量，根据另一示例性实施方案，可以在显示器110上显示具有相同URL地址的多个对象，并且如果多个对象中的任何一个是呈基本语言的文本对象，则可以不显示数字。参见图7，处理器120可以将第三图像对象74的URL地址与第二文本对象75的URL地址进行比较，并且如果确定了第三图像对象74的URL地址与第二文本对象75的URL地址相同，并且第二文本对象75是呈作为用于语音识别的基本语言的韩语的文本对象，则处理器120可以控制显示器110不在第三图像对象74附近显示数字。

如果由用户说出的语音的识别结果包括在显示器110上显示的特定文本，则处理器120可以执行与对应于所述文本的文本对象有关的操作。参见图5，如果用户说出“语音识别(voice recognition)”，则处理器120可以控制显示器110显示具有与文本对象59相对应的URL地址的页面。

根据示例性实施方案，当用户说出的语音的识别结果包括通常在显示器110上显示的多个文本对象中的至少两个文本对象中包括的文本时，处理器120可以每个文本对象附近显示数字，并且当用户说出所显示的数字时，执行与对应于所述数字的文本对象有关的操作。

参见图5，当用户说出的语音的识别结果包括文本“话语识别(speech recognition)”时，处理器120可以从所显示的文本对象中搜索包括短语“话语识别”的文本对象。当搜索到多个文本对象57和58时，处理器120可以控制显示器110在文本对象57和58中的每一个附近显示预设数字。例如，当数字⑦被显示在文本对象57的附近并且数字⑧被显示在文本对象58的附近时，用户可以通过说出数字“7”来选择文本对象57。当语音识别结果包括在显示器110上显示的数字时，处理器120可以执行与对应于数字的文本对象或图像对象有关的操作。

参见图6，如果用户说出“一”，则处理器120可以控制显示器110显示具有与文本对象61相对应的URL地址的页面。

用户说出的语音可以通过显示设备100的送话器或外部设备200的送话器输入。当通过外部设备200的送话器输入用户语音时，显示设备100可以包括通信器以便与包括送话器的外部设备200进行通信，并且通信器可以接收与通过外部设备200的送话器输入的语音相对应的语音信号。如果通过通信器从外部设备200接收到的语音信号的识别结果包括在显示器110上显示的数字，则处理器120可以执行与对应于所述数字的文本对象有关的操作。参见图6，当用户通过外部设备200的送话器说出“一”输入时，外部设备200可以将语音信号传输到显示设备100，并且处理器120可以控制显示器110基于接收到的语音信号的语音识别结果来显示具有与文本对象61相对应的URL地址的页面。

可以在预定时间段期间显示与文本或图像对象相对应的所显示数字。根据示例性实施方案，当从外部设备200接收到与特定按钮的选择相对应的信号时，处理器120可以控制显示器110显示数字。换句话说，可以仅在用户按下外部设备200的特定按钮时才显示数字。特定按钮可以是例如图2中所描述的外部设备200的送话器按钮210。

根据另一示例性实施方案，如果通过显示设备100的送话器输入的语音包括预定关键词(例如“Hi TV”)，则处理器120可以控制显示器110显示数字，并且如果预定时间段响应于通过显示设备100的送话器输入的语音未被输入而流逝，则移除所显示数字。

上述实施方案描述了显示数字，但指示符不必是数字，而可以是用户可以看到和阅读的任何内容(有意义的单词或无意义的单词)。例如，可以显示a，b和c...而不是1、2和3。可替代地，可以采用任何其他符号。

根据另一示例性实施方案，当在显示器110上显示的网页包括搜索窗口时，用户可以通过说出有待搜索的单词或用于执行搜索功能的特定关键词来容易地执行搜索。例如，当在显示器110上显示的网页包括搜索窗口时，可以通过说出出“xxx搜索”、“搜索xxx”等在显示器110上显示“xxx”的搜索结果。

为此，处理器120可以从显示器110上显示的网页检测搜索词输入窗口。具体地，处理器120可以从显示器110上显示的网页的对象中搜索可供输入的对象。HTML上的输入标签可以是可供输入的对象。输入标签可以具有各种属性，但类型属性可以明确定义输入特性。当类型是“搜索”时，对象可以对应于搜索词输入窗口。

然而，当对象的类型是“文本”时，不能立即确定对象是否是搜索词输入窗口。由于典型的输入对象具有文本类型，因此很难确定所述对象是搜索词输入窗口还是典型的输入窗口。因此，需要进一步的处理来确定对象是否是搜索词输入窗口。

当对象的类型是“文本”时，可以引用关于对象的附加属性的信息以确定对象是否是搜索词输入窗口。当标题或区域标签包括“搜索”关键词时，对象可以被确定为搜索词输入窗口。

处理器120可以确定用户说出的语音的识别结果是否包括特定关键词。特定关键词可以是“搜索”、“检索”等。响应于确定包括特定关键词，处理器120可以确认特定关键词的位置以便更清楚地确定用户的意图。如果至少一个单词在特定关键词之前或之后退出，用户可能会搜索该至少一个单词。如果在语音识别结果中仅包括诸如“搜索”或“检索”的特定单词，则用户可能不太可能搜索所述单词。

用户的意图确定过程可以由显示设备100或由服务器300执行，并且其结果可以被提供给显示设备100。

如果确定了用户的搜索意图，则处理器120可以将单词(除了特定关键词之外)设置为搜索词，将所设置的搜索词输入通过执行上述处理而检测到的搜索词输入窗口中并执行搜索。例如，如图8所示，如果包括搜索词输入窗口810的网页被显示在显示器110上，则处理器120可以检测到搜索词输入窗口810，并且如果用户通过语音说出“搜索小狗”，则处理器120可以将“小狗”设置为发声语音的语音识别结果中的搜索词，将搜索词输入搜索词输入窗口810中并执行搜索。

可以在确定语音识别结果包括特定关键词之后或之前检测来自在显示器110中显示的网页的搜索词输入窗口。

图9是示出用于输入搜索词的方法的视图。例如，所述方法可以包括用于在一个网页中搜索多个搜索词输入窗口的方法。

参见图9，在一个网页中可以有两个搜索词输入窗口。第一搜索词输入窗口910可以用于新闻搜索，并且第二搜索词输入窗口920可以用于股票信息搜索。处理器120可以基于关于对象的位置的信息和关于屏幕布局的信息使用在用户说出包括搜索词的语音时显示的搜索词输入窗口来执行搜索。例如，当第一搜索词输入窗口910被显示在显示器110上并且用户说出包括搜索词和特定关键词的语音时，处理器120可以将搜索词输入到第一搜索词输入窗口910中，并且在屏幕滚动之后，当第二搜索词输入窗口920被显示在显示器110上并且用户说出包括搜索词和特定关键词的语音时，处理器120可以将搜索词输入到第二搜索词输入窗口920中。换句话说，当在一个网页中存在多个搜索词输入窗口时，可以使用当前看到的搜索词输入窗口来执行搜索。

可以基于显示器110的屏幕来执行语音控制。基本上，可以使用显示器110的屏幕上的应用来执行根据语音命令的功能。然而，当输入语音命令与在显示屏幕中包括的对象不匹配或者与屏幕上显示的应用的功能无关时，可以执行另一应用并且可以执行根据语音命令的功能。

例如，当正在执行的应用是网页浏览应用并且用户说出的语音与网页浏览应用所显示的网页中的对象不匹配时，处理器120可以执行另一预定应用并且执行与用户说出的语音相对应的搜索功能。预定应用可以是提供搜索功能的应用，例如，通过使用搜索引擎提供与语音相对应的文本的搜索结果的应用、用于根据与语音相对应的文本提供视频点播(VOD)内容的搜索结果的应用等。在执行预定应用之前，处理器120可以显示用于接收用户同意的UI“在屏幕上不存在对应于xxx的结果。是否希望在互联网上搜索xxx？”，或者在UI上输入用户同意之后通过执行互联网搜索应用来提供搜索结果。

显示设备100可以包括用于处理从服务器300接收到的语音识别结果的语音处理器和用于执行在显示设备100中提供的应用的应用单元。语音处理器可以将从服务器300接收到的语音识别结果提供给应用单元。当在执行应用单元的第一应用并且在显示器110上显示第一应用的屏幕的同时提供识别结果时，第一应用可以基于从语音处理器接收到的语音识别结果来执行上述操作。例如，当“搜索”包括在语音识别结果中时，可以执行对与在语音识别结果中包括的数字相对应的文本或图像对象的搜索、对与在语音识别结果中包括的单词相对应的文本对象的搜索、或者在搜索窗口上输入关键词之后执行的搜索。

如果不存在有待通过第一应用使用从语音处理器接收到的语音识别结果执行的操作，即不存在与语音识别结果相对应的文本对象或图像对象，或者不存在搜索窗口，则第一应用可以向语音处理器输出指示这样的结果，并且语音处理器可以控制应用单元执行第二应用，所述第二应用执行与语音识别结果有关的操作。例如，第二应用可以是提供特定搜索词的搜索结果的应用。应用单元可以执行第二应用并提供在用作搜索词的语音识别结果中包括的文本的搜索结果。

图10是示出显示设备的配置的框图。在描述图10时，将省略图4的冗余描述。

参见图10，显示设备100的实例可以是模拟TV、数字TV、3D-TV、智能TV、LED TV、OLED TV、等离子TV、监视器、带有固定曲率屏幕的屏幕TV、具有固定曲率屏幕的柔性TV、具有固定曲率屏幕的弯曲TV和/或其屏幕曲率根据接收到的用户输入而变化的曲率可变TV等，但不限于此。如上所讨论，显示设备100可以是任何种类的显示设备，包括PC、智能电话机等。

显示设备100可以包括显示器110、处理器120、调谐器130、通信器140、送话器150、输入/输出单元160、音频输出单元170和存储装置180。

调谐器130可以通过以下方式选择频道：通过对以有线/无线方式接收的广播信号进行放大、混合和谐振的多个无线电波分量中的由显示设备100接收的频道的频率进行调谐。广播信号可以包括视频、音频或附加数据(例如，电子节目指南(EPG))。

调谐器130可以接收与对应于用户输入的频道号码相对应的频率段中的视频、音频和数据。

调谐器130可以从诸如地面广播、有线广播或卫星广播的各种源接收广播信号。调谐器130可以从诸如模拟广播或数字广播的各种源接收广播信号。

调谐器130可以与显示设备100一体地实现为呈总体形状的整体单元或实现为附加装置(例如，连接到输入/输出单元160的机顶盒或调谐器)，所述附加装置包括电连接到显示设备100的调谐器单元。

通信器140可以根据各种通信方法来执行与各种类型的外部设备的通信。通信器140可以通过局域网(LAN)或互联网网络连接到外部设备，并且可以通过无线通信(例如，Z波、4LoWPAN、RFID、LTE D2D、BLE、GPRS、无重力、Edge Zigbee、ANT+、NFC、IrDA、DECT、WLAN、蓝牙、WiFi、Wi-Fi直连、GSM、UMTS、LTE、WiBRO等)连接到外部设备。通信器140可以包括各种通信芯片，诸如Wi-Fi芯片141、蓝牙芯片142、NFC芯片143、无线通信芯片144等。Wi-Fi芯片141、蓝牙芯片142和NFC芯片143可以分别使用WiFi、蓝牙或NFC彼此通信。无线通信芯片174可以是根据诸如IEEE、ZigBee、第三代(3G)、第三代合作伙伴计划(3GPP)、长期演进(LTE)等的各种通信标准执行通信的芯片。通信器140还可以包括能够从外部设备200接收控制信号(例如，IR脉冲)的光接收单元145。

处理器120可以通过通信器140向服务器300传输语音信号和语言信息(关于用于语音识别的基本语言的信息)，并且当服务器300通过使用与语言信息相对应的语言的语音识别引擎来传输关于语音信号执行的语音识别结果时，处理器120可以通过通信器140接收语音识别结果。

送话器150可以接收用户说出的语音并生成与接收到的语音相对应的语音信号。送话器150可以与显示设备100一体地或分开地实现。分离的送话器150可以电连接到显示设备100。

当送话器不包括在显示设备100中时，显示设备100可以通过通信器140从外部设备200接收与通过外部设备200的送话器输入的语音相对应的语音信号。通信器140可以使用WiFi、蓝牙等从外部设备200接收语音信号。

输入/输出单元160可以连接到设备。输入/输出单元160可以包括高清晰度多媒体接口(HDMI)端口161、分量输入插孔162和USB端口163中的至少一个。另外，输入/输出单元160可以包括诸如RGB、DVI、HDMI、DP和刺电压的端口中的至少一个。

音频输出单元170可以输出音频，例如，通过调谐器130接收的广播信号中包括的音频、通过通信器140、输入/输出单元160等输入的音频、或者存储在存储装置180中的音频文件中包括的音频。音频输出单元170可以包括扬声器171和耳机输出端子172。

存储装置180可以包括用于在处理器120的控制下驱动和控制显示设备100的各种应用程序、数据、软件模块。例如，存储装置180可以包括用于解析通过互联网网络接收的网页内容数据的网页解析模块、JavaScript模块、图形处理模块、语音识别结果处理模块、输入处理模块等。

当显示设备100本身而不是外部服务器300执行语音识别时，存储装置180可以存储包括用于各种语言的各种语音识别引擎的语音识别模块。

存储装置180可以存储用于形成由显示器110提供的各种UI屏幕的数据。存储装置180可以存储用于生成与各种用户交互相对应的控制信号的数据。

存储装置180可以被实施为非易失性存储器、易失性存储器、闪存存储器、硬盘驱动器(HDD)或固态驱动器(SSD)。存储装置180不仅可以被实施为显示设备100中的存储介质，而且可以通过网络被实施为诸如微型SD卡、USB存储器或网络服务器的外部存储介质。

处理器120可以控制显示设备100的整体操作，控制显示设备100中的内部零件之间的信号流并处理数据。

处理器120可以包括RAM 121、ROM 122、CPU 123和总线124。RAM 121、ROM 122和CPU 123可以通过总线124彼此连接。处理器120可以被实施为片上系统(SoC)。

CPU 123可以访问存储装置180并且使用存储在存储装置180中的操作系统来执行引导。另外，CPU 123可以通过使用存储在存储装置180中的各种程序、内容和数据来执行各种操作。

ROM 122可以存储针对系统引导的命令集。如果输入开启命令并且供电，则CPU 123可以根据存储在ROM 122中的命令将存储在存储装置180中的操作系统复制到RAM 121，执行操作系统并执行系统的引导。当引导完成时，CPU 123可以将存储在存储装置180中的各种程序复制到RAM 121，执行复制到RAM 121的应用程序并执行各种操作。

处理器120可以通过使用存储在存储装置180中的模块来执行各种操作。例如，处理器120可以执行对通过互联网网络接收到的网页内容数据的解析和处理，并将内容和对象的整体布局显示在显示器110上。

当启用语音识别功能时，处理器120可以对网页内容的对象进行分析，搜索可通过语音控制的对象，对关于对象位置、对象相关操作和对象中的文本的信息执行预处理，并且将预处理结果存储在存储装置180中。

处理器120可以控制显示器110以便基于预处理对象信息来显示有待识别的可选对象(可由语音控制)。例如，处理器120可以控制显示器110以便显示可由语音控制的对象的与其他对象不同的颜色。

处理器120可以通过使用语音识别引擎将通过送话器150输入的语音识别为文本。处理器120可以使用预设语言(用于语音识别的基本语言)的语音识别引擎。处理器120可以将关于语音信号和用于语音识别的基本语言的信息传输到服务器300，并且从服务器300接收文本作为语音识别结果。

处理器120可以搜索预处理对象中的与语音识别结果相对应的对象，并指示在搜索到的对象的位置处选择对象。例如，处理器120可以控制显示器以通过语音突出显示所选对象。处理器120可以基于预处理对象信息执行与对应于语音识别结果的对象有关的操作，并通过显示器110或音频输出单元170输出结果。

图11是示出根据本公开的示例性实施方案的控制显示设备的方法的流程图。

图11所示的流程图示出由本文描述的显示设备100处理的操作。因此，尽管在下文省略了重复描述，但显示设备100的描述可以应用于图11的流程图。

参见图11，在步骤S1110处，显示设备100可以显示包括多个文本对象的UI屏幕。

在步骤S1120处，显示设备100可以显示在显示设备上显示的多个文本对象中的呈与预设语言不同的语言的文本对象以及预设数字。预设语言可以指预先确定的用于语音识别的基本语言。基本语言可以是默认语言，或者可以由用户手动设置，或者基于用于在显示器110上显示的对象的语言自动设置。当自动设置基本语言时，可以将光学字符识别(OCR)应用于在显示设备100上显示的对象以确认用于所述对象的语言。

在步骤S1130处，当用户说出的语音的识别结果包括所显示数字时，可以执行与对应于所显示数字的文本对象有关的操作。

用户说出的语音的识别结果可以从显示设备本身的语音识别中获得，或者通过向执行关于多种不同语言的语音识别的外部服务器发送语音识别请求来获得。通过发送语音识别请求，显示设备100可以将关于与用户说出的语音相对应的语音信号和用于语音识别的基本语言的信息提供给外部服务器，并且当从外部服务器接收到语音识别结果包括所显示数字时，执行与所显示数字相对应的文本对象有关的操作。

例如，当文本对象是网页中的超链接文本时，可以执行显示具有与文本对象相对应的URL地址的网页的操作，并且如果文本对象是用于执行应用的图标，则应用可以被执行。

包括多个文本对象的UI屏幕可以是第一应用的执行屏幕。第一应用的执行屏幕可以是第一应用提供的任何屏幕。在显示第一应用的执行屏幕的同时，如果确定了与用户说出的语音的识别结果相对应的对象不存在于第一应用的执行屏幕上，则显示设备可以执行不同于第一应用的第二应用并且执行与语音的识别结果相对应的操作。第一应用可以是网页浏览应用，并且第二应用可以是用于在各种源中执行搜索的应用，例如互联网、存储在显示设备中的数据、VOD内容、频道信息(例如，EPG)。例如，当所显示的网页中不存在与语音识别相对应的对象时，显示设备可以执行另一应用并提供与语音识别相对应的搜索结果(例如，搜索引擎结果、VOD搜索结果、频道搜索结果等)。

根据上述示例性实施方案，可以通过语音来控制呈各种语言的对象，并且可以容易地执行语音搜索。

上述示例性实施方案可以在可以由计算机或类似装置读取的记录介质中使用软件、硬件或其组合来实施。根据硬件实现方式，本公开所描述的示例性实施方案可以使用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和用于执行其他功能的电气单元中的至少一者来实施。在一些情况下，本文所描述的示例性实施方案可以由处理器120本身来实施。根据软件实现方式，诸如本文所描述的过程和功能的示例性实施方案可以在单独的软件模块中实施。每个软件模块可以执行本文所描述的一个或多个功能和操作。

用于执行上述根据本公开的示例性实施方案的显示设备100中的处理操作的计算机指令可以被存储在非暂时性计算机可读介质上。存储在非易失性计算机可读介质中的计算机指令在由特定设备的处理器执行时使得处理器和特定设备的其他组件在根据上述各种实施方案的显示设备100中执行处理操作。

非易失性计算机可读介质意指半永久性存储数据并且可以被装置读取的介质，而不是短期存储数据的介质，例如寄存器、高速缓存、存储器等。非暂时性计算机可读介质的特定实例包括CD、DVD、硬盘、蓝光盘、USB、存储卡、ROM等。

尽管已经示出了和描述了示例性实施方案，但本领域技术人员将理解的是，在不脱离本公开的原理和精神的情况下可以对这些示例性实施方案进行改变。然而，本发明的技术范围不限于说明书的详细描述，而是由权利要求书的范围限定，但本领域技术人员将理解的是，可以在不脱离以下说明书阐述的本发明的精神和范围的情况下对形式和细节进行各种改变。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金扬洙;S.S.坦瓦尔
技术所有人：三星电子株式会社
我是此专利的发明人