在语音识别系统中控制显示装置的显示装置和方法_3

文档序号：9309004阅读：来源：国知局

成用户的语音信号。图3是根据示例性实施例的语音输入部的框图。如图3中所述，语音输入部110包括麦克风111、模拟-数字转换器（ADC) 112、能量测定仪113、噪声去除器114以及语音信号生成器115。
[0057] 麦克风111接收包括用户的语音的模拟音频信号。
[0058] ADC112将从麦克风输入的多通道模拟信号转换成数字信号。
[0059] 能量测定仪113计算所转换的数字信号的能量，并且确定该数字信号的能量是否大于或等于预定值。响应于数字信号的能量大于或等于预定值，能量测定仪113将输入的数字信号发送到噪声去除器114,并且响应于数字信号的能量小于预定值，能量测定仪113 不向外部输出所输入的数字信号，而是等待其他输入。因此，由于全部音频处理不会由不是语音信号的声音来激活，因此可以防止不必要的电力消耗。
[0060] 响应于数字信号被输入到噪声去除器114,噪声去除器114从包括噪声分量和用户的语音分量的数字信号中去除噪声分量。噪声分量是不可预知的噪声，其可能是例如在家庭环境下产生的，并可能是空调的声音，吸尘器的声音或音乐的声音。噪声去除器114将去除了噪声分量的数字信号输出到语音信号生成器115。
[0061] 语音信号生成器115使用定位/说话人（speaker)跟踪模炔基于语音输入部110 来追踪360°范围之内的用户说话位置，并且获得用户的语音的方向信息。语音信号生成器115可以通过目标说话声音提取模块、通过使用去除了噪声的数字信号以及用户的语音的方向信息、基于语音输入单元110来提出360°范围之内的目标声音源，并可以生成语言信号。
[0062] 如以上所说明的，这仅仅是通过去除不必要的周边噪声来生成语言信号的示例性实施例。本公开的技术理念还可以被应用于通过确定关键词是否出现在用户的语音中来生成语音信号的示例性实施例。
[0063] 返回参照图2,通信器120执行与交互式服务器200的通信。具体地，通信器120 向交互式服务器200发送从语音输入部110生成的用户的语音信号，并且可以接收来自交互式服务器200的控制信息和指引信息中的至少一个。通信器120可以被实现为以太网、无线LAN和WIFI，但这不应被认为是限制性的。
[0064] 存储装置130在其中存储各种驱动显示装置100的程序和数据。具体地，存储装置130可以包括语音识别数据库，其中命令被匹配到控制信息并且被存储。
[0065] 显示器130在控制器150的控制下显示图像数据。具体地，显示器130可以显示预存的指引信息和从交互式服务器200接收到的指引信息中的一个。
[0066] 控制器150根据用户的命令来控制显示装置100的全部操作。具体地，控制器150 可以根据经由语音输入部110输入的用户的语音来控制显示装置100的全部操作。
[0067] 具体地，控制器150确定经由语音输入部110输入的用户的语音是否为存储装置 130中的预存命令。同时，控制器150可以经由通信器120将用户的语音发送到交互式服务器200。例如，响应于用户的语音"请增加音量"被经由音频输入110输入，控制器150确定输入的语音"请增加音量"是否为预存的命令。控制器150可以控制通信器120发送"请增加音量"到外部的交互式服务器200。
[0068] 具体地，响应于用户的语音不是存储装置中的预存命令并且当从交互式服务器 200发送与用户的语音相对应的控制信息以及用于指引能够执行与用户的语音相同的功能的预存的命令的第一指引信息时，控制器150根据所发送的控制信息来执行显示装置100 的功能，并且可以控制显示器120显示第一指引信息。例如，响应于用户的语音为"请增加音量"并且当从交互式服务器200接收到控制信息"将音频音量等级增加到预定等级"和用于指引能够执行与"请增加音量"相同的功能的、预存在存储装置130中的命令"增加音量"的第一指引信息时，控制器150可以执行将音频音量等级增加到预定等级的功能，并且可以控制显示器120显示包括文本信息"下次，请说增加音量"的第一指引信息410,如图4 中所述。
[0069] 然而，响应于用户的语音为在存储装置130中的预存命令，控制器150搜索存储装置130中对应于该命令的控制信息，并且可以根据所搜索的控制信息来执行显示装置的功能。例如，响应于经由语音输入部110输入的用户的语音为"增加音量"，控制器150搜索与所输入的用户的语音"增加音量"相对应的控制信息"将音频音量等级增加到预定等级"，并且可以根据所搜索的控制信息来执行将音频音量等级增加到预定等级的功能。即使控制信息是从外部的交互式服务器200接收到的，控制器150也可以优先根据嵌入的命令来执行显示装置100的功能。
[0070] 此外，响应于经由语音输入部110输入的用户的语音为存储在存储装置130中的命令，并且用户的语音为用于控制具有多个层次结构的显示装置的功能的命令，控制器150 可以控制显示器120以显示指引能够执行与用户的语音相同的功能的交互式命令的第二指引信息。例如，响应于第一步的用户的语音"设置睡眠"被从用户输入以便使用预存的命令来设置显示装置100的睡眠功能，控制器150显示用于设置睡眠的菜单，并且响应于第二步的用户的语音"30分钟"被从用户输入，控制器150可以执行在30分钟之后关闭控制器 150的电源的功能。换言之，响应于使用预存的命令来执行具有多个层次结构的显示装置的功能，用户会有输入语音多次的不便。然而，响应于以交互式形式输入的用户的语音"30 分钟之后叫醒我"，控制器150可以使用交互式服务器200来执行与多个用户的语音的输入相同的功能。即，响应于具有多个层次结构的显示装置的功能被执行，控制器150可以控制显示器120显示指引如图5中所描绘的交互式命令的第二指引信息510,从而显示装置100 的功能可以通过单个用户的语音来执行。
[0071] 此外，响应于经由语音输入部110输入的用户的语音不是存储在交互式服务器 200中的对话模式，并且当从交互式服务器200接收到第三指引信息（该第三指引信息指引执行与用户的语音相同的功能的根据存储在交互式服务器200中的对话模式的用户的语音）时，控制器150可以控制显示器120以便显示第三指引信息。例如，响应于用户的语音"改变频道"被输入，并且当从交互式服务器200发送了指引用户的语音"请将频道改变为ABC"的第三指引信息（该第三指引信息为具有存储在交互式服务器200中的对话模式的命令）时，控制器150可以控制显示器120显示第三指引信息610,如图6中所述。
[0072] 或者，响应于经由语音输入部110输入的用户的语音为交互式服务器200不能响应的交互式语言，并且当从交互式服务器200发送了指引与用户的语音中包括的关键词相关的信息的第四指引信息时，控制器150可以控制显示器120显示第四指引信息。例如，响应于用户的语音"刘在石怎么样"被经由语音输入部110输入，交互式服务器200不能经由所输入的用户的语音生成响应信息，因此交互式服务器200可提取关键词"刘在石"，生成指引与所提取的关键词相关的信息（例如，他的工作和他的作品）的第四指引信息，并将该第四指引信息发送到显示装置100。响应于从交互式服务器200发送了第四指引信息，控制器150可以控制显示器120显示如图7中的第四指引信息710。作为另一示例，响应于用户的语音"我们去一家美味的餐馆吧"被经由语音输入部110输入，交互式服务器200不能通过所输入的用户的语音生成响应信息，因此交互式服务器200可提取关键词"美味的餐馆"，生成用于指引与所提取的关键词相关的信息（例如，今日推荐餐厅）的第四指引信息，并将该第四指引信息发送到显示装置100。
[0073] 第四指引信息710可以包括要求输入新的用户的语音的消息以及与关键词相关的信息。
[0074] 由于如以上所说明的显示装置100,用户能够基于语音识别更有效地且迅速地控制显示装置100。
[0075] 图8是根据示例性实施例的交互式服务器200的框图。如图8中

完整全部详细技术资料下载

当前第3页1 2 3 4 5