语音控制装置、系统及控制方法与流程

文档序号：14837998发布日期：2018-06-30 13:14阅读：242来源：国知局

本发明涉及一种语音控制装置、系统及控制方法。

背景技术：

随着语音识别技术与人工智能技术的日趋成熟，目前市场上已出现有各种家用型/办公室型的智能语音助理产品(例如Amazon Echo或Google Home)，以让用户透过语音输入方式来控制电器(例如灯、门锁、恒温器、电扇等)、查询信息(例如交通、天气等信息)、叫车或订披萨等任务。然而，这些智能语音助理产品仅能透过语音方式提供用户信息，而无法通过语音方式呈现图像或影像等信息。再者，对于列表类信息(例如联络人列表、行事历列表、节目列表、待办事项列表等)，这些智能语音助理产品也不适合用语音方式直接提供给用户。

技术实现要素：

有鉴于此，有必要提供一种语音控制装置、系统及控制方法。

一种语音控制装置，包括麦克风模块、声音编码模块、显示屏、相机模块以及运算单元，所述声音编码模块电连接至所述麦克风模块及所述运算单元，所述相机模块及所述显示屏均与所述运算单元电连接，所述麦克风模块用以接收语音信号，并将所述语音信号传送至所述声音编码模块，所述声音编码模块或所述运算单元对所述语音信号进行处理及分析，以判断所述语音信号的声源方向，并根据所述语音信号获取对应的响应信息，其中所述运算单元根据所述声源方向控制所述显示屏转动至所述声源方向，并将所述响应信息传送至所述显示屏显示。

一种语音控制方法，应用于一语音控制装置，所述语音控制装置包括显示屏及相机模块，所述方法包括：

(a)接收一语音信号；

(b)对所述语音信号进行处理，以判断所述语音信号的声源方向；

(c)对所述语音信号进行分析，以获取对应的响应信息；

(d)根据所述声源方向控制所述显示屏转动至所述声源方向；以及

(e)将所述响应信息输出至所述显示屏显示。

一种语音控制系统，包括上述所述的语音控制装置。

上述语音控制装置、系统及控制方法可根据声源方向有效调整所述显示屏的转向，还可根据拍摄影像中是否存在用户特征来有效调整所述显示屏的倾斜角度，进而使得所述语音控制装置较精准地朝向用户。另外，所述语音控制装置可根据不同类型的信息采用不同的呈现方式，较为实用及方便。

附图说明

图1为本发明第一较佳实施例中语音控制系统的系统架构图。

图2为图1所示语音控制系统的另一系统架构图。

图3为图1所示语音控制系统中语音控制装置的功能模块图。

图4为图1所示语音控制装置中语音操作系统的功能模块图。

图5至图8为图1所示语音控制装置的整体示意图。

图9至图11为图1所示语音控制装置中旋转驱动单元的示意图。

图12至图13为图1所示语音控制装置中倾斜驱动单元的示意图。

图14至图16为图1所示语音控制装置中第一电路板及第二电路板的连接示意图。

图17至图21为本发明第二较佳实施例中语音控制装置的整体示意图。

图22至图26为本发明第三较佳实施例中语音控制装置的整体示意图。

图27及图28为本发明第四较佳实施例中语音控制装置的整体示意图。

图29为图27所述语音控制装置中显示屏根据声源方向将图形信息显示于不同的显示区域的示意图。

图30为图27所述语音控制装置中图形信息显示于不同的显示区域的示意图。

图31及图32为本发明较佳实施例中语音控制方法的方法流程图。

主要组件符号说明

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，当一个组件被称为“电连接”另一个组件，它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“电连接”另一个组件，它可以是接触连接，例如，可以是导线连接的方式，也可以是非接触式连接，例如，可以是非接触式耦合的方式。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，为本发明第一较佳实施方式的语音控制系统500的运行环境架构图。在本实施例中，所述语音控制系统500包括语音控制装置100、网络服务器300及至少一远程电子装置。

所述语音控制装置100可透过有线网络连上因特网(Internet)，进而与所述网络服务器300交换数据与指令。当然，在其他实施例中，所述语音控制装置100还可通过无线通信标准(例如WLAN)或手机通讯标准(例如WCDMA/CDMA2000/LTE)等无线通信协议连上因特网，进而与所述网络服务器300交换数据与指令。所述网络服务器300可以为语音服务器。

在本实施例中，所述语音控制装置100利用其本身的无线通信模块与所述至少一远程电子装置交换数据或指令。在本实施例中，所述至少一远端电子装置可以为具有显示屏的电子装置，如手机、PDA、平板、电视，或具有无线通信功能的扬声器，例如Wi-Fi无线扬声器、蓝牙(Bluetooth)扬声器等。所述至少一远端电子装置可透过无线方式与所述语音控制装置100连接，用以从所述语音控制装置100接收指令或数据，或传送指令或数据至所述语音控制装置100。

请一并参阅图2，可以理解，在其他实施例中，所述语音控制系统500还包括无线基站400。所述语音控制装置100还可透过WLAN(例如Wi-Fi)等通信协议与所对应通信协议的无线基站400连接，然后再透过所述无线基站400分别与所述至少一远程电子装置交换数据或指令。

可以理解，请再次参阅图1及图2，在本实施例中，以所述语音控制装置100与三个远程电子装置，例如远端电子装置201、202、203交换数据或指令为例加以说明。其中，所述远端电子装置201、202为具有显示屏的电子装置。所述远端电子装置203为具有无线通信功能的扬声器。

另外，在本实施例中，所述远程电子装置201、202还至少设置有无线通信模块、扬声器与显示屏等功能模块或电路(图未示)。其中所述无线通信模块可用以传送所述远程电子装置201、202的启动状态或关闭状态至所述语音控制装置100，进而使得所述语音控制装置100可实时记录所述远程电子装置201、202的启动状态或关闭状态。

请一并参阅图3，所述语音控制装置100至少包括第一无线通信模块11、麦克风模块12、声音编码模块13、扬声器14、显示屏15、转动模块16、相机模块17、影像辨识模块18、运算单元19、内存单元20及第二无线通信模块21。所述运算单元19可以由一处理器或是任何具有运算能力的运算电路而实现。

所述第一无线通信模块11与所述运算单元19电性连接，用以收发无线通信信号。所述语音控制装置100通过所述第一无线通信模块11将相关的信息，例如文字、语音、图像或影像等信息传送至网络或由网络接收所述相关信息。所述第一无线通信模块11可以是Wi-Fi或手机通讯标准中的3G(WCDMA、CDMA2000或TD-SCDMA)、4G(LTE、LTE-advanced)等任何可传送数据的无线通信协议模块。在其他实施例中，所述第一无线通信模块11也可以是WiGi、Bluetooth或Zigbee等近距离的通信协议模块。另外，在其他实施例中，所述语音控制装置100的第一无线通信模块11还可作为一无线通信协议(例如WiFi)的无线基站，直接提供所述远程电子装置201、202、203无线连接并交换数据或指令。

所述麦克风模块12包括多个麦克风单元。在本实施例中，所述麦克风模块12至少包括一个第一麦克风单元121及多个第二麦克风单元122，例如六个第二麦克风单元122。当然，在其他实施例中，所述第二麦克风单元122的数量并不局限为六个，其可依用户需求设计成不同数量来达到相同的目的。所述麦克风模块12中的第一麦克风单元121及第二麦克风单元122均用以接收语音信号。

所述声音编码模块13电性连接于所述麦克风模块12、所述扬声器14与所述运算单元19。所述声音编码模块13用于将所述麦克风模块12接收的模拟语音信号转换成数字语音信号，并将转换后的数字语音信号传送至所述运算单元19。

例如，当所述语音控制装置100处于一待机模式时，所述第一麦克风单元121被启动用以收音，而第二麦克风单元122处于关闭状态。当所述语音控制装置100于所述待机模式，且当所述第一麦克风单元121接收到一语音信号时，所述第一麦克风单元121将所述语音信号传送至所述声音编码模块13。所述声音编码模块13将接收到的模拟语音信号转换成数字语音信号后，再传送到所述运算单元19进行分析，以判断所述语音信号是否为一预先设定的语音启动指令，例如[哈啰]。当所述运算单元19判断所述语音信号为预先设定的语音启动指令时，亦即当所述第一麦克风单元121接收所述预先设定的语音启动指令时，所述运算单元19将传送一启动信号至所述第二麦克风单元122，以启动所述第二麦克风单元122，进而使得所述第二麦克风单元122开始接收后续的语音信号。所述第二麦克风单元122再将收到的语音信号传送到运算单元19。

可以理解，在本实施例中，所述预先设定的语音启动指令可以为[哈啰]或是用户自行设定的其他语音启动指令。

可以理解，当所述第二麦克风单元122将用户发出的语音信号透过所述运算单元19分析并判断为一语音请求指令时，所述语音控制装置100还将所述语音请求指令传送到所述网络服务器300的语音数据库，以检索到相对应的响应信息，并将所述响应信息回传至所述语音控制装置100。

可以理解，在本实施例中，所述语音请求指令的类型可至少包括但不限于两种，例如控制型语音指令、命令型语音指令与问题型语音指令。其中所述控制型语音指令可以为[打开电视]、[调整音量]、[打开音乐播放器]、[播放音乐]等各种控制所述远程电子装置201、202、203的指令。所述命令型语音指令可以为[订披萨]、[订车票]、[订饭店]等各种订票或预约的指令。所述问题型语音指令可以为[今天台北的天气如何]、[今天有哪些电影]、[今天有哪些球赛]等各种问题型指令。

可以理解，在其他实施例中，当所述第二麦克风单元122将用户发出的语音信号透过所述运算单元19分析并判断为一控制指令时，所述语音控制装置100将所述控制指令传送至对应的远程电子装置201、202、203。例如，所述控制指令可以是一启动控制指令，用以启动远程电子装置201、202、203，如启动电视。

可以理解，当所述第二麦克风单元122将用户发出的语音信号传送至所述运算单元19时，所述运算单元19还用以根据所收到的语音信号执行语音算法或声纹比对算法，进而辨识出语音信号的声源方向、声源距离及/或使用者的身分。

可以理解，在本实施例中，所述声音编码模块13还用以将所述运算单元19由一语音数据库所获得的语音信号转成模拟语音信号，并传送至所述扬声器14播放出来。例如，所述声音编码模块13可将所述运算单元19通过有线网络或所述第一无线通信模块11从所述网络服务器300的语音数据库中接收到的相对应信息转成模拟语音信号，并传送至所述扬声器14播放出来。可以理解，在其他实施例中，所述相对应信息也可以是预先储存于所述内存单元20。如此，所述声音编码模块13亦可用以将所述运算单元19从所述内存单元20中找到的相对应信息转成模拟语音信号，并传送至扬声器14播放出来。

可以理解，在其他实施例中，所述声音编码模块13也可包括一微处理单元及独立的内存(图未示)。所述独立的内存可储存简单的关键词库。如此，所述声音编码模块13中的微处理单元可以根据所述独立的内存内的关键词库直接判断所述麦克风模块12接收的语音信号是否为默认的语音请求指令或控制指令。如此，透过所述声音编码模块13的预先处理，所述麦克风模块12接收的语音信号可直接传送至所述声音编码模块13，无须再传送至所述运算单元19进行处理，可以有效节省电源能耗与运算效率。

在本实施例中，所述语音控制装置100可包括至少一扬声器14。例如，所述语音控制装置100包括多个扬声器14，所述多个扬声器14分别设置于所述语音控制装置100的周围处。例如，所述语音控制装置100包括两个扬声器14，所述两个扬声器14以相反的方向对应设置。例如，所述语音控制装置100包括一个扬声器14，所述扬声器14朝所述语音控制装置100的底部方向设置。所述扬声器14输出的声音透过设置于所述语音控制装置100周围的通孔，向外播放语音信号。

在本实施例中，所述显示屏15的一端可通过一连接结构151，例如铰链设置于所述语音控制装置100上(参图5至图8)，用以显示所述运算单元19由所述网络服务器300或所述内存单元20获得的信息。

所述转动模块16设置于所述语音控制装置100的内部，用以使所述显示屏15于一特定角度内旋转及改变所述显示屏15的倾斜角度，进而调整所述显示屏15的显示方向。

所述相机模块17可设置于所述显示屏15上或位于所述语音控制装置100上与所述显示屏15同一侧的侧边上。

所述影像辨识模块18分别电连接至所述相机模块17及所述运算单元19，用以接收所述相机模块17拍摄的影像，并辨识所述相机模块17所拍摄影像的影像对象或对象位置。当所述影像辨识模块18辨识所拍摄影像的影像对象或对象位置后，会产生一相应于影像对象或对象位置的位置信息信号至所述运算单元19。所述运算单元19根据所述位置信息信号执行一对应功能，例如，控制所述转动模块16来调整所述显示屏15的显示位置。

在其中一实施例中，所述影像辨识模块18可用以辨识所述相机模块17所拍摄影像是否存在用户的人脸特征。当判断拍摄的影像中存在人脸特征时，所述影像辨识模块18可判断有使用者的脸存在于所拍摄影像中。于另一实施例中，所述影像辨识模块18也可以从所拍摄影像中辨识分析出多个人脸特征，并同时得到多个人脸特征在所拍摄影像中的位置。当所述影像辨识模块18在尝试默认次数后，若其都无法从所述相机模块17拍摄的影像中辨识出任何人脸特征，则所述影像辨识模块18会回馈一无人脸特征的信号至所述运算单元19。

在本实施例中，当所述影像辨识模块18辨识所拍摄影像中存在用户的人脸特征时，还进一步判断用户脸部位置是否位于所拍摄影像的一默认位置。其中所述默认位置可通过所述相机模块17与所述显示屏15的相对位置而决定。例如，当所述相机模块17设置于所述显示屏15外围的框架上且靠近所述显示屏15中心线的位置时，则所述默认位置可以是所拍摄影像的中间位置。如此，当所述影像辨识模块18判断用户脸部的位置不在所拍摄影像的中间位置时，则会传送一表示脸部位置的位置信息信号至所述运算单元19。所述运算单元19再根据所述位置信息信号来驱动所述转动模块16，以调整所述显示屏15的显示方向，使所述显示屏15可精确朝向用户观看位置。

当所述影像辨识模块18辨识所拍摄影像中存在多个人脸特征时，所述影像辨识模块18可以根据多个人脸的位置，计算得到一中心位置。例如当所述影像辨识模块18辨识出所拍摄影像中存在三个人脸时，则会以位于中间的人脸为所述中心位置，并传送一表示所述中心位置的位置信息信号至所述运算单元19。所述运算单元19再根据所述位置信息信号来驱动转动模块16，以调整所述显示屏15的显示方向，使所述显示屏15可精确朝向多个使用者皆可观看到的最佳位置。

可以理解，在本实施例中，所述影像辨识模块18是通过人脸特征来判断用户的影像是否存在于所拍摄影像中，但并不以此为限，其亦可通过辨识人体手势、肢体动作等其他用户特征来达到相同的目的。

可以理解，在其他实施例中，所述影像辨识模块18可整合于所述运算单元19中，其亦可达到上述相同的目的，或者可通过软件方式实现并由所述运算单元19执行。

所述运算单元19电性连接至所述第一无线通信模块11、所述声音编码模块13、所述显示屏15、所述转动模块16、影像辨识模块18、内存单元20及第二无线通信模块21。当所述运算单元19收到由所述声音编码模块13传来的数字语音信号后，其可透过所述第一无线通信模块11将所述数字语音信号传送到所述网络服务器300进行语音分析辨识。接着，所述网络服务器300会在分析辨识所述数字语音信号后，从所述网络服务器300中的语音分析程序及/或语音数据库中找到对应的响应信息(例如可以是文字形式、图像形式或语音形式)，并将所述对应的响应信息传回给所述语音控制装置100。所述运算单元19再通过所述第一无线通信模块11接收到所述响应信息，并根据所述响应信息产生一语音响应信号传送至声音编码模块13，进而驱动所述扬声器14播放所述语音响应信号。或者所述运算单元19根据所述响应信息产生一文字信息或图像信息传送至所述显示屏15，以显示所述文字信息或图像信息。

于另一实施例中，所述运算单元19从所述声音编码模块13收到所述数字语音信号后，所述运算单元19可直接透过其所执行的一语音分析程序对所述数字语音信号进行语音分析辨识。接着，所述运算单元19在分析辨识所述数字语音信号后，从所述内存单元20所储存的一语音数据库中找到对应的响应信息(例如可以是文字形式、图像形式或语音形式)。同样地，所述运算单元19可根据所述响应信息产生一语音响应信号传送至所述声音编码模块13，进而驱动所述扬声器14播放所述语音响应信号。或者所述运算单元19根据所述响应信息产生一文字信息或图像信息传送至所述显示屏15，以显示所述文字信息或图像信息。

当然，当所述运算单元19分析辨识所述数字语音信号为控制指令时，则会根据所述控制指令执行一特定功能。例如，若所述数字语音信号为[打开电视机]，则所述运算单元19会产生一控制信号，并以无线方式传送至电视机，以启动电视。

请一并参阅图3及图4，所述内存单元20电连接至所述运算单元19，用以存储所述语音控制装置100中的操作系统、运行于所述语音控制装置100中的语音操作系统200的相关功能模块、用户数据以及所述语音控制装置100的各种参数等。所述语音操作系统200中的相关功能模块的程序代码均存储于所述内存单元20中，并由所述运算单元19执行。

在本实施例中，所述语音操作系统200至少包括语音数据库200A、语音分析模块200B、语音产生模块200C、装置管理模块200D、距离模块200E与声纹分析模块200F。其中，上述功能模块为各种对应功能的程序码，且均储存于所述内存单元20中。当所述语音控制装置100执行各种对应功能时，所述运算单元19从所述内存单元20加载相对应的程序码后，执行各相应的功能。

其中，所述语音数据库200A为一语言声音数据库。所述语音数据库200A包括有预先建立的字母、单字和句子的语音信息。这些语音信息可以是文字形式或语音形式，且可以用中文、英文、日语或是任何语言表示。

于另一实施例中，所述语音数据库200A也可以由一影像数据库(图未示)取代。所述影像数据库包括有预先建立的图案、相片、影片的影像信息。

所述语音分析模块200B用于对所述麦克风模块12接收的语音信号进行处理分析。具体地，所述语音分析模块200B对所述语音信号进行采样、量化转换为数字化的语音数据，然后将所述语音数据进行声学处理，以获得所述语音信号的内容读音的语音特征信息。例如，当使用者问[今天星期几]时，则所述麦克风模块12接收到所述[今天星期几]的语音信号。所述语音信号会经由所述声音编码模块13传送至所述运算单元19，再由所述运算单元19所执行的语音分析模块200B进行分析处理。所述语音分析模块200B可由所接收的语音信号中辨识出[今天星期几]，并由所述语音数据库200A中找出一对应的响应信息，例如[今天星期五]。于另一实施例中，所述语音分析模块200B可由所接收的语音信号中辨识出[今天星期几]，并由所述影像数据库中找出一对应的响应信息，例如表示[星期五]的图案。

可以理解，在其他实施方式中，所述语音分析模块200B还可将上述分析后提取出语音信号的语音特征信息透过所述第一无线通信模块11传送到对应的网络服务器300进行匹配，以获得一对应的响应信息，例如[今天星期五]或表示[星期五]的图案。

所述语音产生模块200C用于将上述由所述语音数据库200A、影像数据库或所述网络服务器300所获取的响应信息(例如[今天星期五]或表示[星期五]的图案)转换为一对应的语音信号或影像信号。所述运算单元19再将所述对应的语音信号传送至所述声音编码模块13，最后透过所述扬声器14产生[今天星期五]的语音，以响应用户。或者，所述运算单元19将所述对应的影像信号传送至所述显示屏15显示，以响应用户。

所述装置管理模块200D用于管理与所述语音控制装置100连接的所述远程电子装置201、202、203。在本实施例中，所述语音控制装置100还包括第二无线通信模块21，用以透过无线通信协议来控制所述远程电子装置201、202、203。在本实施例中，无线通信协议可以是Wi-Fi、蓝芽、WiGig、D2D(Device to Device)或红外线等，但不以此为限，任何可进行无线数据传输的协议皆可实施于此实施例中，以达到相同的目的。所述装置管理模块200D可以记录所述远程电子装置201、202、203的启动状态(例如开启状态或关闭状态)、装置种类、是否具有显示屏及(或)是否具有扬声器等功能。通过上述纪录，所述语音控制装置100可判断是否将上述响应信息(例如语音信号或影像信号)通过所述第二无线通信模块21传送至所述远程电子装置201、202、203输出。

所述距离模块200E用于计算所述远程电子装置201、202、203与所述语音控制装置100的距离。在其中一实施例中，所述距离模块200E可以根据所述第二无线通信模块21与所述远程电子装置201、202、203连接的无线信号强度(如RSSI值)，估算出所述远程电子装置201、202、203与所述语音控制装置100的距离。在另一实施例中，所述距离模块200E也可以根据所述相机模块17所拍摄影像中用户的对焦距离来估算出用户与所述语音控制装置100的距离。在另一实施例中，所述距离模块200E可以利用雷射测距模块(图未示)或超音波模块(图未示)获得用户与所述语音控制装置100的距离。

可以理解，所述距离模块200E还可利用任何可量测距离的模块或方法达到相同的目的，并不局限于上述所述的模块与方法。根据所述远程电子装置201、202、203与所述语音控制装置100的距离及(或)所述远程电子装置201、202、203的启动状态，所述语音控制装置100可判断是否将上述响应信息(例如语音信号或影像信号)，透过所述第二无线通信模块21传送至所述远程电子装置201、202、203输出，或者直接透过其自身的扬声器14或显示屏15输出。

所述声纹分析模块200F用于分析从所述麦克风模块12接收并经所述声音编码模块13处理的语音信号，并判断所述语音信号是否与一默认的使用者声纹是否相符，进而判断使用者的身分。

可以理解，在本实施例中，所述运算单元19还可根据所述声源距离(即用户与所述语音控制装置100的距离)调整所述语音控制装置100的语音输出音量大小。

例如，在其中一实施例，当所述声源距离大于一预设距离(例如大于五公尺)时，所述语音控制装置100将所述扬声器14的语音输出音量提高，进而使得距离所述语音控制装置100五公尺外的使用者能够听到。或者，在另一实施例中，当所述声源距离大于所述预设距离(例如大于五公尺)时，所述语音控制装置100亦可通过所述第二无线通信模块21将所述响应信息所对应的语音信号传送至所述装置管理模块200D所记录具有扬声器并处于开启状态中的远程电子装置201、202、203进行播放。

请一并参阅图5至图8，所述语音控制装置100还包括上壳体22与下壳体23。在本实施例中，所述显示屏15设置于所述上壳体22上半区的一侧壁上。所述上壳体22的下半区环绕开设有多个扬声器通孔141，用以将设置于所述上壳体22内的至少一个扬声器14(如图3所示)所产生的声音输出。由于所述扬声器通孔141环绕开设于所述上壳体22，如此可使得所述扬声器14输出的声音能够传递到环境的每个方向。

可以理解，在本实施例中，所述上壳体22的顶部开设有多个麦克风通孔123。其中一个麦克风通孔123设置于所述语音控制装置100的顶部接近中心的位置，并对应于图3所示的所述第一麦克风单元121。其他的麦克风通孔123均匀设置于位于中心的麦克风通孔123的周围处，例如以60度的间隔角度设置于位于中心的麦克风通孔123的周围，并分别对应于图3所示的每一个第二麦克风单元122，进而形成一麦克风通孔阵列。图3所示的所述麦克风模块12的第一麦克风单元121及多个第二麦克风单元122均设置于所述上壳体22内，用以分别通过所述多个麦克风通孔123接收由用户发出的语音信号。

请一并参阅图9至图13，所述转动模块16包括旋转驱动单元161及倾斜驱动单元162。所述旋转驱动单元161用以使所述显示屏15相对于下壳体23旋转，进而使所述显示屏15转向发出语音的用户。所述倾斜驱动单元162用以改变所述显示屏15相对于上壳体22的倾斜角度，进而调整所述显示屏15的显示方向，使得所述显示屏15所显示的信息可朝向用户的方向，以利使用者观看。

具体的，请一并参阅图9至图11，在本实施例中，所述旋转驱动单元161设置于下壳体23中，用以控制所述上壳体22与所述下壳体23之间做相对旋转。所述旋转驱动单元161包括第一马达1611、第一齿轮组1613及第一齿轮轨道1615。所述第一马达1611、第一齿轮组1613及第一齿轮轨道1615相互连接，且均设置于所述下壳体23中。在本实施例中，所述第一齿轮组1613是指由至少一个齿轮互相连接而成，或者由多个不同大小、不同齿数及形状的齿轮互相连接而成。所述第一齿轮轨道1615大致呈环形，其设置于所述下壳体23的内壁上。所述第一马达1611通过一驱动电路(图未示)与所述运算单元19电连接。当所述第一马达1611被所述运算单元19激活时，所述第一马达1611带动所述第一齿轮组1613转动，再通过所述第一齿轮组1613带动所述第一齿轮轨道1615旋转，以使得所述上壳体22与所述下壳体23之间做相对旋转(参图11)。

可以理解，在其他实施例中，所述第一马达1611及所述第一齿轮组1613亦可设置于所述下壳体23中，而所述第一齿轮轨道1615设置于所述上壳体22的内壁上。如此同样可使得所述上壳体22与所述下壳体23之间做相对旋转。

请一并参阅图12及图13，在本实施例中，所述倾斜驱动单元162设置于所述上壳体22内。所述倾斜驱动单元162包括第二马达1621、第二齿轮组1623及第二齿轮轨道1625。在本实施例中，所述第二齿轮组1623是指由至少一个齿轮互相连接而成，或者由多个不同大小、不同齿数及形状的齿轮互相连接而成。所述第二齿轮轨道1625的一端连接所述显示屏15远离所述连接结构151的一端，另一端连接至所述第二齿轮组1623，以透过所述第二齿轮组1623与所述第二马达1621连接。所述第二齿轮组1623用以将所述第二马达1621所输出的扭力传送至所述第二齿轮轨道1625。所述第二马达1621透过一驱动电路(图未示)与所述运算单元19电连接。

当所述第二马达1621被所述运算单元19激活时，所述第二马达1621带动所述第二齿轮组1623转动，以间接带动所述第二齿轮轨道1625运动，进而推动所述显示屏15，藉以调整所述显示屏15的倾斜角度。例如，请一并参阅图13，当所述第二马达1621启动时，所述第二马达1621透过所述第二齿轮组1623带动所述第二齿轮轨道1625运动，以将所述显示屏15由所述上壳体22往外推出或往内拉回所述上壳体22，进而使所述显示屏15能够根据用户观看的角度改变所述显示屏15的倾斜角度，以适合使用者观看。

可以理解，请一并参阅图14至图16，在本实施例中，所述语音控制装置100还包括第一电路板24及第二电路板25。所述第一电路板24设置于所述上壳体22内部，且靠近所述下壳体23设置。所述第二电路板25设置于所述下壳体23内部，且靠近所述上壳体22设置，并与所述第一电路板24电连接。所述第二电路板25上设置有五个环形导电线路251。所述第一电路板24上设置有至少五个导电接脚241，所述至少五个导电接脚241的末端分别电性抵接所述第二电路板25上的五个环形导电线路251。如此，当所述上壳体22与下壳体23相对转动时，所述导电接脚241的末端可滑动于所述第二电路板25上的环形导电线路251上，以保持所述第一电路板24与所述第二电路板25间的电性连接。

可以理解，在本实施例中，所述第一电路板24上固定地设置有八个导电接脚241。所述八个导电接脚241均匀地固定连接在所述第一电路板24上，并电性抵接所述第二电路板25上的环形导电线路251。如此，在达到所述第一电路板24与所述第二电路板25电性连接的同时，可有效增加所述上壳体22与所述下壳体23间转动的稳定性。

可以理解，在本实施例中，所述第二电路板25上还设置有电源接头253(例如USB连接器)。所述第二电路板25上的五个环形导电线路251分别对应电连接至所述电源接头253的五个接脚(图未示)。如此，所述电源接头253所接收的外部电源可通过所述第二电路板25与上述导电接脚241的电性抵触而传送至所述上壳体22的第一电路板24，以为所述上壳体22中的电子组件供应所需电源。在本实施例中，所述上壳体22中的电子组件主要包括但不限于图3中的所有电子模块或电路。

请参阅图17至图21，本发明第二较佳实施方式提供一种语音控制装置100a，其具体结构与第一实施例中的语音控制装置100类似，其区别在于所述语音控制装置100a中麦克风通孔123a在所述语音控制装置100a上的位置与第一实施例中所述麦克风通孔123的位置不同。具体的，请一并参阅图17至图19，其中对应于所述第一麦克风单元121的麦克风通孔123a设置于所述上壳体22的顶部靠近中心位置。对应于所述多个第二麦克风单元122的多个麦克风通孔123a则以环绕的方式平均分散地设置于上壳体22的侧壁上，以达到清楚地接收各个方向的语音信号。

可以理解，在本实施例中，所述语音控制装置100a中所述倾斜驱动单元162a的结构亦与第一实施例中所述倾斜驱动单元162的结构不同。

具体的，请一并参阅图20及图21，在本实施例中，所述倾斜驱动单元162a包括第二马达1621、第二齿轮组1623及连动齿轮1626。所述第二马达1621、所述第二齿轮组1623及连动齿轮1626均设置于所述上壳体22内部并对应于所述显示屏15的背面设置。所述连动齿轮1626透过一传动皮带1627连接至所述连接结构151上的一传动齿轮1511。

当所述第二马达1621工作时，所述第二马达1621透过所述第二齿轮组1623带动所述连动齿轮1626，并透过所述传动皮带1627带动所述传动齿轮1511，以将所述显示屏15由所述上壳体22往外推出或往内拉回所述上壳体22(参图21)，进而使所述显示屏15能够根据用户观看的角度改变所述显示屏15的倾斜角度，以适合使用者观看。

请参阅图22至图26，本发明第三较佳实施方式提供一种语音控制装置100b，其具体结构与第一实施例中的语音控制装置100类似，其区别在于所述语音控制装置100b中麦克风通孔123b在所述语音控制装置100b上的位置与第一实施例中所述麦克风通孔123的位置不同。具体的，请一并参阅图22至图24，其中对应于所述第一麦克风单元121的麦克风通孔123b设置于所述上壳体22的顶部。对应于所述第二麦克风单元122的麦克风通孔123b则以环绕的方式平均分散地设置于上壳体22的侧壁上，以达到清楚地接收各个方向的语音信号。

可以理解，在本实施例中，所述语音控制装置100b中倾斜驱动单元162b的结构与第一实施例中所述倾斜驱动单元162的结构亦不同。具体的，请一并参阅图25至图26，在本实施例中，所述倾斜驱动单元162b包括第二马达1621、第二齿轮组1623及基座1628。所述第二马达1621及第二齿轮组1623均设置于所述上壳体22内部。所述基座1628的一侧连接至所述显示屏15的底部，另一侧则设置有至少一齿轮轨道1629。所述基座1628底部的齿轮轨道1629通过所述第二齿轮组1623连接至所述第二马达1621。请一并参阅图26，当所述第二马达1621工作时，所述第二马达1621通过所述第二齿轮组1623带动所述基座1628底部的齿轮轨道1629，进而带动所述显示屏15旋转，使得所述显示屏15产生对应于所述上壳体22的倾斜角度，进而改变所述显示屏15的视角，以适合使用者观看。

请一并参阅图27至图30，本发明第四较佳实施方式提供一种语音控制装置100c，其具体结构与第一实施例中的语音控制装置100类似，其区别在于所述语音控制装置100c并未包括所述旋转模块16，且所述语音控制装置100c中的显示屏15a为柔性显示屏，其设置于所述上壳体22的侧壁上。

可以理解，在本实施例中，当所述语音控制装置100c工作时，所述语音控制装置100c可利用所述第一麦克风单元121与第二麦克风单元122并通过所述多个麦克风通孔123-1至123-7接收外部声音，接着利用所述声音编码模块13或所述运算单元19根据所接收到的声音判断声源方向。当所述声音编码模块13或所述运算单元19判断出声源方向后，所述运算单元19将对应的信息(例如文字信息或影像信号)透过所述显示屏15a显示于声源方向所对应的显示区域上。

请一并参阅图29，其中显示的图形信息(如天气图形)可以根据所判断的声源方向作各种显示位置的变化。例如，当所判断的声源方向在麦克风通孔123-1或123-2所对应的方向时(请参阅图29中左图)，图形信息(如天气图形)会显示于麦克风通孔123-1与123-2所对应的显示区域上。另外，当所判断的声源方向在麦克风通孔123-2与123-3所对应的方向时(请参阅图29中右图)，图形信息(如天气图形)会显示于麦克风通孔123-2与123-3所对应的显示区域上。

请一并参阅图31及图32，为本发明较佳实施例中语音控制方法的流程图，其包括以下步骤：

步骤S100：所述语音控制装置100于开机后可进入一待机模式。此时，所述语音控制装置100的第一麦克风单元121处于启动状态，用以接收语音信号，而第二麦克风单元122处于关闭状态。

步骤S101：所述第一麦克风单元121接收到一语音信号，并将所述语音信号传送至所述声音编码模块13。所述声音编码模块13直接判断所述第一麦克风单元121所接收到的语音信号是否为一预先设定的语音启动指令。若是，则进入步骤S102。若否，则返回步骤S100，即所述语音控制装置100继续处于待机模式中，以持续通过所述第一麦克风单元121接收外部的语音信号。

可以理解，在其他实施例中，当第一麦克风单元121接收到一语音信号时，所述第一麦克风单元121将所述语音信号传送至所述声音编码模块13。所述声音编码模块13对所述语音信号处理(例如，包括但不限于将所述语音信号由模拟信号转换成数字语音信号)后传送至所述运算单元19。所述运算单元19收到所述语音信号后，会通过其所执行的语音分析模块200B判断所述语音信号是否为所述预先设定的语音启动指令。若是，则进入步骤S102。若否，则返回步骤S100，即所述语音控制装置100继续处于待机模式，以持续通过所述第一麦克风单元121接收外部的语音信号。

可以理解，在本实施例中，所述预先设定的语音启动指令可以为[哈啰]或是用户自行设定的其他语音启动指令。

步骤S102：当所述语音信号为所述预先设定的语音启动指令时，所述声音编码模块13或所述运算单元19传送一启动信号至所述第二麦克风单元122，以唤醒及启动所述第二麦克风单元122。如此所述第二麦克风单元122可以开始接收跟随在所述预先设定的语音启动指令后的后续语音信号。

例如，当使用者说[哈啰！今天台北的天气如何]时，所述第一麦克风单元121用以接收所述语音启动指令[哈啰]，而所述第二麦克风单元122则用以接收后续语音信号[今天台北的天气如何]。

步骤S103：当所述第二麦克风单元122启动后，所述声音编码模块13判断所述第二麦克风单元122是否在一预定时间内接收到所述后续的语音信号。若是，则进入到步骤S104。若否，则返回至步骤S100。即所述语音控制装置100回到待机模式，并关闭所述第二麦克风单元122，仅所述第一麦克风单元121处于启动状态，以接收语音启动指令。

步骤S104：当所述第二麦克风单元122中的至少一个接收到后续的语音信号时，所述第二麦克风单元122中的至少一个将所接收到的语音信号传送至所述声音编码模块13，以通过所述声音编码模块13直接判断所述语音信号是否为一语音请求指令。当所述声音编码模块13判断所述语音信号为语音请求指令时，进入步骤S105。若否，例如所述语音信号为没有任何意义的语音或者噪音时，返回至步骤S100。

可以理解，在其他实施例中，当所述第二麦克风单元122中的至少一个接收到后续的语音信号后，所述第二麦克风单元122中的至少一个将所接收到的语音信号传送至所述声音编码模块13。所述声音编码模块13对所述语音信号进行处理后再传送至所述运算单元19。所述运算单元19收到所述语音信号后，通过其所执行的语音分析模块200B判断所述语音信号是否为语音请求指令。若是，则进入到步骤S105。若否，例如所述语音信号为没有任何意义的语音或者噪音时，返回至步骤S100。

可以理解，在本实施例中，所述语音分析模块200B可根据所述语音数据库200A所储存的数据(例如语音词库)来判断所述语音信号是否为语音请求指令。或者所述语音分析模块200B通过所述运算单元19透过所述第一无线通信模块11传送所述语音信号至所述网络服务器300，以通过所述网络服务器300中的语音分析程序及/或语音数据库判断所述语音信号是否为语音请求指令，再由所述网络服务器300回传判断结果至所述运算单元19执行的语音分析模块200B。

可以理解，在本实施例中，所述语音请求指令的类型可至少包括但不限于两种，例如控制型语音指令、命令型语音指令与问题型语音指令。其中所述控制型语音指令可以为[打开电视]、[调整音量]、[打开音乐播放器]、[播放音乐]等各种控制远程电子装置201、202、203的指令。所述命令型语音指令可以为[订披萨]、[订车票]、[订饭店]等各种订票或预约的指令。所述问题型语音指令可以为[今天台北的天气如何]、[今天有哪些电影]、[今天有哪些球赛]等各种问题型指令。

步骤S105：当所述语音信号被判断为语音请求指令时，所述语音分析模块200B从所述语音数据库200A或影像数据库中找出一对应的响应信息。例如，当所述语音请求指令为[今天台北的天气如何]时，所述对应的响应信息可为[今天台北天气晴天]。或者例如，当所述语音请求指令为[到台北的交通状况如何]时，所述对应的响应信息可为一显示交通状况的地图或者为[目前塞车严重，开车需要2小时抵达]。

可以理解，在其他实施例中，所述对应的响应信息亦可由步骤S104中所述网络服务器300的语音分析程序及/或语音数据库根据所述语音请求指令找出，并回传所述对应的响应信息至所述运算单元执行的语音分析模块200B。

步骤S106：所述运算单元19判断所述响应信息是否符合输出至所述显示屏15的条件。若否，进入步骤S107。若是，则进入步骤S108。

例如，在其中一实施例中，当所述响应信息的内容属于文字信息且字数超过一预设数字(例如超过50个字或超过5个句子)，或属于图像信息、影像信息、地图信息、网址链接信息或任何表格或列表信息，则所述运算单元19可判断所述响应信息符合输出至所述显示屏15的条件，进而可选择将所述响应信息输出至所述显示屏15。

反之，所述运算单元19将判断所述响应信息不符合输出至所述显示屏15的条件，进而可选择将所述响应信息输出至所述扬声器14，以响应使用者。例如，当所述响应信息的内容属于文字信息且字数少于所述预设字数(例如少于50个字或少于5个句子)时，所述运算单元19判断所述响应信息的内容不符合输出至所述显示屏15的条件，进而可选择将所述响应信息输出至所述扬声器14，以响应使用者。

步骤S107：当判断所述响应信息不符合输出至所述显示屏15的条件时，所述运算单元19通过执行所述语音产生模块200C，以将上述由所述语音数据库200A或所述网络服务器300所获得的响应信息(例如[今天台北天气晴天]或[目前塞车严重，开车需要2小时抵达])转换为一对应的语音信号，并将所述对应的语音信号传送至所述声音编码模块13。最后再通过所述扬声器14产生[今天台北天气晴天]或[目前塞车严重，开车需要2小时抵达]的语音来响应用户，并进入步骤S117。

步骤S108：当判断所述响应信息符合输出至所述显示屏15的条件时，所述声音编码模块13或所述运算单元19继续判断所述第二麦克风单元122接收的语音信号的声源方向(即用户相对于所述语音控制装置100的方向)及/或计算声源距离(即用户相对于所述语音控制装置100的距离)。

可以理解，在本实施例中，所述声音编码模块13或所述运算单元19可通过分析比对在同一时间各个第二麦克风单元122接收的语音信号的振幅大小，并将振幅最大的第二麦克风单元所在位置朝外的水平方向判断为声源方向。

可以理解，在本实施例中，所述运算单元19可通过距离模块200E计算出用户与所述语音控制装置100的距离。当然，在其他实施例中，所述运算单元19还可通过所述相机模块17所拍摄影像的对焦距离、或透过其他雷射模块或红外线模块以雷射测距方式或光学测距方式计算出用户与语音控制装置100的距离。

步骤S109：所述运算单元19判断所述声源距离(即用户与所述语音控制装置100的距离)是否小于一预设距离。若是，则进入步骤S110。若否，则进入步骤S118。

可以理解，在步骤S107中，所述运算单元19还可根据所述声源距离(即用户与所述语音控制装置100的距离)调整所述语音控制装置100的语音输出音量大小。

例如，在其中一实施例，当所述声源距离大于所述预设距离(例如大于五公尺)时，所述语音控制装置100将所述扬声器14的语音输出音量提高，进而使得距离所述语音控制装置100五公尺外的使用者能够听到。或者，在另一实施例中，当所述声源距离大于所述预设距离(例如大于五公尺)时，所述语音控制装置100亦通过所述第二无线通信模块21将所述响应信息所对应的语音信号传送至所述装置管理模块200D所记录具有扬声器并处于开启状态中的远程电子装置201、202、203进行播放。

步骤S110：所述运算单元19根据步骤S108所判断出的声源方向产生一旋转驱动信号，并将所述旋转驱动信号传送至所述转动模块16，以驱动所述转动模块16中的所述旋转驱动单元161运动，进而转动所述上壳体22，使得所述显示屏15通过所述上壳体22的转动而转向声源方向。

步骤S111：当所述显示屏15转向所述声源方向后，所述运算单元19接着启动所述相机模块17拍摄影像。所述相机模块17所拍摄影像将传送至所述影像辨识模块18，并由影像辨识模块18辨识所拍摄影像是否具有脸部特征。若所述影像辨识模块18辨识所拍摄影像存在脸部特征，则进入步骤S112。若所述影像辨识模块18辨识所拍摄影像不存在脸部特征，则进入步骤S113。

可以理解，步骤S111中，亦可由所述运算单元19辨识及判断所拍摄影像是否存在脸部特征。

步骤S112：所述运算单元19根据脸部特征位于所拍摄影像中的位置产生倾斜驱动信号，并将所述倾斜驱动信号传送至所述转动模块16，以驱动所述转动模块16中的所述倾斜驱动单元162运动，进而调整所述显示屏15相对于所述上壳体22的倾斜角度。

例如，假设所述相机模块17设于所述显示屏15框体上方靠中间位置。当所述运算单元19判断所述脸部特征位于所拍摄影像中的上半部位置时，说明用户脸部位于相较于所述显示屏15高的位置。则所述倾斜驱动信号可用以将所述显示屏15往上调整，直至所述运算单元19判断所述脸部特征位于所拍摄影像中的中心水平线。

例如，假设所述相机模块17设于所述显示屏15框体上方靠中间位置。当所述运算单元19判断所述脸部特征位于所拍摄影像中的左半部位置，说明用户脸部位于较靠近所述显示屏15的左侧位置，则所述旋转驱动信号可用以使得所述显示屏15往左转动，直至所述运算单元19判断所述脸部特征位于所拍摄影像中的中心垂直线。

可以理解，所述影像辨识模块18可实时追踪用户的位置，并实时传送所拍摄影像至所述运算单元19，使所述运算单元19实时根据用户的位置产生控制信号至所述旋转驱动单元161与所述倾斜驱动单元162，进而实时调整所述显示屏15的水平方向与倾斜角度。当然，在其他实施例中，任何可以用来追踪使用者方向、距离的方法皆可应用于本发明，并不只限定于上述的方式。

步骤S113：当所述影像辨识模块18辨识所拍摄影像并未具有脸部特征时，所述运算单元19产生旋转驱动信号或倾斜驱动信号，并将所述旋转驱动信号或倾斜驱动信号传送至所述转动模块16，以转动所述上壳体22，进而调整所述相机模块17的水平方向或倾斜角度，以搜寻用户脸部特征。

可以理解，在其中一实施例中，所述旋转驱动单元161可根据依次收到的多个旋转驱动信号，依顺时钟方向或逆时针方向逐步转动所述相机模块17来搜寻用户脸部特征。

步骤S114：所述运算单元19或所述影像辨识模块18判断所述相机模块17是否搜寻到用户脸部特征。若是，进入步骤S116。若否，进入步骤S115。

步骤S115：所述运算单元19判断所述相机模块17的转动次数是否超过一预设次数。若是，进入步骤S116。若否，返回至步骤S113。

步骤S116：所述运算单元19将上述响应信息输出至所述显示屏15，以通过所述显示屏15显示所述响应信息。

步骤S117：所述运算单元19判断是否接收到一结束信号。若是，结束流程。若否，返回至步骤S100。

可以理解，在本实施例中，所述结束信号可以是一语音结束指令或是一电源关闭信号。

步骤S118：所述运算单元19判断是否有远程电子装置启动。若是，进入步骤S119。若否，返回至步骤S111。

可以理解，在其中一实施例中，所述运算单元19可根据所述装置管理模块200D对所述远程电子装置201、202的纪录，判断是否有远程电子装置启动。

当然，可以理解的是，在其他实施例中，所述运算单元19还可根据所述第二无线通信模块21是否与所述远程电子装置201、202连接来判断是否有远程电子装置启动。或者，所述运算单元19可根据所述装置管理模块200D是否有设定一默认的远程电子装置201或202，进而判断是否有远程电子装置启动。

步骤S119：当所述运算单元19判断有远程电子装置启动时，所述运算单元19可决定一距离较近的远程电子装置的显示屏显示所述响应信息。

例如，在其中一实施例中，所述运算单元19可通过所述第二无线通信模块21分别判断所述远程电子装置201、202的无线信号强度，进而决定一距离所述语音控制装置100较近的远程电子装置。

另外，所述运算单元19可根据计算得到的用户与语音控制装置100的距离或所述相机模块17所拍摄影像的对焦距离来判断用户与所述语音控制装置100的距离，进而获得距离用户最近的远程电子装置。

步骤S120：所述运算单元19通过所述第二无线通信模块21将所述响应信息传送至已开启或离所述语音控制装置100较近的远程电子装置201及/或202，以通过所述远程电子装置201及/或202显示所述响应信息，并返回至步骤S117。

可以理解，于其他实施例中，步骤S119亦可省略，直接由步骤S118进入步骤S120。

本发明的语音控制装置100可根据声源方向有效调整所述显示屏15的转向，还可根据拍摄影像中是否存在用户特征来有效调整所述显示屏15的倾斜角度，进而使得所述语音控制装置较精准地朝向用户。另外，所述语音控制装还100可根据不同类型的信息采用不同的呈现方式，例如当所述信息符合输出至所述显示屏15的条件时，通过所述显示屏15输出；而当不符合输出至所述显示屏15的条件时，则通过所述扬声器14输出，较为实用及方便。

以上实施方式仅用以说明本发明的技术方案而非限制，尽管参照以上较佳实施方式对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换都不应脱离本发明技术方案的精神和范围。本领域技术人员还可在本发明精神内做其它变化等用在本发明的设计，只要其不偏离本发明的技术效果均可。这些依据本发明精神所做的变化，都应包含在本发明所要求保护的范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：池育阳;何旻军;蔡铭富;刘正彬;王福彬;林士伦
技术所有人：深圳富泰宏精密工业有限公司;群迈通讯股份有限公司
我是此专利的发明人