一种语音识别方法及终端与流程

文档序号：12473152阅读：497来源：国知局

本发明涉及多媒体技术领域，具体涉及一种语音识别方法及终端。

背景技术：

人机交互是人与终端进行交互的一门学问，终端可以是各种各样的机器，如手机、平板电脑、洗衣机、电视机等。人机交互界面通常是指用户可见的部分，用户可以通过人机交互界面与终端交流。用户可以通过可视化窗口、操纵杆、手柄、遥控等方式与终端进行交互，但上述交互方式都需要用户手动操作终端，当用户不方便手动操作时，用户将无法操作终端。

技术实现要素：

本发明实施例提供一种语音识别方法及终端，可以实现用户通过语音操作终端。

本发明实施例第一方面提供一种语音识别方法，包括：

终端采集语音信号；

所述终端从所述语音信号中提取所述语音信号的对象信息；

所述终端判断所述对象信息是否为所述终端的信息；

当所述对象信息不是所述终端的信息时，所述终端将所述语音信号发送给所述对象信息对应的终端，以使所述对象信息对应的终端从所述语音信号中提取指令并执行。

本发明实施例第二方面提供一种终端，包括：

采集单元，用于采集语音信号；

第一提取单元，用于从所述采集单元采集的语音信号中提取所述语音信号的对象信息；

第一判断单元，用于判断所述第一提取单元提取的对象信息是否为所述终端的信息；

发送单元，用于当所述第一判断单元的判断结果为所述对象信息不是所述终端的信息时，将所述采集单元采集的语音信号发送给所述对象信息对应的终端，以使所述对象信息对应的终端从所述语音信号中提取指令并执行。

本发明实施例中，终端采集语音信号，从语音信号中提取语音信号的对象信息，判断对象信息是否为该终端的信息，当对象信息不是该终端的信息时，将语音信号发送给对象信息对应的终端，以使对象信息对应的终端从语音信号中提取指令并执行，可见，用户不仅可以直接与一个终端进行交互，还可以通过这个终端与另一终端进行间接交互，从而可以实现用户通过语音操作终端。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种网络架构示意图；

图2是本发明实施例提供的一种语音识别方法的流程示意图；

图3是本发明实施例提供的另一种语音识别方法的流程示意图；

图4是本发明实施例提供的一种终端的结构示意图；

图5是本发明实施例提供的另一种终端的结构示意图；

图6是本发明实施例提供的又一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种语音识别方法及终端，可以实现用户通过语音操作终端。以下分别进行详细说明。

为了更好地理解本发明实施例提供的一种语音识别方法及终端，下面先对本发明实施例使用的网络架构进行描述。请参阅图1，图1是本发明实施例提供的一种网络架构示意图。如图1所示，该网络架构可以包括至少两个终端，这至少两个终端之间通过数据网络进行连接，这至少两个终端之间可以通过数据网络进行数据传输，这至少两个终端具有语音采集功能。这至少两个终端可以为手机、平板电脑、洗衣机、电视机、电冰箱等。数据网络可以因特网、局域网、WIFI网络等。

基于图1所示的网络架构，请参阅图2，图2是本发明实施例提供的一种语音识别方法的流程示意图。其中，该语音识别方法是从上述至少两个终端中的任一终端的角度来描述的。如图2所示，该语音识别方法可以包括以下步骤。

201、终端采集语音信号。

本实施例中，终端可以通过话筒、麦克风、传感器等语音采集装置采集语音信号。

202、终端从语音信号中提取语音信号的对象信息。

本实施例中，终端采集到语音信号之后，将从语音信号中提取语音信号的对象信息，语音信号的对象信息用于标识这个语音信号是针对哪个终端的语音信号。其中，语音信号的对象信息可以为终端名称，例如：当家里只有一台洗衣机、一台电视机和一台电冰箱时，对象信息可以直接为洗衣机、电视机、电冰箱等终端名称，语音信号可以为“打开电冰箱”等；也可以为终端编号，可以预先为每个终端唯一设置一个编号，之后可以通过编号识别每个终端，例如：洗衣机为编号1、电冰箱为编号2、客厅的电视机为编号3、卧室的电视机为编号4等，对象信息为1、2、3、4等，语音信号可以为“启动1”；还可以为终端名称和终端编号，例如：当家里有至少两台电视机时，只通过终端名称电视机将无法识别出这个语音信号是针对那台电视机的语音信号，因此，可以为这至少两台电视机进行编号，如电视机1、电视机2等。

203、终端判断语音信号的对象信息是否为该终端的信息，当语音信号的对象信息为该终端的信息时，执行步骤204，当语音信号的对象信息不是该终端的信息时，执行步骤205。

本实施例中，终端从语音信号中提取到语音信号的对象信息之后，将判断语音信号的对象信息是否为该终端的信息，即比较语音信号的对象信息与该终端的信息，当语音信号的对象信息与该终端的信息相同时，表明语音信号的对象信息为该终端的信息，即表明语音信号是针对该终端的语音信号，将执行步骤204；当语音信号的对象信息与该终端的信息不同时，表明语音信号的对象信息不是该终端的信息，即表明语音信号不是针对该终端的语音信号，将执行步骤205。

204、终端从语音信号中提取指令并执行。

本实施例中，当判断出语音信号的对象信息为该终端的信息，即表明语音信号是针对该终端的语音信号时，终端将从语音信号中提取指令并执行，例如：语音信号为“将电冰箱的温度调为5度”时，指令为“将温度调为5度”。

205、终端将语音信号发送给对象信息对应的终端，以使对象信息对应的终端从语音信号中提取指令并执行。

本实施例中，当判断出语音信号的对象信息不是该终端的信息，即表明语音信号不是针对该终端的语音信号时，终端将语音信号发送给对象信息对应的终端，以使对象信息对应的终端从语音信号中提取指令并执行，即以使对象信息对应的终端执行步骤204的操作。

在图2所描述的语音识别方法中，从语音信号中提取语音信号的对象信息，判断对象信息是否为该终端的信息，当对象信息不是该终端的信息时，将语音信号发送给对象信息对应的终端，以使对象信息对应的终端从语音信号中提取指令并执行，可见，用户不仅可以直接与一个终端进行交互，还可以通过这个终端与另一终端进行间接交互，从而可以实现用户通过语音操作终端。

基于图1所示的网络架构，请参阅图3，图3是本发明实施例提供的另一种语音识别方法的流程示意图。其中，该语音识别方法是从上述至少两个终端中的任一终端的角度来描述的。如图3所示，该语音识别方法可以包括以下步骤。

301、终端采集语音信号。

本实施例中，终端可以通过话筒、麦克风、传感器等语音采集装置采集语音信号。

302、终端从语音信号中提取语音信号的对象信息。

303、终端判断语音信号的对象信息是否为该终端的信息，当语音信号的对象信息为该终端的信息时，执行步骤304，当语音信号的对象信息不是该终端的信息时，执行步骤308。

本实施例中，终端从语音信号中提取到语音信号的对象信息之后，将判断语音信号的对象信息是否为该终端的信息，即比较语音信号的对象信息与该终端的信息，当语音信号的对象信息与该终端的信息相同时，表明语音信号的对象信息为该终端的信息，即表明语音信号是针对该终端的语音信号，将执行步骤304；当语音信号的对象信息与该终端的信息不同时，表明语音信号的对象信息不是该终端的信息，即表明语音信号不是针对该终端的语音信号，将执行步骤308。

304、终端判断该终端是否设置有权限，当该终端设置有权限时，执行步骤305，当该终端未设置有权限时，执行步骤306。

本实施例中，为了保护终端的安全性或限制某些用户对终端的使用，可以预先为终端设置权限，即采集允许使用终端的用户的第一语音信号，从第一语音信号中提取第一特征，为第一特征设置允许误差值，并存储第一特征和允许误差值。当判断出语音信号的对象信息不是该终端的信息，即表明语音信号不是针对该终端的语音信号时，终端可以先判断该终端是否设置有权限，当该终端设置有权限时，表明有些用户可以对该终端进行操作、有些用户不能对该终端进行操作，将执行步骤305，当该终端未设置有权限时，表明所有的用户都可以对该终端进行操作，将执行步骤306。

305、终端提取语音信号的特征，比较该特征与存储的语音特征，当存储的语音特征中存在与该特征相匹配的语音特征时，将执行步骤306，当存储的语音特征中不存在与该特征相匹配的语音特征时，将执行步骤307。

本实施例中，当判断出该终端设置有权限时，将提取语音信号的特征，比较语音信号的特征与存储的语音特征，当存储的语音特征中存在与语音信号的特征相匹配的语音特征时，表明语音信号对应的用户具有操作该终端的权限，将执行步骤306；当存储的语音特征中不存在与语音信号的特征相匹配的语音特征时，表明语音信号对应的用户不具有操作该终端的权限，将执行步骤307。其中，语音信号的特征可以包括幅度、相位和频率，比较语音信号的特征与存储的语音特征，即比较语音信号的幅度与目标幅度、语音信号的相位和目标相位以及语音信号的频率和目标频率，目标幅度、目标相位和目标频率属于存储的语音特征中的目标语音特征，当语音信号的幅度与目标幅度的差的绝对值小于第一预设值、语音信号的相位和目标相位的差的绝对值小于第二预设值以及语音信号的频率和目标频率的差的绝对值小于第三预设值时，确定目标语音特征与语音信号的特征相匹配。第一预设值、第二预设值和第三预设值即为允许误差值。

306、终端从语音信号中提取指令并执行。

307、终端丢弃语音信号。

308、终端将语音信号发送给对象信息对应的终端，以使对象信息对应的终端从语音信号中提取指令并执行。

本实施例中，当判断出语音信号的对象信息不是该终端的信息，即表明语音信号不是针对该终端的语音信号时，终端将语音信号发送给对象信息对应的终端，以使对象信息对应的终端从语音信号中提取指令并执行，即以使对象信息对应的终端执行步骤304-307的操作。

在图3所描述的语音识别方法中，从语音信号中提取语音信号的对象信息，判断对象信息是否为该终端的信息，当对象信息不是该终端的信息时，将语音信号发送给对象信息对应的终端，以使对象信息对应的终端从语音信号中提取指令并执行，可见，用户不仅可以直接与一个终端进行交互，还可以通过这个终端与另一终端进行间接交互，从而可以实现用户通过语音操作终端。

基于图1所示的网络架构，请参阅图4，图4是本发明实施例提供的一种终端的结构示意图。如图4所示，该终端可以包括：

采集单元401，用于采集语音信号；

第一提取单元402，用于从采集单元401采集的语音信号中提取语音信号的对象信息；

第一判断单元403，用于判断第一提取单元402提取的对象信息是否为该终端的信息；

发送单元404，用于当第一判断单元403的判断结果为语音信号的对象信息不是该终端的信息时，将采集单元401采集的语音信号发送给语音信号的对象信息对应的终端，以使语音信号的对象信息对应的终端从语音信号中提取指令并执行。

在图4所描述的终端中，从语音信号中提取语音信号的对象信息，判断对象信息是否为该终端的信息，当对象信息不是该终端的信息时，将语音信号发送给对象信息对应的终端，以使对象信息对应的终端从语音信号中提取指令并执行，可见，用户不仅可以直接与一个终端进行交互，还可以通过这个终端与另一终端进行间接交互，从而可以实现用户通过语音操作终端。

基于图1所示的网络架构，请参阅图5，图5是本发明实施例提供的另一种终端的结构示意图。其中，图5所示的终端是由图4所示的终端优化得到的，其中，该终端还可以包括：

执行单元405，用于当第一判断单元403的判断结果为语音信号的对象信息是该终端的信息时，从采集单元401采集的语音信号中提取指令并执行。

作为一种可能的实施方式，该终端还可以包括：

第二判断单元406，用于判断该终端是否设置有权限；

第二提取单元407，用于当第二判断单元406的判断结果为该终端设置有权限时，提取采集单元401采集的语音信号的特征；

比较单元408，用于比较第二提取单元407提取的特征与存储的语音特征，当比较单元408的比较结果为存储的语音特征中存在与语音信号的特征相匹配的语音特征时，触发执行单元405执行所述的从语音信号中提取指令并执行的步骤。

具体地，当第一判断单元403的判断结果为语音信号的对象信息是该终端的信息时，将触发第二判断单元406判断该终端是否设置有权限。

作为一种可能的实施方式，语音信号的特征可以包括幅度、相位和频率；

比较单元408，具体用于比较语音信号的幅度与目标幅度、语音信号的相位和目标相位以及语音信号的频率和目标频率，当语音信号的幅度与目标幅度的差的绝对值小于第一预设值、语音信号的相位和目标相位的差的绝对值小于第二预设值以及语音信号的频率和目标频率的差的绝对值小于第三预设值时，确定目标语音特征与语音信号的特征相匹配，目标幅度、目标相位和目标频率属于存储的语音特征中的目标语音特征。

作为一种可能的实施方式，语音信号的对象信息可以包括：

终端名称；或者

终端编号；或者

终端名称和终端编号。

在图5所描述的终端中，从语音信号中提取语音信号的对象信息，判断对象信息是否为该终端的信息，当对象信息不是该终端的信息时，将语音信号发送给对象信息对应的终端，以使对象信息对应的终端从语音信号中提取指令并执行，可见，用户不仅可以直接与一个终端进行交互，还可以通过这个终端与另一终端进行间接交互，从而可以实现用户通过语音操作终端。

基于图1所示的网络架构，请参阅图6，图6是本发明实施例提供的又一种终端的结构示意图。如图6所示，该终端可以包括：至少一个处理器601，如CPU，存储器602，通信接口603、语音采集装置604以及至少一个通信总线605。存储器602可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可选地，存储器602还可以是至少一个位于远离前述处理器601的存储装置。其中：

通信总线605，用于实现这些组件之间的连接通信；

语音采集装置604，用于采集语音信号并发送给处理器601；

存储器602中存储有一组程序代码，处理器601用于调用存储器602中存储的程序代码执行以下操作：

从语音信号中提取语音信号的对象信息；

判断语音信号的对象信息是否为该终端的信息；

通信接口603，用于当语音信号的对象信息不是该终端的信息时，将语音信号发送给语音信号的对象信息对应的终端，以使语音信号的对象信息对应的终端从语音信号中提取指令并执行。

作为一种可能的实施方式，处理器601还用于调用存储器602中存储的程序代码执行以下操作：

当语音信号的对象信息是该终端的信息时，从语音信号中提取指令并执行。

作为一种可能的实施方式，当语音信号的对象信息是该终端的信息时，处理器601还用于调用存储器602中存储的程序代码执行以下操作：

判断该终端是否设置有权限；

当该终端设置有权限时，提取语音信号的特征；

比较语音信号的特征与存储的语音特征；

当存储的语音特征中存在与语音信号的特征相匹配的语音特征时，执行所述的从语音信号中提取指令并执行的步骤。

作为一种可能的实施方式，语音信号的特征可以包括幅度、相位和频率；

处理器601比较语音信号的特征与存储的语音特征包括：

比较语音信号的幅度与目标幅度、语音信号的相位和目标相位以及语音信号的频率和目标频率，目标幅度、目标相位和目标频率属于存储的语音特征中的目标语音特征；

当语音信号的幅度与目标幅度的差的绝对值小于第一预设值、语音信号的相位和目标相位的差的绝对值小于第二预设值以及语音信号的频率和目标频率的差的绝对值小于第三预设值时，确定目标语音特征与语音信号的特征相匹配。

作为一种可能的实施方式，语音信号的对象信息可以包括：

终端名称；或者

终端编号；或者

终端名称和终端编号。

其中，步骤201和301可以由终端中的语音采集装置604来执行，步骤202-204、302-307可以由终端中的处理器601和存储器602来执行，步骤205和308可以由终端中的通信接口603来执行。

其中，采集单元401可以由终端中的语音采集装置604来实现，第一提取单元402、第一判断单元403、执行单元405、第二判断单元406、第二提取单元407和比较单元408可以由终端中的处理器601和存储器602来实现，发送单元404可以由终端中的通信接口603来实现。

在图6所描述的终端中，从语音信号中提取语音信号的对象信息，判断对象信息是否为该终端的信息，当对象信息不是该终端的信息时，将语音信号发送给对象信息对应的终端，以使对象信息对应的终端从语音信号中提取指令并执行，可见，用户不仅可以直接与一个终端进行交互，还可以通过这个终端与另一终端进行间接交互，从而可以实现用户通过语音操作终端。

本发明实施例的单元，可以以通用集成电路(如中央处理器CPU)，或以专用集成电路(ASIC)来实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例终端中的单元可以根据实际需要进行合并、划分和删减。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本发明实施例提供的语音识别方法及终端进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：向攀;
技术所有人：深圳市金立通信设备有限公司;
我是此专利的发明人