一种语音指令识别方法、系统及机器人与流程

文档序号：12036182阅读：309来源：国知局

本发明属于语音识别技术领域，尤其涉及一种语音指令识别方法、系统及机器人。

背景技术：

随着人们生活水平的提高以及机器人技术的进步，机器人已经逐步走入了普通家庭的视野，如市面上常见的除草机器人、清洁机器人及管家机器人等。随着语音识别技术的发展与普及，现在市面上许多机器人都具备了语音识别及语义识别功能，用户可以通过直接与机器人语音对话的形式，来与机器人进行交互，控制机器人工作。

目前的语音识别技术能做到安静的环境之下，较好的接收和识别用户语音指令，与用户进行交互，但一旦环境中出现了人声噪声时，如看观看电视节目时发出的电视语音，语音识别系统就会无法分辨出是电视语音还是用户语音指令，导致执行一些错误的操作，例如：如电视中发出“关机”的语音，语音识别系统将其识别为用户语音指令，导致控制机器人关机。

综上可知，现有技术难以区分用户语音指令及电视语音，无法在含有电视语音的环境中，正确地识别出用户语音指令。

技术实现要素：

有鉴于此，本发明实施例提供了语音指令识别方法及装置，以解决现有技术中无法在含有电视语音的环境中，正确识别出用户语音指令的问题。

本发明实施例的第一方面提供了一种语音指令识别方法，包括：

获取电视直播时的实时电视语音数据，并提取所述实时电视语音数据中的第一声纹数据；

实时缓存最近一预设时间段内的所述第一声纹数据；采集环境语音数据，并提取所述环境语音数据中的第二声纹数据；

若实时缓存的所述第一声纹数据与所述第二声纹数据不匹配，则对所述环境语音数据进行用户语音指令识别。

本发明实施例的第二方面提供了一种语音指令识别系统，包括：机器人及服务器；

所述服务器包括电视声纹获取模块，用于获取电视直播时的实时电视语音数据，并提取所述实时电视语音数据中的第一声纹数据；实时缓存最近一预设时间段内的所述第一声纹数据；

所述机器人包括环境声纹采集模块，用于采集环境语音数据，并提取所述环境语音数据中的第二声纹数据，并将第二声纹数据发送至所述服务器；

所述服务器包括声纹匹配模块，用于对所述第一声纹数据与所述第二声纹数据进行声纹匹配，并将声纹匹配结果发送至所述机器人；

所述机器人包括语音识别模块，用于当实时缓存的所述第一声纹数据与所述第二声纹数据不匹配，则对所述环境语音数据进行用户语音指令识别。

本发明实施例的第三方面提供了一种机器人，包括：

环境声纹采集模块，用于采集环境语音数据，并提取所述环境语音数据中的第二声纹数据，并将第二声纹数据发送至所述服务器，以使得所述服务器能根据电视直播时的第一声纹数据，对所述第二声纹数据进行声纹匹配；

语音识别模块，用于接收所述服务器发送的声纹匹配结果，当实时缓存的所述第一声纹数据与所述第二声纹数据不匹配，则对所述环境语音数据进行用户语音指令识别。

本发明实施例与现有技术相比存在的有益效果是：提取环境中的语音数据的第二声纹数据后，通过将第二声纹数据与电视直播的第一声纹数据，能够判断出环境语音数据是否包含当前正在播放的电视节目发出的电视语音，从而达到了电视语音识别的效果，防止电视语音对机器人的干扰。由于电视网络有时可能会出现一定的网络传输延迟情况，此时用户观看到的电视节目并不是实时的，环境语音数据中包含电视语音也不是实时的电视语音，所以此时第二声纹数据无法正常与实时电视声纹数据进行匹配，而通过将第二声纹数据与实时缓存最近一预设时间段内的第一声纹数据进行声纹匹配，使得即使出现了一定的网络传输延迟的情况下，也能保证声纹匹配的有效性，提高了对电视语音的识别准确性。在得出声纹匹配结果之后，根据声纹匹配结果判断环境语音数据是不是电视语音，避免了误将电视语音当作用户语音指令情况的发生，使得即使在含有电视语音的环境中，也能正确地识别出用户语音指令，防止电视语音信号的干扰。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的语音指令识别方法的实现流程图；

图2是本发明实施例二提供的语音指令识别方法的实现流程图；

图3是本发明实施例三提供的语音指令识别方法的实现流程图；

图4是本发明实施例五提供的语音指令识别系统的系统交互图；

图5是本发明实施例六提供的语音指令识别系统的系统交互图；

图6是本发明实施例七提供的机器人的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明的技术方案，下面通过具体实施例来进行说明。

在本发明实施例中，语音数据均是指对声音数据进行人声提取后得到的数据，即语音数据仅包含人声数据而不包含诸如音乐之类的非人声数据。例如：电视语音数据，是指对采集到的电视声音数据进行人声提取所得出的语音数据，即电视语音数据只包含电视声音数据中人说话声音对应的语音数据，而不包含电视背景音乐之类的非人声数据。

图1示出了本发明实施例一提供的语音指令识别方法实现流程，详述如下：

s101，获取电视直播时的实时电视语音数据，并提取实时电视语音数据中的第一声纹数据。实时缓存最近一预设时间段内的第一声纹数据。

本发明实施例中，为了识别出环境语音数据中的电视语音，需要获取电视语音对应的第一声纹数据，通过将环境语音数据的第二声纹数据和第一声纹数据进行对比，来确定环境语音数据是否含有电视语音。

作为本发明实施例的一个具体实现方式，可以采取通过从互联网接入电视直播流地址，获取电视直播流的声音的方式，来获取电视直播时的第一声纹数据。

由于在实际情况中，电视网络都具有一定的延迟，即会有网络传输延迟情况存在，用户观看到的电视节目并不是实时的，所以在用户看电视节目时，机器人采集的环境语音数据中的电视语音也不是实时的电视语音，此时若将第二声纹数据与实时电视语音中的声纹数据进行对比，无法正常识别出环境语音数据是否包含电视语音。为了能在电视网络出现网络传输延迟的情况下，正常识别环境语音数据中的是否包含电视语音，本发明实施例中，会实时缓存最近一预设时间段内的第一声纹数据，如当预设时间段为5分钟时，若当前时刻是8:00:00，则本发明实施例会缓存7:55:00～8:00:00这段时间内的电视语音的第一声纹数据。此时即使出现网络传输延迟，采集的环境语音数据中的电视环境语音不是实时的电视语音，只要网络传输延迟的时间小于预设时间间隔，采集到的电视语音对应的声纹数据，就必然包含在历史第一声纹数据之中，因此，本发明实施例可以实现即使在在电视网络出现网络传输延迟的情况下，也能正常识别环境语音数据中的是否包含电视语音。其中，预设时间由技术人员根据实际情况进行确定，本发明实施例中，优选预设时间间隔为15秒。

s102，采集环境语音数据，并提取环境语音数据中的第二声纹数据。

在s102中采集环境中的环境语音数据，并提取环境语音数据中的第二声纹数据，以供后续与第一声纹数据进行对比，识别环境语音数据是否包含电视语音，以及对用户语音指令的识别。

作为本发明实施例的一个具体实现方式，机器人通过自带的拾音模块采集环境中的环境语音数据，进行用户语音指令识别时，为了保证对用户语音指令识别的及时性，会保持拾音模块处于实时激活状态，即s101对环境语音数据的采集，是一个持续的过程。

为了提高采集的环境语音数据的质量，减少采集的环境语音数据中的噪声，在本发明实施例中，优选采用高信噪比的采集硬件，来进行s101中的环境语音数据采集。由于不同用户说话的声音大小会有较大差别，且用户在兴奋和沮丧等不同状态下说话的声音大小也会有较大差别，为了尽量满足用户实际需求，适应不同的用户人群，本发明实施例中，优选采用灵敏度较高的采集硬件，或者灵敏度可调节的采集硬件，来进行s101中的环境语音数据采集。

声纹是一个非常重要的语音特征，可以用于区分识别不同的用户。为了对环境语音数据进行声纹匹配和用户识别，以避免出现将电视语音识别成用户语音指令的错误，s101中在获取到环境语音数据之后，还需要提取其中的第二声纹数据。虽然有多种特征参数可以用以表征声纹的特征，如梅尔频率倒谱系数mfcc、线性预测倒谱系数lpcc、多媒体内容描述接口mpeg7，但考虑到mfcc是基于倒谱所得到的，更符合人的听觉原理，对声纹特征的表征效果最佳，因而在本发明实施例中，优选采用mfcc梅尔倒谱系数作为人声声纹的特征参数，即提取环境语音数据的mfcc梅尔倒谱系数作为第二声纹数据。

s103，若实时缓存的第一声纹数据与第二声纹数据不匹配，则对环境语音数据进行用户语音指令识别。

在获取到第二声纹数据后，开始对第二声纹数据和第一声纹数据进行声纹匹配，判断环境语音数据中是否包含了电视语音。

对应不同的实际场景，环境语音数据存在三种情况，第一种情况，只有用户说话，没有电视语音，此时环境语音数据仅包含用户语音指令，第二种情况，只有电视语音，用户没有说话，此时环境语音数据仅包含电视语音，第三种情况，用户在有电视语音的同时也说话了，此时环境语音数据既包含电视语音又包含用户语音指令。与环境语音数据对应的，第二声纹数据也存在三种情况，第一种情况，第二声纹数据仅包含用户声纹，第二种情况，第二声纹数据仅包含电视声纹，第三种情况，第二声纹数据既包含电视声纹又包含用户声纹。

由于实际场景中，用户可能会在电视节目中的人发出电视语音的同时说话，为了保证后续电视语音识别时，能同时正常识别出用户语音指令，在对第二声纹数据进行声纹匹配时，不仅要对电视声纹进行匹配，还需要对用户声纹进行匹配，即声纹匹配结果中，既包含电视声纹匹配结果，又包含用户声纹匹配结果，以便于后续进行电视语音判定以及识别用户语音指令。

对应第二声纹数据存在的三种情况，相应的声纹匹配结果也可能出现三种情况。

第一种情况，第二声纹数据仅包含用户声纹，即第二声纹数据不包含电视声纹，此时说明环境语音数据中没有电视语音，只需直接从环境语音数据提取识别用户语音指令即可。

第二种情况，第二声纹数据仅包含电视声纹，此时说明环境语音数据中没有用户语音，无需对环境语音数据进行任何响应操作，即无需从环境语音数据提取识别用户语音指令。

第三种情况，第二声纹数据既包含电视声纹又包含用户声纹，即第二声纹数据既不仅包含电视声纹，此时说明环境语音数据中既包含电视语音，又包含用户语音，因此，既需要不对识别出的电视语音进行响应操作，又需要从环境语音数据提取识别用户语音指令，以保证在不对电视语音产生误识别的同时，还能正常识别用户语音指令。

在本发明实施例中，实时缓存的第一声纹数据与第二声纹数据不匹配，对应着声纹匹配结果的第一种情况及第三种情况，即实时缓存的第一声纹数据与第二声纹数据不匹配意味着环境用户数据中必定包含用户语音指令，此时可直接对用户语音指令进行提取识别。实时缓存的第一声纹数据与第二声纹数据匹配，则是对应声纹匹配结果的第二种情况，此时环境语音数据中仅包含电视语音，此时无需对环境语音数据进行任何提取识别等响应操作。

作为s101的一个具体实施例二，如图2所示，包括：

s201，对环境语音数据进行滤波降噪处理，得到人声数据。由于实际情况中，在进行环境语音数据采集时，环境中可能会充斥着多种环境噪声，如常见的空调工作噪声和冰箱工作噪声，在进行环境语音数据采集提取时，往往也会一并采集到这些环境噪声，为了降低这些噪声对后续声纹提取及语音提取识别的影响，本发明实施例中，会对采集到的环境语音数据进行滤波降噪处理，滤除掉环境语音数据中的噪声部分。本发明实施例中，滤波降噪既可以是通过滤波降噪硬件实现，也可以是通过滤波降噪软件算法实现，具体可由技术人员根据实际情况择优选取。

s202，提取人声数据中的第二声纹数据。在对环境语音数据滤波降噪完成后，得到了一个环境噪声相对较少的人声数据后，对人声数据进行人声声纹的提取。

本发明实施例二中，通过对采集到的环境语音数据先进行滤波降噪处理，再提取第二声纹数据，减少了环境噪声对声纹提取及语音指令提取识别的影响。

作为s103的一个具体实施例三，如图3所示，包括：

s301，若实时缓存的第一声纹数据与第二声纹数据不匹配，对环境语音数据进行语音识别，得到环境语音数据对应的环境语音指令。

其中环境语音指令是指环境语音数据中包含的语音指令，由于环境中的人声噪声有时不仅仅只是电视语音，如银行和商场中的叫号语音和广播语音，这些人声噪声都可能对起语音识别系统产生干扰，使其出现误操作。为了增强语音识别系统对人声噪声的抗干扰能力，本发明实施例中，还会预存一个干扰语音指令库，用以存储一些常见的人声噪声的语音指令。在进行环境语音数据中的用户语音指令识别时，还会对这些干扰语音指令库中对应的人声噪声进行识别，并不对人声噪声进行任何响应操作。

以一常见的环境语音数据中包含人声噪声“欢迎光临”为例，在本发明实施例s301中，会对环境语音数据进行语音识别，识别出其中包含的人声噪声对应的环境语音指令“欢迎光临”。

s302，将环境语音指令与预设的干扰语音指令库进行匹配。

在第一声纹数据与第二声纹数据不匹配时，只能说明环境语音数据中不包含电视语音，但其他的人声噪声还需要进一步的识别确认。本发明实施例中，为了实现对非电视语音的人声噪声的抗干扰识别，还会将将环境语音指令与预设的干扰语音指令库进行匹配，判断环境语音数据中是否包含人声噪声。即针对上述“欢迎光临”实例中，s302中，会将识别出来的“欢迎光临”的环境语言指令与预设的干扰语音指令库，判断“欢迎光临”是否属于干扰语音指令库中的干扰语音指令，若干扰语音指令库中已经包含了“欢迎光临”的干扰语音指令，“欢迎光临”属于干扰语音指令，及环境语音数据是人声噪音，此时无需对“欢迎光临”进行任何操作响应。

s303，若环境语音指令与干扰语音指令库不匹配，则对环境语音数据进行用户语音指令识别。

针对上述“欢迎光临”实例，若s302中，干扰语音指令库中没有包含了“欢迎光临”的干扰语音指令，即环境语音指令与干扰语音指令库不匹配，则意味着环境语音数据中，不包含干扰语音指令库对应的人声噪声，或者不仅包含干扰语音指令库对应的人声噪声，此时仅对环境语音数据进行用户语音指令提取识别操作，而不对人声噪声进行任何响应操作。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的方法，图4示出了本发明实施例提供的语音指令识别系统的结构框图，为了便于说明，仅示出了与本发明实施例相关的部分。

参照图4，该语音指令识别系统包括：机器人及服务器，其中，

所述服务器包括电视声纹获取模块，用于获取电视直播时的实时电视语音数据，并提取所述实时电视语音数据中的第一声纹数据。实时缓存最近一预设时间段内的所述第一声纹数据。

所述机器人包括环境声纹采集模块，用于采集环境语音数据，并提取所述环境语音数据中的第二声纹数据，并将第二声纹数据发送至所述服务器。

所述服务器包括声纹匹配模块，用于对所述第一声纹数据与所述第二声纹数据进行声纹匹配，并将声纹匹配结果发送至所述机器人。

所述机器人包括语音识别模块，用于当实时缓存的所述第一声纹数据与所述第二声纹数据不匹配，则对所述环境语音数据进行用户语音指令识别。

进一步地，所述环境声纹采集模块，包括：

滤波降噪子模块，用于对所述环境语音数据进行滤波降噪处理，得到人声数据。

声纹提取子模块，用于提取所述人声数据中的所述第二声纹数据。

进一步地，所述语音识别模块，包括：

语音识别子模块，用于所述若实时缓存的所述第一声纹数据与所述第二声纹数据不匹配，对所述环境语音数据进行语音识别，得到所述环境语音数据对应的环境语音指令。

语音匹配子模块，用于将所述环境语音指令与预设的干扰语音指令库进行匹配。

指令识别子模块，用于若所述环境语音指令与所述干扰语音指令库不匹配，则对所述环境语音数据进行用户语音指令识别。

在本发明实施例中，服务器主要用于获取实时第一声纹数据、存储历史第一声纹数据以及对人声声纹进行匹配。为了减小服务器工作负载压力，本发明实施例中，优选地，可以使用多台服务器组合工作，来完成获取实时第一声纹数据、存储历史第一声纹数据以及对人声声纹进行匹配的工作。

作为本发明的一个优选实施例六，如图5所示，采用服务器a及服务器b两台服务器组合，完成实时缓存最近一预设时间段内的第一声纹数据以及对人声声纹进行匹配的工作，其中服务器a包括声纹匹配模块，用于查询服务器b中的第一声纹数据，对接收到的所述第二声纹数据进行声纹匹配，并将声纹匹配结果发送至所述机器人，服务器b包括电视声纹获取模块，用于获取电视直播时的实时电视语音数据，并实时缓存最近一预设时间段内的第一声纹数据。

对应于上文实施例所述的系统，图6示出了本发明实施例提供的机器人的结构示意框图，为了便于说明，仅示出了与本发明实施例相关的部分。

参照图6，该机器人包括：

环境声纹采集模块，用于采集环境语音数据，并提取所述环境语音数据中的第二声纹数据，并将第二声纹数据发送至所述服务器，以使得所述服务器能根据电视直播的第一声纹数据，对所述第二声纹数据进行声纹匹配。

进一步地环境声纹采集模块，包括：

滤波降噪子模块，用于对环境语音数据进行滤波降噪处理，得到人声数据；

声纹提取子模块，用于提取人声数据中的所述第二声纹数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韦锦靓;邢学强
技术所有人：深圳市搜果科技发展有限公司
我是此专利的发明人