语音识别的方法、装置、电子设备及计算机可读存储介质与流程

文档序号：16368053发布日期：2018-12-22 08:32阅读：166来源：国知局

本发明实施例涉及语音识别技术领域，具体而言，本发明实施例涉及一种语音识别的方法、装置、电子设备及计算机可读存储介质。

背景技术

随着信息技术的发展，语音识别技术随之发展，通过语音识别技术识别当前环境中的声音是否能够触发操作执行，例如，通过语音识别技术识别用户发出的语音中包含触发终端设备开启的关键词，当识别出触发该终端设备开启的关键词时，控制该终端设备启动，因此如何基于语音识别的方式，执行触发操作成为一个关键问题。

现有技术中，一种语音识别实现语音触发的方法，实时监测周围环境中声音，当监测到周围环境中的声音状态与静音模型中的静音状态相匹配时，则不触发采集周围环境中的声音，与语音模型中的音节进行匹配，当监测到周围环境中的声音状态不属于静音模型中的静音状态时，触发采集周围环境中的声音，与语音模型中的音节进行匹配，以进行触发关键词检测。

然而，在进行发明创造的过程中发明人发现：当只要监测到周围环境不属于静音状态时，即触发进行关键词检测，由于周围环境中可能会出现一些噪音，例如人的尖叫声音、犬吠等声音，均可能误触发采集周围环境中的声音，与语音模型中的音节进行触发关键词检测，从而导致误触发的概率较大；再者当误触发之后，就需要实时采集周围环境的声音进行关键词检测，导致采集装置以及关键词检测装置的处理压力较大，再者误触发关键词检测之后，可能导致误触发执行其它语音指令，导致用户体验较差。

技术实现要素：

本发明实施例提供了一种语音识别的方法、装置、电子设备及计算机可读存储介质，用于降低误触发的概率，并且可以降低采集装置以及关键词检测装置的处理压力，进而可以提升用户体验。

为了解决上述问题，本发明实施例主要提供如下技术方案：

第一方面，提供了一种语音识别的方法，该方法包括：

基于当前环境中的声音，确定当前环境是否属于静音状态；

当确定出当前环境不属于静音状态时，通过第一模型和/或第二模型，确定当前环境中的声音是否属于预设噪声；

若确定出当前环境中的声音不属于预设噪声，则触发通过语音模型进行关键词检测。

第二方面，提供了一种语音识别的装置，该装置包括：

第一确定模块，用于基于当前环境中的声音，确定当前环境是否属于静音状态；

第二确定模块，还用于当第一确定模块确定出当前环境不属于静音状态时，通过第一模型和/或第二模型，确定当前环境中的声音是否属于预设噪声；

关键词检测模块，用于当第二确定模块确定出当前环境中的声音不属于预设噪声时，触发通过语音模型进行关键词检测。

第三方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；

以及与处理器连接的至少一个存储器、总线；其中，

处理器、存储器通过总线完成相互间的通信；

处理器用于调用存储器中的程序指令，以执行第一方面所示的语音识别的方法。

第四方面，提供了一种非暂态计算机可读存储介质，其特征在于，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面所示的语音识别的方法。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明实施例提供了一种语音识别的方法、装置、电子设备及计算机可读存储介质，与现有技术中只要监测到当前环境不属于静音状态，即触发关键词检测相比，本发明实施例基于当前环境中的声音，确定当前环境是否属于静音状态，当确定出当前环境不属于静音状态时，通过第一模型和/或第二模型，确定当前环境中的声音是否属于预设噪声，若确定出当前环境中的声音不属于预设噪声，则触发通过语音模型进行关键词检测。即本发明中当监测到当前环境不属于静音状态，且当前环境中的声音也不属于预设噪声时，例如预设噪声包括人的尖叫声音、咳嗽声音、犬吠声音等，触发通过语音模型进行关键词检测，从而可以降低误触发的概率，并且可以降低采集设备以及关键词检测设备的压力，进而可以提升用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种语音识别的方法流程示意图；

图2为本发明实施例提供的一种语音识别的装置结构示意图；

图3为本发明实施例提供的另一种语音识别的装置结构示意图；

图4为本发明实施例提供的一种语音识别的电子设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

现有技术中，语音识别匹配的模型包括语音模型以及垃圾(garbage)模型，其中语音模型中包含多个音节，例如可以包含1400个音节，该语音模型用于识别语音中是否包含预设关键词；垃圾模型仅包含静音模型，仅能用于检测当前环境是否属于静音状态。然而待进行识别的语音中可能包含与语音模型不相匹配的语音又与静音模型不相匹配的语音，可称为噪音，例如犬吠、尖叫等。但是这些噪声与静音模型不相匹配，可能被分配至语音模型中进行关键词检测，从而导致误触发。

为了解决现有技术中的技术问题，在垃圾模型中创建并训练语音噪音(spokennoise，spn)模型以及非语音噪音(nonespokennoise，nsn)模型，基于spn模型用于确定当前环境中的声音是否为人发出的噪声，例如尖叫、咳嗽等声音，基于nsn模型用于确定当前环境中的声音是否为非人发出的噪声，例如狗叫、敲击声等。在本发明实施例中，当基于当前环境中的声音确定当前环境不属于静音模型中的静音状态，当前环境中的声音又与spn模型以及nsn模型中的声音不匹配，则将该当前环境中的声音在语音模型中进行关键词匹配，确定是否可以触发相应的操作。

下面以具体地实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

实施例一

本发明实施例提供了一种语音识别的方法，如图1所示，该方法包括：

步骤s101、基于当前环境中的声音，确定当前环境是否属于静音状态。

本发明实施例可以由终端设备执行，也可以由服务器执行。在本发明实施例中不做限定。

对于本发明实施例，可以实时监测当前环境中的声音，或者每隔预设时间监测当前环境中的声音，以确定当前环境是否属于静音状态。

步骤s102、当确定出当前环境不属于静音状态时，通过第一模型和/或第二模型，确定当前环境中的声音是否属于预设噪声。

对于本发明实施例，第一模型可以为上文提到的spn模型，第二模型可以上文提到的nspn模型。

对于本发明实施例，预设噪声可以包括上文提到的人发出的噪声，例如尖叫声以及咳嗽声；还可以包括非人发出的噪声，例如犬吠声、敲击声以及风声等。

对于本发明实施例，还可以将当前环境中的声音同时输入静音模型、第一模型以及第二模型，确定通过当前环境中的声音与静音模型、第一模型以及第二模型中至少一个模型是否相匹配。

步骤s103、若确定出当前环境中的声音不属于预设噪声，则触发通过语音模型进行关键词检测。

对于本发明实施例，若确定出当前环境中的声音不属于预设噪声，则将该声音输入至语音模型进行关键词匹配，确定当前环境中的声音中是否存在与执行某一操作相匹配的关键词。在本发明实施例中，若存在与执行某一操作相匹配的关键词，则执行与该关键词相匹配的操作。

本发明实施例提供了一种语音识别的方法，与现有技术中只要监测到当前环境不属于静音状态，即触发关键词检测相比，本发明实施例基于当前环境中的声音，确定当前环境是否属于静音状态，当确定出当前环境不属于静音状态时，通过第一模型和/或第二模型，确定当前环境中的声音是否属于预设噪声，若确定出当前环境中的声音不属于预设噪声，则触发通过语音模型进行关键词检测。即本发明实施例中当监测到当前环境不属于静音状态，且当前环境中的声音也不属于预设噪声时，例如预设噪声包括人的尖叫声音、咳嗽声音、犬吠声音等，触发通过语音模型进行关键词检测，从而可以降低误触发的概率，并且可以降低采集设备以及关键词检测设备的压力，进而可以提升用户体验。

实施例二

本发明实施例提供了另一种可能的实现方式，在实施例一的基础上，还包括实施例二所示的方法，其中，

步骤s102中通过第一模型和/或第二模型，确定当前环境中的声音是否属于预设噪声，之前还包括步骤sa(图中未标注)，其中，

步骤sa、创建并训练第一模型和/或第二模型。

其中，第一模型用于确定当前环境中的声音是否属于人产生的噪声，第二模型用于确定当前环境中的声音是否属于非人产生的噪声。

对于本发明实施例，可以在现有的垃圾模型中创建第一模型和/或第二模型；也可以在垃圾模型外创建与该垃圾模型并列的第一模型和/或与该垃圾模型并列的第二模型。在本发明实施例中不做限定。

对于本发明实施例，可以在线下通过训练样本对第一模型和/或第二模型进行训练；还可以在线下通过训练样本对第一模型和/或第二模型进行训练，并且可以获取在线样本，对第一模型和/或第二模型进行线上学习。在本发明实施例中不做限定。

对于本发明实施例，第一模型以及第二模型可以为针对神经网络训练得到的。

对于本发明实施例，若在步骤sa中创建并训练第一模型和第二模型，则步骤s102中通过第一模型和/或第二模型，确定当前环境中的声音是否属于预设噪声包括步骤sa(图中未标注)、步骤sb(图中未标注)以及步骤sc(图中未标注)中的任一项，其中，

步骤sa、通过将当前环境中的声音同时输入至第一模型以及第二模型，确定当前环境中的声音是否预设噪声。

步骤sb、通过依次将当前环境中的声音输入第一模型以及第二模型，确定当前环境中的声音是否属于预设噪声。

对于本发明实施例，将当前环境中的声音输入第一模型，确定当前环境中的声音是否属于人发出的噪声，若不属于人发出的噪声，则将当前环境中的声音输入第二模型，确定当前环境中的声音是否属于非人发出的噪声；或者将当前环境中的声音输入第二模型判断当前环境中的声音是否属于非人发出的噪声，若不属于非人发出的噪声，则将当前环境中的声音输入第一模型，确定当前环境中的噪声是否属于人发出的噪声。

步骤sc、基于当前的场景确定模型的输入顺序，并基于确定出的模型的输出顺序，将当前环境中的声音输入至第一模型以及第二模型。

对于本发明实施例，具体的场景可以由用户选择。

对于本发明实施例，通过创建并训练第一模型和/或第二模型，能够通过训练后的第一模型和/或第二模型，准备地确定出当前环境中的声音是否属于预设噪声，从而避免触发语音模型对当前环境中的声音进行关键词检测，进而可以进一步降低误触发的概率，提升用户体验。

实施例三

本发明实施例的另一种可能的实现方式，在实施例一所示的基础上还包括实施例三所示的操作，其中，

步骤s101包括步骤s1011(图中未标注)、步骤s1012(图中未标注)以及步骤s1013(图中未标注)，其中，

步骤s1011、确定当前环境中的声音对应的分贝是否大于预设阈值。

对于本发明实施例，确定当前环境对应的应用场景，并基于当前环境对应的应用场景确定对应的预设阈值。在本发明实施例中可以不同的应用场景对应不同的预设阈值，也可以不同的应用场景对应相同的预设阈值。在本发明实施例中不做限定。

例如，会议场景下对应的预设阈值低于室外场景下对应的预设阈值，会议场景下对应的预设阈值可以为20分贝(db)，室外场景下对应的预设阈值可以为40db。

对于本发明实施例，预设阈值可以由用户设置，也可以由产品运营商设置。在本发明实施例中不做限定。

对于本发明实施例，通过不同的应用场景设置不同的预设分贝阈值，能够确定出当前环境中的声音是否达到该场景下的预设分贝阈值，以确定当前环境是否属于静音状态，从而可以提高确定当前环境是否属于静音状态的准确性，进而可以进一步地提升用户体验。

步骤s1012、若不大于预设阈值，则确定当前环境属于静音状态。

例如，当前环境中的声音的分贝值为30db，当前环境对应的预设阈值为40db，则确定当前环境属于静音状态。

步骤s1013、若大于预设阈值，则确定当前环境不属于静音状态。

例如，当前环境中的声音的分贝值为45db，当前环境对应的预设阈值为40db，则确定当前环境不属于静音状态。

进一步地，步骤s101包括步骤s1014(图中未标注)，步骤s1014与步骤s1011-s1013为步骤s101并列的两种下位实现方式，其中，

步骤s1014、通过将当前环境中的声音输入训练后的静音模型，确定当前环境是否属于静音状态。

对于本发明实施例，将各种环境中的属于静音状态的声音以及静音状态标签作为训练样本，训练该静音模型。

实施例四

本发明实施例中的另一种可能的实现方式，在实施例一至实施例三任一实施例的基础上还包括实施例四所示的操作，其中，

步骤s103中通过语音模型进行关键词检测，包括步骤sb(图中未标注)，其中，

步骤sb、通过将当前环境中的声音与语音模型中存储的音节进行匹配，检测当前环境中的声音中是否包含预设关键词。

对于本发明实施例，当当前环境不属于静音状态，当前环境中的声音也不属于预设噪声，则将当前环境中的声音作为语音输入至语音模型中进行关键词匹配。例如，语音模型中可以包含1400个音节。

对于本发明实施例，若当前环境不属于静音状态，当前环境中的声音也不属于预设噪声，则将当前环境中的声音作为语音输入至语音模型中进行关键词匹配，并可以开始对当前环境中的声音进行录制，然后将录制的语音输入语音模型进行关键词检测。

对于本发明实施例，不同的操作对应不同的触发关键词。例如，启动操作对应触发关键词1，关闭操作对应触发关键词2。

对于本发明实施例，至少两个不同的操作也可以对应相同的触发关键词。在本发明实施例中，根据设备当前的状态，确定该触发关键词对应的操作。

例如，触发关键词1对应两个触发操作，分别为设备启动操作、设备关闭操作，当检测到触发关键词1，并且当前设备处于开启状态，则确定该触发关键词1对应的操作为设备关闭操作；当检测到触发关键词1，并且当前设备处于关闭状态，则确定该触发关键词1对应的操作为设备开启操作。

对于本发明实施例，预设关键词可以由产品运营商设置，也可以由用户设置。在本发明实施例中不做限定。

例如，预设关键词可以为“你好，xx”，“hi，xx”。

对于本发明实施例，通过将当前环境中的声音与语音模型中存储的音节进行匹配，检测当前环境中的声音中是否包含预设关键词，由于语音模型中存储的是音节，所占用的存储空间较小，再者进行音节匹配的时间缩短，响应时间缩短，从而可以缩短识别用户语音中预设关键词的时间以及响应语音指令的时间，进而可以提升用户体验。

实施例五

本发明实施例提供了一种语音识别的装置，如图2所示，该语音识别的装置20可以包括：第一确定模块201、第二确定模块202以及关键词检测模块203，其中，

第一确定模块201，用于基于当前环境中的声音，确定当前环境是否属于静音状态。

第二确定模块202，还用于当第一确定模块201确定出当前环境不属于静音状态时，通过第一模型和/或第二模型，确定所述当前环境中的声音是否属于预设噪声。

其中，第一确定模块201与第二确定模块202可以相同，也可以为不同。在本发明实施例中不做限定。

关键词检测模块203，用于当第二确定模块202确定出当前环境中的声音不属于预设噪声时，触发通过语音模型进行关键词检测。

本发明实施例的语音识别的装置可执行本发明实施例一所示的语音识别的方法，其实现原理相类似，此处不再赘述。

实施例六

本发明实施例提供的另一种语音识别的装置结构示意图，如图3所示，本实施例的语音识别的装置30可以包括：第一确定模块301、第二确定模块302以及关键词检测模块303，其中，

第一确定模块301，用于基于当前环境中的声音，确定当前环境是否属于静音状态。

其中，图3中的第一确定模块301与图2中第一确定模块201的功能相同或者相似。

第二确定模块302，还用于当第一确定模块301确定出当前环境不属于静音状态时，通过第一模型和/或第二模型，确定当前环境中的声音是否属于预设噪声。

其中，第一确定模块301与第二确定模块302可以相同，也可以为不同。在本发明实施例中不做限定。

其中，图3中的第二确定模块302与图2中第二确定模块202的功能相同或者相似。

关键词检测模块303，用于当第二确定模块302确定出当前环境中的声音不属于预设噪声时，触发通过语音模型进行关键词检测。

其中，图3中的关键词检测模块303与图2中关键词检测模块302的功能相同或者相似。

进一步地，如图3所示，该语音识别的装置30还包括：训练模块304，其中，

训练模块304，用于创建并训练第一模型和/或第二模型。

其中，第一模型用于确定当前环境中的声音是否属于人产生的噪声，第二模型用于确定当前环境中的声音是否属于非人产生的噪声。

具体地，第一确定模块301，具体用于确定当前环境中的声音对应的分贝是否大于预设阈值。

第一确定模块301，具体还用于当不大于预设阈值时，确定当前环境属于静音状态。

第一确定模块301，具体还用于当大于预设阈值时，确定当前环境不属于静音状态。

具体地，第一确定模块301，具体用于通过将当前环境中的声音输入训练后的静音模型，确定当前环境是否属于静音状态。

具体地，关键词检测模块302，具体用于通过将当前环境中的声音与语音模型中存储的音节进行匹配，检测当前环境中的声音中是否包含预设关键词。

本发明实施例提供了一种语音识别的装置，与现有技术中只要监测到当前环境不属于静音状态，即触发关键词检测相比，本发明实施例基于当前环境中的声音，确定当前环境是否属于静音状态，当确定出当前环境不属于静音状态时，通过第一模型和/或第二模型，确定当前环境中的声音是否属于预设噪声，若确定出当前环境中的声音不属于预设噪声，则触发通过语音模型进行关键词检测。即本发明实施例中当监测到当前环境不属于静音状态，且当前环境中的声音也不属于预设噪声时，例如预设噪声包括人的尖叫声音、咳嗽声音、犬吠声音等，触发通过语音模型进行关键词检测，从而可以降低误触发的概率，并且可以降低采集设备以及关键词检测设备的压力，进而可以提升用户体验。

由于本实施例所介绍的语音识别的装置为可以执行本发明实施例中的语音识别的方法的装置，故而基于本发明实施例中所介绍的语音识别的方法，本领域所属技术人员能够了解本实施例的语音识别的装置的具体实施方式以及其各种变化形式，所以在此对于该语音识别的装置如何实现本发明实施例中的语音识别的方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中语音识别的方法所采用的装置，都属于本申请所欲保护的范围。

实施例七

本发明实施例提供了一种电子设备，如图4所示，图4所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004(图中未标注)。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本发明实施例的限定。

其中，处理器4001应用于本发明实施例中，用于实现图2或图3所示的第一确定模块、第二确定模块以及关键词检测模块的功能以及图3所示的训练模块的功能。收发器4004包括接收机和发射机。

处理器4001可以是cpu，通用处理器，dsp，asic，fpga或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是pci总线或eisa总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是rom或可存储静态信息和指令的其他类型的静态存储设备，ram或者可存储信息和指令的其他类型的动态存储设备，也可以是eeprom、cd-rom或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本发明方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现图2或图3所示实施例提供的语音识别的装置的动作。

本发明实施例提供了一种电子设备，与现有技术中只要监测到当前环境不属于静音状态，即触发关键词检测相比，本发明实施例基于当前环境中的声音，确定当前环境是否属于静音状态，当确定出当前环境不属于静音状态时，通过第一模型和/或第二模型，确定当前环境中的声音是否属于预设噪声，若确定出当前环境中的声音不属于预设噪声，则触发通过语音模型进行关键词检测。即本发明实施例中当监测到当前环境不属于静音状态，且当前环境中的声音也不属于预设噪声时，例如预设噪声包括人的尖叫声音、咳嗽声音、犬吠声音等，触发通过语音模型进行关键词检测，从而可以降低误触发的概率，并且可以降低采集设备以及关键词检测设备的压力，进而可以提升用户体验。

实施例八

本发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行实施例一至实施例四中任一项所示的语音识别的方法。

本发明实施例提供了一种非暂态计算机可读存储介质，与现有技术中只要监测到当前环境不属于静音状态，即触发关键词检测相比，本发明实施例基于当前环境中的声音，确定当前环境是否属于静音状态，当确定出当前环境不属于静音状态时，通过第一模型和/或第二模型，确定当前环境中的声音是否属于预设噪声，若确定出当前环境中的声音不属于预设噪声，则触发通过语音模型进行关键词检测。即本发明实施例中当监测到当前环境不属于静音状态，且当前环境中的声音也不属于预设噪声时，例如预设噪声包括人的尖叫声音、咳嗽声音、犬吠声音等，触发通过语音模型进行关键词检测，从而可以降低误触发的概率，并且可以降低采集设备以及关键词检测设备的压力，进而可以提升用户体验。

本发明实施例提供了一种非暂态计算机可读存储介质适用于上述方法任一实施例。在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡亚光
技术所有人：出门问问信息科技有限公司
我是此专利的发明人

上一篇：一种平衡底座及其平衡调节方法与流程
上一篇：一种百香果芦荟凝胶的加工方法与流程