一种语音交互设备唤醒方法、装置、设备及存储介质与流程

文档序号：17074719发布日期：2019-03-08 23:37阅读：202来源：国知局

本发明涉及语音交互
技术领域：
，尤其涉及一种语音交互设备唤醒方法、装置、设备及存储介质。
背景技术：
：现有的语音交互设备存在被误唤醒的情况。例如，被电视机、广播等装置播放的语音信号误唤醒；或者，在用户说话的内容中不包含唤醒词时，错误地从中识别出唤醒词，因而被误唤醒。这些被误唤醒的情况影响用户的使用体验。技术实现要素：本发明实施例提供一种语音交互设备唤醒方法及装置，以至少解决现有技术中的以上技术问题。第一方面，本发明实施例提供了一种语音交互设备唤醒方法，包括：采集语音信号；提取所述语音信号的第一声纹特征；将所述第一声纹特征与预先存储的基准声纹特征进行比对；当比对结果一致时，采用唤醒词识别模型判断所述语音信号的内容是否包含唤醒词，如果包含，则唤醒语音交互设备。在一种实施方式中，预先存储至少一个基准声纹特征；所述将所述第一声纹特征与预先存储的基准声纹特征进行比对，包括：将所述第一声纹特征分别与预先存储的各个基准声纹特征进行比对，当第一声纹特征与其中一个基准声纹特征一致时，比对结果一致。在一种实施方式中，所述至少一个基准声纹特征的确定方式为：采集至少一个用户的语音信号，提取各个用户的语音信号的第二声纹特征，将每个所述第二声纹特征确定为一个所述基准声纹特征。在一种实施方式中，预先建立分别对应各个基准声纹特征的唤醒词识别模型；所述采用唤醒词识别模型判断所述语音信号的内容是否包含唤醒词，包括：确定与所述第一声纹特征的比对结果一致的基准声纹特征；获取对应确定的基准声纹特征的唤醒词识别模型；采用获取的唤醒词识别模型判断所述语音信号。在一种实施方式中，所述预先建立分别对应各个基准声纹特征的唤醒词识别模型，包括：针对各个基准声纹特征，分别执行以下步骤：采用具备所述基准声纹特征的正样本和负样本训练所述唤醒词识别模型；所述正样本为包含所述唤醒词并且能够唤醒所述语音交互设备的语音信号，所述负样本为不包含所述唤醒词并且能够唤醒所述语音交互设备的语音信号。第二方面，本发明实施例还提出一种语音交互设备唤醒装置，包括：采集模块，用于采集语音信号；提取模块，用于提取所述语音信号的第一声纹特征；比对模块，用于将所述第一声纹特征与预先存储的基准声纹特征进行比对；判断及唤醒模块，用于当比对结果一致时，采用唤醒词识别模型判断所述语音信号的内容是否包含唤醒词，如果包含，则唤醒语音交互设备。在一种实施方式中，还包括：声纹存储模块，用于存储至少一个基准声纹特征；所述比对模块，用于将所述第一声纹特征分别与预先存储的各个基准声纹特征进行比对，当第一声纹特征与其中一个基准声纹特征一致时，比对结果一致。在一种实施方式中，还包括：声纹确定模块，用于采集至少一个用户的语音信号，提取各个用户的语音信号的第二声纹特征，将每个所述第二声纹特征确定为一个所述基准声纹特征。在一种实施方式中，还包括：模型建立模块，用于建立分别对应各个基准声纹特征的唤醒词识别模型；所述判断及唤醒模块，用于确定与所述第一声纹特征的比对结果一致的基准声纹特征；获取对应确定的基准声纹特征的唤醒词识别模型；采用获取的唤醒词识别模型判断所述语音信号。在一种实施方式中，所述模型建立模块，用于针对各个基准声纹特征，分别采用具备所述基准声纹特征的正样本和负样本训练所述唤醒词识别模型；所述正样本为包含所述唤醒词并且能够唤醒所述语音交互设备的语音信号，所述负样本为不包含所述唤醒词并且能够唤醒所述语音交互设备的语音信号。第三方面，本发明实施例提供了一种语音交互设备唤醒设备，所述设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中，所述设备的结构中包括处理器和存储器，所述存储器用于存储支持所述设备执行上述语音交互设备唤醒方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口，用于与其他设备或通信网络通信。第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储语音交互设备唤醒设备所用的计算机软件指令，其包括用于执行上述语音交互设备唤醒方法所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果：本发明实施例在采集到语音信号之后，判断语音信号的声纹特征与预先存储的基准声纹特征是否一致。如果一致，则采用唤醒词识别模型判断语音信号的内容是否包含唤醒词，并在包含的情况下唤醒语音交互设备。通过这种分步的检测，能够降低语音交互设备的误唤醒率。上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。图1为本发明实施例的一种语音交互设备唤醒方法实现流程图；图2为本发明实施例的一种语音交互设备唤醒装置结构示意图；图3为本发明实施例的一种语音交互设备唤醒装置结构示意图；图4为本发明实施例的一种语音交互设备唤醒设备结构示意图。具体实施方式在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。本发明实施例主要提供了语音交互设备唤醒方法和装置，下面分别通过以下实施例进行技术方案的展开描述。如图1为本发明实施例的一种语音交互设备唤醒方法实现流程图，包括：s11：采集语音信号；s12：提取所述语音信号的第一声纹特征；s13：将所述第一声纹特征与预先存储的基准声纹特征进行比对；当比对结果一致时，执行s14；s14：采用唤醒词识别模型判断所述语音信号的内容是否包含唤醒词，如果包含，则唤醒语音交互设备。在一种可能的实施方式中，上述s11中采集语音信号的方式可以包括：接收音频信号，从所述音频信号中提取出语音信号。其中，音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。利用声波的特征，可以将语音信号从音频信号中提取出来。在一种可能的实施方式中，上述s12可以采用声纹识别技术提取语音信号中的第一声纹特征。声纹(voiceprint)，是用电声学仪器显示的携带语言信息的声波频谱。任何两个人的声纹特征都有差异，并且每个人的声纹特征具有相对稳定性。声纹识别有文本相关的(text-dependent)和文本无关的(text-independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音，每个人的声纹模型逐个被精确地建立，而识别时也必须按规定的内容发音。与文本无关的声纹识别系统不要求用户按照规定的内容发音。本发明实施例可以采用文本无关的声纹识别方式，在提取声纹特征及对声纹特征进行比对时，可以采用任意内容的语音信号，而不需要用户按照规定的内容发音。在一种可能的实施方式中，可以预先存储至少一个基准声纹特征。例如，一个语音交互设备可以有多个用户，这些用户可以被看做语音交互设备的“主人”。本发明实施例可以将各个用户的声纹特征分别作为一个基准声纹特征，并存储各个基准声纹特征。具体地，所述至少一个基准声纹特征的确定方式可以为：采集至少一个用户的语音信号，提取各个用户的语音信号的第二声纹特征，将每个所述第二声纹特征确定为一个所述基准声纹特征。为了确定基准声纹特征，在采集各个用户的语音信号时，可以在用户知情的情况下开启录音装置，录入用户在生活中多种场景下的语音信号。相应地，在一种可能的实施方式中，s13可以包括：将所述第一声纹特征分别与预先存储的各个基准声纹特征进行比对，当第一声纹特征与其中一个基准声纹特征一致时，比对结果一致。例如，预先存储n个(n为正整数)基准声纹特征。在比对过程中，将第一声纹特征依次与n个基准声纹特征进行比对，当发现第一声纹特征与某一个基准声纹特征一致时，则确定比对结果一致，不再与后续的基准声纹特征进行比对。如果第一声纹特征与任一基准声纹特征均不一致，则确定比对结果不一致。或者，可以将第一声纹特征分别与n个基准声纹特征进行比对，得到n个比对结果，每个比对结果表示第一声纹特征与对应基准声纹特征的相似度。获取相似度最大的比对结果，当该最大的相似度超过预设相似度门限时，确定第一声纹特征与对应的基准声纹特征的比对结果一致；当该最大的相似度未超过预设相似度门限时，确定第一声纹特征与任一基准声纹特征均不一致。在一种可能的实施方式中，可以预先建立分别对应各个基准声纹特征的唤醒词识别模型。例如，针对语音交互设备的n个用户，预先分别提取了n个用户的声纹特征，作为n个基准声纹特征；针对n个基准声纹特征，分别设置对应的唤醒词识别模型。用户、基准声纹特征和唤醒词识别模型的对应关系可以如下表1所示。表1用户基准声纹特征唤醒词识别模型用户1基准声纹特征1唤醒词识别模型1用户2基准声纹特征2唤醒词识别模型2………………用户n基准声纹特征n唤醒词识别模型n在建立唤醒词识别模型时，可以采用具备对应基准声纹特征的正样本和负样本训练唤醒词识别模型；其中，正样本为包含唤醒词并且能够唤醒所述语音交互设备的语音信号，负样本为不包含唤醒词并且能够唤醒语音交互设备的语音信号。负样本中不包含唤醒词，但是由于用户的口音等问题，语音交互设备可能从负样本中识别出唤醒词并被唤醒。这种情况就是误唤醒。例如，可以将“小度小度”作为一个语音交互设备的唤醒词。用户发出“小度小度”的语音信号时，语音交互设备将该语音信号的内容转换为文本信息。如果该文本信息的内容为“小度小度”，则该语音交互设备能够被唤醒。该用户发出的“小度小度”的语音信号即为正样本。用户发出“小兔小兔”的语音信号时，语音交互设备将该语音信号的内容转换为文本信息。如果由于用户的口音问题，语音交互设备转换得到的文本信息的内容为“小度小度”，则该语音交互设备也能够被唤醒。由于用户发出的语音信号中不包含唤醒词，其本意并不是要唤醒语音交互设备，因此这种情况就是误唤醒。该用户发出的“小兔小兔”的语音信号即为负样本。本发明实施例采用正样本和这些负样本训练唤醒词识别模型，可以正确识别语音唤醒语音，从而降低语音交互设备被误唤醒的可能性。在一种可能的实施方式中，可以在用户使用语音交互设备的过程中，逐渐记录并增加负样本，并采用正样本和增加后的负样本训练唤醒词识别模型，以使得唤醒词识别模型的判断更为准确。相应地，步骤s14中采用唤醒词识别模型判断所述语音信号的内容是否包含唤醒词，可以包括：确定与所述第一声纹特征的比对结果一致的基准声纹特征；获取对应该确定的基准声纹特征的唤醒词识别模型；采用获取的唤醒词识别模型判断所述语音信号。例如，在一个实施例中，采集的语音信号的第一声纹特征与表1中的基准声纹特征2一致。则获取基准声纹特征2对应的唤醒词识别模型2，采用唤醒词识别模型2判断该语音信号中是否包含唤醒词。在一种可能的实施方式中，上述比对及判断过程可以在云端执行。或者，可以将基准声纹特征及唤醒词识别模型下发到语音交互设备，由语音交互设备执行上述比对及判断过程，从而提高唤醒的效率。本发明实施例可以应用于具有语音交互功能的设备，包括但不限于智能音箱、带屏幕智能音箱、带有语音交互功能的电视、智能手表及车载智能语音设备等。在对安全性要求不高的情况下，可以支持对错误拒绝率和错误接受率的可控调整，适当降低上述比对及判断的错误拒绝率，避免造成对用户包含唤醒词的语音信号不做反应的情况。例如，针对上述步骤s13，初始状态下，可以将第一声纹特征与基准声纹特征比对结果一致的标准设置为：如果第一声纹特征与基准声纹特征的相似度超过90％，则判定二者一致。在语音交互设备使用过程中，如果频繁出现对用户发出的语音信号没有反应的情况，可以适当调低上述标准，例如将比对结果一致的标准调整为：如果第一声纹特征与基准声纹特征的相似度超过80％，则判定二者一致。相反，在语音交互设备使用过程中，如果频繁出现被非用户发出的语音信号唤醒的情况，可以适当调高上述标准，例如将比对结果一致的标准调整为：如果第一声纹特征与基准声纹特征的相似度超过95％，则判定二者一致。又如，将一个语音信号输入唤醒词识别模型，唤醒词识别模型可以输出一个概率值，此概率值表示该语音信号的内容包含唤醒词的可能性。该概率值越大，表示唤醒词识别模型预测出语音信号的内容中包含唤醒词的可能性越大。当该概率值超过预设的门限时，唤醒词识别模型判断出语音信号的内容中包含唤醒词。针对上述步骤s14，在语音交互设备使用过程中，如果频繁出现对用户发出的包含唤醒词的语音信号没有反应的情况，可以适当调低上述门限。相反，如果频繁出现被误唤醒的情况，可以适当调高上述门限。本发明实施例还提出一种语音交互设备唤醒装置。参见图2，图2为本发明实施例的一种语音交互设备唤醒装置结构示意图，包括：采集模块201，用于采集语音信号；提取模块202，用于提取所述语音信号的第一声纹特征；比对模块203，用于将所述第一声纹特征与预先存储的基准声纹特征进行比对；判断及唤醒模块204，用于当比对结果一致时，采用唤醒词识别模型判断所述语音信号的内容是否包含唤醒词，如果包含，则唤醒语音交互设备。如图3为本发明实施例提出的另一种语音交互设备唤醒装置结构示意图，包括：采集模块201、提取模块202、比对模块203和判断及唤醒模块204，前述四个模块与上述实施例中的对应模块相同，不再赘述。该装置还包括：声纹存储模块205，用于存储至少一个基准声纹特征；所述比对模块203，用于将所述第一声纹特征分别与预先存储的各个基准声纹特征进行比对，当第一声纹特征与其中一个基准声纹特征一致时，比对结果一致。在一种可能的实施方式中，还包括：声纹确定模块206，用于采集至少一个用户的语音信号，提取各个用户的语音信号的第二声纹特征，将每个所述第二声纹特征确定为一个所述基准声纹特征。在一种可能的实施方式中，模型建立模块207，用于建立分别对应各个基准声纹特征的唤醒词识别模型；所述判断及唤醒模块204，用于确定与所述第一声纹特征的比对结果一致的基准声纹特征；获取对应确定的基准声纹特征的唤醒词识别模型；采用获取的唤醒词识别模型判断所述语音信号。在一种可能的实施方式中，所述模型建立模块207，用于针对各个基准声纹特征，分别采用具备所述基准声纹特征的正样本和负样本训练所述唤醒词识别模型；所述正样本为包含所述唤醒词并且能够唤醒所述语音交互设备的语音信号，所述负样本为不包含所述唤醒词并且能够唤醒所述语音交互设备的语音信号。本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。本发明实施例还提出一种语音交互设备唤醒设备，如图4为本发明实施例的语音交互设备唤醒设备结构示意图，包括：存储器11和处理器12，存储器11存储有可在处理器12上运行的计算机程序。所述处理器12执行所述计算机程序时实现上述实施例中的语音交互设备唤醒方法。所述存储器11和处理器12的数量可以为一个或多个。所述设备还可以包括：通信接口13，用于与外界设备进行通信，进行数据交换传输。存储器11可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。如果存储器11、处理器12和通信接口13独立实现，则存储器11、处理器12和通信接口13可以通过总线相互连接并完成相互之间的通信。所述总线可以是工业标准体系结构(isa，industrystandardarchitecture)总线，外部设备互连(pci，peripheralcomponentinterconnect)总线或扩展工业标准体系结构(eisa，extendedindustrystandardarchitecture)等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，并不表示仅有一根总线或一种类型的总线。可选的，在具体实现上，如果存储器11、处理器12和通信接口13集成在一块芯片上，则存储器11、处理器12和通信接口13可以通过内部接口完成相互间的通信。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属
技术领域：
的技术人员所理解。在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。本
技术领域：
的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。综上所述，本发明实施例提出的语音交互设备唤醒方法和装置，在采集到语音信号之后，首先判断语音信号的声纹特征与预先存储的基准声纹特征是否一致。如果一致，则采用对应的唤醒词识别模型判断语音信号的内容是否包含唤醒词，并在包含时唤醒语音交互设备。通过这种分步的检测，能够降低语音交互设备的误唤醒率。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本
技术领域：
的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘勇;周冀;薛向东;王芃;赵立峰
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种养殖用无人船的制作方法
上一篇：一种仿生鱼尾电液推进装置的制作方法