语音唤醒方法、装置及智能设备与流程

文档序号:15450824发布日期:2018-09-14 23:59阅读:248来源:国知局
本申请涉及语音处理
技术领域
,尤其涉及一种语音唤醒方法、装置及智能设备。
背景技术
:在智能家居或者语音交互系统中,语音唤醒技术应用非常广泛。但由于语音唤醒效果不佳和运算量大的问题,降低了用户实际应用体验,并且也提高了对硬件设备的要求。在相关技术中,通常利用关键词识别来实现语音唤醒,即用户输入语音后,通过预先训练得到的基于神经网络的模型,识别输入语音的关键词,进而根据识别出的关键词实现唤醒功能。然而,对于用户来说,发音差距(例如带有方言的发音)比较大,训练得到的模型很难确保每一用户的唤醒语音都能达到理想的效果,因此总有一些用户输入的语音无法实现唤醒,从而造成唤醒率低的问题。技术实现要素:有鉴于此,本申请提供一种语音唤醒方法、装置及智能设备,以解决现有唤醒方式唤醒率低的问题。根据本申请实施例的第一方面,提供一种语音唤醒方法,所述方法包括:通过预设的用户唤醒模型判定接收到的输入语音是否为目标唤醒词;在判定为否的情况下,通过预先训练的通用唤醒模型判定所述输入语音是否为目标唤醒词;若是,则执行唤醒;其中,所述用户唤醒模型是利用用户录制的唤醒语音构建的模型,所述通用唤醒模型是利用收集的唤醒语料训练得到的模型。根据本申请实施例的第二方面,提供一种语音唤醒装置,所述装置包括:第一判定单元,用于通过预设的用户唤醒模型判定接收到的输入语音是否为目标唤醒词;第二判定单元,用于在判定为否的情况下,通过预先训练的通用唤醒模型判定所述输入语音是否为目标唤醒词;唤醒单元,用于在判定为是时,执行唤醒;其中,所述用户唤醒模型是利用用户录制的唤醒语音构建的模型,所述通用唤醒模型是利用收集的唤醒语料训练得到的模型。根据本申请实施例的第三方面,提供一种智能设备,所述设备包括:语音采集模块,用于采集输入语音;存储器,用于存储语音唤醒的控制逻辑对应的机器可读指令;处理器,用于读取所述存储器上的所述机器可读指令,并执行所述指令以实现如下操作:通过预设的用户唤醒模型判定接收到的输入语音是否为目标唤醒词;在判定为否的情况下,通过预先训练的通用唤醒模型判定所述输入语音是否为目标唤醒词;若是,则执行唤醒;其中,所述用户唤醒模型是利用用户录制的唤醒语音构建的模型,所述通用唤醒模型是利用收集的唤醒语料训练得到的模型。应用本申请实施例,智能设备先通过预设的用户唤醒模型判定接收到的输入语音是否为目标唤醒词,在判定为否的情况下,再通过预先训练的通用唤醒模型判定所述输入语音是否为目标唤醒词,若是,则执行唤醒。其中,用户唤醒模型是利用用户录制的唤醒语音构建的模型,通用唤醒模型是利用收集的唤醒语料训练得到的模型。基于上述描述可知,本申请在通用唤醒模型的基础上,增加了一个用户唤醒模型,由于该用户唤醒模型是用户购买产品后,利用用户(即使用者)录制的唤醒语音构建的模型,即该模型是针对专门使用者的模型,因此用户在使用该产品时,即使输入带方言的语音,通过用户唤醒模型也可以判定出目标唤醒词,如果通过用户唤醒模型无法成功唤醒,再通过通用唤醒模型判定是否为目标唤醒词,以确保成功唤醒。从而本申请通过用户唤醒模型和通用唤醒模型的结合可以提高唤醒率,提升用户的使用体验。附图说明图1为本申请根据一示例性实施例示出的一种语音唤醒场景示意图;图2为本申请根据一示例性实施例示出的一种语音唤醒方法的实施例流程图;图3为本申请根据一示例性实施例示出的另一种语音唤醒方法的实施例流程图;图4为本申请根据一示例性实施例示出的又一种语音唤醒方法的实施例流程图;图5为本申请根据一示例性实施例示出的一种智能设备的硬件结构图;图6为本申请根据一示例性实施例示出的一种语音唤醒装置的实施例结构图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。传统的唤醒实现方式均是,利用收集得到的唤醒语料去训练唤醒模型,该唤醒模型用于判定输入语音是否为唤醒词。然而这种训练得到的唤醒模型很难确保每一用户的唤醒语音都能唤醒成功,因为每一用户发音差距比较大,尤其对于带有方言的唤醒语音,很容易唤醒失败。由此可知,现有唤醒方式抗噪性差、唤醒率比较低。基于此,图1为本申请根据一示例性实施例示出的一种语音唤醒场景图,图1中的智能设备采集到用户的输入语音后,首先通过预设的用户唤醒模型判定输入语音是否为目标唤醒词,如果是,则直接执行唤醒,如果不是,再进一步通过预先训练的通用唤醒模型判定输入语音是否为目标唤醒词,如果是,执行唤醒。由于本申请在通用唤醒模型的基础上,增加了一个用户唤醒模型,该模型是用户购买产品后,利用用户(即产品使用者)录制的唤醒语音(例如带有方言的唤醒语音)构建的模型,即该模型是针对专门使用者的模型,因此用户在使用该产品时,即使输入带方言的语音,通过用户唤醒模型也可以判定出目标唤醒词,如果通过用户唤醒模型无法成功唤醒,再通过通用唤醒模型判定是否为目标唤醒词,以确保成功唤醒。从而通过用户唤醒模型和通用唤醒模型的结合可以提高唤醒率,提升用户的使用体验。下面以具体实施例详细介绍本申请的技术方案:图2为本申请根据一示例性实施例示出的一种语音唤醒方法的实施例流程图,该语音唤醒方法可以应用在具有语音唤醒功能的智能设备(例如智能家居、智能车载设备等)上。如图2所示,该语音唤醒方法包括如下步骤:步骤201:通过预设的用户唤醒模型判定接收到的输入语音是否为目标唤醒词,如果是目标唤醒词,则执行步骤202,否则,执行步骤203。在一实施例中,当用户需要唤醒智能设备的某一功能时,可以对着智能设备输入内容为目标唤醒词的语音,智能设备上设置的麦克风接收到该输入语音后,将该输入语音输入用户唤醒模型,以使用户唤醒模型输出是否为目标唤醒词的判定结果。其中,由于用户唤醒模型是利用用户录制的唤醒语音构建的模型,该用户为购买智能设备的使用者,且使用者可以是一个或多个,因此该用户唤醒模型仅适用于录制过唤醒语音的用户。购买智能设备的使用者在输入语音后,即使使用者的发音带有方言,在多数情况下通过用户唤醒模型均能正确判定出是目标唤醒词。针对步骤201的可选实现方式,可以参见下述图4所示实施例的描述,在此暂不详述。步骤202:执行唤醒。在一实施例中,智能设备执行的唤醒可以是播放音乐、打开空调等,目标唤醒词不同,唤醒的功能不同。针对上述步骤201至步骤202的过程,在一示例性场景中,假设目标唤醒词为“播放音乐”,用户唤醒模型是用于判定输入语音是否为“播放音乐”,在用户唤醒模型输出结果为是时,开始播放音乐。步骤203:通过预先训练的通用唤醒模型判定输入语音是否为目标唤醒词,如果判定是,则返回执行步骤202,否则,执行步骤204。在一实施例中,如果通过用户唤醒模型判定输入语音为非目标唤醒词,表示该输入语音的用户未进行唤醒语音录制,需要进一步通过通用唤醒模型判定是否为目标唤醒词,该通用唤醒模型是利用收集的唤醒语料训练的模型。其中,唤醒语料的收集方式可以采用人工收集方式,也可以采用相关采集工具(例如爬虫工具)进行收集,本申请实施例对此不进行限定。由于收集的唤醒语料为所有用户的语音,因此,利用收集的唤醒语料训练的通用唤醒模型,适用于所有用户,只是由于这种训练得到的模型很难确保每一用户的唤醒语音都能达到理想的效果。针对步骤203如何通过预先训练的通用唤醒模型判定输入语音是否为目标唤醒词的描述,可以参见下述图4所示实施例的描述,在此暂不详述。步骤204:输出进行录音的提示信息,并在接收到录制的唤醒语音时,利用接收到的唤醒语音更新用户唤醒模型。在一实施例中,如果智能设备通过通用唤醒模型判定输入语音仍然是非目标唤醒词,则可以输出进行录音的提示信息,以提醒用户进行唤醒语音录制,从而智能设备可以利用用户录制的唤醒语音更新用户唤醒模型,使得该用户在下次输入语音后,可以实现唤醒,进而能够及时解决用户无法唤醒的问题。需要说明的是,智能设备在通过预设的用户唤醒模型判定接收到的输入语音是目标唤醒词之后,可以记录该输入语音,并在通过预先训练的通用唤醒模型判定输入语音是目标唤醒词之后,也可以记录输入语音,然后智能设备按照预设时间间隔,可以将记录的输入语音作为唤醒语料,并利用唤醒语料对通用唤醒模型进行训练,以达到对通用唤醒模型优化的目的,进而提高通用唤醒模型的唤醒率。其中,预设时间间隔可以根据智能设备的处理性能进行设置,例如,将预设时间间隔设置为一周,或一个月等。本实施例中,智能设备先通过预设的用户唤醒模型判定接收到的输入语音是否为目标唤醒词,在判定为否的情况下,再通过预先训练的通用唤醒模型判定所述输入语音是否为目标唤醒词,若是,则执行唤醒。其中,用户唤醒模型是利用用户录制的唤醒语音构建的模型,通用唤醒模型是利用收集的唤醒语料训练得到的模型。基于上述描述可知,本申请在通用唤醒模型的基础上,增加了一个用户唤醒模型,由于该用户唤醒模型是用户购买产品后,利用用户(即使用者)录制的唤醒语音构建的模型,即该模型是针对专门使用者的模型,因此用户在使用该产品时,即使输入带方言的语音,通过用户唤醒模型也可以判定出目标唤醒词,如果通过用户唤醒模型无法成功唤醒,再通过通用唤醒模型判定是否为目标唤醒词,以确保成功唤醒。从而本申请通过用户唤醒模型和通用唤醒模型的结合可以提高唤醒率,提升用户的使用体验。图3为本申请根据一示例性实施例示出的另一种语音唤醒方法的实施例流程图,基于上述图2所示实施例的基础上,本实施例以如何构建预设的用户唤醒模型为例进行示例性说明,如图3所示,构建用户唤醒模型的流程可以包括:步骤301:当接收到录音请求时,输出目标唤醒词录制要求,接收唤醒语音和用户标识。在一实施例中,当智能设备首次开机使用时,可以输出进行录音的提示信息,以提醒用户进行唤醒语音录制;当接收到录音请求时,智能设备可以显示目标唤醒词录制要求,以供用户按照录制要求进行录制;用户可以先输入用户标识,再录制唤醒语音。其中,用户可以通过遥控器,或者用户界面上的菜单选项,触发录音请求的生成。目标唤醒词录制要求可以是唤醒词内容、录制语速、音量等。通过用户标识可以对录制的唤醒语音进行区分标记,并且后续如果用户想更新自己的语音数据,通过用户标识既可以更新用户唤醒模型中对应的语音数据。通常对于购买智能设备的家庭,使用者数(通常10人以下)比较少,因此构建的用户唤醒模型也比较小。需要说明的是,在接收唤醒语音和用户标识之后,也可以记录该唤醒语音,从而智能设备在优化通用唤醒模型时,可以将输入语音和唤醒语音均作为唤醒语料,并利用唤醒语料对通用唤醒模型进行训练。步骤302:获取该唤醒语音的第一声学特征。在一实施例中,智能设备可以先对唤醒语音进行端点检测,获得有效语音,然后再提取有效语音的第一声学特征。其中,端点检测可以区分唤醒语音中的非语音段和语音段,语音段即为有效语音。再提取第一声学特征过程中,可以先将有效语音划分为多帧语音,然后再提取每帧语音的第一声学特征,从而得到多帧第一声学特征。本领域技术人员可以理解的是,第一声学特征的提取方式可以采用mfcc(mel-frequencycestrumcoefficient,美尔频率倒谱系数)方式,也可以采用基于滤波器组的fbank特征,本申请实施例对提取方式不进行限定。步骤303:将用户标识与第一声学特征保存到用户唤醒模型中。在一实施例中,由于第一声学特征可以表征用户录制唤醒语音的发音特点,因此可以将用户标识与第一声学特征保存到用户唤醒模型中,后续只要某用户的输入语音的第二声学特征与第一声学特征匹配成功,表示该某用户的输入语音为唤醒语音。如表1所示,为一种示例性的用户唤醒模型。用户1声学特征1用户2声学特征2用户3声学特征3用户4声学特征4用户5声学特征5表1需要说明的是,智能设备还可以利用通用唤醒模型获取第一声学特征对应的目标唤醒词音素序列,并将获取的目标唤醒词音素序列对应第一声学特征添加到用户唤醒模型中,从而通过目标唤醒词音素序列可以区分不同的目标唤醒词。如表2所示,为另一种示例性的用户唤醒模型。表2至此,完成图3所示流程,通过图3所示流程,最终实现用户唤醒模型的构建。图4为本申请根据一示例性实施例示出的又一种语音唤醒方法的实施例流程图,基于上述图2和图3所示实施例的基础上,本实施例以如何通过预设的用户唤醒模型判定接收到的输入语音是否为目标唤醒词为例进行示例性说明,如图4所示,该语音唤醒方法包括如下步骤:步骤401:获取输入语音的第二声学特征。针对步骤401的获取过程,可以参见上述步骤302的描述,第一声学特征与第二声学特征是为了区分唤醒语音和输入语音。步骤402:将第二声学特征与用户唤醒模型中的第一声学特征进行匹配,若匹配到第二声学特征,则执行步骤403,若未匹配到第二声学特征,则执行步骤404。在一实施例中,由于用户唤醒模型中存储有用于唤醒的第一声学特征,因此可以将输入语音的第二声学特征与依次用户唤醒模型中的每个第一声学特征进行匹配,当匹配到第二声学特征时,表示该输入语音的用户为录制过唤醒语音的用户,当未匹配到第二声学特征时,表示该输入语音的用户不属于录制过唤醒语音的用户。其中,匹配方式可以是计算相似度(例如采用编辑距离、汉明距离、欧氏距离、余弦相似度等算法),也可以是计算最大似然值,本申请实施例对此不进行限定。在匹配过程中,如果匹配率超过第一预设阈值,则确定匹配到第二声学特征,该第一预设阈值可以根据实践经验设置。步骤403:确定输入语音是目标唤醒词,执行唤醒。针对步骤403的描述,请参见上述步骤202的相关描述,不再赘述。步骤404:确定输入语音不是目标唤醒词,利用通用唤醒模型中的音素字典,获得第二声学特征的音素序列。在一实施例中,由于获得的第二声学特征通常由多帧声学特征组成,而每帧声学特征对应一个音素,因此第二声学特征与音素序列对应。通用唤醒模型中的音素字典是利用收集的唤醒语料训练得到的,音素字典中包含有多个音素,且每个音素对应有多种声学特征,每一种声学特征即为一帧。也就是说,对于每个音素,用户不同,发音特点不同,从而通过唤醒语料训练之后,每个音素包含了所有用户的发音特点,会有多种声学特征对应。基于此,通用唤醒模型中的音素字典中包含的数据量比较大,智能设备需要将第二声学特征中的每帧声学特征,与音素字典中所有音素对应的声学特征进行匹配,以获得每帧声学特征的音素,与上述利用用户唤醒模型匹配过程相比,该匹配过程运算量远远大于用户唤醒模型的运算量。例如,第二声学特征包含m帧,用户唤醒模型中的第一声学特征数量为n,每一第一声学特征包含m帧,通用唤醒模型中包含a个音素,每个音素对应b种声学特征,可得,利用用户唤醒模型的运算量为m×n×m,利用通用唤醒模型的运算量为m×a×b,其中,用户唤醒模型中第一声学特征数量n和第一声学特征包含的帧数m,远远小于通用唤醒模型中的音素数量a和每个音素对应的声学特征数量b。步骤405:利用获得的音素序列与通用唤醒模型中的目标唤醒词音素序列进行匹配,若匹配成功,则返回执行步骤403,若匹配失败,则执行步骤406。在一实施例中,在获得第二声学特征的音素序列后,还需要与通用唤醒模型中的目标唤醒词音素序列进行匹配,以判定是否为目标唤醒词。其中,匹配方式可以是计算相似度,也可以是计算最大似然值,本申请实施例对此不进行限定。在匹配过程中,如果匹配率超过第二预设阈值,则确定匹配成功,该第二预设阈值也可以根据实践经验设置。由于用户唤醒模型是针对专门使用者的模型,通常使用智能设备唤醒功能的用户即为专门使用者,所以可以将用户唤醒模型中的第一预设阈值设置的低些,将通过唤醒模型中的第二预设阈值设置的高些。针对上述步骤404和步骤405的过程,本领域技术人员可以理解的是,通用唤醒模型中的发音字典和目标唤醒词音素序列均是利用收集的唤醒语料训练得到的,具体训练算法可以通过相关技术实现,本申请在此不再详述。步骤406:输出进行录音的提示信息,并在接收到录制的唤醒语音时,利用接收到的唤醒语音更新用户唤醒模型。针对步骤406的描述,可以参见上述步骤204的相关描述,不再赘述。本实施例中,在获取到输入语音的第二声学特征之后,可以先将第二声学特征与用户唤醒模型中的第一声学特征进行匹配,若匹配到第二声学特征,则直接执行唤醒,若未匹配到第二声学特征,则再利用通用唤醒模型中的音素字典获得第二声学特征的音素序列,并进一步利用获得到音素序列与通用唤醒模型中的目标唤醒词音素序列进行匹配,若匹配成功,则执行唤醒,否则输出进行录音的提示信息,以提醒用户录制唤醒语音,更新用户唤醒模型。基于上述描述可知,由于用户唤醒模型中仅保存专门使用者的声学特征,数据量比较小,而通用唤醒模型中包含有音素字典和目标唤醒词音素序列,数据量比较大,因此利用用户唤醒模型进行匹配的运算量远远小于利用通用唤醒模型进行匹配的运算量,并且用户的输入语音通常来源于智能设备的使用者,因此在大部分情况下,利用用户唤醒模型即可成功唤醒,并不需要再通过通用唤醒模型去进行判定。由此可知,本申请可以缩短智能设备的唤醒时间。与前述语音唤醒方法的实施例相对应,本申请还提供了语音唤醒装置的实施例。本申请语音唤醒装置的实施例可以应用在智能设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本申请根据一实施例性实施例示出的一种智能设备的硬件结构图,除了图5所示的处理器、内存、网络接口、用于采集输入语音的语音采集模块、以及非易失性存储器之外,实施例中装置所在的设备通常根据该设备的实际功能,还可以包括其他硬件,对此不再赘述。图6为本申请根据一示例性实施例示出的一种语音唤醒装置的实施例结构图,该语音唤醒装置可以应用在具有唤醒功能的智能设备上,如图6所示,该语音唤醒装置包括:第一判定单元610,用于通过预设的用户唤醒模型判定接收到的输入语音是否为目标唤醒词;第二判定单元620,用于在判定为否的情况下,通过预先训练的通用唤醒模型判定所述输入语音是否为目标唤醒词;唤醒单元630,用于在判定为是时,执行唤醒;其中,所述用户唤醒模型是利用用户录制的唤醒语音构建的模型,所述通用唤醒模型是利用收集的唤醒语料训练得到的模型。在一可选的实现方式中,所述装置还包括(图6中未示出):构建单元,具体用于当接收到录音请求时,输出目标唤醒词录制要求;接收唤醒语音和用户标识,并获取所述唤醒语音的第一声学特征;将所述用户标识与所述第一声学特征保存到用户唤醒模型中。在一可选的实现方式中,所述第一判定单元610,具体用于获取所述输入语音的第二声学特征;将所述第二声学特征与所述用户唤醒模型中的第一声学特征进行匹配;若匹配到所述第二声学特征,则确定所述输入语音是目标唤醒词;若未匹配到所述第二声学特征,则确定所述输入语音不是目标唤醒词。在一可选的实现方式中,所述装置还包括(图6中未示出):第一维护单元,具体用于所述第二判定单元620在通过预先训练的通用唤醒模型判定所述输入语音是否为目标唤醒词之后,若判定为否,则输出进行录音的提示信息;在接收到录制的唤醒语音时,利用接收到的唤醒语音更新所述用户唤醒模型。在一可选的实现方式中,所述装置还包括(图6中未示出):第二维护单元,具体用于在通过预设的用户唤醒模型判定接收到的输入语音是目标唤醒词之后,执行唤醒,并记录所述输入语音;在通过预先训练的通用唤醒模型判定所述输入语音是目标唤醒词之后,记录所述输入语音;在接收唤醒语音和用户标识之后,记录所述唤醒语音;按照预设时间间隔,将记录的输入语音或唤醒语音作为唤醒语料,并利用所述唤醒语料对所述通用唤醒模型进行训练,以得到优化后的通用唤醒模型。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本
技术领域
中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1