本发明涉及语音控制技术领域,特别涉及一种基于声纹识别的冰箱唤醒方法及装置。
背景技术:
随着信息技术和人工智能的发展,语音唤醒技术逐渐成为人机交互领域重要的技术之一。其中语音唤醒是指用户通过说出一句预设的唤醒词来实现设备从待机状态恢复到正常工作状态。
目前的冰箱所采用的语音唤醒方法,缺少对语音唤醒发起人的身份识别功能,无法识别发起人的身份,进而导致无法进行进一步的权限设置,影响用户体验。
技术实现要素:
本发明实施例提供了一种基于声纹识别的冰箱唤醒方法及装置,以解决现有技术存在的问题。
为实现上述目的,第一方面,本发明提供了一种基于声纹识别的冰箱唤醒方法,包括:
采集待验证语音,并获取所述待验证语音的mfcc声纹特征;
根据所述待验证语音的mfcc声纹特征确定所述待验证语音的内容;
在所述待验证语音的内容为预置的唤醒词时,将所述待验证语音的mfcc声纹特征与预先构建的声纹特征库进行比对;
在所述声纹特征库中存在比对结果大于设定的比对门限值的目标声纹特征时,根据预先构建的用户id与声纹特征的第一对应关系,确定与所述目标声纹特征对应的目标用户id;
根据预先构建的用户id与背景主题的第二对应关系,确定与所述目标用户id对应的目标背景主题;
唤醒所述冰箱并点亮显示屏,并在所述显示屏上展示所述目标背景主题。
优选地,进一步包括:获取训练语音,针对所述训练语音提取mfcc声学特征;对提取的mfcc声学特征进行语音活动检测,估计高斯混合模型参数;利用所述高斯混合模型参数对通用背景模型进行训练,建立高斯混合模型-通用背景模型。
优选地,
所述获取所述待验证语音的mfcc声纹特征,包括:利用所述高斯混合模型-通用背景模型对所述待验证语音进行训练,得到所述待验证语音的mfcc声纹特征;
和/或,
所述声纹特征库和所述第一对应关系通过以下步骤构建:接收用户发起的声纹注册请求,所述声纹注册请求中包括用户id和设定条数的注册语音;所述设定条数的注册语音的内容均为所述预置的唤醒词;利用所述高斯混合模型-通用背景模型对所述设定条数的注册语音进行训练,得到该用户的mfcc声纹特征,将该用户的mfcc声纹特征存储到所述声纹特征库中,将该用户id和该用户的mfcc声纹特征的对应关系存储到所述第一对应关系中。
优选地,所述针对所述训练语音提取mfcc声学特征,包括:
对所述训练语音进行预加重、分帧和加窗处理,得到训练信号;将所述训练信号进行快速傅里叶变换,得到频域信号;将所述频域信号取模的平方得到离散功率谱,将所述离散功率谱通过一组m个三角带通滤波器滤波,并对每一个三角带通滤波器滤波后的信号取对数后得到m个对数能量,对m个对数能量进行离散余弦变换,得到mfcc声学特征,其中,对m个对数能量通过下述公式进行离散余弦变换:
其中,c(n)为mfcc声学特征,l为mfcc系数阶数,s(m)为第m个三角带通滤波器输出的对数能量,m为三角带通滤波器的个数。
优选地,所述根据所述待验证语音的mfcc声纹特征确定所述待验证语音的内容,包括:对所述待验证语音的mfcc声纹特征进行识别解码,得到所述待验证语音的内容;对所述待验证语音的内容与预置的唤醒词进行置信度判决,在置信度大于预置的唤醒门限值时,则确定所述待验证语音的内容是所述预置的唤醒词;否则,则确定所述待验证语音的内容不是所述预置的唤醒词。
为实现上述目的,第二方面,本发明提供了一种基于声纹识别的冰箱唤醒装置,包括:
采集单元,用于采集待验证语音;
获取单元,用于获取所述待验证语音的mfcc声纹特征;
内容确定单元,用于根据所述待验证语音的mfcc声纹特征确定所述待验证语音的内容;
比对单元,用于在所述待验证语音的内容为预置的唤醒词时,将所述待验证语音的mfcc声纹特征与预先构建的声纹特征库进行比对;
用户id确定单元,用于在所述声纹特征库中存在比对结果大于设定的比对门限值的目标声纹特征时,根据预先构建的用户id与声纹特征的第一对应关系,确定与所述目标声纹特征对应的目标用户id;
背景主题确定单元,用于根据预先构建的用户id与背景主题的第二对应关系,确定与所述目标用户id对应的目标背景主题;
唤醒展示单元,用于唤醒所述冰箱并点亮显示屏,并在所述显示屏上展示所述目标背景主题。
优选地,进一步包括:模型构建单元,用于获取训练语音,针对所述训练语音提取mfcc声学特征;对提取的mfcc声学特征进行语音活动检测,估计高斯混合模型参数;利用所述高斯混合模型参数对通用背景模型进行训练,建立高斯混合模型-通用背景模型。
优选地,
所述获取单元,具体用于利用所述高斯混合模型-通用背景模型对所述待验证语音进行训练,得到所述待验证语音的mfcc声纹特征;
和/或,
进一步包括:信息构建单元,用于通过以下步骤构建所述声纹特征库和所述第一对应关系:接收用户发起的声纹注册请求,所述声纹注册请求中包括用户id和设定条数的注册语音;所述设定条数的注册语音的内容均为所述预置的唤醒词;利用所述高斯混合模型-通用背景模型对所述设定条数的注册语音进行训练,得到该用户的mfcc声纹特征,将该用户的mfcc声纹特征存储到所述声纹特征库中,将该用户id和该用户的mfcc声纹特征的对应关系存储到所述第一对应关系中。
优选地,所述模型构建单元,具体用于通过如下步骤实现对所述训练语音提取mfcc声学特征:
对所述训练语音进行预加重、分帧和加窗处理,得到训练信号;将所述训练信号进行快速傅里叶变换,得到频域信号;将所述频域信号取模的平方得到离散功率谱,将所述离散功率谱通过一组m个三角带通滤波器滤波,并对每一个三角带通滤波器滤波后的信号取对数后得到m个对数能量,对m个对数能量进行离散余弦变换,得到mfcc声学特征,其中,对m个对数能量通过下述公式进行离散余弦变换:
其中,c(n)为mfcc声学特征,l为mfcc系数阶数,s(m)为第m个三角带通滤波器输出的对数能量,m为三角带通滤波器的个数。
优选地,所述内容确定单元,具体用于:对所述待验证语音的mfcc声纹特征进行识别解码,得到所述待验证语音的内容;对所述待验证语音的内容与预置的唤醒词进行置信度判决,在置信度大于预置的唤醒门限值时,则确定所述待验证语音的内容是所述预置的唤醒词;否则,则确定所述待验证语音的内容不是所述预置的唤醒词。
本发明实施例提供了一种基于声纹识别的冰箱唤醒方法及装置,通过获取到待验证语音的mfcc声纹特征,根据mfcc声纹特征确定待验证语音的内容,当待验证语音的内容为预置的唤醒词时,将mfcc声纹特征与声纹特征库进行比对,在声纹特征库中存在比对结果大于设定的比对门限值的目标声纹特征时,根据第一对应关系、第二对应关系,识别出该待验证语音的发起人身份,进而确定出与发起人身份对应的目标背景主题,在唤醒冰箱显示屏之后,在显示屏上展示目标背景主题。本发明,可以识别待验证语音发起人的身份,并与之匹配与发起人身份对应的背景主题,从而可以提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的一种基于声纹识别的冰箱唤醒方法流程图;
图2是本发明实施例2提供的一种基于声纹识别的冰箱唤醒装置结构示意图;
图3是本发明实施例2提供的另一种基于声纹识别的冰箱唤醒装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参考图1,本发明实施例提供了一种基于声纹识别的冰箱唤醒方法,该方法可以包括以下步骤:
步骤01,采集待验证语音,并获取所述待验证语音的mfcc声纹特征。
冰箱中预置有语音采集器,该语音采集器处于实时监听状态,在监听到周围环境中有语音出现时,采集该语音将其作为待验证语音。
mfcc(mel-scalefrequencycepstralcoefficients)声纹特征是指梅尔倒谱系数,为了获取待验证语音的mfcc声纹特征,至少可以通过如下一种方式来获取:
首先,构建高斯混合模型-通用背景模型。
高斯混合模型-通用背景模型(gaussianmixturemodel-universalbackgroundmodel,gmm-ubm)是一个与说话人五官、高阶的gmm,它是根据说话人训练语音自适应训练,即语音模型通过说话人用自己的语音反映出模型中未包含的发音情况,用与说话人无关的语音特征分布近似描述,具有识别率高的特点。在本实施例中,高斯混合模型-通用背景模型的构建方式包括以下步骤:
s011:获取训练语音。
其中,训练语音可以为不同用户在不同环境下录入的语音,为了实现高斯混合模型-通用背景模型构建的高准确率,训练语音的条数越多越好,例如,为一万条。
s012:针对训练语音提取mfcc声学特征。
本实施例中,提取mfcc声学特征的过程可以包括:
步骤a:对所述训练语音进行预加重、分帧和加窗处理,得到训练信号;
预加重处理是将训练语音对应的信号通过一个高通滤波器,从而提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。
分帧处理是将若干个采样点集合成一个观测单位,训练语音对应的信号为短时平稳信号,需要进行分帧处理,把每一帧当成平稳信号处理。
加窗处理是将每一帧信号乘以汉明窗,以增加帧左端和右端的连续性,使原本没有周期性的信号呈现出周期函数的部分特征。
步骤b:将所述训练信号进行快速傅里叶变换,得到频域信号;
步骤c:将所述频域信号取模的平方得到离散功率谱,将所述离散功率谱通过一组m个三角带通滤波器滤波。
本步骤可以实现对频域信号进行平滑化,消除谐波作用,突显原先训练语音的共振峰。
步骤d:对每一个三角带通滤波器滤波后的信号取对数后得到m个对数能量,对m个对数能量进行离散余弦变换,得到mfcc声学特征,其中,对m个对数能量通过下述公式(1)进行离散余弦变换:
其中,c(n)为mfcc声学特征,l为mfcc系数阶数,s(m)为第m个三角带通滤波器输出的对数能量,m为三角带通滤波器的个数。
s013:对提取的mfcc声学特征进行语音活动检测,估计高斯混合模型参数。
其中,语音活动检测是采用语音活动检测(voiceactivitydetection,vad)算法对语音和噪音的不同特性进行语音和噪音判断,以从连续采样得到的数字信号中检测出语音信号段和噪声信号段,并将语音信号段的mfcc声学特征估计高斯混合模型(gaussianmixturemodel,gmm)的参数组。具体地,采用语音活动检测算法计算短时能量、短时过零率、短时自相关等语音特征参数,从而去除静音信号和非语言信号,将非静音语音信号保留估计高斯混合模型参数。本实施例中,将mfcc声学特征的零阶、一阶、二阶量用来估计高斯混合模型的参数。
s014:利用所述高斯混合模型参数对通用背景模型进行训练,建立高斯混合模型-通用背景模型。
在本实施例中,对高斯混合模型参数通过通用背景模型进行因子分析,以获取高斯混合模型-通用背景模型。具体地,通用背景模型的因子分析算法包括:s=m+tw,其中,m为平均声,即为均值向量;t为声纹空间映射矩阵;w为声纹差异向量,即i-vector特征。采用因子分析算法对高斯混合模型表示的升学特征进行因子分析,把升学特征的均值向量(均值)与声纹差异向量分离(余量),以获取i-vector特征。该因子分析算法可分离出不同语音件的声纹差异向量,更容易提取不同语音间的声纹特异性。
其次,利用高斯混合模型-通用背景模型对待验证语音进行训练,得到待验证语音的mfcc声纹特征。
采用高斯混合模型-通用背景模型对待验证语音进行mfcc特征提取,以获取到待验证语音的mfcc声纹特征。
以上内容,实现了待验证语音的mfcc声纹特征的获取。
步骤02,根据所述待验证语音的mfcc声纹特征确定所述待验证语音的内容。
为了实现对冰箱的语音唤醒,需要预先在冰箱内预置唤醒词,例如,该唤醒词为“您好”、“冰箱开机”、“冰箱您好”等词。当用户在冰箱能够检测到的范围内说出唤醒词,可以语音唤醒冰箱,使得冰箱从休眠状态切换为工作状态。
其中,待验证语音中可能存在内容,也可能不存在内容,且内容可能是冰箱内预置的唤醒词,也可能不是冰箱内预置的唤醒词,为了确定待验证语音的内容,至少可以通过下述一种方式来确定:
对所述待验证语音的mfcc声纹特征进行识别解码,得到所述待验证语音的内容;其中,识别解码是对输入的待验证语音对应的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。
对所述待验证语音的内容与预置的唤醒词进行置信度判决,在置信度大于预置的唤醒门限值时,则确定所述待验证语音的内容是所述预置的唤醒词;否则,则确定所述待验证语音的内容不是所述预置的唤醒词。
其中,置信度判决是判断识别解码后输出的词串与预置的唤醒词之间相关信息的匹配程度,其中,置信度越大,表明匹配程度越高,冰箱被唤醒的概率越大。唤醒门限值设置的越小,那么冰箱越容易被唤醒。本实施例中,唤醒门限值为预先设置的值。
在本步骤中,若待验证语音的内容不是预置的唤醒词,那么则继续执行步骤01,去采集待验证语音。
步骤03,在所述待验证语音的内容为预置的唤醒词时,将所述待验证语音的mfcc声纹特征与预先构建的声纹特征库进行比对。
在本实施例中,为了能够对待验证语音发起人身份的识别,需要预先构建声纹特征库,声纹特征库中包括若干条声纹特征。其中,声纹特征库可以通过以下步骤构建:
s031:接收用户发起的声纹注册请求,所述声纹注册请求中包括用户id和设定条数的注册语音;所述设定条数的注册语音的内容均为所述预置的唤醒词;其中,用户id具有唯一性。
s032:利用所述高斯混合模型-通用背景模型对所述设定条数的注册语音进行训练,得到该用户的mfcc声纹特征,将该用户的mfcc声纹特征存储到所述声纹特征库中。
在将待验证语音的mfcc声纹特征与预先构建的声纹特征库进行比对时,可以将待验证语音的mfcc声纹特征与声纹特征库中的声纹特征逐条比对。
步骤04,在所述声纹特征库中存在比对结果大于设定的比对门限值的目标声纹特征时,根据预先构建的用户id与声纹特征的第一对应关系,确定与所述目标声纹特征对应的目标用户id。
比对门限值的设定越大,匹配精度越高,若待验证语音的mfcc声纹特征与声纹特征库中的目标声纹特征的比对结果大于比对门限值时,表明待验证语音的发起人与声纹特征库中该目标声纹特征的用户为同一人,从而识别出待验证语音的发起人的身份。
为了能够实现给不同用户配置不同的权限设置,需要确定出用户id,因此,需要预先构建用户id与声纹特征的第一对应关系,该构建方式为在步骤s032之后,将用户id与该用户的mfcc声纹特征的对应关系存储在第一对应关系中。
根据目标声纹特征,通过该第一对应关系确定出与所述目标声纹特征对应的目标用户id。
步骤05,根据预先构建的用户id与背景主题的第二对应关系,确定与所述目标用户id对应的目标背景主题。
对不同用户配置的不同权限,可以是用户预先自行配置冰箱显示屏中的背景主题,例如,用户1配置有背景主题1,用户2配置有背景主题2,…,用户n配置有背景主题n。预先存储用户id与其配置的背景主题的第二对应关系,根据该第二对应关系,可以确定出目标用户id配置的目标背景主题。
步骤06,唤醒所述冰箱并点亮显示屏,并在所述显示屏上展示所述目标背景主题。
在本实施例中,若预先构建的声纹特征库中不存在比对结果大于设定比对门限值的声纹特征,那么表明该待验证语音发起人没有在预先注册过,因此,可以执行唤醒冰箱并点亮显示屏操作,并在显示屏上展示默认的背景主题。
以上,实现了对待验证语音发起人的身份的识别,并与之匹配与发起人身份对应的背景主题,从而可以提高用户体验。
实施例2
请参考图2,本发明实施例提供了一种基于声纹识别的冰箱唤醒装置,包括:
采集单元201,用于采集待验证语音;
获取单元202,用于获取所述待验证语音的mfcc声纹特征;
内容确定单元203,用于根据所述待验证语音的mfcc声纹特征确定所述待验证语音的内容;
比对单元204,用于在所述待验证语音的内容为预置的唤醒词时,将所述待验证语音的mfcc声纹特征与预先构建的声纹特征库进行比对;
用户id确定单元205,用于在所述声纹特征库中存在比对结果大于设定的比对门限值的目标声纹特征时,根据预先构建的用户id与声纹特征的第一对应关系,确定与所述目标声纹特征对应的目标用户id;
背景主题确定单元206,用于根据预先构建的用户id与背景主题的第二对应关系,确定与所述目标用户id对应的目标背景主题;
唤醒展示单元207,用于唤醒所述冰箱并点亮显示屏,并在所述显示屏上展示所述目标背景主题。
请参考图3,在本发明一个实施例中,可以进一步包括:模型构建单元301,用于获取训练语音,针对所述训练语音提取mfcc声学特征;对提取的mfcc声学特征进行语音活动检测,估计高斯混合模型参数;利用所述高斯混合模型参数对通用背景模型进行训练,建立高斯混合模型-通用背景模型。
在本发明一个实施例中,所述获取单元202,具体用于利用所述高斯混合模型-通用背景模型对所述待验证语音进行训练,得到所述待验证语音的mfcc声纹特征;
请参考图3,在本发明一个实施例中,进一步包括:信息构建单元302,用于通过以下步骤构建所述声纹特征库和所述第一对应关系:接收用户发起的声纹注册请求,所述声纹注册请求中包括用户id和设定条数的注册语音;所述设定条数的注册语音的内容均为所述预置的唤醒词;利用所述高斯混合模型-通用背景模型对所述设定条数的注册语音进行训练,得到该用户的mfcc声纹特征,将该用户的mfcc声纹特征存储到所述声纹特征库中,将该用户id和该用户的mfcc声纹特征的对应关系存储到第一对应关系中。
在本发明一个实施例中,所述模型构建单元301,具体用于通过如下步骤实现对所述训练语音提取mfcc声学特征:
对所述训练语音进行预加重、分帧和加窗处理,得到训练信号;将所述训练信号进行快速傅里叶变换,得到频域信号;将所述频域信号取模的平方得到离散功率谱,将所述离散功率谱通过一组m个三角带通滤波器滤波,并对每一个三角带通滤波器滤波后的信号取对数后得到m个对数能量,对m个对数能量进行离散余弦变换,得到mfcc声学特征,其中,对m个对数能量通过下述公式进行离散余弦变换:
其中,c(n)为mfcc声学特征,l为mfcc系数阶数,s(m)为第m个三角带通滤波器输出的对数能量,m为三角带通滤波器的个数。
在本发明一个实施例中,所述内容确定单元203,具体用于:对所述待验证语音的mfcc声纹特征进行识别解码,得到所述待验证语音的内容;对所述待验证语音的内容与预置的唤醒词进行置信度判决,在置信度大于预置的唤醒门限值时,则确定所述待验证语音的内容是所述预置的唤醒词;否则,则确定所述待验证语音的内容不是所述预置的唤醒词。
综上,本发明各个实施例至少可以实现如下有益效果:
1、在本发明实施例中,通过获取到待验证语音的mfcc声纹特征,根据mfcc声纹特征确定待验证语音的内容,当待验证语音的内容为预置的唤醒词时,将mfcc声纹特征与声纹特征库进行比对,在声纹特征库中存在比对结果大于设定的比对门限值的目标声纹特征时,根据第一对应关系、第二对应关系,识别出该待验证语音的发起人身份,进而确定出与发起人身份对应的目标背景主题,在唤醒冰箱显示屏之后,在显示屏上展示目标背景主题。本发明,可以识别待验证语音发起人的身份,并与之匹配与发起人身份对应的背景主题,从而可以提高用户体验。
2、在本发明实施例中,在建立高斯混合模型-通用背景模型过程中,对训练语音进行预加重、分帧和加窗处理,可以使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰;以及可以将信号处理的更加平稳,使信号呈现周期性特征。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。