一种基于声纹锁的电视智能遥控装置的制作方法

文档序号:17169739发布日期:2019-03-22 19:32阅读:248来源:国知局
一种基于声纹锁的电视智能遥控装置的制作方法

本实用新型属于电视智能控制技术领域,更具体涉及一种基于声纹锁的电视遥控装置及其工作方法。



背景技术:

随着智能技术的飞速发展,智能电视已经开始进入千家万户。每个人的喜好不一样,所以人们对电视的个性化需求越来越强烈。传统的电视机遥控器由于体积较小,易于遗失;并且人们在做其他的事情时,则无法完成对电视机的遥控。随着声纹识别技术的逐渐成熟,可以帮助人们解决这一难题。



技术实现要素:

本实用新型的目的是提供一种智能操作且能够满足人们个性化需求的基于声纹锁的电视遥控装置及其工作方法。

根据本实用新型的一个方面,提供了一种基于声纹锁的电视智能遥控装置,其特征在于,包括

话筒,用于接收语音片段输入;

音频编解码芯片,分别与所述话筒连接,将语音片段数字化以提供数字语音信号;

语音预处理模块,接收所述数字语音信号并对数字语音信号进行预处理,所述预处理包括预加重、分帧、加窗和端点检测;

提取特征参数模块,对经过预处理的数字语音提取特征参数,所述特征参数为12 维美尔频率倒谱系数;

语音识别模型,接收特征参数,并将特征参数与语音识别模型的中语音指令进行匹配,若匹配成功,则根据所述语音特征参数向处理器输出识别指令,若匹配不成功,则语音识别模型不输出任何指令;

处理器,执行所述语音识别模型输出的指令。

在一些实施方式中,还包括红外发送模块,所述红外发送模块与所述处理器连接,用于处理器对外交换信息。

在一些实施方式中,还包括蜂鸣器,所述蜂鸣器与所述处理器连接。

在一些实施方式中,语音预处理模块、提取特征参数模块和语音识别模型储存在NAND 闪存中。

在一些实施方式中,还包括RTC定时器,所述RTC定时器与所述处理器连接,用于限定电视机的开机时长;

在一些实施方式中,还包括键盘,所述键盘与所述处理器连接,并通过键盘输入指令的不同决定处理器进入训练模式或工作模式,并通过键盘设定开机时间。

其有益效果为:本实用新型通过采集语音信息来同时进行说话人身份识别,可以在用户长期离家时实时采集声音是否为预存在电视里的说话人,如果采集到陌生人的语音信息电视机可可通过联网方式进行报警,一旦被盗会将电视机当前位置信息发送给电视机实际拥有者,使电视机具有防盗功能;

本实用新型通过采集语音信息来同时进行说话人身份识别,电视机可根据说话人不同,推送不同的电视节目,可以实现电视的个性化私人定制;

本实用新型通过采集语音信息来同时进行说话人身份识别和内容识别,可实现家长模式和儿童模式,针对不同的说话人采用不同的电视机控制方式,从而对老人、病人或儿童等家庭特殊成员看电视的时间进行了完全控制,从而有效地解决了儿童看电视时间无法控制的问题,进而对儿童的学习和生活实现良好的引导,使儿童养成良好的学习和娱乐习惯,为儿童的身心健康打下良好的基础。

附图说明

图1是本实用新型一种基于声纹锁的电视智能遥控装置的结构示意图;

图2是本实用新型一种基于声纹锁的电视智能遥控装置的工作方法的语音预处理的步骤示意图;

图3是本实用新型一种基于声纹锁的电视智能遥控装置的工作方法的特征参数提取的步骤示意图。

具体实施方式

下面结合具体实施例对本实用新型作进一步的说明。

如图1所示,一种基于声纹锁的电视遥控装置,包括处理器、话筒、音频编解码芯片、语音预处理模块、语音识别模型、提取特征参数模块、键盘、蜂鸣器和红外发送模块。

话筒用于接收语音片段输入。音频编解码芯片与所述话筒连接,将语音片段数字化以提供数字语音信号。语音预处理模块,接收所述数字语音信号并对数字语音信号进行预处理,所述预处理包括预加重、分帧、加窗和端点检测。提取特征参数模块,对经过预处理的数字语音提取特征参数,所述特征参数为12维美尔频率倒谱系数。语音识别模型接收特征参数,并将特征参数与语音识别模型的中语音指令进行匹配,若匹配成功,则根据所述语音特征参数向处理器输出识别指令,若匹配不成功,则语音识别模型不输出任何指令。处理器,执行语音识别模型输出的识别指令。语音预处理模块、提取特征参数模块和语音识别模型均储存在NAND闪存单元中。RTC定时器与所述处理器连接,用于限定电视机的开机时长。键盘与所述处理器连接,并通过键盘输入指令的不同决定处理器进入训练模式或工作模式,并通过键盘设定开机时间。蜂鸣器与处理器连接,当处理器每执行一次指令时,蜂鸣器发出提示音,方便人们的使用。

如图2-3所示,一种基于声纹的电视智能遥控装置的工作方法,包括如下步骤:

处理器根据键盘的按键输入选择工作模式或训练模式。在该实施例中,若键盘输入为“#”,则处理器进入工作模式,若键盘输入为“*”,则进入训练模式。

当处理器进入训练模式时:

话筒接收语音片段的输入,并将语音片段输送至音频编码芯片,所述音频编码芯片对语音片段数字化,以提供数字语音信号。

语音预处理模块对数字语音信号进行预处理,预处理包括预加重、分帧、加窗和端点检测。

特征参数提取模块对经过预处理的数字语音提取语音特征参数,所述语音特征参数为12 维美尔频率倒谱系数。

通过语音特征参数建立语音识别模型。

对说话人识别模型训练采用如下方法:

接收各说话人训练语音片段输入;

对说话人训练语音片段数字化以提供数字语音信号X(n1),其中n1表示说话人训练数字语音离散点序号;

采用上文所述的预处理,对数字语音信号X(n1)进行预处理,包括预加重、分帧、加窗、端点检测,得到说话人训练数字语音信号X(n′1);

对经过预处理的数字语音X(n′1)提取语音特征参数,该特征参数为12维美尔频率倒谱系数;

利用上述方法提取的语音特征参数来训练说话人识别模型。

说话人识别模型的建立方法如下:

设置说话人识别模型的的混合高斯模型的阶数为4;

用K均值方法(kmeans)初始化说话人识别模型,得到各高斯分布的初始化参数:均值向量μk,协方差矩阵∑k,混合分量权值ck,其表示第k个说话人对应的初始化子模型参数设第c个说话人训练语音的第t个特征参数为其中Tc表示第c个说话人训练语音的帧数,C表示训练样本的总数,按照下面的公式对高斯分布的初始化参数进行重新估计,令其中表示对应的说话人,得到各说话人识别子模型参数:

所述说话人识别模型为混合高斯模型,将上面得到的各说话人识别子模型参数代入下面的公式,形成训练好的各说话人识别子模型,这些训练好的子模型集合即为最终说话人识别模型:

所述该高斯混合模型用4个单高斯分布的线性组合来描述帧特征在特征空间中的分布,具体描述如下:

其中

其中,D为特征维数,此处D=12,bk(x)称为核函数,是均值向量为协方差矩阵为的高斯分布函数,高斯混合分布的加权系数满足:

说话人识别混合高斯模型参数集λ1就是由上述的各均值分量、协方差矩阵及混合分量的权值组成,表示成如下三元组的形式:

对说话人指令识别模型的建立方法如下:

接收1个说话人指令训练语音片段输入;

对指令训练语音片段数字化以提供数字语音信号X(n2),其中n2表示指令训练数字语音离散点序号;

采用上文所述的预处理,对指令训练数字语音信号X(n)进行处理,得到指令训练数字语音信号X(n′2);

对经过预处理的数字语音提取语音特征参数,该特征参数为12维美尔频率倒谱系数。

利用提取的语音指令特征参数来训练语音指令模型的方法如下:

设置语音指令识别模型的的混合高斯模型的阶数为10;

用K均值方法kmeans初始化语音指令识别模型的的各高斯分布的均值向量μ′k′,协方差矩阵∑′k′,混合分量权值c′k′;

设第c′个指令训练语音的第t′个特征参数为其中T′c表示第c′个指令训练语音的帧数,C′表示指令训练语音样本总数,按照下面的公式对混合高斯模型参数进行重新估计,令k′=1,…,k′=K′,形成训练好的与该说话人对应的语音指令识别模型,并建立与该说话人对应的文件夹,其中k′表示指令语音对应的指令,即该说话人指令识别模型包含K′个指令子模型:

所述与说话人对应的语音指令识别模型为混合高斯模型,将上面得到的说话人对应的语音指令识别模型参数代入下面的公式,形成训练好的与该说话人对应的语音指令识别模型:

所述该高斯混合模型用10个单高斯分布的线性组合来描述帧特征在特征空间中的分布,具体描述如下:

其中

其中,D为特征维数,此处D=12,b′k′(x′)称为核函数,是均值向量为协方差矩阵为的高斯分布函数,高斯混合分布的加权系数满足:

语音指令识别混合高斯模型参数集λ2就是由上述的各均值分量、协方差矩阵及混合分量的权值组成,表示成如下三元组的形式:

接收其他说话人指令训练语音片段输入,每个说话人的指令训练语音按上面相同的方式进行训练,得到各个说话人对应的语音指令识别模型,包括各说话人的语音指令识别模型的指令子模型,这些训练得到的各个说话人对应的语音指令识别模型集合构成语音指令识别模型库。

在该实施例中,通过键盘按键“#”,退出训练模式,蜂鸣器响两声。

当处理器进入工作模式时:

话筒接收语音片段的输入,并将语音片段输送至音频编码芯片,所述音频编码芯片对语音片段数字化,以提供数字语音信号。

语音预处理模块对数字语音信号进行预处理,包括预加重、分帧、加窗和端点检测。

对数字语音信号进行预处理采用如下方法:

对输入的数字语音信号X(n)按下面进行预加重:

式中α=0.9375,n表示待识别的数字语音离散点序号;

采用交叠分段的方法进行分帧,前一帧与后一帧之间有交叠的部分,称为帧移,此处帧移取7ms,即在11.025kHz采样率下取80个点,每一帧长取23ms,即取256个点;

选择汉明窗对语音信号进行加窗处理,窗口函数如下:

式中n′表示每一帧数字语音离散点序号,N表示每一帧数字语音离散点点数,此处N=256;

采用公知的能量过零率双门限判决法来完成端点检测,即依据环境噪声的能量和过零率都低于语音信号的短时能量和短时过零率的原则,首先用短时能量作第一级判别,然后在此基础上再用短时过零率作第二级判别,计算出短时能量上限、下限和过零率门限的值,然后对每帧数据进行判断,端点检测后得到每一帧数字语音。

特征参数提取模块对经过预处理的数字语音提取语音特征参数,所述语音特征参数为12 维美尔频率倒谱系数,并将提取的语音特征参数输入到语音识别模型中。

对经过预处理的数字语音提取语音特征参数采用如下方法:

在时域信号X(n′)后增补0,使得增补0后的序列的长度为N′,使N′为2的整数次幂,然后经过离散傅里叶变换DFT后得到线性频谱X(k),转换公式为:

将上述线性频谱X(k)通过美尔频率滤波器组Hm(k)得到美尔频谱,并通过对数能量的处理,得到对数频谱S(m),由线性频谱X(k)到对数频谱S(m)的总传递函数为:

其中对于有M个带通滤波器的滤波器组,m=1,2,…,M,每个带通滤波器的传递函数为:

将上述对数频谱S(m)经过离散余弦变换,变换到倒谱频域,即得到美尔频率倒谱系数 c(n′):

所述语音识别模型中存储有预先录制的语音指令,将语音特征参数与所述语音识别模型中存储的语音相匹配,若匹配成功,则根据所述语音特征参数向处理器输出识别指令,若匹配不成功,则语音识别模型不输出任何指令。

对说话人语音指令的识别采用如下方法:

接收待识别的指令语音片段输入;

对待识别的指令语音片段数字化以提供数字语音信号;

对待识别的指令数字语音信号X(n)进行预处理,包括预加重、分帧、加窗、端点检测;

对经过预处理的数字语音提取语音特征参数,该特征参数为12维美尔频率倒谱系数;

将提取的语音特征参数输入到已经训练好的各说话人识别子模型中,来确定哪一个说话人识别子模型是该语音片段的一个最佳匹配,根据匹配的说话人识别子模型来选择该模型对应的说话人;

根据对说话人的判定结果,从训练好的说话人语音指令识别模型库中选择该说话人对应的语音指令识别模型;

将提取的语音特征参数输入到选择的语音指令识别子模型中,所述语音指令识别模型包括开机、关机、上一频道、下一频道四个已经训练好的指令子模型,根据语音指令识别模型中的输出结果来确定哪一种指令是该语音片段的一个最佳匹配。

若处理器接收的是开机指令、关机指令、上一频道指令或下一频道指令,输出遥控编码脉冲,驱动红外发射管输出红外遥控信号,电视机处的遥控接收头完成对遥控信号的放大、检波、整形、解调出遥控编码脉冲,执行指令。在电视机运行过程中,处理器还可以根据键盘的按键输入确定运行时间,时间为输入的键值,单位为小时,按键“#”确定。

若处理器接收的是开机附带定时功能的开机指令,处理器模块控制输出遥控编码脉冲,驱动红外发射管输出红外遥控信号,电视机处的遥控接收头完成对遥控信号的放大、检波、整形、解调出遥控编码脉冲,执行开机指令,同时RTC定时器按照设置好的时间开始计时,计时结束,处理器输出控制信号关闭电视电源。

在实际应用中,开机指令、关机指令、上一频道指令或下一频道指令由家长的声音相匹配,而当儿童发出开机声声音后,处理器自动启动开机附带定时功能的指令,避免儿童使用电视时间过长,当家长需要限定儿童的使用时间时,可直接启动开机附带定时功能或在通过键盘输入设定时间,避免儿童使用电视时间过长。

在实际应用中,本实用新型还包括防盗功能离家模式。具体地,通过按键键入指令,控制器设置为具有防盗功能离家模式,

接收当前用户的语音片段并生成数字化语音信息;

将采集到的语音输入到训练好的语音识别模型进行身份判断,如果在训练好的语音识别模型中没有匹配到对应的说话人信息,则该用户为非法用户,蜂鸣器连续鸣响,同时将非法入侵信息通过网络发送给合法用户,

若在训练好的语音识别模型中匹配到对应的说话人信息,则为合法用户,进入工作模式。

本实用新型通过采集语音信息来同时进行说话人身份识别,可以在用户长期离家时实时采集声音是否为预存在电视里的说话人,如果采集到陌生人的语音信息电视机可可通过联网方式进行报警,一旦被盗会将电视机当前位置信息发送给电视机实际拥有者,使电视机具有防盗功能。

以上所述的仅是本实用新型的一些实施方式。对于本领域普通技术人员来讲,在不脱离本实用新型创造构思的前提下,还可以做出若干变形和改进,这些都属于本实用新型的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1