采用声纹和语音识别进行个性化电视语音唤醒的方法

文档序号：8261282阅读：1180来源：国知局

采用声纹和语音识别进行个性化电视语音唤醒的方法
【技术领域】
[0001] 本发明涉及声纹识别和语音识别技术，通过声纹识别进行电视机使用用户的身份确认，并通过确认的身份和对用户语音的语音识别结果来控制电视机进行个性化的语音唤醒。
【背景技术】
[0002] 近年来，随着智能语音处理技术、互联网和云计算技术的快速发展，目前市面上出现的智能电视大部分都开始支持简单的语音操作，如进行音量调节，资源搜索等，同时电视语音助手等应用也开始出现。但由于中国各地的方言种类多、同音字多、各地方言的语音语调的不同、周围环境噪声等因素造成语音识别的准确率很低，电视无法执行用户语音命令的现象时常出现。因此，对消费者来说，目前的语音电视在一定程度上并不能满足其各项需求。同时，这些人机语音交互功能大多需要通过云端计算来完成，存在一定的安全隐患。
[0003] 现在几乎每个家庭都拥有一台或几台电视机，但一台电视通常会被几位家庭成员使用，特别是放置在客厅的电视，而每位家庭成员对电视节目频道的喜好却不尽相同，这时在打开电视后通常需要用遥控器对电视节目频道进行遍历切换以找到自己最喜欢的频道，非常不方便且繁琐。

【发明内容】

[0004] 为解决现有技术的不足，本发明提供一种采用语音进行个性化电视唤醒的实现方法，能够对用户语音采用声纹识别和语音识别，实现对用户的身份进行监测并使用非常简单的唤醒词就能唤醒电视打开其最喜欢的电视频道。
[0005] 众所周知，声纹识别又称说话人识别，是生物识别技术的一种，声纹识别和语音识别均属于智能语音处理技术的范畴。具体是将说话人语音信号中的声纹特征参数与训练好的声纹模型进行模式匹配从而自动进行说话人身份确认或辨认的技术。语音识别是通过模式识别和语言理解将语音信号中包含的文字信息提取出来的技术，主要包括特征提取、声学模型和语言模型训练、解码技术等。
[0006] 本发明具体实现步骤如下：
[0007] A.个性化信息注册
[0008] 采用声纹识别系统建立用户的声纹模型，采用语音识别系统识别出用户最喜爱的电视频道信息。
[0009] B?信息存储
[0010] 将用户声纹模型和最喜爱的电视频道信息进行关联并存储到电视机信息存储单 J1_1〇
[0011] C.语音唤醒
[0012] 用户只需对电视机的语音采集单元说出预先设定的唤醒词，即可根据声纹识别和语音识别系统对唤醒词的声纹和语音识别结果从电视机信息存储单元中调出用户的个性化信息，自动完成打开电视并自动切换到用户最喜爱的电视频道。
[0013] 以上所述的采用声纹和语音识别进行个性化电视语音唤醒的方法，其特点是，所述步骤A、步骤B，在用户作第一次操作时完成，以后只需操作步骤C，即可完成其个性化语音电视的唤醒。
[0014] 当用户对电视频道的喜好发生改变时，通过重新执行步骤A，进行用户个性化信息注册，对信息存储单元中的电视频道信息进行更新，此时无需进行声纹建模，仅需进行声纹匹配和语音识别。
[0015] 由于本发明使用了声纹识别技术，很容易对不同用户建立起其对应的声纹密钥 (声纹模型），通过不同用户声纹密钥的唯一性实现对其喜爱的电视频道信息进行关联和保护，进而实现具有用户个性化的电视语音唤醒功能。
[0016] 本发明与现有技术相比，具有以下特点：
[0017] 第一、用户只需张嘴说简单的唤醒词，如"hello电视"就能自动打开电视并立即切换到自己最喜欢的电视台节目频道，无需再手动开机遥控，给用户带来智能、时尚的应用体验。
[0018] 第二、个性化注册时的声纹识别性能与所说的文本和使用的语言无关，方便使用。
[0019] 第三、用声纹作为密码，简单的电视频道代码和唤醒词语音作为交互方式，因此语音识别系统仅需实现简单的关键词识别即可，识别速度快，且声纹识别和语音识别仅需离线训练和测试就可完成，无需发送到云端服务器，使用方便且保证了家庭信息的安全性。
[0020] 第四、可设置多位用户的个性化语音开机信息，除唤醒功能外，同时也可用于个性化自动语音换台。
[0021] 第五、本发明的算法实现模块具有很好的可移植性和可扩展性，可被移植到有线电视的机顶盒、通用的DSP高速处理器或芯片上运行，能广泛应用于智能家居相关领域。
【附图说明】
[0022] 图1为本发明采用声纹和语音识别进行个性化电视语音唤醒的方法系统组成框图；
[0023] 图2为本发明实施例用户个性化信息注册系统流程图；
[0024] 图3为本发明实施例个性化语音唤醒电视的流程图。
【具体实施方式】
[0025] 以下结合附图和实施例对本发明作进一步的描述
[0026] 本发明构建了一套采用声纹和语音识别进行个性化电视语音唤醒的系统（如图1 所示），该系统包括用于用户个性化信息注册、唤醒词识别和声纹匹配的语音控制系统1，用于接收并存储从语音控制系统1中传递来的已训练好的用户声纹模型和已识别出的电视频道信息的信息存储单元2和接收从语音控制系统1和信息存储单元中传递的控制信息，负责执行个性化电视语音唤醒操作的电视机主控制器3组成，以电信号方式连接。其中：
[0027] 所述语音控制系统1由语音采集单元11，语音识别单元12和声纹识别单元13组成，其中：
[0028] 所述语音采集单元11用于完成用户语音信号的采集和处理；
[0029] 所述语音识别单元12用于识别用户所说的电视频道信息和唤醒词；
[0030] 所述声纹识别单元13用于从用户语音中提取出代表其身份信息的声纹信息进行声纹建模和声纹匹配。
[0031] 本发明的语音控制系统有二个状态按钮，即"用户注册"和"语音唤醒"。当用户需要进行个性化信息注册时开启"用户注册"，平时均处于"语音唤醒"状态，这样有利于节省电能。
[0032] 下面结合附图分别介绍用户个性化信息注册过程和自动语音唤醒的具体实施方式
[0033] 用户首次进行个性化信息注册时（如图2所示）实施例，需对电视机说话二次，第一次为任意文本的语音，用于声纹建模，第二次为用户自己最喜欢的电视频道信息，用于将电视频道信息与用户声纹模型进行关联。具体步骤如下：
[0034] A1.开启语音控制系1，使其处于"用户注册"状态；
[0035]A2.若用户为首次进行个性化信息注册，执行该步骤，否则转向步骤A6开始执行，用户对着电视机的语音采集单元11说话，说话内容为任意文本，持续时间至少30秒；
[0036]A3.语音采集单元11采集输入的说话人语音信号，并对其进行A/D转换，滤波处理；
[0037]A4.声纹识别单元13对经步骤A3处理后的语音信号作预处理，包括加窗分帧、预加重、端点检测，提取声纹特征参数，然后调用信息存储单元2中已有的声纹模型进行声纹匹配，若匹配成功，转向步骤A7;反之，进入下一步操作；
[0038]A5.调用声纹识别单元13对从步骤A4中提取的特征参数进行声纹模型的训练，将训练好的声纹模型存储到信息存储单2;
[0039]A6.用户对着电视机的语音采集单元11说出自己最喜欢的电视频道信息，如频道代码"3"代表湖南卫视，则说出数字"3"，转向步骤A3重新开始；
[0040] A7.语音识别单元12对语音采集单元11采集到的语音进行识别，将识别出的电视频道代码存储到信息存储单元2中并与声纹匹配成功的声纹模型进行关联；
[0041] A8.退出个性化信息注册。
[0042] 当用户的电视频道喜好发生改变时，可通过重新进行个性化信息注册来更新信息存储单元2中的电视频道信息，此时只需对着电视机的语音采集单元11说出电视频道信息即可，语音控制系统1会自动从上述的步骤A6开始执行，无需对用户声纹重新建模。
[0043]自动进行个性化语音唤醒电视（如图3所示）实施例的具体步骤如下：
[0044] C1.当语音控制系统1处于"语音唤醒"开启状态时，用户对着电视机语音采集单元11说出唤醒词；
[0045] C2.语音采集单元11采集输入的说话人语音信号，并对其进行A/D转换，滤波处理；
[0046] C3.语音识别单元12对上述处理过的语音进行识别，将识别出的内容与预先设定的唤醒词进行匹配，以判断采集到的输入语音信号是否为电视机的语音唤醒指令，若匹配成功则将唤醒操作指令传递给电视机主控制器3,否则退出唤醒系统；
[0047]C4.声纹识别单元13将处理过的语音与信息存储单元2中的声纹模型进行声纹匹配，若匹配成功，则将与用户声纹模型关联的电视频道信息和唤醒操作指令输出给电视机主控制器3,否则退出唤醒系统；
[0048] C5.电视机主控制器3在成功收到语音控制系统1传递来的电视频道信息和唤醒操作指令后，执行电视开机操作并自动切换到对应用户喜爱的电视频道上。
[0049] 上述提到的预先设定的特定语音唤醒词可为任意设定的词组，如"打开电视机"、

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：龙艳花;叶宏;魏浩然;
技术所有人：上海师范大学;
我是此专利的发明人

上一篇：适用于摄像机参数设置的基于声音分析的信息传输方法
上一篇：语音识别方法和装置的制造方法