一种自动调节音量的方法及终端与流程

文档序号:12829426阅读:197来源:国知局
一种自动调节音量的方法及终端与流程

本发明涉及电子技术领域,尤其涉及一种自动调节音量的方法及终端。



背景技术:

随着智能电子设备的发展,智能电子设备给用户的生活带来了极大的便利,尤其是智能手机已经成为用户的生活用品之一。应当理解,用户常使用手机听音乐或者观看视频,由于播放音乐或者视频时音量较大而导致用户常常未听到或听清其他人与自身的对话内容而导致信息的错失或遗漏,而现有手机的音量调节方式常常是用户手动操作音量控制面板或者操作物理按键来实现调节,因此无法及时地自动调节音量来及时避免上述情况的发生。



技术实现要素:

本发明实施例提供一种自动调节音量的方法及终端,可以自动调节音量,减少用户因视频或音频的播放音量过高而导致与他人当面沟通时出现信息的错失或遗漏的情况。

第一方面,本发明实施例提供了一种自动调节音量的方法,上述方法包括:

检测当前的环境语音信号;获取环境语音信号的特征参数,特征参数用于识别环境语音信号是否为非噪音信号;根据特征参数以及预设的语音模型识别环境语音信号是否为非噪音信号,语音模型包括非噪音区域中特征参数的范围;若为非噪音信号,将当前的音量降低至预设值。

另一方面,本发明实施例提供了一种终端,该终端包括:检测单元、采集单元、识别单元、以及控制单元,

检测单元用于检测当前的环境语音信号;采集单元用于获取环境语音信号的特征参数,特征参数用于识别环境语音信号是否为非噪音信号;识别单元用于根据特征参数以及预设的语音模型识别环境语音信号是否为非噪音信号,语音模型包括非噪音区域中特征参数的范围;控制单元用于若为非噪音信号,将当前的音量降低至预设值。

本发明实施例所公开的一种自动调节音量的方法和终端通过采集环境语音信号的特征参数来识别环境语音是否为非噪音信号,若为非噪音信号,则将当前的音量降低至预设值,可以有效地防止用户因视频或音频的播放音量过高而导致信息的错失或遗漏。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种自动调节音量的方法的示意性流程图;

图2是本发明实施例提供的图1的子流程的示意图;

图3a是本发明实施例提供的一种特征函数式的函数曲线示意图;

图3b是本发明实施例提供的另一种特征函数式的函数曲线示意图;

图4是本发明实施例提供的一种终端的示意性框图;

图5是本发明实施例提供的图4中的一种识别单元的示意性框图;

图6是本发明实施例提供的另一种终端的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或若干个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

本发明实施例提供的一种自动调节的方法,上述方法运行于终端,终端包括但是不限制于任何一种可与用户进行人机交互的电子产品,例如智能手机(如android手机、ios手机、windowsphone手机等)、平板电能、掌上电能、笔记本电脑、移动互联网设备等。以上电子设备仅是举例,而非穷举,本发明实施例提供的终端包括但是不限制于上述电子设备。需要说明的是,本发明实施例提供的终端应当具有采集环境语音信号的元件,例如麦克风。

请看图1,是本发明实施例提供的一种自动调节音量的方法的示意性流程图,应当理解,本发明实施例所述的自动调节音量是基于当前在播放音频或者视频资源等的前提下进行的。如图所示,本发明实施例提供的一种自动调节音量的方法包括如下s101~s105:

s101,检测当前的环境语音信号。

具体的,本发明实施例优选利用麦克风检测环境语音信号,其他可行的实施例中可以采用其他电子元件用于检测环境语音信号,本发明实施例对此不进行具体的限定。

s102,获取环境语音信号的特征参数,特征参数用于识别环境语音是否为非噪音信号。

具体的,本实施例中环境语音信号的类别包括噪音信号和非噪音信号,噪音信号包括环境噪音信号以及人声噪音信号,环境噪音包括工地噪音、车辆噪音、办公室键盘噪音等,人声噪音包括嘈杂环境下的对话噪音和安静环境下的他人对话噪音,如地铁等交通工具中嘈杂的对话噪音、办公室中远处传来的同事谈话声音等。应当理解,非噪音信号为非上述噪音信号的语音信号,视非噪音信号是可能与用户相关的对话语音信号。

优选地,获取到的环境语音信号的特征参数包括第一特征参数和第二特征参数。其他可行的实施例中,获取到的环境语音信号的特征参数可以是一个特征参数或者三个或者三个以上的特征参数。本发明实施例将以特征参数包括第一特征参数和第二特征参数为例进行说明。

优选地,第一特征参数是环境语音信号的短时过零率;第二特征参数是环境语音信号的短时平均能量,即第一特征参数是获取的整个环境语音信号的短时过零率,第二特征参数是获取的整个环境语音信号的短时平均能量。短时过零率表示一帧语音中语音信号波形穿过零电平的次数;短时平均能量表示n时刻语音信号的能量。其中短时过零率zn和短时平均能量的计算公式如下所示:

其中,n是窗长,短时能量平均值为一帧样点值的加权平均和;sgn[]为符号函数,x(n)≧0时,sgn[x(n)]=1;x(n)<0时,sgn[x(n)]=-1。

应当理解,本实施例中,噪音信号和非噪音信号的短时过零率以及短时平均能量不同进而可以有效地区分环境语音信号是噪音信号或者非噪音信号。例如,安静环境下的人声噪音如办公室环境下远处传来的同事谈话的人声噪音的短时平均能量,其与采集的用户相关的对话语音信号的短时平均能量不同,这是基于与用户相关的对话一般发生于与用户相隔较近,而远处的同事谈话的语音信号经过传播已经损耗了能量,因此其短时平均能量不同,进而可以区分人声噪音信号和非噪音信号。而在嘈杂环境下的人声噪音以及环境噪音与非噪音的短时过零率和短时平均能量明显不同,可以较为有效地区分。

s103,根据特征参数以及预设的语音模型识别环境语音信号是否为非噪音信号,语音模型包括非噪音区域中特征参数的范围,若为非噪音信号,执行s104,若不为非噪音信号,执行s105。

具体的,若获取的特征参数在非噪音区域中特征参数的范围内,则为非噪音信号;若获取的特征参数在噪音区域中特征参数的范围内,则为噪音信号。由于噪音信号和非噪音信号对应的特征参数的范围不同,而语音模型中包括了噪音区域中特征参数的范围以及非噪音区域中特征参数的范围,因此根据预设的语音模型可以识别出环境语音信号是噪音信号还为非噪音信号。需要说明的是,语音模型是根据若干数据样本训练而来。

当特征参数仅为一个参数时,语音模型中则包括在噪音区域和非噪音区域中该一个特征参数的范围;若特征参数为两个或者两个以上,语音模型则包括在噪音区域和非噪音区域中该两个或者两个以上的特征参数的范围,例如一种方式中,非噪音区域中第一特征参数的范围为(a1,a2),第二特征参数的范围(b1,b2),另一种方式中,非噪音区域中第一特征参数的范围为(a1,a2),当第一特征参数为a1时,第二特征参数的范围为(b1,b2),此时非噪音区域中每个特定的第一特征参数均对应一个第二特征参数的范围。

s104,将当前的音量降低至预设值,流程结束。

s105,保持当前音量不变,流程结束。

具体的,若为非噪音信号,则表示环境语音极有可能是与用户相关的语音,则应当降低当前音量以保证用户可以及时听到语音;若不为非噪音信号,则是噪音信号,则可保持当前音量不变。

应当理解,在一些实施例中预设值可以是一个固定值,即不论当前音量是多少均将当前音量降低至一个固定值;在另一些实施例中,预设值可以是与当前音量相关的动态值,如当前音量的1/3,本发明对此不进行具体的限定。

综上所述,本发明实施例通过特征参数来识别检测到的环境语音信号是否为非噪音信号来判断是否要自动降低当前音量,由于视非噪音信号是与用户相关的对话语音信号,因此检测到环境语音信号为非噪音信号后降低当前音量可以有效地防止用户因当前音频或者视频的播放音量过高而错失语音信息。另一方面,本发明实施例优选特征参数包括第一特征参数和第二特征参数,且将第一特征参数和第二特征参数相结合用于识别噪音信号和非噪音信号,提高了识别准确性。

优选地,s015将当前的音量降低至预设值之前,上述方法还包括:

识别环境语音信号中是否存在预设的关键词,预设的关键词与用户相关,用于识别环境语音是否与用户相关;以及若存在预设的关键词,再执行将当前的音量降低至预设值;若不存在预设的关键词,保持当前音量不变。

具体的,预设的关键词是与用户相关,例如用户的名字,昵称以及职称等,可以用于表示用户的身份。识别环境语音信号中是否有预设的关键词可以进一步地识别环境语音是否是与用户相关的,若是与用户相关,则降低当前音量;若不是与用户相关,则保持当前音量不变。例如利用该方式可以有效地区分人声噪音中发送于与用户相隔较近范围内但是与用户无关的对话语音以及与用户相关的对话语音。识别是否存在预设的关键词可以是通过关键词识别(kwr)系统,即利用了语音中的能量、倒谱系数等语音特征。

优选地,预设的语音模型包括若干个不同场景的语音模型,不同场景可以表示为不同地点的场景,如办公室、家中、地铁上,还可以表示为同一地点的不同时间场景,如办公室中不同时间段:上午上班时,中午休息时,下午上班时。

进而优选,s103根据所述特征参数以及预设的语音模型识别环境语音信号是否为非噪音信号之前,上述方法还包括:

获取当前时间;

根据当前时间以及预存的历史行为信息识别用户当前所在场景;

根据当前所在场景从若干个语音模型中查找相匹配的语音模型。

具体的,根据用户的历史行为信息分析用户当前所在场景,如根据工作日的不同时间段识别出用户在办公室还是家里或者上下班途中。应当理解,区分多个不同场景的语音模型是为了更加准确地识别出噪音信号和非噪音信号,这是基于有的不同场景下的噪音信号存在较大差异,同理有点不同场景下的非噪音信号也存在较大差异。

还应当理解,语音模型是根据采集的若干数据样本得到的数据模型。数据样本是在噪音环境下或者非噪音环境下采集的特征参数。

优选地,s102中获取的特征参数包括第一特征参数和第二特征参数。此时,请看图2,s103中根据特征参数以及预设的语音模型识别环境语音信号是否为非噪音信号,包括:

s201,根据第一特征参数以及预设的语音模型中特征函数式计算出标准的第二特征参数,特征函数式为第一特征参数与第二特征参数的关系式。

具体的,本实施例中优选第一特征参数是环境语音信号的短时过零率;第二特征参数是环境语音信号的短时平均能量。此时特征函数式是短时过零率与短时平均能量的关系式,优选是多项式函数,这是因为短时过零率与短时平均能量的关系式与多项式函数曲线类似。

在一些实施例中,特征函数式是通过若干噪音情况下的第一特征参数和第二特征参数的数据样本以及非噪音情况下的第一特征参数和第二特征参数的数据样本得到的噪音信号和非噪音信号的分界函数,分界函数具体是噪音信号和非噪音信号分界处的第一特征函数与第二特征函数的关系式。例如,如图3a所示的一种特征函数式的函数曲线图示意图,曲线l1是特征函数的坐标曲线示意图。曲线l1以下包括l1的区域s1表示为非噪音区域中第一特征参数与第二特征参数的范围;曲线l1以上区域s2为噪音区域中第一特征参数与第二特征参数的范围。应当理解,语音模型中根据特征函数式划分非噪音区域和噪音区域的划分规则是根据数据样本推导的。此时根据第一特征参数计算出标准的第二特征参数后,可以根据标准的第二特征参数获取到噪音区域和非噪音区域中的第二特征参数的范围。

在另一些实施例中,特征函数式是通过若干噪音情况下的第一特征参数和第二特征参数的数据样本得到的第一特征参数与第二特征参数的关系式或者是若干非噪音情况下的第一特征参数和第二特征参数的数据样本得到的第一特征参数与第二特征参数的关系式。此时特征函数式具体表示为噪音信号中第一特征参数与第二特征参数的关系式或者非噪音信号中第一特征参数与第二特征参数的关系式。语音模型中根据特征函数式划分非噪音区域和噪音区域中对应的第一特征参数和第二特征参数的范围的划分规则是根据数据样本推导而来,优选地划分规则为保持第一特征函数值不变,第二特征函数值增加或者减少预设值来生成非噪音区域和噪音区域中第二特征参数的范围。例如,如图3b所示的另一种特征函数式的函数曲线图示意图,曲线l2为非噪音场景内特征函数的坐标曲线示意图。第一特征参数为z1时,特征函数式上对应的第二特征参数为e0,此时非噪音区域中第二特征参数范围为(e0-△e2,e0+△e1);此时,噪音区域中第二特征参数的范围为小于e0-△e2和大于e0+△e1,其中△e2和△e1是根据样本数据得到,可以相同也可以不同。

s202,根据标准的第二特征参数以及预设规则获取非噪音区域中第二特征参数的范围。

具体的,本实施例中预设规则表示语音模型中根据标准的第二特征参数划分语音模型中噪音区域和非噪音区域的划分规则。

如图3a所示的,若特征函数式是分界函数,根据第一特征参数z1计算出标准的第二特征参数e0后,根据标准的第二特征参数e0以及划分规则获取到了非噪音区域中第二特征参数的范围为s1即小于或等于e0。

s203,检测获取的第二特征参数是否在非噪音区域中第二特征参数的范围,若在非噪音区域中第二特征参数的范围内,执行s204,若不在非噪音区域中第二特征参数的范围内,执行s205;

s204,环境语音信号为非噪音信号。

s205,环境语音信号不为非噪音信号。

同理,若特征参数包括三个或者三个以上,也适用于上述方法来识别环境语音信号是否为非噪音信号,例如包括三个特征参数时,将其中两个特征参数按照预设规则计算出第四特征参数,再训练出第四特征参数与剩余一个特征参数的特征函数式。

进一步地,由于执行自动调节音量的方法时,语音模型是已经建立好的,为了提高识别的准确性,以防止语音模型不再适用时持续使用该语音模型的情况发生,上述方法还包括:

若接收到检测异常的信息,识别检测异常的出现频率是否超过了特定值;

若超过了特定值,根据每次检测异常时的特征参数计算出当前检测误差的预估值;以及根据预估值调节预设的语音模型的非噪音区域中特征参数的范围;

若未超过特定值,不进行处理。

具体的,检测异常的信息是根据用户操作而生成的,例如调节音量显示提示信息将调节音量,若用户并未接受降低音量的请求,则视为一次检测异常或者降低音量后用户随即升高音量也视为检测异常。应理解检测是否超过特定值是为了防止检测异常的事件为偶尔事件的情况下调节了语音模型。

需要说明的是,检测误差的预估值是根据特征参数得出的结果与实际结果的差距得到的。再根据误差值调节语音模型中非噪音区域中特征参数的范围和噪音区域中特征参数的范围,使调整后的语音模型适用于当前场景,提高检测准确性。

例如,当特征参数包括第一特征参数和第二特征参数时,优选检测误差的预估值是每次检测异常时的获取的第二特征参数与标准的第二特征参数的偏差的平方和,如获取的第二特征参数与标准的第二特征参数的差值的平方和。此时,优选根据预估值调节预设的语音模型的非噪音区域中的特征参数的范围具体是:根据预估值调节第一特征参数与第二特征参数的特征函数式。

应当理解,通过监控检测异常以及动态调节语音模型可以提高检测准确性。

请看图4,是本发明实施例提供的一种终端的示意性框图,上述自动调节音量的方法运行于终端,如图所示,该终端400包括:检测单元401、采集单元402、识别单元403以及控制单元404。

其中,检测单元401,用于检测当前的环境语音信号。

采集单元402,用于获取环境语音信号的特征参数,特征参数用于识别环境语音是否为非噪音信号。

具体的,本实施例中环境语音信号的类别包括噪音信号和非噪音信号,噪音信号包括环境噪音信号以及人声噪音信号,环境噪音包括工地噪音、车辆噪音、办公室键盘噪音等,人声噪音包括嘈杂环境下的对话噪音和安静环境下的他人对话噪音。应当理解,非噪音信号为非上述噪音信号的语音信号,视非噪音信号是可能与用户相关的对话语音信号。

优选地,获取到的环境语音信号的特征参数包括第一特征参数和第二特征参数。其他可行的实施例中,获取到的环境语音信号的特征参数可以是一个特征参数或者三个或者三个以上的特征参数。本发明实施例将以特征参数包括第一特征参数和第二特征参数为例进行说明。

优选地,第一特征参数是环境语音信号的短时过零率;第二特征参数是环境语音信号的短时平均能量,即第一特征参数是获取的整个环境语音信号的短时过零率,第二特征参数是获取的整个环境语音信号的短时平均能量。短时过零率表示一帧语音中语音信号波形穿过零电平的次数;短时平均能量表示n时刻语音信号的能量。其中短时过零率zn和短时平均能量的计算公式如下所示:

其中,n是窗长,短时能量平均值为一帧样点值的加权平均和;sgn[]为符号函数,x(n)≧0时,sgn[x(n)]=1;x(n)<0时,sgn[x(n)]=-1。

应当理解,本实施例中,噪音信号和非噪音信号的短时过零率以及短时平均能量不同进而可以有效地区分环境语音信号是噪音信号或者非噪音信号。

识别单元403,用于根据特征参数以及预设的语音模型识别环境语音信号是否为非噪音信号,语音模型包括非噪音区域中特征参数的范围。

控制单元404,用于若为非噪音信号,将当前的音量降低至预设值;以及还用于,若不为非噪音信号,控制保持当前音量不变。

具体的,若获取的特征参数在非噪音区域中特征参数的范围内,则为非噪音信号;若获取的特征参数在噪音区域中特征参数的范围内,则为噪音信号。由于噪音信号和非噪音信号对应的特征参数的范围不同,而语音模型中包括了噪音区域中特征参数的范围以及非噪音区域中特征参数的范围,因此根据预设的语音模型可以识别出环境语音信号是噪音信号还为非噪音信号。需要说明的是,语音模型是根据若干数据样本训练而来。

当特征参数仅为一个参数时,语音模型中则包括在噪音区域和非噪音区域中该一个特征参数的范围;若特征参数为两个或者两个以上,语音模型则包括在噪音区域和非噪音区域中该两个或者两个以上的特征参数的范围,例如一种方式中,非噪音区域中第一特征参数的范围为(a1,a2),第二特征参数的范围(b1,b2),另一种方式中,非噪音区域中第一特征参数的范围为(a1,a2),当第一特征参数为a1时,第二特征参数的范围为(b1,b2),此时非噪音区域中每个特定的第一特征参数均对应一个第二特征参数的范围。

应当理解,在一些实施例中预设值可以是一个固定值,即不论当前音量是多少均将当前音量降低至一个固定值;在另一些实施例中,预设值可以是与当前音量相关的动态值,如当前音量的1/3,本发明对此不进行具体的限定。

优选地,上述终端400还包括鉴别单元405。

鉴别单元405,用于识别环境语音信号中是否存在预设的关键词,预设的关键词与用户相关,用于识别环境语音是否与用户相关。

控制单元404,还用于若存在预设的关键词,再将当前的音量降低至预设值;若不存在预设的关键词,控制保持当前音量不变。

具体的,预设的关键词是与用户相关,例如用户的名字,昵称以及职称等,可以用于表示用户的身份。识别环境语音信号中是否有预设的关键词可以进一步地识别环境语音是否是与用户相关的,若是与用户相关,则降低当前音量;若不是与用户相关,则保持当前音量不变。

优选地,预设的语音模型包括若干个不同场景的语音模型,不同场景可以表示为不同地点的场景,如办公室、家中、地铁上,还可以表示为同一地点的不同时间场景,如办公室中不同时间段:上午上班时,中午休息时,下午上班时。进而优选上述终端400还包括:获取单元406、匹配单元407以及查找单元408。

获取单元406,用于获取当前时间。

匹配单元407,用于根据当前时间以及预存的历史行为信息识别用户当前所在场景。

查找单元408,用于根据当前所在场景从若干个语音模型中查找相匹配的语音模型。

具体的,根据用户的历史行为信息分析用户当前所在场景,如根据工作日的不同时间段识别出用户在办公室还是家里或者上下班途中。应当理解,区分多个不同场景的语音模型是为了更加准确地识别出噪音信号和非噪音信号,这是基于有的不同场景下的噪音信号存在较大差异,同理有点不同场景下的非噪音信号也存在较大差异。

还应当理解,语音模型是根据采集的若干数据样本得到的数据模型。数据样本是在噪音环境下或者非噪音环境下采集的特征参数。

优选地,采集单元402获取的特征参数包括第一特征参数和第二特征参数。此时,请看图5,识别单元403包括:计算单元501、收获单元502以及判断单元503。

计算单元501,用于根据第一特征参数以及预设的语音模型中特征函数式计算出标准的第二特征参数,特征函数式为第一特征参数与第二特征参数的关系式。

具体的,本实施例中优选第一特征参数是环境语音信号的短时过零率;第二特征参数是环境语音信号的短时平均能量。此时特征函数式是短时过零率与短时平均能量的关系式,优选是多项式函数,这是因为短时过零率与短时平均能量的关系式与多项式函数曲线类似。

在一些实施例中,特征函数式是通过若干噪音情况下的第一特征参数和第二特征参数的数据样本以及非噪音情况下的第一特征参数和第二特征参数的数据样本得到的噪音信号和非噪音信号的分界函数,分界函数具体是噪音信号和非噪音信号分界处的第一特征函数与第二特征函数的关系式。例如,如图3a所示的一种特征函数式的曲线图示意图,曲线l1是特征函数的坐标曲线示意图。曲线l1以下包括l1的区域s1表示为非噪音区域中第一特征参数与第二特征参数的范围;曲线l1以上区域s2为噪音区域中第一特征参数与第二特征参数的范围。应当理解,语音模型中根据特征函数式划分非噪音区域和噪音区域的划分规则是根据数据样本推导的。此时根据第一特征参数计算出标准的第二特征参数后,可以根据标准的第二特征参数获取到噪音区域和非噪音区域中的第二特征参数的范围。

在另一些实施例中,特征函数式是通过若干噪音情况下的第一特征参数和第二特征参数的数据样本得到的第一特征参数与第二特征参数的关系式或者是若干非噪音情况下的第一特征参数和第二特征参数的数据样本得到的第一特征参数与第二特征参数的关系式。此时特征函数式具体表示为噪音信号中第一特征参数与第二特征参数的关系式或者非噪音信号中第一特征参数与第二特征参数的关系式。语音模型中根据特征函数式划分非噪音区域和噪音区域中对应的第一特征参数和第二特征参数的范围的划分规则是根据数据样本推导而来,优选地划分规则为保持第一特征函数值不变,第二特征函数值增加或者减少预设值来生成非噪音区域和噪音区域中第二特征参数的范围。例如,如图3b所示的另一种特征函数式的曲线图示意图,曲线l2为非噪音场景内特征函数的坐标曲线示意图。第一特征参数为z1时,特征函数式上对应的第二特征参数为e0,此时非噪音区域中第二特征参数范围为(e0-△e2,e0+△e1);此时,噪音区域中第二特征参数的范围为小于e0-△e2和大于e0+△e1,其中△e2和△e1是根据样本数据得到,可以相同也可以不同。

收获单元502,用于根据标准的第二特征参数以及预设规则获取非噪音区域中第二特征参数的范围。

具体的,本实施例中预设规则表示语音模型中根据标准的第二特征参数划分语音模型中噪音区域和非噪音区域的划分规则。

如图3a所示的,若特征函数式是分界函数,根据第一特征参数z1计算出标准的第二特征参数e0后,根据标准的第二特征参数e0以及划分规则获取到了非噪音区域中第二特征参数的范围为s1即小于或等于e0。

例如,如图3所示的特征函数式的曲线图示意图。若所示曲线l是特征函数式的示意图,根据第一特征参数z1计算出标准的第二特征参数e2,标准的第二特征参数e2分别加减预设数值△e1和△e2而生成非噪音区域的第二特征参数的范围,其他范围为噪音区域的第二特征参数的范围,△e1和△e2可以相同也可不同。

判断单元503,用于检测获取的第二特征参数是否在非噪音区域中第二特征参数的范围,若在非噪音区域中第二特征参数的范围内,环境语音信号为非噪音信号,若不在非噪音区域中第二特征参数的范围内,环境语音信号不为非噪音信号。

同理,若特征参数包括三个或者三个以上,也适用于上述方法来识别环境语音信号是否为非噪音信号,例如包括三个特征参数时,将其中两个特征参数按照预设规则计算出第四特征参数,再训练出第四特征参数与剩余一个特征参数的特征函数式。

进一步地,由于执行自动调节音量的方法时,语音模型是已经建立好的,为了提高识别的准确性,以防止语音模型不再适用时持续使用该语音模型的情况发生,上述终端400还包括鉴定单元409、运算单元410以及调节单元411。

其中,鉴定单元409,用于若接收到检测异常的信息,识别检测异常的出现频率是否超过了特定值,其中,若未超过特定值,不进行处理。

运算单元410,用于若超过了特定值,根据每次检测异常时的特征参数计算出当前检测误差的预估值。

调节单元411,用于根据预估值调节预设的语音模型的非噪音区域中特征参数的范围。

具体的,检测异常的信息是根据用户操作而生成的,例如节音量显示提示信息将调节音量,若用户并未接受降低音量的请求,则视为一次检测异常或者降低音量后用户随即升高音量也视为检测异常。应理解检测是否超过特定值是为了防止检测异常的事件为偶尔事件的情况下调节了语音模型。

需要说明的是,检测误差的预估值是根据特征参数得出的结果与实际结果的差距得到的。再根据误差值调节语音模型中非噪音区域中特征参数的范围和噪音区域中特征参数的范围,使调整后的语音模型适用于当前场景,提高检测准确性。

例如,当特征参数包括第一特征参数和第二特征参数时,优选检测误差的预估值是每次检测异常时的获取的第二特征参数与标准的第二特征参数的偏差的平方和,如获取的第二特征参数与标准的第二特征参数的差值的平方和。此时,优选根据预估值调节预设的语音模型的非噪音区域中的特征参数的范围具体是:根据预估值调节第一特征参数与第二特征参数的特征函数式。

应当理解,通过监控检测异常以及动态调节语音模型可以提高检测准确性。

参见图6,是本发明实施方式提供的另一种终端的示意框图。如图所示的本实施例中的终端600可以包括一个或者若干个处理器601、一个或者若干个输入装置602、一个或者若干个输出装置603以及存储器604。上述处理器601、输入装置602、输出装置603以及存储器604通过总线连接。

输入装置602用于接收输入的信息。具体实现中,本发明实施例的输入装置602可包括键盘、鼠标、光电输入装置、声音输入装置、触摸式输入装置、扫描仪、麦克风等。

输出装置603用于对外输出信息给用户。具体实现中,本发明实施例的输出装置603可包括显示器、扬声器、打印机等。

存储器604用于存储带有各种功能的程序数据,具体实现中,本发明实施例的存储器604可以是系统存储器,比如,挥发性的(诸如ram),非易失性的(诸如rom,闪存等),或者两者的结合。具体实现中,本发明实施例的存储器604还可以是系统之外的外部存储器,比如,磁盘、光盘、磁带等。

处理器601用于调用存储器604中存储的程序数据即执行存储器604存储的指令,并执行如下操作:

检测当前的环境语音信号;获取环境语音信号的特征参数,特征参数用于识别环境语音是否为非噪音信号;根据特征参数以及预设的语音模型识别环境语音信号是否为非噪音信号,语音模型包括非噪音区域中特征参数的范围,若为非噪音信号,将当前的音量降低至预设值,若不为非噪音信号,保持当前音量不变。

优选地,处理器601将当前的音量降低至预设值之前,并具体执行如下操作:

识别环境语音信号中是否存在预设的关键词,预设的关键词与用户相关,用于识别环境语音是否与用户相关;以及若存在预设的关键词,再执行将当前的音量降低至预设值;若不存在预设的关键词,保持当前音量不变。

优选地,处理器601根据所述特征参数以及预设的语音模型识别环境语音信号是否为非噪音信号之前,并具体执行如下操作:

获取当前时间;根据当前时间以及预存的历史行为信息识别用户当前所在场景;以及根据当前所在场景从若干个语音模型中查找相匹配的语音模型。

优选地,s102中获取的特征参数包括第一特征参数和第二特征参数,处理器601根据特征参数以及预设的语音模型识别环境语音信号是否为非噪音信号时,并具体执行如下操作:

根据第一特征参数以及预设的语音模型中特征函数式计算出标准的第二特征参数,特征函数式为第一特征参数与第二特征参数的关系式;根据标准的第二特征参数以及预设规则获取非噪音区域中第二特征参数的范围;检测获取的第二特征参数是否在非噪音区域中第二特征参数的范围,若在非噪音区域中第二特征参数的范围内,环境语音信号为非噪音信号,若不在非噪音区域中第二特征参数的范围内,环境语音信号不为非噪音信号。

进一步地,由于执行自动调节音量的方法时,语音模型是已经建立好的,为了提高识别的准确性,以防止语音模型不再适用时持续使用该语音模型的情况发生,处理器601还执行如下操作:

若接收到检测异常的信息,识别检测异常的出现频率是否超过了特定值;

若超过了特定值,根据每次检测异常时的特征参数计算出当前检测误差的预估值;以及根据预估值调节预设的语音模型的非噪音区域中特征参数的范围;

若未超过特定值,不进行处理。

应当理解,在本发明实施例中,所称处理器601可以是中央第一处理单元(centralprocessingunit,cpu),该处理器601还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

需要说明的是,本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例终端中的单元可以根据实际需要进行合并、划分和删减。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的终端和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如若干个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

另外,在本发明各个实施例中的各功能单元可以集成在一个第一处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1