一种智能设备音量控制方法及系统与流程

文档序号:18702924发布日期:2019-09-17 23:11阅读:212来源:国知局
一种智能设备音量控制方法及系统与流程

本发明涉及计算机应用技术,特别涉及智能设备音量控制方法及系统。



背景技术:

随着语音识别技术的日益成熟,市场中正出现越来越多的智能设备,例如智能音箱,这些智能设备基于语音识别技术,为消费者提供更便捷的交互方式。

由于音箱的音量经常会被用户进行调整,比如晚上会调得小声点,播放音乐时会调得大声点,播放有声书时会调得小声点。音量的经常变动,会使得用户唤醒音箱或者切换服务后,经常存在音箱的声音和周围环境对比起来,音箱的音量可能过大,吓到用户、损害听力;或者音量过小被环境音量覆盖,用户无法听清楚,容易造成迷惑是没有对话成功影响使用还是设备音量小,每次都需要用户进行唤醒对话来调整音量,成本高且影响体验。

例如,

如果音箱之前的音量很大,用户唤醒音箱或切换服务后,很可能会被大音量惊吓到损害听力,降低体验。为此用户还需要唤醒一次,说出调低音量的query,甚至可能需要多次调整音量才能调到一个适合环境的合适音量。因为用户对于设备音量没有一个整体的把握,很可能只会多次重复说query“声音小一点”。

如果音响之前的音量很小,用户在唤醒音箱或切换服务后,音箱的音量很可能被环境音量所覆盖,很可能就听不到音箱的音量,用户可能怀疑是音箱没有响应,还是音量太小。用户需要尝试再说一次query“播放音乐”或者“声音大一点”,来看看是不是音箱没有点播成功还是音量的问题。



技术实现要素:

本申请的多个方面提供了智能设备音量控制方法、系统、设备及存储介质,能够智能调整播放音量,不需要用户频繁的进行音量更改,提高交互效率,提高用户体验。

本申请的一方面,提供一种智能设备音量控制方法,包括:

对用户语音操作指令进行声纹判定,获取用户身份;

根据所述用户身份获取所述用户的音量偏好设置;

对外界环境进行判断,根据外界环境判断结果与所述用户的音量偏好设置,控制智能设备所需的播放音量。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据所述用户身份获取所述用户的音量偏好设置包括:

根据所述用户身份,获取其偏好的对话音量及音色,以及不同服务对应的播放音量。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述外界环境包括:

外界噪声音量值、智能设备的空间位置及当前时间中的至少一项。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,对外界环境进行判断,根据外界环境判断结果与所述用户的音量偏好设置控制智能设备所需的播放音量包括:

根据获取的外界噪声音量值、智能设备的空间位置及当前时间中的至少一项,通过预设的控制策略对所述用户的音量偏好设置进行调整,获取智能设备所需的播放音量值。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:

按照智能设备所需的播放音量,响应所述语音操作指令。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:

接收用户对所述播放音量的反馈,对所述用户的音量偏好设置进行调整。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:

若未获取到所述用户身份和/或未获取到所述用户的音量偏好设置,则获取所述用户的类型对应的默认音量偏好设置。

本申请的另一方面,提供了一种智能设备音量控制系统,包括:

用户身份获取模块,用于对用户语音操作指令进行声纹判定,获取用户身份;

音量偏好设置获取模块,用于根据所述用户身份获取所述用户的音量偏好设置;

播放音量控制模块,用于对外界环境进行判断,根据外界环境判断结果与所述用户的音量偏好设置,控制智能设备所需的播放音量。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述音量偏好设置获取模块具体用于:

根据所述用户身份,获取其偏好的对话音量及音色,以及不同服务对应的播放音量。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述外界环境包括:

外界噪声音量值、智能设备的空间位置及当前时间中的至少一项。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述播放音量控制模块具体用于:

根据获取的外界噪声音量值、智能设备的空间位置及当前时间中的至少一项,通过预设的控制策略对所述用户的音量偏好设置进行调整,获取智能设备所需的播放音量值。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述系统还包括:

语音播放模块,用于按照智能设备所需的播放音量,响应所述语音操作指令。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述系统还包括:

反馈接收模块,用于接收用户对所述播放音量的反馈,对所述用户的音量偏好设置进行调整。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述音量偏好设置获取模块具体还用于:

若未获取到所述用户身份和/或未获取到所述用户的音量偏好设置,则获取所述用户的类型对应的默认音量偏好设置。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述音量偏好设置获取模块具体还用于:

若未获取到所述用户身份和/或未获取到所述用户的音量偏好设置,则获取所述用户的类型对应的默认音量偏好设置。

本发明的另一方面,提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。

本发明的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出,采用本发明所述方案,能够智能调整播放音量,不需要用户频繁的进行音量更改,相比较现有技术中用户需要频繁调整音量的控制方式,提高了交互效率。

【附图说明】

图1为本发明所述智能设备服务音量控制方法的流程图;

图2为本发明所述智能设备服务音量控制系统的结构图;

图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。

图1为本发明所述智能设备音量控制方法实施例的流程图,如图1所示,包括以下步骤:

步骤s11、对用户语音操作指令进行声纹判定,获取用户身份;

步骤s12、根据所述用户身份获取所述用户的音量偏好设置;

步骤s13、对外界环境进行判断,根据外界环境判断结果与所述用户的音量偏好设置,控制智能设备所需的播放音量。

本实施例的执行主体为智能音箱所连接的云端服务器。所述智能音箱包括麦克风、处理器、扬声器等硬件。

其中,所述麦克风为麦克风阵列,是由一定数目的麦克风组成,用来对声场的空间特性进行采样并处理的系统。所述麦克风阵列7x24小时接收外部声音,由处理器持续分析检测唤醒词,一旦检测到了唤醒词,就将后续语音传给服务器进行语音识别。

所述处理器包括唤醒子模块,所述唤醒子模块内置唤醒词算法,随时等待接收用户语音操作指令。优选地,所述唤醒模块可以是低功耗dsp/协处理器。

在步骤s11的一种优选实现方式中,

优选地,智能音箱的麦克风采集智能音箱所处环境中的声音信息;在智能音箱工作时,其中,所述麦克风始终处于拾音状态(持续对声音信息进行采样、量化)。

优选地,也可以根据具体需要,例如为了降低智能音箱的功耗,按照预设周期采集智能音箱所处环境中的声音信息;例如,以10ms为周期进行检测。所述定期音量检测的周期可以在智能音箱出厂时预设,也可以由用户根据自身需求设置。优选地,可以根据智能音箱的运行环境设置相应的检测周期。

本实施例中,所述声音信息可以理解为:智能音箱所处环境中,智能音箱所能够采集到的任意声音对应的信息,例如,人发出的声音、电视发出的声音、智能音箱扬声器播放的音乐或语音等,只要所述智能音箱能够采集即可。

如果由于噪声音量太大和/或用户人声音量太小导致智能音箱无法被唤醒,那对智能音箱的音量进行调整也就失去了意义。因此,在本实施例中,智能音箱在检测到唤醒词之后,才会开始进行用户人声音量检测。若未检测到唤醒词,则认为当前所采集的声音信息为噪音信息。

优选地,智能音箱对麦克风采集的声音信息进行语音检测;对检测得到的语音段进行唤醒检测;得到唤醒指令的后续语音操作指令对应的语音段;将所述语音段发送到所述云端服务器进行语音识别。

优选地,所述云端服务器对唤醒指令的后续语音操作指令对应的语音段进行声纹判定;获取所述用户的身份id。

优选地,根据所述语音操作指令,采用声纹识别方式,识别发出语音请求的用户id;具体的,包括以下子步骤:

子步骤s111、根据所述语音操作指令,采用声纹识别方式,识别发出语音请求的用户性别标签。

由于不同性别的用户群,具有特殊的声纹特征,因此,可以根据用户群的声音特点,进行模型训练,以实现面向不同性别的用户群的声纹分析。当

用户发起语音操作指令时,根据用户发出的语音操作指令,采用声纹识别方式,识别出发出语音操作指令的用户性信息。

在声纹识别之前,需要先对说话人的声纹进行建模,即“训练”或“学习”。具体的,通过应用深度神经网络dnn声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器。从而建立了区分性别的声纹处理模型。

根据所获取到的语音段,提取所述语音段的第一特征信息,并将第一特征信息发送给预先生成的性别分类器。性别分类器对第一特征信息进行分析,获取所述第一特征信息的性别标签,也就是语音段的性别标签。

举例而言,以性别分类器为高斯混合模型为例,可先对所述语音请求提取基频特征以及梅尔频率倒谱系数mfcc特征,之后,可基于高斯混合模型对基频特征以及mfcc特征进行后验概率值计算,根据计算结果确定该用户的性别,例如,假设该高斯混合模型为男性高斯混合模型,则当计算结果为后验概率值很高,如大于一定阈值时,可确定该用户的性别为男性,当计算结果为后验概率值很小,如小于一定阈值时,可确定该用户的性别为女性。

优选地,还可以识别出发出语音操作指令的用户年龄标签。

子步骤s112、识别出发出语音操作指令的用户性别标签后,进一步识别用户声纹id。

每个用户的声音会有一个唯一的声纹id,该id记录有该用户姓名、性别、年龄、爱好等个人数据。

具体地,根据性别分类器返回的与语音操作指令对应的性别标签,将对应的语音段发送到对应性别的dnn模型中。也就是说,如果语音操作指令对应的是男性语音,将语音发送到男性dnn模型中。如果语音操作指令对应的是女性语音,将语音发送到女性dnn模型中。

根据与性别标签对应的dnn模型获取语音操作指令对应的多个后验概率。

根据与性别标签对应的统一背景模型对每个后验概率进行归一化处理,应用预先训练的特征向量提取模型根据每条语音段,以及对应的归一化的后验概率,分别提取每条语音段的第二特征向量。

根据与所述多条语音段对应的多个第二特征向量获取所述用户的声纹模型,获取的方式很多,可以根据不同的应用需要进行选择,例如:

获取多个第二特征向量的平均特征向量作为所述用户的声纹模型。

优选地,将根据性别分类器返回的与语音操作指令对应的性别标签与根据年龄分类器返回的与语音操作指令对应的年龄标签,将对应的语音段发送到对应性别和年龄的dnn模型中。

通过将获取到的所述用户的声纹模型,与预存的声纹模型进行匹配,如果所述匹配值大于预先设定的阈值,则确定所述用户id,如果所述匹配值小于预先设定的阈值,则认为所述用户未注册用户id。

在步骤s12的一种优选实现方式中,

根据所述用户身份获取所述用户的音量偏好设置。

在云端服务器预先存储了用户的音量偏好设置。优选地,以用户id为标识进行存储。

优选地,根据所述用户身份,获取其偏好的对话音量及音色,以及不同服务对应的播放音量。

例如,a用户偏好较低的对话音量和女生音色;b用户偏好较高的对话音量和儿童音色。又如,a用户听音乐偏好较高的音量,听有声书偏好较低的音量。

上述偏好可以是用户主动通过手机app进行事先设置并存储的,也可以是用户在与智能音箱的交互过程中进行调整并由云端服务器保存并存储的。

采用语音识别模型对语音操作指令进行语音识别,以得到语音操作指令所要求启动的服务,以进一步获取用户对不同服务的播放音量偏好。

优选地,根据用户类型,包括用户性别、用户年龄,采用对应用户类型的语音识别模型对语音操作指令进行语音识别,以得到语音操作指令所要求启动的服务。

优选地,若未获取到所述用户身份和/或未获取到所述用户的音量偏好设置,则获取所述用户的类型对应的默认音量偏好设置。

在步骤s13的一种优选实现方式中,

根据外界环境判断结果与所述用户的音量偏好设置,控制智能设备所需的播放音量。

优选地,所述外界环境包括:外界噪声音量值、智能设备的空间位置及当前时间中的至少一项。

优选地,根据获取的外界噪声音量值、智能设备的空间位置及当前时间中的至少一项,通过预设的控制策略对所述用户的音量偏好设置进行调整,获取智能设备所需的播放音量值。

优选地,所述外界环境包括外界噪声音量值、智能设备的空间位置及当前时间中的至少两项的情况下,对分别根据其中一项,通过预设的控制策略对所述用户的音量偏好设置进行调整,获取的智能设备所需的播放音量值进行加权求和,以获得最终的播放音量值。

在本实施例的一种优选实现方式中,

对检测得到的非语音段及非唤醒指令对应的语音段进行音量检测,得到噪声音量值。

优选地,本实施例中,将语音操作指令(包括唤醒指令及后续语音操作指令)之外的声音信息作为环境噪声,智能音箱的处理器中的噪声处理模块对检测得到的非语音段声音信息及非唤醒指令对应的语音信息进行音量检测,获取环境噪声的噪声音量值。

优选地,由于实际环境中的噪声可能有起伏变化,为了实现音量的平稳控制,可以将一定时间内,例如1s,获取的噪声音量值的均值作为当前环境噪声的噪声音量值。

优选地,智能音箱的处理器中的音量控制模块根据获取的噪声音量值查找预设参数表,从中获取噪声音量值映射的播放音量值。

以下为实验室模拟智能音箱目标使用场景——家居环境下,噪声音量值与播放音量值的映射关系。

具体对比策略为,参考60db为标准对话声音:

1)当环境噪音<40db的安静场景情况下,所述用户的音量偏好设置若小于噪声音量值,并且智能音箱能够被唤醒,则智能音箱会将播放音量值调整为50db;所述用户的音量偏好设置若大于噪声音量值,并且智能音箱能够被唤醒,则智能音箱会将播放音量值调整为57db;

2)40db<环境噪音<60db情况下,所述用户的音量偏好设置若小于噪声音量值,并且智能音箱能够被唤醒,则智能音箱会将播放音量值调整为65db;所述用户的音量偏好设置若大于噪声音量值,并且智能音箱能够被唤醒,则智能音箱会将播放音量值调整为70db;

3)60db<环境噪音<70db情况下,所述用户的音量偏好设置若小于噪声音量值,并且智能音箱能够被唤醒,则智能音箱会将播放音量值调整为70db;所述用户的音量偏好设置若大于噪声音量值,并且智能音箱能够被唤醒,则智能音箱会将播放音量值调整为78db;

4)环境噪音>70db情况下,只要智能音箱能够被唤醒,智能音箱会将播放音量值默认调整为80db音量。

在本实施例的一种优选实现方式中,

获取智能音箱所在的位置,例如,根据用户在手机app中设置的智能音箱的具体位置,以及所述用户的音量偏好设置,获取智能设备所需的播放音量值。

例如,智能音箱可以被放置在厕所,放在厨房,放在客厅,放在卧室;当放置在厕所,因为空间较小,可以在所述用户的音量偏好设置的基础上调低音量;当放置在厨房,因为厨房中电器声音较为嘈杂,可以在所述用户的音量偏好设置的基础上调高音量;当防止在客厅和厨房,因为空间较大,可以在所述用户的音量偏好设置的基础上调高音量。

优选地,可以根据智能音箱的放置位置与用户的距离,以及所述用户的音量偏好设置,获取智能设备所需的播放音量值。

由于在播放音量一定的情况下,根据用户与智能音箱之间的距离不同,用户所听到的音量也随之变化。

因此,测量用户与智能音箱之间的距离,获取二者之间的距离参数。所述距离参数可以理解为:用户与智能音箱之间的水平距离。本发明实施例中,可以采用红外技术、超声波技术、蓝牙技术等进行距离测量,也可以通过摄像头进行距离测量,本发明实施例对具体测距技术和实现方式不做限定,只要能获取到用户与智能音箱之间的距离即可。

根据所述距离参数对所述用户的音量偏好设置进行调整,例如,距离每增加一米,播放音量值提高2db。

在本实施例的一种优选实现方式中,

获取当前时间,以及所述用户的音量偏好设置,获取智能设备所需的播放音量值。

例如,在在白天播报时候智能音箱的音量会逐渐提高到所述用户的音量偏好设置以不打扰用户,在凌晨时候音量会放低以不打扰用户的睡眠。

优选地,根据获取的外界噪声音量值、智能设备的空间位置及当前时间进行综合判定,以及所述用户的音量偏好设置,获取智能设备所需的播放音量值。

例如,对获取的外界噪声音量值、智能设备的空间位置及当前时间设置不同的权重,将根据获取的外界噪声音量值、智能设备的空间位置及当前时间分别与所述用户的音量偏好设置获取智能设备所需的播放音量值进行加权。

优选地,所述方法还包括:按照智能设备所需的播放音量,播放所述语音操作指令对应的音频信息。

在本实施例的一个优选实施例中,

所述方法还包括:接收用户对所述播放音量的反馈,对所述用户的音量偏好设置进行调整。

优选地,上述音量偏好设置可以是用户主动通过手机app进行事先设置并存储的,也可以是用户在与智能音箱的交互过程中进行调整并由云端服务器保存并存储的。

优选地,根据多个用户的音量偏好设置,获取不同用户类型对应的音量偏好设置作为该类型用户对应的默认音量偏好设置。

应用本发明所述方案,解决了音箱音量太小被环境噪音覆盖,用户听不到,以及音量太大不适合对话、吓到用户的问题。方便便捷,不需要用户频繁的进行音量更改,提高效率。并保证了一个清晰明朗的音量,用户能够听到。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。

图2为本发明所述智能设备音量控制系统实施例的结构图,如图2所示,包括:

用户身份获取模块21,用于对用户语音操作指令进行声纹判定,获取用户身份;

音量偏好设置获取模块22,用于根据所述用户身份获取所述用户的音量偏好设置;

播放音量控制模块23,用于根据外界环境判断结果与所述用户的音量偏好设置,控制智能设备所需的播放音量。

本实施例所述系统为智能音箱所连接的云端服务器。所述智能音箱包括麦克风、处理器、扬声器等硬件。

其中,所述麦克风为麦克风阵列,是由一定数目的麦克风组成,用来对声场的空间特性进行采样并处理的系统。所述麦克风阵列7x24小时接收外部声音,由处理器持续分析检测唤醒词,一旦检测到了唤醒词,就将后续语音传给服务器进行语音识别。

所述处理器包括唤醒子模块,所述唤醒子模块内置唤醒词算法,随时等待接收用户语音操作指令。优选地,所述唤醒模块可以是低功耗dsp/协处理器。

在用户身份获取模块21的一种优选实现方式中,

优选地,智能音箱的麦克风采集智能音箱所处环境中的声音信息;在智能音箱工作时,其中,所述麦克风始终处于拾音状态(持续对声音信息进行采样、量化)。

优选地,也可以根据具体需要,例如为了降低智能音箱的功耗,按照预设周期采集智能音箱所处环境中的声音信息;例如,以10ms为周期进行检测。所述定期音量检测的周期可以在智能音箱出厂时预设,也可以由用户根据自身需求设置。优选地,可以根据智能音箱的运行环境设置相应的检测周期。

本实施例中,所述声音信息可以理解为:智能音箱所处环境中,智能音箱所能够采集到的任意声音对应的信息,例如,人发出的声音、电视发出的声音、智能音箱扬声器播放的音乐或语音等,只要所述智能音箱能够采集即可。

如果由于噪声音量太大和/或用户人声音量太小导致智能音箱无法被唤醒,那对智能音箱的音量进行调整也就失去了意义。因此,在本实施例中,智能音箱在检测到唤醒词之后,才会开始进行用户人声音量检测。若未检测到唤醒词,则认为当前所采集的声音信息为噪音信息。

优选地,智能音箱对麦克风采集的声音信息进行语音检测;对检测得到的语音段进行唤醒检测;得到唤醒指令的后续语音操作指令对应的语音段;将所述语音段发送到所述云端服务器进行语音识别。

优选地,所述用户身份获取模块21对唤醒指令的后续语音操作指令对应的语音段进行声纹判定;获取所述用户的身份id。

优选地,根据所述语音操作指令,采用声纹识别方式,识别发出语音请求的用户id;具体地:

根据所述语音操作指令,采用声纹识别方式,识别发出语音请求的用户性别标签。

由于不同性别的用户群,具有特殊的声纹特征,因此,可以根据用户群的声音特点,进行模型训练,以实现面向不同性别的用户群的声纹分析。当

用户发起语音操作指令时,根据用户发出的语音操作指令,采用声纹识别方式,识别出发出语音操作指令的用户性信息。

在声纹识别之前,需要先对说话人的声纹进行建模,即“训练”或“学习”。具体的,通过应用深度神经网络dnn声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器。从而建立了区分性别的声纹处理模型。

根据所获取到的语音段,提取所述语音段的第一特征信息,并将第一特征信息发送给预先生成的性别分类器。性别分类器对第一特征信息进行分析,获取所述第一特征信息的性别标签,也就是语音段的性别标签。

举例而言,以性别分类器为高斯混合模型为例,可先对所述语音请求提取基频特征以及梅尔频率倒谱系数mfcc特征,之后,可基于高斯混合模型对基频特征以及mfcc特征进行后验概率值计算,根据计算结果确定该用户的性别,例如,假设该高斯混合模型为男性高斯混合模型,则当计算结果为后验概率值很高,如大于一定阈值时,可确定该用户的性别为男性,当计算结果为后验概率值很小,如小于一定阈值时,可确定该用户的性别为女性。

优选地,还可以识别出发出语音操作指令的用户年龄标签。

识别出发出语音操作指令的用户性别标签后,进一步识别用户声纹id。

每个用户的声音会有一个唯一的声纹id,该id记录有该用户姓名、性别、年龄、爱好等个人数据。

具体地,根据性别分类器返回的与语音操作指令对应的性别标签,将对应的语音段发送到对应性别的dnn模型中。也就是说,如果语音操作指令对应的是男性语音,将语音发送到男性dnn模型中。如果语音操作指令对应的是女性语音,将语音发送到女性dnn模型中。

根据与性别标签对应的dnn模型获取语音操作指令对应的多个后验概率。

根据与性别标签对应的统一背景模型对每个后验概率进行归一化处理,应用预先训练的特征向量提取模型根据每条语音段,以及对应的归一化的后验概率,分别提取每条语音段的第二特征向量。

根据与所述多条语音段对应的多个第二特征向量获取所述用户的声纹模型,获取的方式很多,可以根据不同的应用需要进行选择,例如:

获取多个第二特征向量的平均特征向量作为所述用户的声纹模型。

优选地,将根据性别分类器返回的与语音操作指令对应的性别标签与根据年龄分类器返回的与语音操作指令对应的年龄标签,将对应的语音段发送到对应性别和年龄的dnn模型中。

通过将获取到的所述用户的声纹模型,与预存的声纹模型进行匹配,如果所述匹配值大于预先设定的阈值,则确定所述用户id,如果所述匹配值小于预先设定的阈值,则认为所述用户未注册用户id。

在音量偏好设置获取模块22的一种优选实现方式中,

根据所述用户身份获取所述用户的音量偏好设置。

在云端服务器预先存储了用户的音量偏好设置。优选地,以用户id为标识进行存储。

优选地,根据所述用户身份,获取其偏好的对话音量及音色,以及不同服务对应的播放音量。

例如,a用户偏好较低的对话音量和女生音色;b用户偏好较高的对话音量和儿童音色。又如,a用户听音乐偏好较高的音量,听有声书偏好较低的音量。

上述音量偏好设置可以是用户主动通过手机app进行事先设置并存储的,也可以是用户在与智能音箱的交互过程中进行调整并由云端服务器保存并存储的。

采用语音识别模型对语音操作指令进行语音识别,以得到语音操作指令所要求启动的服务,以进一步获取用户对不同服务的播放音量偏好。

优选地,根据用户类型,包括用户性别、用户年龄,采用对应用户类型的语音识别模型对语音操作指令进行语音识别,以得到语音操作指令所要求启动的服务。

优选地,若未获取到所述用户身份和/或未获取到所述用户的音量偏好设置,则获取所述用户的类型对应的默认音量偏好设置。

在播放音量控制模块23的一种优选实现方式中,

所述播放音量控制模块23,用于根据外界环境判断结果与所述用户的音量偏好设置,控制智能设备所需的播放音量。

优选地,所述外界环境包括:外界噪声音量值、智能设备的空间位置及当前时间中的至少一项。

优选地,根据获取的外界噪声音量值、智能设备的空间位置及当前时间中的至少一项,通过预设的控制策略对所述用户的音量偏好设置进行调整,获取智能设备所需的播放音量值。

优选地,所述外界环境包括外界噪声音量值、智能设备的空间位置及当前时间中的至少两项的情况下,对分别根据其中一项,通过预设的控制策略对所述用户的音量偏好设置进行调整,获取的智能设备所需的播放音量值进行加权求和,以获得最终的播放音量值。

在本实施例的一种优选实现方式中,

播放音量控制模块23对检测得到的非语音段及非唤醒指令对应的语音段进行音量检测,得到噪声音量值。

优选地,本实施例中,将语音操作指令(包括唤醒指令及后续语音操作指令)之外的声音信息作为环境噪声,智能音箱的处理器中的噪声处理模块对检测得到的非语音段声音信息及非唤醒指令对应的语音信息进行音量检测,获取环境噪声的噪声音量值。

优选地,由于实际环境中的噪声可能有起伏变化,为了实现音量的平稳控制,可以将一定时间内,例如1s,获取的噪声音量值的均值作为当前环境噪声的噪声音量值。

优选地,智能音箱的处理器中的音量控制模块根据获取的噪声音量值查找预设参数表,从中获取噪声音量值映射的播放音量值。

以下为实验室模拟智能音箱目标使用场景——家居环境下,噪声音量值与播放音量值的映射关系。

具体对比策略为,参考60db为标准对话声音:

1)当环境噪音<40db的安静场景情况下,所述用户的音量偏好设置若小于噪声音量值,并且智能音箱能够被唤醒,则智能音箱会将播放音量值调整为50db;所述用户的音量偏好设置若大于噪声音量值,并且智能音箱能够被唤醒,则智能音箱会将播放音量值调整为57db;

2)40db<环境噪音<60db情况下,所述用户的音量偏好设置若小于噪声音量值,并且智能音箱能够被唤醒,则智能音箱会将播放音量值调整为65db;所述用户的音量偏好设置若大于噪声音量值,并且智能音箱能够被唤醒,则智能音箱会将播放音量值调整为70db;

3)60db<环境噪音<70db情况下,所述用户的音量偏好设置若小于噪声音量值,并且智能音箱能够被唤醒,则智能音箱会将播放音量值调整为70db;所述用户的音量偏好设置若大于噪声音量值,并且智能音箱能够被唤醒,则智能音箱会将播放音量值调整为78db;

4)环境噪音>70db情况下,只要智能音箱能够被唤醒,智能音箱会将播放音量值默认调整为80db音量。

在本实施例的一种优选实现方式中,

播放音量控制模块23获取智能音箱所在的位置,例如,根据用户在手机app中设置的智能音箱的具体位置,以及所述用户的音量偏好设置,获取智能设备所需的播放音量值。

例如,智能音箱可以被放置在厕所,放在厨房,放在客厅,放在卧室;当放置在厕所,因为空间较小,可以在所述用户的音量偏好设置的基础上调低音量;当放置在厨房,因为厨房中电器声音较为嘈杂,可以在所述用户的音量偏好设置的基础上调高音量;当防止在客厅和厨房,因为空间较大,可以在所述用户的音量偏好设置的基础上调高音量。

优选地,播放音量控制模块23可以根据智能音箱的放置位置与用户的距离,以及所述用户的音量偏好设置,获取智能设备所需的播放音量值。

由于在播放音量一定的情况下,根据用户与智能音箱之间的距离不同,用户所听到的音量也随之变化。

因此,测量用户与智能音箱之间的距离,获取二者之间的距离参数。所述距离参数可以理解为:用户与智能音箱之间的水平距离。本发明实施例中,可以采用红外技术、超声波技术、蓝牙技术等进行距离测量,也可以通过摄像头进行距离测量,本发明实施例对具体测距技术和实现方式不做限定,只要能获取到用户与智能音箱之间的距离即可。

根据所述距离参数对所述用户的音量偏好设置进行调整,例如,距离每增加一米,播放音量值提高2db。

在本实施例的一种优选实现方式中,

播放音量控制模块23获取当前时间,以及所述用户的音量偏好设置,获取智能设备所需的播放音量值。

例如,在在白天播报时候智能音箱的音量会逐渐提高到所述用户的音量偏好设置以不打扰用户,在凌晨时候音量会放低以不打扰用户的睡眠。

优选地,根据获取的外界噪声音量值、智能设备的空间位置及当前时间进行综合判定,以及所述用户的音量偏好设置,获取智能设备所需的播放音量值。

例如,对获取的外界噪声音量值、智能设备的空间位置及当前时间设置不同的权重,将根据获取的外界噪声音量值、智能设备的空间位置及当前时间分别与所述用户的音量偏好设置获取智能设备所需的播放音量值进行加权。

优选地,所述方法还包括:按照智能设备所需的播放音量,播放所述语音操作指令对应的音频信息。

在本实施例的一个优选实施例中,

所述系统还包括音量偏好设置模块,用于接收用户对所述播放音量的反馈,对所述用户的音量偏好设置进行调整。

优选地,上述音量偏好设置可以是用户主动通过手机app进行事先设置并存储的,也可以是用户在与智能音箱的交互过程中进行调整并由云端服务器保存并存储的。

优选地,所述音量偏好设置模块用于根据多个用户的音量偏好设置,获取不同用户类型对应的音量偏好设置作为该类型用户对应的默认音量偏好设置。

应用本发明所述方案,解决了音箱音量太小被环境噪音覆盖,用户听不到,以及音量太大不适合对话、吓到用户的问题。方便便捷,不需要用户频繁的进行音量更改,提高效率。并保证了一个清晰明朗的音量,用户能够听到。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的终端和服务器的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理器中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图3显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理器016,系统存储器028,连接不同系统组件(包括系统存储器028和处理器016)的总线018。

总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图3所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图3中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理器016通过运行存储在系统存储器028中的程序,从而执行本发明所描述的实施例中的功能和/或方法。

上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。

随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理器中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1