语音播报控制方法、装置、智能设备及介质与流程

文档序号:15312209发布日期:2018-08-31 22:07阅读:212来源:国知局
本发明涉及智能设备领域,尤其涉及一种语音播报控制方法、装置、智能设备及介质。
背景技术
:智能设备(如智能音箱),可以通过语音与用户进行交互,用户通过语音就可以方便的实现对智能设备的常用功能的控制,达到智能的状态。通常,在用户与智能设备进行交互的过程中,首先需要唤醒智能设备,这样才能启动智能设备。目前,都是使用唤醒指令来唤醒智能设备,唤醒指令可以是智能设备的名字等。例如,智能设备的名字为“小豹”,用户说话:“小豹在么?”试图唤醒智能设备,智能设备接收到用户说话后,通过语音识别技术识别出用户说的内容是“小豹在么”,智能设备回答:“我在,请吩咐”。现有技术中,智能设备在接收到用户的唤醒指令(例如“小豹在么”)后播报回复内容(例如“我在,请吩咐”)时是根据当前智能设备的音量来进行播出的,例如,智能设备当前的音量是50分贝,则播报“我在,请吩咐”时的声音分贝是50分贝。现有技术中的音箱语音播报方式比较单一,不够灵活,因此如何设计一种更加灵活的智能设备语音播报方法是目前需要解决的技术问题。技术实现要素:本发明实施例所要解决的技术问题在于,提供一种语音播报控制方法、装置、智能设备及介质,提高了智能设备播报语音的灵活性,提高了智能设备的用户体验。第一方面,本发明实施例提供了一种语音播报控制方法,所述方法包括:智能设备接收用户的语音控制指令,所述语音控制指令用于指示所述智能设备播报预设语音内容;所述智能设备根据预设参考信息确定第一音量,所述预设参考信息用于确定所述智能设备当前播报语音的音量;所述智能设备采用第一音量播报所述预设语音内容。结合第一方面,在第一方面的第一种可能的实现方式中,所述预设参考信息包括以下至少一种:所述语音控制指令对应的语音音量、所述用户与所述智能设备之间的距离和所述智能设备的当前系统时间。结合第一方面,或者第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述智能设备根据预设参考信息确定第一音量,包括:所述智能设备识别所述语音控制指令对应的语音音量;所述智能设备将所述语音控制指令对应的语音音量确定为所述第一音量;或者,所述智能设备根据预设参考信息确定第一音量,包括:所述智能设备识别所述用户与所述智能设备之间的距离;所述智能设备从预设的距离与音量的映射关系中查找所述用户与所述智能设备之间的距离对应的音量;所述智能设备将查找到的所述用户与所述智能设备之间的距离对应的音量确定为所述第一音量;或者,所述智能设备根据预设参考信息确定第一音量,包括:所述智能设备识别所述智能设备当前的系统时间;所述智能设备从预设的时间与音量的映射关系中查找所述智能设备当前的系统时间对应的音量;所述智能设备将查找到的所述智能设备当前的系统时间对应的音量确定为所述第一音量。结合第一方面,或者第一方面的第一种可能的实现方式,或者第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述智能设备接收用户的语音控制指令之后,还包括:所述智能设备识别所述语音控制指令对应的语速;所述智能设备根据所述语音控制指令对应的语速确定第一语速;所述智能设备采用第一音量播报所述预设语音内容,包括:所述智能设备采用所述第一音量以及所述第一语速播报所述预设语音内容。结合第一方面,或者第一方面的第一种可能的实现方式,或者第一方面的第二种可能的实现方式,或者第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述智能设备接收用户的语音控制指令之后,还包括:所述智能设备识别所述语音控制指令对应的音调;所述智能设备根据所述语音控制指令对应的音调确定第一音调;所述智能设备采用第一音量播报所述预设语音内容,包括:所述智能设备采用所述第一音量以及所述第一音调播报所述预设语音内容。结合第一方面,或者第一方面的第一种可能的实现方式,或者第一方面的第二种可能的实现方式,或者第一方面的第三种可能的实现方式,或者第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述智能设备接收用户的语音控制指令之后,还包括:所述智能设备识别所述语音控制指令对应的音色;所述智能设备根据所述语音控制指令对应的音色确定第一音色;所述智能设备采用第一音量播报所述预设语音内容,包括:所述智能设备采用所述第一音量以及所述第一音色播报所述预设语音内容。结合第一方面的第五种实现方式,在第一方面的第六种可能的实现方式中,所述智能设备根据所述语音控制指令对应的音色确定第一音色,包括:所述智能设备从预设数据库中查找与所述语音控制指令对应的音色匹配的音色;所述智能设备将所述语音控制指令对应的音色匹配的音色确定为所述第一音色。结合第一方面的第五种实现方式,在第一方面的第七种可能的实现方式中,所述智能设备根据所述语音控制指令对应的音色确定第一音色,包括:所述智能设备利用神经网络音色识别模型生成与所述语音控制指令对应的音色匹配的音色;所述智能设备将生成的所述与所述语音控制指令对应的音色匹配的音色确定为所述第一音色。结合第一方面的第七种实现方式,在第一方面的第八种可能的实现方式中,在所述智能设备利用神经网络音色识别模型生成与所述语音控制指令对应的音色匹配的音色之前,所述方法还包括:所述智能设备获取样本音色,其中,所述样本音色包括标记的音色标签;所述智能设备利用所述样本音色对预设的神经网络音色识别模型进行训练,得到所述神经网络音色识别模型。第二方面,本发明实施例提供了一种语音播报控制装置,所述装置包括:接收单元,用于接收用户的语音控制指令,所述语音控制指令用于指示所述语音播报控制装置播报预设语音内容;第一确定单元,用于根据预设参考信息确定第一音量,所述预设参考信息用于确定所述语音播报控制装置当前播报语音的音量;播报单元,用于采用第一音量播报所述预设语音内容。结合第二方面,在第二方面的第一种可能的实现方式中,所述预设参考信息包括以下至少一种:所述语音控制指令对应的语音音量、所述用户与所述语音播报控制装置之间的距离和所述语音播报控制装置的当前系统时间。结合第二方面,或者第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述第一确定单元包括:第一识别单元,用于识别所述语音控制指令对应的语音音量;第二确定单元,用于将所述语音控制指令对应的语音音量确定为所述第一音量;或者,所述第一确定单元包括:第二识别单元,用于识别所述用户与所述语音播报控制装置之间的距离;第一查找单元,用于从预设的距离与音量的映射关系中查找所述用户与所述语音播报控制装置之间的距离对应的音量;第三确定单元,用于将查找到的所述用户与所述语音播报控制装置之间的距离对应的音量确定为所述第一音量;或者,所述第一确定单元包括:第三识别单元,用于识别所述语音播报控制装置当前的系统时间;第二查找单元,用于从预设的时间与音量的映射关系中查找所述语音播报控制装置当前的系统时间对应的音量;第四确定单元,用于将查找到的所述语音播报控制装置当前的系统时间对应的音量确定为所述第一音量。结合第二方面,或者第二方面的第一种可能的实现方式,或者第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,还包括:第四识别单元,用于在所述接收单元接收用户的语音控制指令之后,识别所述语音控制指令对应的语速;第五确定单元,用于根据所述语音控制指令对应的语速确定第一语速;所述播报单元具体用于:采用所述第一音量以及所述第一语速播报所述预设语音内容。结合第二方面,或者第二方面的第一种可能的实现方式,或者第二方面的第二种可能的实现方式,或者第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,还包括:第五识别单元,用于识别所述语音控制指令对应的音调;第六确定单元,用于根据所述语音控制指令对应的音调确定第一音调;所述播报单元具体用于:采用所述第一音量以及所述第一音调播报所述预设语音内容。结合第二方面,或者第二方面的第一种可能的实现方式,或者第二方面的第二种可能的实现方式,或者第二方面的第三种可能的实现方式,或者第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式中,还包括:第六识别单元,用于识别所述语音控制指令对应的音色;第七确定单元,用于根据所述语音控制指令对应的音色确定第一音色;所述播报单元具体用于:采用所述第一音量以及所述第一音色播报所述预设语音内容。结合第二方面的第五种可能的实现方式,在第二方面的第六种可能的实现方式中,所述第七确定单元包括:第三查找单元,用于从预设数据库中查找与所述语音控制指令对应的音色匹配的音色;第八确定单元,用于将所述语音控制指令对应的音色匹配的音色确定为所述第一音色。结合第二方面的第五种可能的实现方式,在第二方面的第七种可能的实现方式中,所述第七确定单元包括:生成单元,用于利用神经网络音色识别模型生成与所述语音控制指令对应的音色匹配的音色;第九确定单元,用于将生成的所述与所述语音控制指令对应的音色匹配的音色确定为所述第一音色。结合第二方面的第七种可能的实现方式,在第二方面的第八种可能的实现方式中,所述装置还包括:获取单元,用于在所述生成单元利用神经网络音色识别模型生成与所述语音控制指令对应的音色匹配的音色之前,获取样本音色,其中,所述样本音色包括标记的音色标签;训练单元,用于利用所述样本音色对预设的神经网络音色识别模型进行训练,得到所述神经网络音色识别模型。第三方面,本发明实施例提供了一种智能设备,包括:处理器、存储器、通信接口和总线;所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信;所述存储器存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行第一方面或第一方面任意一种实现方式中所描述的一种语音播报控制方法。第四方面,本发明实施例提供一种计算机存储介质,其中,该计算机存储介质用于存储应用程序,所述应用程序用于在运行时执行本发明实施例的所述的一种语音播报控制方法。第五方面,本发明实施例提供一种应用程序,其中,该应用程序用于在运行时执行本发明实施例所述的一种语音播报控制方法。可选的,上述智能设备包括智能音箱。实施本发明实施例,具有如下有益效果:智能设备在接收到用户的语音控制指令后,结合所述语音控制指令对应的语音音量、所述用户与所述智能设备之间的距离和所述智能设备的当前系统时间中的至少一种来确定第一音量,进而采用该第一音量来播报预设语音内容,可以灵活地自动调整智能设备播报的音量,可以根据用户的当前使用场景,合理的播放设备的音量,达到智能播报的同时,提高用户体验。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。图1是本发明实施例提供的一种语音播报控制方法的流程示意图;图2是本发明实施例提供的一种语音播报控制装置的结构示意图;图3是本发明实施例提供的一种智能设备的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。请参见图1,是本发明实施例提供的一种语音播报控制方法的流程示意图。该语音播报控制方法可以包括但不限于以下步骤。s101、智能设备接收用户的语音控制指令,所述语音控制指令用于指示所述智能设备播报预设语音内容。可选的,本发明实施例中的智能设备可以包括但不限于智能音箱,智能设备还可以是其他具备语音播放功能的设备。本发明实施例中,智能设备具备语音识别功能,能够接收并识别出用户的语音控制指令。该语音控制指令用于指示智能设备播放预设语音内容。在一种实现方式中,语音控制指令为唤醒指令,该唤醒指令用于唤醒智能设备,以使得智能设备回复特定语音内容。例如,该唤醒指令可以是智能设备的名字等。例如,智能设备的名字为“小豹”。智能设备回复的特定语音内容为:“我在,请吩咐”。在另一种实现方式中,语音控制指令用于指示智能设备播放预定的音乐。例如,语音控制指令为“请播放周杰伦的歌曲《千里之外》”,则智能设备回复的特定语音内容即为歌曲《千里之外》。s102、智能设备根据预设参考信息确定第一音量,预设参考信息用于确定智能设备当前播报语音的音量。本发明实施例中,智能设备接收到用户的语音控制指令后,需要确定回复的音量,该音量在本发明实施例中被称为第一音量。具体的,智能设备是根据预设参考信息来确定第一音量的。在第一种实现方式中,预设参考信息包括用户的语音控制指令对应的语音音量。在这种情况下,智能设备根据预设参考信息确定第一音量,具体为:智能设备识别语音控制指令对应的语音音量。智能设备将语音控制指令对应的语音音量确定为第一音量。也即是说,智能设备回复上述预设语音内容时的音量与用户的语音控制指令的音量相同。例如,小豹音箱接收到用户的语音控制指令“小豹”,识别出该用户说“小豹”的音量为30分贝,则小豹音箱回答:“我在,请吩咐”,此时播出的分贝是30分贝,但是小豹音箱的音量对应为50分贝,即在回复“我在,请吩咐”时临时对音量进行了调整,避免用户突然听到过大音量的回复内容时被吓到。在第二种实现方式中,预设参考信息包括用户与智能设备之间的距离。在这种情况下,智能设备根据预设参考信息确定第一音量,具体为:智能设备识别用户与智能设备之间的距离。智能设备从预设的距离与音量的映射关系中查找用户与智能设备之间的距离对应的音量。智能设备将查找到的用户与智能设备之间的距离对应的音量确定为第一音量。本发明实施例中,智能设备可以配置有距离传感器、摄像头等传感器。智能设备可以通过这些传感器检测用户到智能设备之间的距离。例如,智能设备在接收到用户的语音控制指令后,通过摄像头识别用户,进而利用距离传感器检测用户到智能设备之间的距离。具体的,用户到智能设备之间的距离可以是用户的某一人体部位到智能设备之间的距离,该人体部位可以包括但不限于人脸、胳膊、腿、头等。本发明实施例中,预设的距离与音量的映射关系中包括多个距离值以及每个距离值对应的音量。具体的,该预设的距离与音量的映射关系的呈现方式及内容可以例如但不限于如下表1所示。表1距离(单位:米)音量(单位:分贝)1102203305401050智能设备在检测出用户与智能设备之间的距离后,通过查询上述表1即可以确定用户与智能设备之间的距离对应的音量。例如,用户与智能设备之间的距离为2米,则相对应的第一音量为20分贝。或者,上述预设的距离与音量的映射关系中包括多个距离区间值以及每个距离区间值对应的音量。具体的,该预设的距离与音量的映射关系的呈现方式及内容可以例如但不限于如下表2所示。表2距离(单位:米)音量(单位:分贝)0-1101-2202-3303-5405-1050由表2可知,距离越近分贝越小。智能设备在检测出用户与智能设备之间的距离后,通过查询上述表2即可以确定用户与智能设备之间的距离对应的音量。例如,用户与智能设备之间的距离为2.5米,则相对应的第一音量为30分贝。在第三种实现方式中,预设参考信息包括智能设备的当前系统时间。在这种情况下,智能设备根据预设参考信息确定第一音量,具体为:智能设备识别智能设备当前的系统时间。智能设备从预设的时间与音量的映射关系中查找智能设备当前的系统时间对应的音量。智能设备将查找到的智能设备当前的系统时间对应的音量确定为第一音量。本发明实施例中,预设的时间与音量的映射关系中包括多个时间值以及每个时间值对应的音量。具体的,该预设的时间与音量的映射关系的呈现方式及内容可以例如但不限于如下表3所示。表3时间(单位:时,24小时制)音量(单位:分贝)10201230165019202310智能设备在检测出当前的系统时间后,通过查询上述表3即可以确定当前的系统时间对应的音量。例如,当前的系统时间为12点,则相对应的第一音量为30分贝。或者,上述预设的时间与音量的映射关系中包括多个时间区间值以及每个时间区间值对应的音量。具体的,该预设的时间与音量的映射关系的呈现方式及内容可以例如但不限于如下表4所示。表4时间(单位:时,24小时制)音量(单位:分贝)7-123012-194019-223022-242024-710智能设备在检测出当前的系统时间后,通过查询上述表4即可以确定当前的系统时间对应的音量。例如,当前的系统时间为晚上20点,则相对应的第一音量值为30分贝。上述表4还可以直接划分为两部分,即白天和晚上,具体的,该预设的时间与音量的映射关系的呈现方式及内容可以例如但不限于如下表5所示。表5时间(单位:时,24小时制)音量(单位:分贝)7-19(白天)3019-7(晚上)10由表5可知,晚上时间段的分贝小于白天时间段的分贝。智能设备在检测出当前的系统时间后,通过查询上述表5即可以确定当前的系统时间对应的音量。例如,当前的系统时间为晚上20点,则相对应的第一音量值为10分贝。在其他可实现的方式中,确定第一音量的方式还可以结合上述三种参考信息(语音控制指令对应的语音音量、用户与智能设备之间的距离和智能设备的当前系统时间)中的任意两种来确定。例如,智能设备可以根据用户与智能设备之间的距离以及当前的系统时间来确定第一音量。在这种情况下,智能设备根据预设参考信息确定第一音量,具体为:智能设备识别用户与智能设备之间的距离以及智能设备当前的系统时间。智能设备从预设的距离、时间与音量的映射关系中查找用户与智能设备之间的距离、智能设备当前的系统时间对应的音量。智能设备将查找到的用户与智能设备之间的距离、智能设备当前的系统时间对应的音量确定为第一音量。本发明实施例中,预设的距离、时间与音量的映射关系中包括多个距离值、时间值以及每个时间值对应的音量。具体的,该预设的距离、时间与音量的映射关系的呈现方式及内容可以例如但不限于如下表6所示。表6智能设备在检测出当前的系统时间后,通过查询上述表6即可以确定用户与智能设备之间的距离、当前的系统时间对应的音量。例如,用户与智能设备之间的距离为2.5米、当前的系统时间为12点,则相对应的第一音量为30分贝。或者,确定第一音量的方式还可以结合上述三种参考信息(语音控制指令对应的语音音量、用户与智能设备之间的距离和智能设备的当前系统时间)中的三种来确定。具体实现方式可以参考上述实施例,此处不再赘述。s103、智能设备采用第一音量播报预设语音内容。本发明实施例中,智能设备在确定了第一音量后,采用该第一音量来播放用户请求的预设语音内容,而非采用当前系统音量来播放预设语音内容。也即是说,若第一音量与智能设备当前系统默认音量不同时,智能设备需要临时对音量进行调整,采用确定的第一音量来播放预设语音内容。这里,预设语音内容可以是智能设备回复用户的唤醒指令的内容,也可以是某个音乐或歌曲或语音内容。例如,智能设备接收到用户的“请播放周杰伦的歌曲《千里之外》”,通过步骤s102确定的第一音量为30分贝,系统当前默认的音量为50分贝,则智能设备播放歌曲《千里之外》时采用的音量即为30分贝。通过实施本发明实施例,智能设备在接收到用户的语音控制指令后,结合语音控制指令对应的语音音量、用户与智能设备之间的距离和智能设备的当前系统时间中的至少一种来确定第一音量,进而采用该第一音量来播报预设语音内容,可以灵活地自动调整智能设备播报的音量,可以根据用户的当前使用场景,合理的播放设备的音量,达到智能播报的同时,提高用户体验。可选的,智能设备接收用户的语音控制指令之后,还包括:智能设备识别语音控制指令对应的语速。智能设备根据语音控制指令对应的语速确定第一语速。则智能设备采用第一音量播报预设语音内容,具体为:智能设备采用第一音量以及第一语速播报预设语音内容。本发明实施例中,智能设备具备语音识别功能,智能设备在接收到用户的语音控制指令后,可以识别出该语音控制指令的语速。进而根据该语速来确定第一语速。具体的,智能设备可以直接将语音控制指令的语速设置为第一语速,也即是说,第一语速与语音控制指令的语速相等。例如,语音控制指令的语速为100字/分钟,则第一语速也为100字/分钟。或者,智能设备也可以根据语音控制指令的语速再结合差值确定第一语速,该差值可以预先定义。例如,语音控制指令的语速为100字/分钟,差值为20字/分钟,则第一语速也为120字/分钟。那么,智能设备在播报上述预设语音内容时,即采用第一音量以及第一语速来播报上述预设语音内容。通过实施本发明实施例,智能设备在接收到用户的语音控制指令后,结合语音控制指令对应的语音音量、用户与智能设备之间的距离和智能设备的当前系统时间中的至少一种来确定第一音量,根据用户的语音控制指令对应的语速来确定第一语速,进而采用该第一音量和第一语速来播报预设语音内容,可以灵活地自动调整智能设备播报的音量,可以根据用户的当前使用场景,合理的播放设备的音量,达到智能播报的同时,提高用户体验。可选的,智能设备接收用户的语音控制指令之后,还包括:智能设备识别语音控制指令对应的音调。智能设备根据语音控制指令对应的音调确定第一音调。则智能设备采用第一音量播报预设语音内容,具体为:智能设备采用第一音量以及第一音调播报预设语音内容。本发明实施例中,智能设备具备语音识别功能,智能设备在接收到用户的语音控制指令后,可以识别出该语音控制指令的音调。进而根据该音调来确定第一音调。具体的,音调是根据声音振动的频率来决定的,振动频率不同,音调也不同,通常来说,音调可以划分为高和低两类。本发明实施例中,音调还可以详细根据不同的频率划分为多种不同的音调,本发明实施例对此不作限定。具体的,智能设备可以直接将语音控制指令的音调设置为第一音调,也即是说,第一音调与语音控制指令的音调相同。例如,语音控制指令的音调为低音调,则第一音调也为低音调。那么,智能设备在播报上述预设语音内容时,即采用第一音量以及第一音调来播报上述预设语音内容。本发明实施例中,智能设备根据语音控制指令对应的音调确定第一音调,包括:智能设备从预设数据库中查找与语音控制指令对应的音调匹配的音调。智能设备将语音控制指令对应的音调匹配的音调确定为第一音调。也即是说,智能设备预先存储有不同类型的音调对应的声音特征信息,当智能设备识别出用户的语音控制指令对应的音调后,从预先存储的数据库中查找该音调相对应的声音特征信息,利用该声音特征信息模拟生成该音调,生成的音调即为第一音调。例如,智能设备识别出用户的语音控制指令对应的音调为低音调,从预先存储的数据库中获取低音调对应的声音特征信息,进而利用该声音特征信息模拟出低音调。或者,智能设备具备机器学习功能,智能设备在识别出用户的语音控制指令的音调后,利用神经网络音调识别模型生成与语音控制指令对应的音调匹配的音调。进而将生成的与语音控制指令对应的音调匹配的音调确定为第一音调。可选的,在智能设备利用神经网络音调识别模型生成与语音控制指令对应的音调匹配的音调之前,还包括:智能设备获取样本音调,其中,样本音调包括标记的音调标签。智能设备利用样本音调对预设的神经网络音调识别模型进行训练,得到神经网络音调识别模型。其中,所述音调标签可以包括但不限于:声音频率。通过实施本发明实施例,智能设备在接收到用户的语音控制指令后,结合语音控制指令对应的语音音量、用户与智能设备之间的距离和智能设备的当前系统时间中的至少一种来确定第一音量,根据用户的语音控制指令对应的音调来确定第一音调,进而采用该第一音量和第一音调来播报预设语音内容,可以灵活地自动调整智能设备播报的音量,可以根据用户的当前使用场景,合理的播放设备的音量,达到智能播报的同时,提高用户体验。可选的,智能设备接收用户的语音控制指令之后,还包括:智能设备识别语音控制指令对应的音色。智能设备根据语音控制指令对应的音色确定第一音色。智能设备采用第一音量播报预设语音内容,具体为:智能设备采用第一音量以及第一音色播报预设语音内容。具体的,音色可以分为男、女、老、少四种类型。或者,音色也可以是按照不同的方言来进行区分的。或者,音色也可以是按照声音特征:电音、磁性、空灵、娃娃音等进行区分的。本发明实施例中,智能设备根据语音控制指令对应的音色确定第一音色,包括:智能设备从预设数据库中查找与语音控制指令对应的音色匹配的音色。智能设备将语音控制指令对应的音色匹配的音色确定为第一音色。也即是说,智能设备预先存储有不同类型的音色对应的声音特征信息,当智能设备识别出用户的语音控制指令对应的音色后,从预先存储的数据库中查找该音色相对应的声音特征信息,利用该声音特征信息模拟生成该音色,生成的音色即为第一音色。例如,智能设备识别出用户的语音控制指令对应的音色为男声,从预先存储的数据库中获取男声对应的声音特征信息,进而利用该声音特征信息模拟出男声。或者,智能设备具备机器学习功能,智能设备在识别出用户的语音控制指令的音色后,利用神经网络音色识别模型生成与语音控制指令对应的音色匹配的音色。进而将生成的与语音控制指令对应的音色匹配的音色确定为第一音色。可选的,在智能设备利用神经网络音色识别模型生成与语音控制指令对应的音色匹配的音色之前,还包括:智能设备获取样本音色,其中,样本音色包括标记的音色标签。智能设备利用样本音色对预设的神经网络音色识别模型进行训练,得到神经网络音色识别模型。其中,所述音色标签可以包括但不限于:声音频率。通过实施本发明实施例,智能设备在接收到用户的语音控制指令后,结合语音控制指令对应的语音音量、用户与智能设备之间的距离和智能设备的当前系统时间中的至少一种来确定第一音量,根据用户的语音控制指令对应的音色来确定第一音色,进而采用该第一音量和第一音色来播报预设语音内容,可以灵活地自动调整智能设备播报的音量,可以根据用户的当前使用场景,合理的播放设备的音量,达到智能播报的同时,提高用户体验。可选的,上述实现方式可以相互结合实现。智能设备在播报上述预设语音内容时,可以采用第一音量、第一语速、第一音调以及第一音色中的至少一种来播报上述预设语音内容。例如,智能设备可以采用第一音量、第一语速、第一音调以及第一音色来播报上述预设语音内容。通过实施本发明实施例,智能设备在接收到用户的语音控制指令后,结合语音控制指令对应的语音音量、用户与智能设备之间的距离和智能设备的当前系统时间中的至少一种来确定第一音量,根据用户的语音控制指令对应的语速来确定第一语速,根据用户的语音控制指令对应的音调来确定第一音调,根据用户的语音控制指令对应的音色来确定第一音色,进而采用该第一音量、第一语速、第一音调和第一音色中的至少一种来播报预设语音内容,可以灵活地自动调整智能设备播报的音量,可以根据用户的当前使用场景,合理的播放设备的音量,达到智能播报的同时,提高用户体验。上述详细阐述了本发明实施例的方法,下面为了便于更好地实施本发明实施例的上述方案,相应地,下面还提供用于配合实施上述方案的相关设备。请参见图2,是本发明实施例提供的一种语音播报控制装置的结构示意图,语音播报控制装置200包括:接收单元201、第一确定单元202和播报单元203,其中,接收单元201,用于接收用户的语音控制指令,所述语音控制指令用于指示所述语音播报控制装置200播报预设语音内容;第一确定单元202,用于根据预设参考信息确定第一音量,所述预设参考信息用于确定所述语音播报控制装置200当前播报语音的音量;播报单元203,用于采用第一音量播报所述预设语音内容。可选的,所述预设参考信息包括以下至少一种:所述语音控制指令对应的语音音量、所述用户与所述语音播报控制装置200之间的距离和所述语音播报控制装置200的当前系统时间。可选的,所述第一确定单元202包括:第一识别单元,用于识别所述语音控制指令对应的语音音量;第二确定单元,用于将所述语音控制指令对应的语音音量确定为所述第一音量;或者,所述第一确定单元202包括:第二识别单元,用于识别所述用户与所述语音播报控制装置200之间的距离;第一查找单元,用于从预设的距离与音量的映射关系中查找所述用户与所述语音播报控制装置200之间的距离对应的音量;第三确定单元,用于将查找到的所述用户与所述语音播报控制装置200之间的距离对应的音量确定为所述第一音量;或者,所述第一确定单元202包括:第三识别单元,用于识别所述语音播报控制装置200当前的系统时间;第二查找单元,用于从预设的时间与音量的映射关系中查找所述语音播报控制装置200当前的系统时间对应的音量;第四确定单元,用于将查找到的所述语音播报控制装置200当前的系统时间对应的音量确定为所述第一音量。可选的,语音播报控制装置200还包括:第四识别单元,用于在所述接收单元接收用户的语音控制指令之后,识别所述语音控制指令对应的语速;第五确定单元,用于根据所述语音控制指令对应的语速确定第一语速;所述播报单元具体203用于:采用所述第一音量以及所述第一语速播报所述预设语音内容。可选的,语音播报控制装置200还包括:第五识别单元,用于识别所述语音控制指令对应的音调;第六确定单元,用于根据所述语音控制指令对应的音调确定第一音调;所述播报单元203具体用于:采用所述第一音量以及所述第一音调播报所述预设语音内容。可选的,语音播报控制装置200还包括:第六识别单元,用于识别所述语音控制指令对应的音色;第七确定单元,用于根据所述语音控制指令对应的音色确定第一音色;所述播报单元具体用于:采用所述第一音量以及所述第一音色播报所述预设语音内容。可选的,所述第七确定单元包括:第三查找单元,用于从预设数据库中查找与所述语音控制指令对应的音色匹配的音色;第八确定单元,用于将所述语音控制指令对应的音色匹配的音色确定为所述第一音色。可选的,所述第七确定单元包括:生成单元,用于利用神经网络音色识别模型生成与所述语音控制指令对应的音色匹配的音色;第九确定单元,用于将生成的所述与所述语音控制指令对应的音色匹配的音色确定为所述第一音色。可选的,语音播报控制装置200还包括:获取单元,用于在所述生成单元利用神经网络音色识别模型生成与所述语音控制指令对应的音色匹配的音色之前,获取样本音色,其中,所述样本音色包括标记的音色标签;训练单元,用于利用所述样本音色对预设的神经网络音色识别模型进行训练,得到所述神经网络音色识别模型。需要说明的是,本实施例的语音播报控制装置200可以相当于前述方法实施例中的智能设备,本实施例的语音播报控制装置200的各功能模块的功能可根据上述图1方法实施例中对应智能设备的具体实现,此处不再赘述。请参见图3,是本发明提供的一种智能设备的结构示意图。其中,如图3所示,智能设备300可以包括:至少一个处理器301,例如中央处理器(centralprocessingunit,cpu),至少一个通信总线302,至少一个输入装置303和至少一个输出装置304,存储器305。其中,通信总线302用于实现这些组件之间的通信连接;输入装置303具体可为键盘(keyboard)、麦克风等。输入装置303配置为可以采集或检测用户发出当前语音。输出装置304可以为显示屏(display)、扬声器等。输出装置304配置为可以播放音频。存储器305可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器305可选的还可以是独立于前述处理器301的存储装置。此外,智能设备300还可以包括通信接口306,该通信接口306可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。智能设备300还可以包括摄像头307、距离传感器308,该摄像头307用于识别用户,距离传感器308用于检测用户与智能设备300之间的距离。本领域技术人员可以理解,图3中示出的结构并不构成对智能设备300的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。如图3所示,作为一种存储介质的存储器305中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及智能设备的语音播报控制程序。所述智能设备300可以是能够实现语音采集或检测、程序运行及音频播放的音箱设备,本实施例对此不加以限制。在图3所示的智能设备300中,处理器301可以用于运行存储器305中存储的语音播报控制程序,并执行以下操作:通过输入装置303接收用户的语音控制指令,所述语音控制指令用于指示所述智能设备播报预设语音内容;根据预设参考信息确定第一音量,所述预设参考信息用于确定所述智能设备当前播报语音的音量;通过输出装置304采用第一音量播报所述预设语音内容。可选的,所述预设参考信息包括以下至少一种:所述语音控制指令对应的语音音量、所述用户与所述智能设备之间的距离和所述智能设备的当前系统时间。进一步地,处理器301根据预设参考信息确定第一音量,包括:识别所述语音控制指令对应的语音音量;将所述语音控制指令对应的语音音量确定为所述第一音量;或者,处理器301根据预设参考信息确定第一音量,包括:识别所述用户与所述智能设备之间的距离;从预设的距离与音量的映射关系中查找所述用户与所述智能设备之间的距离对应的音量;将查找到的所述用户与所述智能设备之间的距离对应的音量确定为所述第一音量;或者,处理器301根据预设参考信息确定第一音量,包括:识别所述智能设备当前的系统时间;从预设的时间与音量的映射关系中查找所述智能设备当前的系统时间对应的音量;将查找到的所述智能设备当前的系统时间对应的音量确定为所述第一音量。可选的,处理器301通过输入装置303接收用户的语音控制指令之后,还用于:识别所述语音控制指令对应的语速;根据所述语音控制指令对应的语速确定第一语速;处理器301通过输出装置304采用第一音量播报所述预设语音内容,包括:采用所述第一音量以及所述第一语速播报所述预设语音内容。可选的,处理器301通过输入装置303接收用户的语音控制指令之后,还用于:识别所述语音控制指令对应的音调;根据所述语音控制指令对应的音调确定第一音调;处理器301通过输出装置304采用第一音量播报所述预设语音内容,包括:采用所述第一音量以及所述第一音调播报所述预设语音内容。可选的,处理器通过输入装置303接收用户的语音控制指令之后,还用于:识别所述语音控制指令对应的音色;根据所述语音控制指令对应的音色确定第一音色;处理器301通过输出装置304采用第一音量播报所述预设语音内容,包括:采用所述第一音量以及所述第一音色播报所述预设语音内容。可选的,处理器301根据所述语音控制指令对应的音色确定第一音色,包括:从预设数据库中查找与所述语音控制指令对应的音色匹配的音色;将所述语音控制指令对应的音色匹配的音色确定为所述第一音色。可选的,处理器301根据所述语音控制指令对应的音色确定第一音色,包括:利用神经网络音色识别模型生成与所述语音控制指令对应的音色匹配的音色;将生成的所述与所述语音控制指令对应的音色匹配的音色确定为所述第一音色。可选的,在处理器301利用神经网络音色识别模型生成与所述语音控制指令对应的音色匹配的音色之前,处理器301还用于:获取样本音色,其中,所述样本音色包括标记的音色标签;利用所述样本音色对预设的神经网络音色识别模型进行训练,得到所述神经网络音色识别模型。可理解的是,处理器301的执行步骤具体可参见图1实施例所述的内容,这里不再赘述。基于同一发明构思,本发明实施例还提供一种计算机存储介质,该计算机存储介质用于存储应用程序,所述应用程序用于在运行时执行本发明实施例的所述的一种语音播报控制方法。基于同一发明构思,本发明实施例还提供一种应用程序,其中,该应用程序用于在运行时执行本发明实施例所述的一种语音播报控制方法。综上所述,通过实施本发明实施例,智能设备在接收到用户的语音控制指令后,结合所述语音控制指令对应的语音音量、所述用户与所述智能设备之间的距离和所述智能设备的当前系统时间中的至少一种来确定第一音量,进而采用该第一音量来播报预设语音内容,可以灵活地自动调整智能设备播报的音量,可以根据用户的当前使用场景,合理的播放设备的音量,达到智能播报的同时,提高用户体验。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1