语音播报方法和装置与流程

文档序号：17544391发布日期：2019-04-29 15:10阅读：620来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及语音播报领域，特别涉及语音播报方法和装置。

背景技术：

随着人工智能逐渐受到追捧，众多智能语音设备应运而生，智能语音助手已经成为生活中的一部分。智能语音助手应用方便，具有查询歌曲、故事、天气、行程、翻译等功能。

对于现有的语音播报设备，在进行语音播报时播报语音生硬没有情绪，达不到有效传达的效果，造成用户体验低。

因此，提高语音播报时的用户体验，是本领域亟待解决的问题。

技术实现要素：

本发明提供了一种语音播报方法和装置，用于提高语音播报时的用户体验。

为了解决上述问题，作为本发明的一个方面，提供了一种语音播报方法，包括：

确定语音播报的播报文本；

根据播报文本确定背景音乐；

播放播报文本并同时播放背景音乐。

可选的，确定语音播报文本，包括：

获取语音指令和/或文本指令；

对语音指令和/或文本指令进行语义解析；

根据语义解析结果确定播报文本。

可选的，根据语义解析结果确定播报文本，包括：

根据语义解析结果确定语音指令中是否包括查询指令；

若有，则根据查询指令进行查询，用查询结果作为语音播报文本。

可选的，根据播报文本确定背景音乐，包括：

获取播报文本的文本类型和/或文本关键字；

根据文本类型和/或文本关键词获取对应的备选音乐；

根据预设规则从备选音乐中选取背景音乐。

可选的，任一音乐与至少一个文本类型相对应和/或与至少一个文本关键字相对应；

播报文本具有至少一个文本类型的和/或具有至少一个播报文本关键字；

备选音乐与播报文本的一个或多个文本类型相对应；

和/或，备选音乐与播报文本的一个或多个文本关键字相对应。

可选的，文本类型，包括：文体种类、文本读者和文本情绪。

可选的，在根据播报文本确定背景音乐之后，在播放播报文本并同时播放背景音乐之前，还包括：

设定播放播报文本时的音量值；

和/或，设定播放背景音乐时的音量值。

本申请还提出一种语音播报装置，包括：

文本识别单元，用于确定语音播报的播报文本；

音乐获取单元，用于根据播报文本确定背景音乐；

语音播报单元，用于播放播报文本并同时播放背景音乐。

可选的，文本识别单元确定语音播报文本，包括：

获取语音指令和/或文本指令；

对语音指令和/或文本指令进行语义解析；

根据语义解析结果确定播报文本。

可选的，文本识别单元根据语义解析结果确定播报文本，包括：

根据语义解析结果确定语音指令中是否包括查询指令；

若有，则根据查询指令进行查询，用查询结果作为语音播报文本。

可选的，音乐获取单元根据播报文本确定背景音乐，包括：

获取播报文本的文本类型和/或文本关键字；

根据文本类型和/或文本关键词获取对应的备选音乐；

根据预设规则从备选音乐中选取背景音乐。

可选的，任一音乐与至少一个文本类型相对应和/或与至少一个文本关键字相对应；

播报文本具有至少一个文本类型的和/或具有至少一个播报文本关键字；

备选音乐与播报文本的一个或多个文本类型相对应；

和/或，备选音乐与播报文本的一个或多个文本关键字相对应。

可选的，文本类型，包括：文体种类、文本读者和文本情绪。

可选的，还包括音量调节单元；

在音乐获取单元根据播报文本确定背景音乐之后，在语音播报单元播放播报文本并同时播放背景音乐之前，音量调节单元用于：

设定播放播报文本时的音量值；

和/或，设定播放背景音乐时的音量值。

本发明提出了一种语音播报方法和装置，根据播报文本确定背景音乐，在播放播报文本的同时播放背景音乐，从而有助于用户理解和吸收播报文本的内容，提高用户体验，解决了现有技术中语音播报时没有情绪，过于生硬，用户体验低的问题。

附图说明

图1为本发明实施例中一种语音播报的方法的流程图；

图2为本发明实施例中一种语音播报的装置的组成图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或电器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或电器固有的其它步骤或单元。

在现有技术中，在进行语音播报的时候，往往只是单纯的播放播报文本，没有任何感情，播放的方式极为生硬，影响用户吸收和理解播报文本的内容，用户体验低，为了提高用户的体验，本申请提出一种语音播报方法，以提高语音播报时的用户体验，帮助用户理解和吸收播报文本的内容，如图1所示，本申请提出的方法，包括：

s11：确定语音播报的播报文本；

s12：根据播报文本确定背景音乐；

s13：播放播报文本并同时播放背景音乐。

具体的，本申请提出的方法可用于智能设备，尤其是智能语音设备，例如语音助手、带有语音功能的家用电器、智能手表、智能手环等设备，在确定语音播报的播报文本时，智能语音设备的麦克风接收用户发出得到语音指令或者是智能设备，例如智能手机，通过检测用户输入的文本内容以确定用户的意图，根据用户的意图确定语音播报的播报文本，例如用户在手机搜索中输入查找乔布斯简介，则手机将会自动搜索乔布斯的简介，该简介的文字内容就是本次语音播报的播报文本，之后根据播报文本确定背景音乐，在播放播报文本时采用语音播报的形式进行播放，同时播放背景音乐，需要注意的是，播报文本对应的背景音乐可能不止一首，即一个播报文本可以对应多个背景音乐，但在播放播报文本的任一时刻只播放其中一首背景音乐，例如播报文本的内容是乔布斯的简介时，在乔布斯事业顺利期间播放高昂的音乐，在乔布斯事业困顿时播放低沉的音乐，使得在播放播报文本时根据文本内容的变化实现背景音乐的变化，从而提高用户体验，本申请提出的语音播报的方法根据不同的播报文本从而确定对应的背景音乐，使得用户在收听语音播报的时候能够更加准确的理解播报文本，提高用户体验，解决了现有技术中语音播报没有情绪难以吸收掌握播报文本内容的问题。可选的，如果获取到的播报文本中原本就内嵌有内嵌音乐，则保留内嵌音乐或者用背景音乐替换该内嵌音乐。

优选的，确定语音播报文本，包括：

获取语音指令和/或文本指令；

对语音指令和/或文本指令进行语义解析；

根据语义解析结果确定播报文本。

具体的，本申请提出的语音播报的方法优选用于智能终端，例如智能语音控制设备，例如具有语音控制功能手机，手机上的麦克风接收用户的控制语音，从而获取语音指令，再对语音指令进行语义解析，或者是手机上的输入界面检测到用户输入了文本指令，对文本指令进行解析。这里进行语义解析的过程可以由手机自动进行，或者是将语音指令上传到服务器，由服务器对语音指令进行语义解析，在解析后得到语义解析结果确定播报文本，这里语义解析结果是对语音指令进分析后确定的用户想要得到的内容，例如语音指令是：“明天天气如何”，则语义解析的结果就是用户想要查询明天天气，对应的播报文本就是明天的天气，例如播报文本可以是“明天气温26-30℃，无风，晴转多云”。又例如，语音指令是“查询今年的gdp”,则语义解析结果是用户想要查询gdp，则对应的播报文本为今年的国内生产总值。

可选的，根据语义解析结果确定播报文本，包括：

根据语义解析结果确定语音指令中是否包括查询指令；

若有，则根据查询指令进行查询，用查询结果作为语音播报文本。

具体的，在对语音指令或文字指令进行解析后，判断语音指令中是否包含有查询指令，例如可以对语音指令或文字指令进行分析，看其中是否有例如：查找、搜索、查询等关键字以判断是否有查询指令。当有查询指令的时候，按照查询指令进行查询，然后获取查询结果作为语音播报文本，以满足用户的需要。

可选的，根据播报文本确定背景音乐，包括：

获取播报文本的文本类型和/或文本关键字；

根据文本类型和/或文本关键词获取对应的备选音乐；

根据预设规则从备选音乐中选取背景音乐。

具体的，播报文本对应的文本类型可以是多种，即一个播报文本对应多个文本类型，同样的一个播报文本可以对应多个文本关键字，文本类型可以包括：文体种类、文本读者和文本情绪。例如：用户通过语音命令要求查询霍金的简历，则从网络上找到霍金的生平简介，文本种类此时为人物传记、对应的文本读者为大于7岁，文本情绪为中性。文本种类指的是文本的题材、文体，例如可以是自传、小说、散文、童话等，文本读者是指适宜阅读该播报文本的人群，例如儿童、老人、青年人、所有人、男性或女性等，文本情绪是该播报文本中所蕴含的情绪类别，例如积极、消极和中性等。文本关键字可以是播报文本中的具体词语，也可以是为词语设置的标签，即文本关键字是为了能够快速定位文本用的标签，例如可以是：科技、人物、自然等等，也可以是具体的某一项科技、某一个人物或是某一个自然景观等等。通过设置文本类型和文本关键字以快速的与备选音乐进行匹配。例如播报文本为霍金的生平简介时，文本关键字可以是：人物、霍金。当播报文本为安徒生童话《大灰狼》时，文本关键字可以是：安徒生童话、大灰狼。文本种类为：童话、对应的文本读者为儿童，对应的文本情绪为中性。

可选的，任一音乐与至少一个文本类型相对应和/或与至少一个文本关键字相对应；

播报文本具有至少一个文本类型的和/或具有至少一个播报文本关键字；

备选音乐与播报文本的一个或多个文本类型相对应；

和/或，备选音乐与播报文本的一个或多个文本关键字相对应。

具体的，本申请提出的方法中预先建立了音乐库，音乐库中存储了多首音乐，预先为音乐库中的各个音乐设置对应的文本类型和/或文本关键字，一个音乐对应的所有文本类型和所有文本关键字组成的集合可为该音乐的音乐特征集合，播报文本的所有文本类型和文本关键字组成的集合可为该播报文本的播报特征集合，备选音乐的音乐特征集合与播报文本的播报特征集合存在交集，例如：备选音乐对应的文本类型是：儿童、积极、童话，对应的关键字是：安徒生、白雪公主。而播报文本的文本类型中至少一个是备选音乐对应的文本类型，和/或，播报文本的文本关键字中至少有一个是备选音乐对应的文本关键字，通过为播报文本和音乐分别设置文本类型和文本关键字可以实现播报文本和备选音乐的快速匹配。在获取了备选音乐后需要从备选音乐中获取最适宜的音乐作为音乐类型。本申请中预设规则例如可以是加权算法，例如分别为播报文本的各个文本类型和文本关键字设置权重，每一个备选音乐按照其对应的播报文本的文本类型和文本关键字计算加权值，从备选音乐中选择加权值最高的音乐作为背景音乐。例如：用户发出语音指令希望播放安徒生童话，则播报文本为儿童的，播报文本的文本类型为：儿童(权重为5)、积极(权重为6)和童话(权重为4)，播报文本的文本关键字为：安徒生(权重为2)、白雪公主(权重为3)，如果一个备选音乐与儿童和安徒生相对应，则该备选音乐的加权值为儿童的权重加上安徒生的权重等于7。具体的各个文本类型的权重和关键字的权重可以根据需要进行设置，优选的文本类型的权重大于文本关键字的权重，文本关键字的存在是为了使得筛选音乐更为精确。预设规则还可以是按照网络上各个用户对各个音乐的评分高低进行选取，在收集了大量用户对各个音乐的评分后，按照评分高低选取，优选评分最高的备选音乐作为背景音乐。或者是预先收集当前用户的使用习惯，根据使用习惯确定用户的使用偏好，根据使用偏好确定背景音乐。例如：通过预先收集信息确定用户的使用偏好为喜欢听儿童类音乐，喜欢积极的音乐，喜欢安徒生的童话，则优选为用户推荐备选音乐与儿童、积极、安徒生和童话相对应的背景音乐。

可选的，在根据播报文本确定背景音乐之后，在播放播报文本并同时播放背景音乐之前，还包括：

设定播放播报文本时的音量值；

和/或，设定播放背景音乐时的音量值。

具体的，在设定播报文本的音量值和背景音乐的音量值时，需要结合当前的环境音量，即先获取当前的环境音量，根据环境音量调节播放播报文本的音量值和播放背景音乐的音量值。当环境音量较大时需要对应增大播放文本和背景音乐的音量值，例如保证播放文本和背景音乐的音量均不小于环境音量，以防止音量不合适导致用户无法听清播报文本的内容。优选地，设置在任一时刻播放背景音乐的音量值不大于播放播报文本的音量值。

本申请还提出一种语音播报装置，包括：

文本识别单元10，用于确定语音播报的播报文本；

音乐获取单元20，用于根据播报文本确定背景音乐；

语音播报单元30，用于播放播报文本并同时播放背景音乐。

具体的，本申请提出的装置可以是智能设备，尤其是智能语音设备，例如语音助手、带有语音功能的家用电器、智能手表、智能手环等设备，以语音播报装置为智能手机为例，文本识别单元10可以是智能手机上的语音处理软件，在确定语音播报的播报文本时，智能手机的麦克风接收用户发出得到语音指令或者，通过检测用户输入的文本内容进行语义识别以确定用户的意图，根据用户的意图确定语音播报的播报文本。例如用户在手机搜索中输入查找乔布斯简介，则手机将会自动搜索乔布斯的简介，该简介的文字内容就是本次语音播报的播报文本，之后根据播报文本确定背景音乐，在播放播报文本时采用语音播报的形式进行播放，同时播放背景音乐，需要注意的是，播报文本对应的背景音乐可能不止一首，即一个播报文本可以对应多个背景音乐，但在播放播报文本的任一时刻只播放其中一首背景音乐，例如播报文本的内容是乔布斯的简介时，在乔布斯事业顺利期间播放高昂的音乐，在乔布斯事业困顿时播放低沉的音乐，使得在语音播报单元30播放播报文本时根据文本内容的变化实现背景音乐的变化，从而提高用户体验，本申请提出的语音播报的方法根据不同的播报文本从而确定对应的背景音乐，使得用户在收听语音播报的时候能够更加准确的理解播报文本，提高用户体验，解决了现有技术中语音播报没有情绪难以吸收掌握播报文本内容的问题。

本申请提出的装置也可以由服务器和智能终端两部分相组合，智能终端接收用户的指令，将该指令发送到服务器，服务器作为文本识别单元判断用户指令对应的播报文本，然后服务器同时作为音乐获取单元从数据库中查询适宜的背景音乐，再将播报文本和背景音乐发送回智能终端，由智能终端作为语音播报单元30播放播报文本和背景音乐。

可选的，文本识别单元10确定语音播报文本，包括：

获取语音指令和/或文本指令；

对语音指令和/或文本指令进行语义解析；

根据语义解析结果确定播报文本。

具体的，本申请提出的语音播报的装置优选包括智能终端和服务器，例如具有语音控制功能手机和服务器，手机上的麦克风接收用户的控制语音，从而获取语音指令，再对语音指令进行语义解析，或者是手机上的输入界面检测到用户输入了文本指令，对文本指令进行解析。这里进行语义解析的过程可以由手机自动进行，或者是将语音指令上传到服务器，由服务器对语音指令进行语义解析，在解析后得到语义解析结果确定播报文本，这里语义解析结果是对语音指令进分析后确定的用户想要得到的内容，例如语音指令是：“明天天气如何”，则语义解析的结果就是用户想要查询明天天气，对应的播报文本就是明天的天气，例如播报文本可以是“明天气温26-30℃，无风，晴转多云”。又例如，语音指令是“查询今年的gdp”,则语义解析结果是用户想要查询gdp，则对应的播报文本为今年的国内生产总值。

可选的，文本识别单元10根据语义解析结果确定播报文本，包括：

根据语义解析结果确定语音指令中是否包括查询指令；

若有，则根据查询指令进行查询，用查询结果作为语音播报文本。

可选的，音乐获取单元20根据播报文本确定背景音乐，包括：

获取播报文本的文本类型和/或文本关键字；

根据文本类型和/或文本关键词获取对应的备选音乐；

根据预设规则从备选音乐中选取背景音乐。

可选的，任一音乐与至少一个文本类型相对应和/或与至少一个文本关键字相对应；

播报文本具有至少一个文本类型的和/或具有至少一个播报文本关键字；

备选音乐与播报文本的一个或多个文本类型相对应；

和/或，备选音乐与播报文本的一个或多个文本关键字相对应。

具体的，预先为音乐库中的各个音乐设置对应的文本类型和文本关键字，一个音乐对应的所有文本类型和所有文本关键字组成的集合可为该音乐的音乐特征集合，播报文本的所有文本类型和文本关键字组成的集合可为该播报文本的播报特征集合，备选音乐的音乐特征集合与播报文本的播报特征集合存在交集，例如：备选音乐对应的文本类型是：儿童、积极、童话，对应的关键字是：安徒生、白雪公主。而播报文本的文本类型中至少一个是备选音乐对应的文本类型，和/或，播报文本的文本关键字中至少有一个是备选音乐对应的文本关键字，通过为播报文本和音乐分别设置文本类型和文本关键字可以实现播报文本和备选音乐的快速匹配。在获取了备选音乐后需要从备选音乐中获取最适宜的音乐作为音乐类型。本申请中预设规则例如可以是加权算法，例如分别为播报文本的各个文本类型和文本关键字设置权重，每一个备选音乐按照其对应的播报文本的文本类型和文本关键字计算加权值，从备选音乐中选择加权值最高的音乐作为背景音乐。例如：播报文本的文本类型为：儿童(权重为5)、积极(权重为6)和童话(权重为4)，播报文本的文本关键字为：安徒生(权重为2)、白雪公主(权重为3)，如果一个备选音乐与儿童和安徒生相对应，则该备选音乐的加权值为儿童的权重加上安徒生的权重等于7。具体的各个文本类型的权重和关键字的权重可以根据需要进行设置，优选的文本类型的权重大于文本关键字的权重，文本关键字的存在是为了使得筛选音乐更为精确。

可选的，还包括音量调节单元40；在音乐获取单元20根据播报文本确定背景音乐之后，在语音播报单元30播放播报文本并同时播放背景音乐之前，音量调节单元40用于：

设定播放播报文本时的音量值；

和/或，设定播放背景音乐时的音量值。

具体的，在音量调节单元40设定播报文本的音量值和背景音乐的音量值时，需要结合当前的环境音量，即先获取当前的环境音量，根据环境音量调节播放播报文本的音量值和播放背景音乐的音量值。以防止音量不合适导致用户无法听清播报文本的内容。优选地，设置在任一时刻播放背景音乐的音量值不大于播放播报文本的音量值。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张新;毛跃辉;廖湖锋;王慧君;廖海霖;韩雪;郑文成;李保水;汪进
技术所有人：珠海格力电器股份有限公司
我是此专利的发明人