一种语音模拟方法和装置与流程

文档序号:11459416阅读:265来源:国知局
一种语音模拟方法和装置与流程

本发明涉及声音信号技术领域,尤其涉及一种语音模拟方法和装置。



背景技术:

语音,即语言的物质外壳,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语音的物理基础主要有音高、音强、音长、音色,这也是构成语音的四要素。

语音即语言的声音,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统,语言的声音和语言的意义是紧密联系着的,因此,语言虽是一种声音,但又与一般的声音有着本质的区别。语音是人类发音器官发出的具有区别意义功能的声音,不能把语音看成纯粹的自然物质;语音是最直接地记录思维活动的符号体系,是语言交际工具的声音形式。

语音的物理基础主要有音高、音强、音长、音色,这也是构成语音的四要素。音高指声波频率,即每秒钟振动次数的多少;音强指声波振幅的大小;音长指声波振动持续时间的长短,也称为"时长";音色指声音的特色和本质,也称作"音质"。

人的发音器官及其活动情况是语音的生理基础。人的发音器官分3部分:

(1)呼吸器官,包括肺、气管和支气管。肺是呼吸器官的中心,是产生语音动力的基础。

(2)喉头和声带,它们是发音的振颤体。

(3)口腔、咽腔、鼻腔,它们都是发音的共鸣器。

语音和语义的联系是人们在长期的语言实践中约定的,这种音义的结合关系体现了语音有重要的社会属性。

语音模拟在人机交互过程中,提升了一定的亲切感和适应性,但现有的人语音模拟方法,均为普通变声装置,只能做到根据人声识别后进行声道模型进行模拟,或只能调节语速和语调,音色无法与被模拟人的声音相提并论。总之,现有的语音模拟方法,只能做到普通变声,声音无法变化,相似性低,无法提高人机互动时的适应性和亲切感。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。



技术实现要素:

本发明的主要目的在于提供一种语音模拟方法和装置,旨在于解决现有的语音模拟方法,只能做到普通变声,声音无法变化,相似性低,无法提高人机互动时的适应性和亲切感的问题。

为解决上述问题,本发明提供一种语音模拟方法,包括如下步骤:

获取用户的音频数据;

对所述音频数据进行解析,提取所述音频数据的特征信息并保存;

根据已保存的所述特征信息生成与所述音频数据相对应的模拟音频数据;

将所述模拟音频数据进行播放。

优选地,所述获取用户的音频数据之前,还包括:

获取所述用户的语音模拟请求信息;

根据所述语音模拟请求信息设定与所述用户相对应的用户标识,以及与所述用户标识相对应的用于存储用户音频数据的存储空间;

提示用户开始采集所述音频数据。

优选地,所述对所述音频数据进行解析,提取所述音频数据的特征信息,包括:

在获取所述音频数据后,将所述音频数据的每一帧进行解析;

提取出与所述音频数据相对应的音素特征值作为特征信息。

优选地,所述获取所述用户的语音模拟请求信息之后,还包括:

判断所述用户的语音模拟请求信息是否具有与所述用户相对应的用户标识;

若是,调出与所述用户标识相对应的所述模拟音频数据,并进行播放;

若否,进行所述根据所述语音模拟请求信息设定与所述用户相对应的用户标识,以及与所述用户标识相对应的用于存储用户音频数据的存储空间的步骤。

优选地,所述根据已保存的所述特征信息生成与所述音频数据相对应的模拟音频数据,包括:

调取所述用户请求播放的预设音频数据;

根据已保存的所述特征信息将所述预设音频数据转换为与所述音频数据相对应的所述模拟音频数据。

此外,为解决上述问题,本发明还提供一种语音模拟装置,包括:获取模块、提取模块、生成模块和播放模块;

所述获取模块,用于获取用户的音频数据;

所述提取模块,用于对所述音频数据进行解析,提取所述音频数据的特征信息并保存;

所述生成模块,用于根据已保存的所述特征信息生成与所述音频数据相对应的模拟音频数据;

所述播放模块,用于将所述模拟音频数据进行播放。

优选地,还包括:设定模块和提示模块;

所述获取模块,还用于获取所述用户的语音模拟请求信息;

所述设定模块,用于根据所述语音模拟请求信息设定与所述用户相对应的用户标识,以及与所述用户标识相对应的用于存储用户音频数据的存储空间;

所述提示模块,用于提示用户开始采集所述音频数据。

优选地,还包括:解析模块;

所述解析模块,用于在获取所述音频数据后,将所述音频数据的每一帧进行解析;

所述提取模块,还用于提取出与所述音频数据相对应的音素特征值作为特征信息。

优选地,还包括:判断模块;

所述判断模块,用于判断所述用户的语音模拟请求信息是否具有与所述用户相对应的用户标识;

所述播放模块,还用于若是,调出与所述用户标识相对应的所述模拟音频数据,并进行播放;

所述设定模块,还用于若否,进行所述根据所述语音模拟请求信息设定与所述用户相对应的用户标识,以及与所述用户标识相对应的用于存储用户音频数据的存储空间的步骤。

优选地,包括:调取模块和转换模块;

所述调取模块,用于调取所述用户请求播放的预设音频数据;

所述转换模块,用于根据已保存的所述特征信息将所述预设音频数据转换为与所述音频数据相对应的所述模拟音频数据。

本发明提供一种语音模拟方法和装置,其中方法通过对获取的用户音频数据进行解析并提取特征信息,再通过特征信息生成所述音频数据相对应的模拟音频数据,从而对模拟音频数据进行播放。本发明通过算法对人声进行解析进而提取出特征数据,再使用与用户相同的音素及语调来和用户进行交互或朗读,声音模拟效果好,相似度高、语音音调相似,提高了人机互动的亲切感,避免了现有的语音模拟方法,只能做到普通变声,声音无法变化,相似性低,无法提高人机互动时的适应性和亲切感的问题。

附图说明

图1为本发明语音模拟方法的一实施例的流程示意图;

图2为本发明语音模拟方法的二实施例的流程示意图;

图3为本发明语音模拟方法的三实施例的流程示意图;

图4为本发明语音模拟方法的四实施例的流程示意图;

图5为本发明语音模拟方法的五实施例的流程示意图;

图6为本发明语音模拟装置的实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种语音模拟方法。

参照图1,图1为本发明语音模拟方法的一实施例的流程示意图。

在一实施例中,所述语音模拟方法包括:

步骤s10,获取用户的音频数据;

需要理解的是,语音,即语言的物质外壳,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语音的物理基础主要有音高、音强、音长、音色,这也是构成语音的四要素。

语音即语言的声音,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统,语言的声音和语言的意义是紧密联系着的,因此,语言虽是一种声音,但又与一般的声音有着本质的区别。语音是人类发音器官发出的具有区别意义功能的声音,不能把语音看成纯粹的自然物质;语音是最直接地记录思维活动的符号体系,是语言交际工具的声音形式。

语音的物理基础主要有音高、音强、音长、音色,这也是构成语音的四要素。音高指声波频率,即每秒钟振动次数的多少;音强指声波振幅的大小;音长指声波振动持续时间的长短,也称为"时长";音色指声音的特色和本质,也称作"音质"。

人的发音器官及其活动情况是语音的生理基础。人的发音器官分3部分:

(1)呼吸器官,包括肺、气管和支气管。肺是呼吸器官的中心,是产生语音动力的基础。

(2)喉头和声带,它们是发音的振颤体。

(3)口腔、咽腔、鼻腔,它们都是发音的共鸣器。

语音和语义的联系是人们在长期的语言实践中约定的,这种音义的结合关系体现了语音有重要的社会属性。

获取用户语音的方式可以为通过麦克风进行录音,也可以为通过移动端与终端连接,获取发送的语音信息。

步骤s20,对所述音频数据进行解析,提取所述音频数据的特征信息并保存;

保存的特征信息,可以以波形数据的形式进行保存,也可以将所述音频以帧的形式进行间隔保存,此外,特征信息保存入数据库中,该数据库可以为云端数据库,而用于获取用户音频数据的装置为终端机,当使用时,终端机获取用户的音频信息,发送至云端;云端对获取到的用户的音频信息进行分析,并提取出其特征信息,包括语音的语调、口音、语速、频率等信息。

步骤s30,根据已保存的所述特征信息生成与所述音频数据相对应的模拟音频数据;

云端根据特征信息,生成相应的模拟音频数据。该模拟音频数据,可以为将预设的现有音频文件进行转换,从而生成与用户语音语调相似的模拟音频数据;也可以为生成一种语音语调的格式,进一步根据用户与终端设备的交互,以上述语音语调的格式进行反馈。例如,父母在终端进行语音模拟,终端向云端进行音频文件的发送,云端获取后,根据父母的音频文件,生成与父母声音相对应的特征信息,再根据特征信息生成带有语音语调格式的模拟音频数据,进而当孩子与终端进行语音交互时,终端可通过父母的声音进行交互。

步骤s40,将所述模拟音频数据进行播放。

本发明提供一种语音模拟方法,通过对获取的用户音频数据进行解析并提取特征信息,再通过特征信息生成所述音频数据相对应的模拟音频数据,从而对模拟音频数据进行播放。本发明通过算法对人声进行解析进而提取出特征数据,再使用与用户相同的音素及语调来和用户进行交互或朗读,声音模拟效果好,相似度高、语音音调相似,提高了人机互动的亲切感,避免了现有的语音模拟方法,只能做到普通变声,声音无法变化,相似性低,无法提高人机互动时的适应性和亲切感的问题。

本发明可应用于胎教、早教、幼教、儿童教育等等多种场合,用于通过终端对儿童熟悉的例如父母的声音的模拟,使儿童获取终端播放的以父母声音播放的音频,例如讲故事、学习等,或与儿童通过儿童熟悉的人的声音进行交互,提高儿童人机交互的亲切感。

参照图2,图2为本发明语音模拟方法的二实施例的流程示意图。

基于一实施例,所述步骤s10之前,还包括:

步骤s50,获取所述用户的语音模拟请求信息;

通过用户在终端进行发送请求信息,对语音模拟进行请求。例如触发按键,开启语音模拟流程,或者注册登陆唯一的账号密码,提出请求信息,从而进行下一步操作。

步骤s60,根据所述语音模拟请求信息设定与所述用户相对应的用户标识,以及与所述用户标识相对应的用于存储用户音频数据的存储空间;

在获取到用户的请求信息后,终端开始对语音模拟进行准备,首先为用户的语音模拟请求信息设定用户标识,请求信息可以为注册信息,根据注册信息生成用户唯一标识,与用户相对应。进而,设定与用户标识相对应的存储空间,用于存放用户的语音文件、音频数据等。

步骤s70,提示用户开始采集所述音频数据。

通过终端向用户进行提示,可以进行音频数据的采集。该步骤可通过语音、震动进行提示,也可通过移动设备进行消息提示。

参照图3,图3为本发明语音模拟方法的三实施例的流程示意图。

基于一实施例,在三实施例中,所述步骤s20,包括:

步骤s21,在获取所述音频数据后,将所述音频数据的每一帧进行解析;

声音实际上为一种波形,常见mp3为压缩格式,需要转换为未压缩格式的文件进行处理,比如windowspcm文件,也就是俗称的wav文件。将用户的音频数据以wav格式进行存储后,读取该wav文件的波形,首先可对首尾端的静音部分进行切除,消除空白段,也称为vad;再进行声音分析,分析过程,即为把声音切割为单独的小段,每一小段成为一帧,使用移动窗函数实现。帧与帧之间可有交叠,具体的,可设置为每帧25毫秒,每两帧之间有25-10=15秒的交叠。称为帧长25ms,帧移10ms分帧。分帧后,语音就变成为若干小段。

步骤s22,提取出与所述音频数据相对应的音素特征值作为特征信息。

上述,提取出每一帧音频数据中相对应的因素特征值,所述因素特征值可以包括波形特征,作为特征信息。

参照图4,图4为本发明语音模拟方法的四实施例的流程示意图。

基于二实施例,在四实施例中,所述步骤s50之后,还包括:

步骤s80,判断所述用户的语音模拟请求信息是否具有与所述用户相对应的用户标识;

上述步骤为,在获取语音模拟请求信息之后,首先对该用户的语音模拟请求信息进行分析和判断,判断该用户是否通过终端进行过语音模拟,即为是否保存有与该请求信息相对应的用户标识。这一判断过程,可在终端进行,也可将终端的请求信息发至云端,从云端的数据库中进行与该语音模拟请求信息的匹配。

步骤s90,若是,调出与所述用户标识相对应的所述模拟音频数据,并进行播放;

当数据库中包含有与该用户的语音模拟请求信息相对应的用户标识,则不再进行进一步的语音数据分析,直接调用与用户标识相对应的模拟音频数据,根据模拟音频数据进行播放或与用户的交互。

若否,进行所述根据所述语音模拟请求信息设定与所述用户相对应的用户标识,以及与所述用户标识相对应的用于存储用户音频数据的存储空间的步骤。

若云端或终端的数据库中没有与该用户的语音模拟请求信息相对应的用户标识,则需重新建立该用户的用户标识并划分存储空间,准备进一步对用户的语音进行保存。

参照图5,图5为本发明语音模拟方法的五实施例的流程示意图。

基于一实施例,所述步骤s30,包括:

步骤s31,调取所述用户请求播放的预设音频数据;

在进行语音交互时,调用用户指定播放的预设音频数据。该预设音频数据,可以为设于云端的预设的音频文件,例如已经编排好的语音故事、学习内容等;也可以为通过算法判断用户通过语音发出的指令。这一过程可以为点播,也可以为根据语音模拟数据播放相应的预设音频数据文件。

步骤s32,根据已保存的所述特征信息将所述预设音频数据转换为与所述音频数据相对应的所述模拟音频数据。

根据特征信息,将用户点播的预设音频数据转换为模拟音频数据,或对用户发出的音频指令通过算法调取相应的以模拟音频数据为格式的预设音频数据进行反馈。例如,当父母通过终端进行语音模拟,并生成模拟音频数据后,儿童与终端进行交互,终端模拟父母的声音进行回馈。

本发明还提供一种语音模拟装置。

参照图6,图6为本发明语音模拟装置的实施例的模块示意图。

在实施例中,所述语音模拟装置包括:

获取模块10、提取模块20、生成模块30、播放模块40、设定模块50、提示模块60、判断模块70、解析模块80、调取模块90和转换模块100;

所述获取模块10,用于获取用户的音频数据;

所述提取模块20,用于对所述音频数据进行解析,提取所述音频数据的特征信息并保存;

所述生成模块30,用于根据已保存的所述特征信息生成与所述音频数据相对应的模拟音频数据;

所述播放模块40,用于将所述模拟音频数据进行播放。

所述获取模块10,还用于获取所述用户的语音模拟请求信息;

所述设定模块50,用于根据所述语音模拟请求信息设定与所述用户相对应的用户标识,以及与所述用户标识相对应的用于存储用户音频数据的存储空间;

所述提示模块60,用于提示用户开始采集所述音频数据。

所述解析模块80,用于在获取所述音频数据后,将所述音频数据的每一帧进行解析;

所述提取模块20,还用于提取出与所述音频数据相对应的音素特征值作为特征信息。

所述判断模块70,用于判断所述用户的语音模拟请求信息是否具有与所述用户相对应的用户标识;

所述播放模块40,还用于若是,调出与所述用户标识相对应的所述模拟音频数据,并进行播放;

所述设定模块50,还用于若否,进行所述根据所述语音模拟请求信息设定与所述用户相对应的用户标识,以及与所述用户标识相对应的用于存储用户音频数据的存储空间的步骤。

所述调取模块90,用于调取所述用户请求播放的预设音频数据;

所述转换模块100,用于根据已保存的所述特征信息将所述预设音频数据转换为与所述音频数据相对应的所述模拟音频数据。

本发明提供一种语音模拟装置,通过获取模块10、提取模块20、生成模块30、播放模块40、设定模块50、提示模块60、判断模块70、解析模块80、调取模块90和转换模块100的协同工作,对获取的用户音频数据进行解析并提取特征信息,再通过特征信息生成所述音频数据相对应的模拟音频数据,从而对模拟音频数据进行播放。本发明通过算法对人声进行解析进而提取出特征数据,再使用与用户相同的音素及语调来和用户进行交互或朗读,声音模拟效果好,相似度高、语音音调相似,提高了人机互动的亲切感,避免了现有的语音模拟方法,只能做到普通变声,声音无法变化,相似性低,无法提高人机互动时的适应性和亲切感的问题。

本发明可应用于胎教、早教、幼教、儿童教育等等多种场合,用于通过终端对儿童熟悉的例如父母的声音的模拟,使儿童获取终端播放的以父母声音播放的音频,例如讲故事、学习等,或与儿童通过儿童熟悉的人的声音进行交互,提高儿童人机交互的亲切感。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1