一种汽车提示音的语音音色定制方法及系统与流程

文档序号：24561958发布日期：2021-04-06 12:11阅读：293来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及车辆语音技术领域，更具体的说，涉及一种汽车提示音的语音音色定制方法及系统。

背景技术：

车载语音控制系统是近年来流行起来的用于取代传统车内控制系统的新型产品系统。

车载语音控制系统借助于软件的语音控制方式，可以以更加简单的交互方式实现传统实体按键等交互方式无法实现的多种功能，提升车辆的科技感，以及车辆的豪华感。

但是现有典型的车载语音控制系统，对应的语音交互功能通常有以下几类：

1)不能进行语音控制，只能单向语音播报。

2)可以进行简单语音控制，如打开空调等。

3)在语音控制的基础上可以选择播报声音，例如男女生的发音角色。

对于上述第三种车载语音控制系统的分音色播报语音功能，如图1所示，图1揭示了现有技术的语音播报方法流程图，将固定的几种音色的语音文件保存在存储器内，用户通过在用户界面(userinterface)的相关设置项进行选择喜欢的音色，输出选中音色的语音播报。

如图1所示的技术方案存在以下缺点：

一般情况下，需要预先存储多种音色的语音文件，对车机端硬件存储设备要求比较高。

即使预先提供了多种音色的语音文件，音色难以根据需求个性化定制，很大程度上难以满足用户的特定喜好。

技术实现要素：

本发明的目的是提供一种汽车提示音的语音音色定制方法及系统，解决现有技术的汽车提示音难以进行个性化输入定制的问题。

为了实现上述目的，本发明提供了一种汽车提示音的语音音色定制方法，包括以下步骤：

步骤s1、输入指定音色的声音；

步骤s2、存储输入声音数据；

步骤s3、将输入声音数据进行音色提取，与原有语音提示音数据进行合成，生成指定音色对应的定制后的语音提示音数据；

步骤s4、将定制后的语音提示音数据进行存储并输出。

在一实施例中，所述步骤s3，进一步包括：

步骤s31、通过傅里叶变化解析成语谱图，提取输入声音数据的音色特征；

步骤s32、提取原有语音提示音数据的内容特征信息；

步骤s33、将音色特征与内容特征信息进行合成，生成指定音色对应的语音提示音数据。

在一实施例中，所述步骤s31，进一步包括：

步骤s311、将输入声音数据的按帧进行分解；

步骤s312、对于每一帧的音频，计算周期功率谱；

步骤s313、将mel滤波器应用到周期功率谱中，计算每个mel滤波器的能量和；

步骤s314、计算能量和的对数值；

步骤s315、对每个对数能量进行离散余弦变换；

步骤s316、保留离散余弦变换结果的2-13个系数，作为音色特征，其余系数舍去。

在一实施例中，所述步骤s33，进一步包括：

步骤s331、将提取的音色特征信息按照频谱进行归类；

步骤s332、利用级数展开音色特征信息，取其中主要部分的音色特征信息；

步骤s333、对内容特征信息进行整理，合并音色特征信息，生成指定音色对应的语音频谱数据；

步骤s334、将指定音色对应的语音频谱数据进行频域反变换，输出指定音色对应的语音提示音数据。

在一实施例中，所述步骤s33，进一步包括：

通过深度神经网络算法，将音色特征与内容特征信息训练后进行合成。

为了实现上述目的，本发明提供了一种汽车提示音的语音音色定制系统，包括用户端、车机端和服务端：

所述用户端，与车机端连接，输入指定音色的声音，输出定制后的语音提示音；

所述车机端，与服务端连接，接收输入声音数据后存储并发送至服务端，发送原有语音提示音数据至服务端，接收定制后的语音提示音数据后存储并发送至用户端；

所述服务端，将输入声音数据进行音色提取，与原有语音提示音数据进行合成，生成指定音色对应的定制后的语音提示音数据。

在一实施例中，所述服务端，通过傅里叶变化解析成语谱图，提取输入声音数据的音色特征，提取原有语音提示音数据的内容特征信息，将音色特征与内容特征信息进行合成，生成指定音色对应的语音提示音数据。

在一实施例中，所述服务端，将输入声音数据的按帧进行分解，对于每一帧的音频，计算周期功率谱，将mel滤波器应用到周期功率谱中，计算每个mel滤波器的能量和，计算能量和的对数值，对每个对数能量进行离散余弦变换，保留离散余弦变换结果的2-13个系数，作为音色特征，其余系数舍去。

在一实施例中，所述服务端，将提取的音色特征信息按照频谱进行归类，利用级数展开音色特征信息，取其中主要部分的音色特征信息，对内容特征信息进行整理，合并音色特征信息，生成指定音色对应的语音频谱数据，将指定音色对应的语音频谱数据进行频域反变换，输出指定音色对应的语音提示音数据。

在一实施例中，所述服务端，通过深度神经网络算法，将音色特征与内容特征信息训练后进行合成。

本发明提出的汽车提示音的语音音色定制方法及系统，通过用户输入喜欢的声音，模拟该声音的音色进行后续的tts语音播报提示，结构简单、设计巧妙，既可以实现语音交互带来的科技感，又可以实现传统语音播报的操作属性，大大提高车辆在驾驶中的亲和性和个性。

附图说明

本发明上述的以及其他的特征、性质和优势将通过下面结合附图和实施例的描述而变的更加明显，在附图中相同的附图标记始终表示相同的特征，其中：

图1揭示了现有技术的语音播报方法流程图；

图2揭示了根据本发明一实施例的汽车提示音的语音音色定制方法流程图；

图3揭示了根据本发明一实施例的汽车提示音的语音音色定制系统原理图。

图中各附图标记的含义如下：

100用户端；

200车机端；

300服务端。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释发明，并不用于限定发明。

图2揭示了根据本发明一实施例的汽车提示音的语音音色定制方法流程图，如图2所示的汽车提示音的语音音色定制方法，包括以下步骤：

步骤s1、输入指定音色的声音；

通过人工智能技术将用户感兴趣的声音直接通过话筒/麦克风输入，用户感兴趣的声音对应的音色作为指定音色。

步骤s2、存储输入声音数据；

车机端存储了此输入声音数据文件，通过tbox传输到服务端。

t-box称为车载智能终端，作为车身唯一可以联网的控制单元，肩负着监控和控制车身状态的使命，tbox主要用于采集车辆相关信息包括位置信息、姿态信息、车辆状态信息(通过连接车上can总线)等，然后通过无线通信将信息传送到tsp平台。

步骤s3、将输入声音数据进行音色提取，与原有语音提示音数据进行合成，生成指定音色对应的定制后的语音提示音数据；

服务端，通过频域变换的算法提取音色信息，将音色信息与原有语音提示音的内容合成。

步骤s4、将定制后的语音提示音数据进行存储并输出。

服务端，通过tbox将合成后的语音提示音数据传输给车机端，合成后的语音提示音对应的音色即为用户感兴趣的声音的音色。

当用户通过语音指令与车机端进行人机交互时，车机端就可以输出用户想要的音色对应的语音提示音声音。

更进一步的，所述步骤s3，进一步包括以下步骤：

步骤s31、通过傅里叶变化解析成语谱图，提取输入声音数据的音色特征；

步骤s32、提取原有语音提示音数据的内容特征信息；

步骤s33、将音色特征与内容特征信息进行合成，生成指定音色对应的语音提示音数据。

本发明的关键点在于步骤s3中提取音色特征信息和声音合成的两个步骤。

所述步骤s31，提取音色特征信息的算法，进一步包括：

步骤s311、将输入声音数据的按帧进行分解；

步骤s312、对于每一帧的音频，计算周期功率谱；

步骤s313、将mel滤波器应用到周期功率谱中，计算每个mel滤波器的能量和；

人耳感受语音信号的高低与频率大小不成线性关系，因此可以构造一组三角形滤波器序列，对信号进行稀疏分解，即mel滤波器组。

步骤s314、计算能量和的对数值；

步骤s315、对每个对数能量进行离散余弦变换(dct)；

步骤s316、保留离散余弦变换结果的2-13个系数，作为音色特征，其余系数舍去。

所述步骤s33，声音合成的算法，进一步包括：

步骤s331、将提取的音色特征信息按照频谱进行归类；

步骤s332、利用级数展开音色特征信息，取其中主要部分的音色特征信息；

步骤s333、对内容特征信息进行整理，合并音色特征信息，生成指定音色对应的语音频谱数据；

步骤s334、将指定音色对应的语音频谱数据进行频域反变换，输出指定音色对应的语音提示音数据。

更进一步的，通过基于深度神经网络算法不断训练样本，将音色特征与内容特征信息训练后进行合成，可以进一步提升声音合成的精确度和准确度。

图3揭示了根据本发明一实施例的汽车提示音的语音音色定制系统原理图，如图3所示的汽车提示音的语音音色定制系统，包括用户端100、车机端200和服务端300：

所述用户端100，与车机端200连接，输入指定音色的声音，输出定制后的语音提示音；

所述车机端200，与服务端300连接，接收输入声音数据后存储并发送至服务端300，发送原有语音提示音数据至服务端300，接收定制后的语音提示音数据后存储并发送至用户端100；

所述服务端300，将输入声音数据进行音色提取，与原有语音提示音数据进行合成，生成指定音色对应的定制后的语音提示音数据。

在图3所示的实施例中，用户端100，通过人工智能技术将用户感兴趣的声音直接通过话筒/麦克风输入，用户感兴趣的声音对应的音色作为指定音色。

用户端100，通过语音指令与车机端200进行人机交互时，车机端200输出用户想要的音色对应的语音提示音声音至用户端100。

在图3所示的实施例中，车机端200为信息娱乐系统(ihu，英文全称为infotainmentheadunit)。

车机端200存储了输入的声音数据文件，通过tbox传输到服务端300。

可选的，车机端200为soc端，soc芯片是一种集成电路的芯片，可以有效地降低电子/信息系统产品的开发成本，缩短开发周期，提高产品的竞争力，是未来工业界将采用的最主要的产品开发方式。

在图3所示的实施例中，服务端300为云端处理器，把上传的输入声音文件通过傅里叶变化解析成语谱图，就可以进行声音合成和音色替换。

更进一步的，所述服务端300，通过傅里叶变化解析成语谱图，提取输入声音数据的音色特征，提取原有语音提示音数据的内容特征信息，将音色特征与内容特征信息进行合成，生成指定音色对应的语音提示音数据。

更进一步的，所述服务端300，提取音色特征信息，进一步包括：

将输入声音数据的按帧进行分解，对于每一帧的音频，计算周期功率谱，将mel滤波器应用到周期功率谱中，计算每个mel滤波器的能量和，计算能量和的对数值，对每个对数能量进行离散余弦变换，保留离散余弦变换结果的2-13个系数，作为音色特征，其余系数舍去。

更进一步的，所述服务端300，进行声音合成，进一步包括：

将提取的音色特征信息按照频谱进行归类，利用级数展开音色特征信息，取其中主要部分的音色特征信息，对内容特征信息进行整理，合并音色特征信息，生成指定音色对应的语音频谱数据，将指定音色对应的语音频谱数据进行频域反变换，输出指定音色对应的语音提示音数据。

更进一步的，所述服务端300，通过深度神经网络算法，将音色特征与内容特征信息训练后进行合成。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

上述实施例是提供给熟悉本领域内的人员来实现或使用本发明的，熟悉本领域的人员可在不脱离本发明的发明思想的情况下，对上述实施例做出种种修改或变化，因而本发明的保护范围并不被上述实施例所限，而应该是符合权利要求书提到的创新性特征的最大范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李俊杰;辛慧玉
技术所有人：浙江合众新能源汽车有限公司
我是此专利的发明人

上一篇：一种基于吊绳牵引的污水管道内壁清洁小车的制作方法
上一篇：一种木地板生产用的原料烘干装置的制作方法