一种语音播放方法和装置的制造方法

文档序号：9867710阅读：413来源：国知局

一种语音播放方法和装置的制造方法
【技术领域】
[0001 ]本发明属于语音识别技术领域，尤其涉及一种语音播放方法和装置。
【背景技术】
[0002]声纹识别是一种利用人的声音实现的识别技术，由于人在讲话时使用的发声器官存在一定的差异性，任何两个人声音的声纹图谱都有差异，所以声纹可以作为表征个体差异的生物特征，也即可以通过建立声纹特征模型来表征不同的个体，进而利用该声纹特征模型进行识别不同的个体等。目前声纹特征模型的应用存在一个两难的选择，主要体现在训练语料的长度选取上，一般而言，声纹训练语料越长，建立的特征模型越精确，识别准确率越高，但是实用性不强;声纹训练语料较短，能保证较好的实用性，但识别准确率不高。而在实际应用中，比如手机屏幕声纹解锁的应用等，既要求有较高的识别准确率，以满足安全性，又要求训练语料不能太长，以保证较好的实用性。
[0003]现有的声纹特征模型建立方法是通过在声纹注册阶段，由用户手动多次训练，每次训练均为短语料，最终将他们组合成较长的训练语料来生成特征模型。然而，由用户手动多次录入一定时长的训练语料，会给用户较差的体验，不具备较高的实用性;组合起来的训练语料长度仍然有限，不能生成较精确的特征模型，识别准确率无法进一步提升;语速语调的变化、情绪波动等也都会影响模型建立的精确度。所以，如何在保证较高的实用性前提下，提尚声纹特征模型精确度，进而提尚识别准确率是急需解决的冋题。

【发明内容】

[0004]基于此，为了解决上述问题，提供了一种语音播放方法和装置。
[0005]—种语音播放方法，所述方法包括:
获取包含至少一个说话者的原始音频流；
根据预设训练算法，对所述原始音频流进行训练；
将所述训练后的音频流加载在流媒体文件中，以进行播放。
[0006]在其中一个实施例中，所述方法还包括:
建立训练样本库。
[0007]在其中一个实施例中，所述根据预设训练算法，对所述原始音频流进行训练包括: 对原始音频流进行分割，得到模拟音频流和真实音频流；
对模拟音频流和真实音频流进行冲激，根据冲激音频流。
[0008]在其中一个实施例中，所述将所述训练后的音频流加载在流媒体文件中，以进行播放包括:
判断所述冲激音频流在所述训练样本库中是否找到匹配的样本对象；
若匹配，则将该冲激音频流作为训练后的音频流加载在流媒体文件中，以进行播放。
[0009]在其中一个实施例中，所述方法还包括:
测试所述流媒体文件是否失真。
[0010]一种语音播放装置，所述装置包括:
获取模块，用于获取包含至少一个说话者的原始音频流；
训练模块，用于根据预设训练算法，对所述原始音频流进行训练；
播放模块，用于将所述训练后的音频流加载在流媒体文件中，以进行播放。
[0011]在其中一个实施例中，所述装置还包括:
建立模块，用于建立训练样本库。
[0012]在其中一个实施例中，所述训练模块包括:
分割单元，用于对原始音频流进行分割，得到模拟音频流和真实音频流；
冲激单元，用于对模拟音频流和真实音频流进行冲激，根据冲激音频流。
[0013]在其中一个实施例中，所述播放模块包括:
判断单元，用于判断所述冲激音频流在所述训练样本库中是否找到匹配的样本对象；播放单元，用于当匹配，则将该冲激音频流作为训练后的音频流加载在流媒体文件中，以进行播放。
[0014]在其中一个实施例中，所述装置还包括:
测试模块，用于测试所述流媒体文件是否失真。
[0015]有益效果:
一种语音播放方法，所述方法包括:获取包含至少一个说话者的原始音频流;根据预设训练算法，对所述原始音频流进行训练;将所述训练后的音频流加载在流媒体文件中，以进行播放。以此，可以播放出精确度较高、失真度较小的音频数据。
【附图说明】
[0016]图1是本发明一种语音播放方法的方法流程图。
[0017]图2是本发明一种语音播放装置的模块框图。
【具体实施方式】
[0018]为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0019]以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
如图1所示，一种语音播放方法，所述方法包括:
S101:获取包含至少一个说话者的原始音频流；
S102:根据预设训练算法，对所述原始音频流进行训练；
S103:将所述训练后的音频流加载在流媒体文件中，以进行播放。
[0020]在本实施例中，所述方法还包括:
建立训练样本库。
[0021]在本实施例中，所述根据预设训练算法，对所述原始音频流进行训练包括:
对原始音频流进行分割，得到模拟音频流和真实音频流；
对模拟音频流和真实音频流进行冲激，根据冲激音频流。
[0022]在本实施例中，所述将所述训练后的音频流加载在流媒体文件中，以进行播放包括:
判断所述冲激音频流在所述训练样本库中是否找到匹配的样本对象；
若匹配，则将该冲激音频流作为训练后的音频流加载在流媒体文件中，以进行播放。
[0023]在本实施例中，所述方法还包括:
测试所述流媒体文件是否失真。
[0024]实施例2
一种语音播放装置，所述装置包括:
获取模块201，用于获取包含至少一个说话者的原始音频流；
训练模块202，用于根据预设训练算法，对所述原始音频流进行训练；
播放模块203，用于将所述训练后的音频流加载在流媒体文件中，以进行播放。
[0025]在本实施例中，所述装置还包括:
建立模块，用于建立训练样本库。
[0026]在本实施例中，所述训练模块包括:
分割单元，用于对原始音频流进行分割，得到模拟音频流和真实音频流；
冲激单元，用于对模拟音频流和真实音频流进行冲激，根据冲激音频流。
[0027]在本实施例中，所述播放模块包括:
判断单元，用于判断所述冲激音频流在所述训练样本库中是否找到匹配的样本对象；播放单元，用于当匹配，则将该冲激音频流作为训练后的音频流加载在流媒体文件中，以进行播放。
[0028]在本实施例中，所述装置还包括:
测试模块，用于测试所述流媒体文件是否失真。
[0029]需要说明的是，该装置可以为包括手机、平板电脑、PDA(Personal DigitalAssistant，个人数字助理),POSCPoint of Sales，销售终端)、车载电脑等终端设备，以终端为手机为例，手机包括RF(Rad1 Frequency，射频)电路、存储器、输入单元、显示单元、传感器、音频电路、WiFi (wireless fidelity，无线保真)模块、处理器、以及电源等部件。本
RF电路可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器处理;另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、親合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路还

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曾戟;
技术所有人：曾戟;
我是此专利的发明人

上一篇：一种网络社区的语音交流的语境模拟方法
上一篇：一种语音测评的方法及装置的制造方法