语音信号传输方法及系统的制作方法

文档序号:2826151阅读:483来源:国知局
语音信号传输方法及系统的制作方法
【专利摘要】本发明公开了一种语音信号传输方法及系统,该方法包括:确定待发送的连续语音信号对应的文本内容;根据所述文本内容及所述连续语音信号确定各合成单元的语音合成参数模型;拼接各合成单元的语音合成参数模型得到语音合成参数模型序列;确定所述语音合成参数模型序列对应的序号串;将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。利用本发明,可以在保证语音恢复音质损失最小化的前提下实现极低码流率的信号传输。
【专利说明】语音信号传输方法及系统
【技术领域】
[0001]本发明涉及信号传输【技术领域】,具体涉及一种语音信号传输方法及系统。
【背景技术】
[0002]随着互联网的普及和便携式设备的推广,各种基于手持设备的聊天软件应运而生。语音交互的自然人性化是其他交互手段无法超越的,特别是在不利于手写按键输入的手持小屏设备应用上。对此很多产品都支持语音交互功能,将某终端接收到的语音信号传输至目的端,如腾讯推出的微讯产品即支持VoiceMessage的语音消息传输功能。然而直接传输的语音信号数据量往往极大,在互联网或通讯网等按流量收费的信道中给用户带来了较大的经济负担。显然如何在不影响语音质量的前提下尽可能压缩传送的数据量是提高语音信号传输应用价值的前提条件。
[0003]针对语音信号传输的问题,研究人员尝试了多种语音编码方法,对语音信号进行数字量化和压缩传输,在提高语音信号的恢复话质条件下降低编码码率并提升传输效率。目前常用的语音信号压缩方法有波形编码和参数编码等。其中:
[0004]波形编码是将时域的模拟信号波形经过取样、量化、编码,形成数字信号,这种编码方式具有适应能力强、话音质量高的优点。但由于需要保持恢复原有语音信号的波形形状,这种方案码流率要求较高,在高于16kb/s才能取得较好的音质。
[0005]参数编码即从原始语音信号中提取表征语音发音特征的参量,并对该特征参量进行编码。这种方案的目标在于保持原始语音的语意,保证可懂度。其优点在于码流率较低,但恢复音质受损较多。
[0006]在传统的语音通信时代,往往采用时间计费方式,编码方法主要考量算法延时和通信质量;而在移动互联时代,语音作为数据信号的一种,通常使用流量来收取费用,编码语音码流率的高低将直接影响用户使用的花费。此外,传统电话信道语音只使用8k采样率,属于窄带语音,音质受损且存在上限。显然如果继续使用传统编码方式处理宽带或超宽带语音,需要增加码流率,成倍提升流量消耗。

【发明内容】

[0007]本发明实施例提供一种语音信号传输方法及系统,在保证语音恢复音质损失最小化的前提下实现极低码流率的信号传输。
[0008]本发明实施例提供一种语音信号传输方法,包括:
[0009]确定待发送的连续语音信号对应的文本内容;
[0010]根据所述文本内容及所述连续语音信号确定各合成单元的语音合成参数模型;
[0011]拼接各合成单元的语音合成参数模型得到语音合成参数模型序列;
[0012]确定所述语音合成参数模型序列对应的序号串;
[0013]将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。[0014]本发明实施例还提供一种语音信号传输系统,包括:
[0015]文本获取模块,用于确定待发送的连续语音信号对应的文本内容;
[0016]参数模型确定模块,用于根据所述文本内容及所述连续语音信号确定各合成单元的语音合成参数模型;
[0017]拼接模块,用于拼接各合成单元的语音合成参数模型得到语音合成参数模型序列;
[0018]序号串确定模块,用于确定所述语音合成参数模型序列对应的序号串;
[0019]发送模块,用于将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。
[0020]本发明实施例提供的语音信号传输方法及系统,采用统计分析模型编码,其处理方式与语音采样率无关,在保证语音恢复音质损失最小化的前提下极大地降低了传输码流率,减少了流量消耗,解决了传统语音编码方法不能兼顾音质和流量的问题,改善了移动网络时代下用户通信需求体验。
【专利附图】

【附图说明】
[0021]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0022]图1是本发明实施例语音信号传输方法的流程图;
[0023]图2是本发明实施例中确定各合成单元的语音合成参数模型的一种流程图;
[0024]图3是本发明实施例中二叉决策树的构建流程图;
[0025]图4是本发明实施例中一种二叉决策树的示意图;
[0026]图5是本发明实施例中对初始基频模型进行联合优化的流程图;
[0027]图6是本发明实施例语音信号传输系统的结构示意图;
[0028]图7是本发明实施例中参数模型确定模块的一种结构示意图;
[0029]图8是本发明实施例中语音信号发送系统中二叉决策树构建模块的结构示意图;
[0030]图9是本发明实施例中第一优化单元的结构示意图;
[0031]图10是本发明实施例中第二优化单元的结构示意图。
【具体实施方式】
[0032]为了使本【技术领域】的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0033]针对传统编码方式处理宽带或超宽带语音,需要增加码流率,流量消耗大的问题,本发明实施例提供一种语音信号传输方法及系统,适用于各类语音(如16KHz采样率的超宽带语音、SKHz采样率的窄带语音等)的编码,在保证语音恢复音质损失最小化的前提下,实现极低码流率的信号传输。
[0034]如图1所示,是本发明实施例语音信号发送方法的流程图,包括以下步骤:
[0035]步骤101,确定待发送的连续语音信号对应的文本内容。
[0036]具体地,可以通过语音识别算法自动获取所述文本内容,当然也可以通过人工标注的方式来获取所述文本内容。另外,为了进一步保证语音识别得到的文本内容的正确性,还可以对语音识别得到的文本内容进行人工编辑修正。
[0037]步骤102,根据所述文本内容及所述连续语音信号确定各合成单元的语音合成参数模型。
[0038]所述合成单元是预先设定的最小合成对象,如音节单元、音素单元,甚至是音素HMM模型中的状态单元等。
[0039]为了尽量减少接收端恢复音质的损失,使接收端能够通过语音合成方式恢复连续语音信号,发送端从原始语音信号中获取的语音合成参数模型应尽可能符合原语音信号特点,以减少信号压缩和恢复的损失。
[0040]具体地,可以根据所述文本内容对连续语音信号进行语音片断切分,得到各合成单元对应的语音片断,进而得到各合成单元对应的时长、初始化语音合成参数模型,然后利用采集的语音信号对初始化语音合成参数模型进行联合优化,具体过程将在后面详细描述。
[0041]步骤103,拼接各合成单元的语音合成参数模型得到语音合成参数模型序列。
[0042]步骤104,确定所述语音合成参数模型序列对应的序号串。
[0043]步骤105,将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。
[0044]相应地,接收方接收到发送方发送的序号串后,可以根据所述序号串从码本中获取语音合成参数模型序列。
[0045]由于每个语音合成参数模型都有一个唯一的序号,而且,在发送方和接收方都保存有相同的码本,所述码本中包含了所有语音合成参数模型。因此,接收方接收到所述序号串后,根据所述序号串即可从码本中获取对应各序号的语音合成参数模型,拼接这些语音合成参数模型得到所述语音合成参数模型序列。然后,根据所述语音合成参数模型序列确定语音合成参数序列,通过语音合成方式恢复语音信号。
[0046]本发明实施例语音信号传输方法,采用统计分析模型编码,其处理方式与语音采样率无关,对16kHz超宽带语音编码无需付出额外码流率代价,其音质效果好,编码流量低。以一段典型的中文语音片段为例,其有效语音段持续10s,拥有80个声韵母(音素),以每个音素拥有5个基频状态、5个频谱状态、I个时长状态计,每状态采用I个字节编码(8bit),其码流率为 m:m=[80* (5+5+1) ] *8bit/10s=704b/s,低于 lkb/s,属于极低码率编码方法,码流率大大低于当前主流语音通讯领域的各项编码标准,网络通讯的流量将会大大降低。相较当前主流的通信领域语音编码方法,本发明方法的语音编码方式可处理超宽带语音(16kHz采样率),音质更高;且具有更低的码流率(lkb/s以下),有效降低网络通信流量。
[0047]本发明实施例语音信号传输方法,通过对连续语音信号对应的语音合成参数模型的提取和信号合成,实现了语音信号的极大压缩和信号损失的最小化,即有效地减少信号失真。
[0048]如图2所示,是本发明实施例中确定各合成单元的语音合成参数模型的一种流程图,包括以下步骤:
[0049]步骤201,根据文本内容对连续语音信号进行语音片断切分,得到各合成单元对应的语音片断。
[0050]具体地,可以将所述连续语音信号与预设的合成单元对应的声学模型做强制对齐,即计算语音信号相应于所述声学模型序列的语音识别解码,从而获取各合成单元对应的语音片段。
[0051]需要说明的是,所述合成单元可以根据不同的应用需求而选择不同规格。一般来说,如果对码流率要求较高,则选择较大的语音单元,如音节单元、音素单元等;反之若对音质要求较高,则可以选择更小的语音单元,如模型的状态单元、特征流单元等。
[0052]在采用基于HMM (Hidden Markov Model,隐马尔可夫模型)的声学模型设置下,还可进一步选取HMM模型的各状态作为合成单元,并获取相应的基于状态层的语音片断。随后对每个状态分别从其对应的基频二叉决策树及频谱二叉决策树中确定每个状态对应的基频模型和频谱模型。这样可以使获取的语音合成参数模型能够更细致地描述语音信号的特点。
[0053]步骤202,依次确定各合成单元对应的语音片断的时长及初始语音合成参数模型,所述初始语音合成参数模型包括:初始基频模型和初始频谱模型,并得到对应所述连续语音信号的基频模型序列和频谱模型序列。
[0054]具体地,首先获取当前考察的合成单元对应的基频二叉决策树;对所述合成单元进行文本解析,获得所述合成单元的上下文信息,比如,音素单元、调性、词性、韵律层次等上下文信息;然后,根据所述上下文信息在所述基频二叉树中进行路径决策,得到对应的叶子节点,将所述叶节点对应的基频模型作为所述合成单元的基频模型。
[0055]进行路径决策的过程如下:
[0056]根据所述合成单元的上下文信息,从所述基频二叉决策树的根节点开始依次对各节点分裂问题进行回答;根据回答结果获取一条自上而下的匹配路径;根据所述匹配路径获得叶子节点。
[0057]同样,可以在当前考察的合成单元对应的频谱二叉决策树中通过询问获取叶节点对应的频谱模型,将叶节点对应的频谱模型作为当前考察的合成单元的初始频谱模型。具体地,首先获取所述合成单元对应的频谱二叉决策树;对所述合成单元进行文本解析,获得所述合成单元的上下文信息。然后根据所述上下文信息,在所述频谱二叉决策树中进行路径决策,得到对应的叶子节点;将所述叶节点对应的频谱模型作为所述合成单元对应的初始频谱模型。
[0058]进行路径决策的过程如下:
[0059]根据所述合成单元的上下文信息,从所述频谱二叉决策树的根节点开始依次对各节点分裂问题进行答复,并根据回答结果获取一条至上而下的匹配路径,并决策获得叶子节点。
[0060]需要说明的是,对应所述连续语音信号的基频模型序列即由各合成单元对应的初始基频模型组成的序列,同样地,对应所述连续语音信号的频谱模型序列即由各合成单元对应的初始频谱模型组成的序列。
[0061]步骤203,利用所述连续语音信号及所述基频模型序列对各合成单元对应的初始基频模型进行联合优化,得到各合成单元的基频模型。
[0062]步骤204,利用所述连续语音信号及所述频谱模型序列对各合成单元对应的初始频谱模型进行联合优化,得到各合成单元的频谱模型。
[0063]在本发明实施例中,合成单元对应的初始语音合成参数模型的质量和二叉决策树(包括基频二叉决策树和频谱二叉决策树)的构建有着直接的关系。在本发明实施例中,采用从下而上的聚类方法构建二叉决策树。
[0064]如图3所示,是本发明实施例中二叉决策树的构建流程图,包括以下步骤:
[0065]步骤301,获取训练数据。
[0066]具体地,可以采集大量的语音训练数据并对其进行文本标注,然后根据标注的文本内容进行基本语音单元乃至合成单元(如基本语音单元模型的状态单元)的语音片断切分,获取各合成单元对应的语音片断集合,并将每个合成单元对应的语音片断集合中的语音片断作为该合成单元对应的训练数据。
[0067]步骤302,从所述训练数据中提取合成单元对应的语音片断集合的合成参数。
[0068]所述合成参数包括:基频特征和频谱特征等。
[0069]步骤303,根据提取的合成参数对所述合成单元对应的二叉决策树进行初始化,并设置根节点作为当前考察节点。
[0070]对所述二叉决策树进行初始化即构建只有根节点的二叉决策树。
[0071]步骤304,判断当前考察节点是否需要分裂。如果是,则执行步骤305 ;否则执行步骤 306。
[0072]挑选预设问题集合中的剩余问题对当前考察节点的数据进行分裂尝试,获取子节点。所述剩余问题是指没有询问过的问题。
[0073]具体地,可以首先计算当前考察节点的样本聚集度,即描述语音片断集合内样本的分散程度。一般来说,分散程度越大,则说明该节点分裂的可能性越大,否则分裂的可能性越小。具体可以采用样本方差来衡量节点的样本聚集度,即计算该节点下所有样本距离类中心的距离(或平方)的均值。然后计算分裂后子节点的样本聚集度,并选择具有最大样本聚集度下降幅度的问题作为优选问题。
[0074]然后根据所述优选问题进行分裂尝试,得到子节点。如果根据所述优选问题分裂的聚集度下降小于设定的阈值,或者分裂后的子节点中训练数据最低于设定的门限,则确定当前考察节点不再继续分裂。
[0075]步骤305,对当前考察节点进行分裂,并获取分裂后的子节点及所述子节点对应的训练数据。然后,执行步骤307。
[0076]具体地,可以根据所述优选问题对当前考察节点进行分裂。
[0077]步骤306,将当前考察节点标记为叶节点。
[0078]步骤307,判断所述二叉决策树中是否还有未考察过的非叶节点。如果是,则执行步骤308 ;否则执行步骤309。
[0079]步骤308,获取下一个未考察过的非叶节点作为当前考察节点。然后,返回步骤304。
[0080]步骤309,输出二叉决策树。
[0081]需要说明的是,在本发明实施例中,基频二叉决策树和频谱二叉决策树都可以按照图3所示流程来建立。
[0082]如图4所示,是本发明实施例中一种二叉决策树的示意图。[0083]图4展示了音素”*_aa+”的第三个状态的二叉决策树的构建图。如图4所示,在根节点分裂时根据对预设问题“右相邻音素是否为鼻音”的回答可以将根节点对应的训练数据拆分,随后在下一层节点分裂时,如对左节点分裂时,根据对预设问题“左相邻音素是否为浊辅音”的回答可以将所述节点对应的训练数据进一步拆分。最后在节点无法进一步拆分时设定其为叶节点,并利用其所对应得训练数据训练得到数学统计模型,如高斯模型,将该数字统计模型作为当前叶节点对应的合成参数模型。 [0084]显然,在图2所示实施例中,初始语音合成参数模型的挑选主要依赖于基于文本分析的二叉决策树,如通过当前考察的合成单元上下文的音素类别、当前音素的发音类型等,这样可以方便快捷地获得初始语音合成参数模型。
[0085]进一步地,基于实际语音信号和编码模型合成语音信号损失最小化的原则,在发明实施例中,还需要对初始基频模型和初始频谱模型分别进行联合优化,下面对联合优化过程做详细说明。
[0086]如图5所示,是本发明实施例中对初始基频模型进行联合优化的流程图,包括以下步骤:
[0087]步骤501,提取连续语音信号对应的原始基频特征序列。
[0088]步骤502,获取第一个合成单元用为当前优化的合成单元。
[0089]步骤503,获取当前优化的合成单元对应的初始基频模型及相关基频模型集合,所述相关基频模型集合包括当前优化的合成单元对应的基频二叉决策树的全部或部分叶节点。
[0090]步骤504,根据所述原始基频特征序列从所述相关基频模型集合中选择所述初始基频模型的优选模型。
[0091]也就是说,根据所述原始基频特征序列和所述相关基频模型集合对所述初始基频模型进行联合优化。
[0092]具体地,可以依次选择所述相关基频模型集合中的基频模型替换所述基频模型序列中对应的初始基频|吴型,得到新的基频|吴型序列;接着根据所述新的基频|吴型序列确定合成的新的基频特征序列。然后计算所述新的基频特征序列与所述原始基频特征序列的距离;选择最小距离对应的基频模型作为所述初始基频模型的优选模型。
[0093]在根据所述新的基频模型序列确定合成的新的基频特征序列时,具体可以是根据所述新的基频模型序列和合成单元对应的时长序列确定基频模型参数,生成合成的新的基频特征序列。
[0094]如,按照以下公式来得到合成的新的基频特征序列:
[0095]0max=argmaxP (O |,λ,T)
[0096]其中,O为特征序列,λ为给定的基频模型序列,T为各合成单元对应的时长序列。
[0097]Omax即最终生成的基频特征序列,在单元时长序列T的范围内,求取相应于给定的基频1?型序列、的具有最大似然值的基频特征序列0max。
[0098]在计算新的基频特征序列与所述原始基频特征序列的距离时,可以采用欧式距离计算方法,即:
[0099]D(ClC) = Yj(C)1-C ) (O-C )


/二I[0100]其中,Oi, Ci分别是第i个原始基频特征矢量和第i个新的基频特征矢量。
[0101]步骤505,将所述优选模型作为当前优化的合成单元的基频模型,并将所述优选模型替换所述基频模型序列中对应的初始基频模型。
[0102]步骤506,判断是否还有未优化的合成单元。如果是,则执行步骤507 ;否则,执行步骤508。
[0103]步骤507,获取下一个合成单元作为当前优化的合成单元。然后,返回步骤503。
[0104]步骤508,输出各合成单元的基频模型。
[0105]前面提到,所述相关基频模型集合可以是所述合成单元对应的基频二叉决策树的全部叶节点,考虑到基频二叉决策树中叶节点数目往往较多,逐一计算比较将耗费大量的运算资源,不利于编码实时性的要求。因此,也可以从所有叶节点中选择部分具有较大优选可能的叶节点作为所述相关基频模型集合,参与后续基频模型的优化。具体过程可以如下:
[0106](I)首先计算所述合成单元对应的原始基频特征序列和基频二叉决策树的所有叶节点的基频模型之间的似然度。
[0107]设原始基频特征序列为O = [<,<,...,<.] (N为语音信号的帧数),当前考察的基
频模型为λ ^ ( λ j, j=l,...J, J为整个模型集合大小),则这两者之间的似然度为:
[0108]
【权利要求】
1.一种语音信号传输方法,其特征在于,包括: 确定待发送的连续语音信号对应的文本内容; 根据所述文本内容及所述连续语音信号确定各合成单元的语音合成参数模型; 拼接各合成单元的语音合成参数模型得到语音合成参数模型序列; 确定所述语音合成参数模型序列对应的序号串; 将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。
2.根据权利要求1所述的方法,其特征在于,所述确定待发送的连续语音信号对应的文本内容包括: 通过语音识别算法确定待发送的连续语音信号对应的文本内容;或者 通过人工标注的方式获取待发送的连续语音信号对应的文本内容。
3.根据权利要求1所述的方法,其特征在于,所述根据所述文本内容及所述连续语音信号确定各合成单元的语音合成参数模型包括: 根据所述文本内容对所述连续语音信号进行语音片断切分,得到各合成单元对应的语首片断; 依次确定各合成单元对应的语音片断的时长及初始语音合成参数模型,所述初始语音合成参数模型包括:初始基频模型和初始频谱模型,并得到对应所述连续语音信号的基频模型序列和频谱模型 序列; 利用所述连续语音信号及所述基频模型序列对各合成单元对应的初始基频模型进行联合优化,得到各合成单元的基频模型; 利用所述连续语音信号及所述频谱模型序列对各合成单元对应的初始频谱模型进行联合优化,得到各合成单元的频谱模型。
4.根据权利要求3所述的方法,其特征在于,所述确定合成单元对应的初始基频模型包括: 获取所述合成单元对应的基频二叉决策树; 对所述合成单元进行文本解析,获得所述合成单元的上下文信息; 根据所述上下文信息,在所述基频二叉决策树中进行路径决策,得到对应的叶子节占.将所述叶节点对应的基频模型作为所述合成单元对应的初始基频模型。
5.根据权利要求3所述的方法,其特征在于,所述确定合成单元对应的初始频谱模型包括: 获取所述合成单元对应的频谱二叉决策树; 对所述合成单元进行文本解析,获得所述合成单元的上下文信息; 根据所述上下文信息,在所述频谱二叉决策树中进行路径决策,得到对应的叶子节占.将所述叶节点对应的频谱模型作为所述合成单元对应的初始频谱模型。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:按以下方式构建所述合成单元对应的二叉决策树: 获取训练数据;从所述训练数据中提取所述合成单元对应的语音片断集合的合成参数,所述合成参数包括:基频特征和频谱特征; 根据所述合成参数对所述合成单元对应的二叉决策树进行初始化; 从所述二叉决策树的根节点开始,依次考察每个非叶节点; 如果当前考察节点需要分裂,则对当前考察节点进行分裂,并获取分裂后的子节点及所述子节点对应的训练数据;否则,将当前考察节点标记为叶节点; 当所有非叶节点考察完成后,得到所述合成单元的二叉决策树。
7.根据权利要求3所述的方法,其特征在于,所述利用所述连续语音信号及所述基频模型序列对各合成单元对应的初始基频模型进行联合优化,得到各合成单元的基频模型包括: 提取所述连续语音信号对应的原始基频特征序列; 依次对各合成单元进行以下处理: 获取所述合成单元对应的初始基频模型及相关基频模型集合,所述相关基频模型集合包括所述合成单元对应的基频二叉决策树的全部或部分叶节点; 根据所述原始基频特征序列从所述相关基频模型集合中选择所述初始基频模型的优选模型; 将所述优选模型作为所述合成单元的基频模型,并将所述优选模型替换所述基频模型序列中对应的初始基频I吴型。
8.根据权利要求7所述的方法,其特征在于,所述根据所述原始基频特征序列从所述相关基频模型集合中选择所述初始基频模型的优选模型包括: 依次选择所述相关基频模型集合中的基频模型替换所述基频模型序列中对应的初始基频1?型,得到新的基频1?型序列; 根据所述新的基频模型序列确定合成的新的基频特征序列; 计算所述新的基频特征序列与所述原始基频特征序列的距离; 选择最小距离对应的基频模型作为所述初始基频模型的优选模型。
9.根据权利要求3所述的方法,其特征在于,所述利用所述连续语音信号及所述频谱模型序列对各合成单元对应的初始频谱模型进行联合优化,得到各合成单元的频谱模型包括: 提取所述连续语音信号对应的原始频谱特征序列; 依次对各合成单元进行以下处理: 获取所述合成单元对应的初始频谱模型及相关频谱模型集合,所述相关频谱模型集合包括所述合成单元对应的频谱二叉决策树的全部或部分叶节点; 根据所述原始频谱特征序列从所述相关频谱模型集合中选择所述初始频谱模型的优选模型; 将所述优选模型作为所述合成单元的频谱模型,并将所述优选模型替换所述频谱模型序列中对应的初始频谱模型。
10.根据权利要求9所述的方法,其特征在于,所述根据所述原始频谱特征序列从所述相关频谱模型集合中选择所述初始频谱模型的优选模型包括: 依次选择所述相关频谱模型集合中的频谱模型替换所述频谱模型序列中对应的初始频谱模型,得到新的频谱模型序列; 根据所述新的频谱模型序列确定合成的新的频谱特征序列; 计算所述新的频谱特征序列与所述原始频谱特征序列的距离; 选择最小距离对应的频谱模型作为所述初始频谱模型的优选模型。
11.一种语音信号传输系统,其特征在于,包括: 文本获取模块,用于确定待发送的连续语音信号对应的文本内容; 参数模型确定模块,用于根据所述文本内容及所述连续语音信号确定各合成单元的语音合成参数模型; 拼接模块,用于拼接各合成单元的语音合成参数模型得到语音合成参数模型序列; 序号串确定模块,用于确定所述语音合成参数模型序列对应的序号串; 发送模块,用于将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。
12.根据权利要求11所述的系统,其特征在于,所述文本获取模块包括: 语音识别单元,用于通过语音识别算法确定待发送的连续语音信号对应的文本内容;或者 标注信息获取单元,用于通过人工标注的方式获取待发送的连续语音信号对应的文本内容。
13.根据权利要求11所述的系统,其特征在于,所述参数模型确定模块包括: 切分单元,用于根据所述文本内容对所述连续语音信号进行语音片断切分,得到各合成单元对应的语音片断; 时长确定单元,用于依次确定各合成单元对应的语音片断的时长; 模型确定单元,用于依次确定各合成单元对应的初始语音合成参数模型,所述初始语音合成参数模型包括:初始基频模型和初始频谱模型; 模型序列获取单元,用于获得对应所述连续语音信号的基频模型序列和频谱模型序列; 第一优化单元,用于利用所述连续语音信号及所述基频模型序列对各合成单元对应的初始基频模型进行联合优化,得到各合成单元的基频模型; 第二优化单元,用于利用所述连续语音信号及所述频谱模型序列对各合成单元对应的初始频谱模型进行联合优化,得到各合成单元的频谱模型。
14.根据权利要求13所述的系统,其特征在于,所述模型确定单元包括:初始基频模型确定单元和初始频谱模型确定单元; 所述初始基频模型确定单元包括: 第一获取单元,用于获取所述合成单元对应的基频二叉决策树; 第一解析单元,用于对所述合成单元进行文本解析,获得所述合成单元的上下文信息; 第一决策单元,用于根据所述上下文信息,在所述基频二叉决策树中进行路径决策,得到对应的叶子节点; 第一输出单元,用于将所述叶节点对应的基频模型作为所述合成单元对应的初始基频模型;所述初始频谱模型确定单元包括: 第二获取单元,用于获取所述合成单元对应的频谱二叉决策树; 第二解析单元,用于对所述合成单元进行文本解析,获得所述合成单元的上下文信息; 第二决策单元,用于根据所述上下文信息,在所述频谱二叉决策树中进行路径决策,得到对应的叶子节点; 第二输出单元,用于将所述叶节点对应的频谱模型作为所述合成单元对应的初始频谱模型。
15.根据权利要求14所述的系统,其特征在于,所述系统还包括:二叉决策树构建模块,所述二叉决策树构建模块包括: 训练数据获取单元,用于获取训练数据; 参数提取单元,用于从所述训练数据中提取所述合成单元对应的语音片断集合的合成参数,所述合成参数包括:基频特征和频谱特征; 初始化单元,用于根据所述合成参数对所述合成单元对应的二叉决策树进行初始化;节点考察单元,用于从所述二叉决策树的根节点开始,依次考察每个非叶节点;如果当前考察节点需要分裂,则对当前考察节点进行分裂,并获取分裂后的子节点及所述子节点对应的训练数据;否则,将当前考察节点标记为叶节点; 二叉决策树输出单元,用于在所有非叶节点考察完成后,得到所述合成单元的二叉决策树。
16.根据权利要求13所述的系统,其特征在于,所述第一优化单元包括: 基频特征序列提取单元,用于提取所述连续语音信号对应的原始基频特征序列;第一获取单元,用于依次获取各合成单元对应的初始基频模型及相关基频模型集合,所述相关基频模型集合包括所述合成单元对应的基频二叉决策树的全部或部分叶节点;第一选择单元,用于根据所述原始基频特征序列从所述相关基频模型集合中选择所述初始基频模型的优选模型; 第一替换单元,用于将所述优选模型作为所述合成单元的基频模型,并将所述优选模型替换所述基频模型序列中对应的初始基频模型。
17.根据权利要求16所述的系统,其特征在于,所述第一选择单元包括: 基频模型序列更新单元,用于依次选择所述相关基频模型集合中的基频模型替换所述基频1?型序列中对应的初始基频1?型,得到新的基频1?型序列;并根据所述新的基频1吴型序列确定合成的新的基频特征序列; 第一计算单元,用于计算所述新的基频特征序列与所述原始基频特征序列的距离;基频模型选择单元,用于选择最小距离对应的基频模型作为所述初始基频模型的优选模型。
18.根据权利要求13所述的系统,其特征在于,所述第二优化单元包括: 频谱特征序列提取单元,用于提取所述连续语音信号对应的原始频谱特征序列;第二获取单元,用于依次获取各合成单元对应的初始频谱模型及相关频谱模型集合,所述相关频谱模型集合包括所述合成单元对应的频谱二叉决策树的全部或部分叶节点;第二选择单元,用于根据所述原始频谱特征序列从所述相关频谱模型集合中选择所述初始频谱模型的优选模型; 第二替换单元,用于将所述优选模型作为所述合成单元的频谱模型,并将所述优选模型替换所述频谱模型序列中对应的初始频谱模型。
19.根据权利要求18所述的系统,其特征在于,所述第二选择单元包括: 频谱模型序列更新单元,用于依次选择所述相关频谱模型集合中的频谱模型替换所述频谱模型序列中对应的初始频谱模型,得到新的频谱模型序列;并根据所述新的频谱模型序列确定合成的新的频谱特征序列; 第二计算单元,用于计算所述新的频谱特征序列与所述原始频谱特征序列的距离;频谱模型选择单元,用于选择最小距离对应的频谱模型作为所述初始频谱模型的优选 模型。
【文档编号】G10L15/26GK103474067SQ201310361783
【公开日】2013年12月25日 申请日期:2013年8月19日 优先权日:2013年8月19日
【发明者】江源, 周明, 凌震华, 何婷婷, 胡国平, 胡郁, 刘庆峰 申请人:安徽科大讯飞信息科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1