语音转换合成装置及其方法

文档序号：2821817阅读：251来源：国知局

专利名称：语音转换合成装置及其方法
技术领域：
本发明有关于一种语音转换合成装置及其方法，特别有关于一种将非特定人语音转换成特定人语音的语音转换合成装置与其方法。
背景技术：
语音转换技术在文本转换(Text To Speech，简称TTS)系统设计、语音掩饰与玩具设计等方面有着广泛的应用前景。而语音转换技术在实质上是着重于研究如何根据源话者与目标话者的语音数据，建立两者之间的转换关系。
已知的语音转换装置的转换方法包括有矢量量化与码书映射方法、线性变换方法、神经网罗方法、混合高斯模型方法等，上述这些方法都能够用于建立话者之间的特征参数，如频域特征参数的转换关系。但这些方法均只能用于建立一对一的转换关系，即特定人语音与特定目标话者语音之间的转换关系，因此采用这些方法建立的语音转换系统只能面对特定的用户，对于新用户，语音转换系统必须重新建立。故已知的语音转换方法并不适用于语音掩饰或玩具等需要将非特定人语音转换成特定人语音的场合。

发明内容
因此，本发明就是在提供一种语音转换合成装置，是利用非特定人语音识别技术，对非特定人语音进行识别，再根据识别结果与特定人语音数据库中相应的语音数据进行合成，而得到一特定人语音。
本发明在提出一种语音转换合成方法，是对所获得的非特定人语音进行识别，再利用相应的语音数据进行合成，而得到一特定人语音。
为达上述与其他的目的，本发明提出一种语音转换合成装置，此装置包括语音分析模组、语音识别模组与语音合成模组。
上述的语音分析模组接收语音转换合成装置所获得的非特定人语音，将非特定人语音分帧处理后分为清音段与浊音段，其中，清音段直接被输出至输出端，而浊音段则在被分析后输出频谱特征与韵律信息。
上述的语音识别模组耦接至语音分析模组，接收语音分析模组传来的频谱特征，负责识别出与频谱特征相对应的相应语音段所包含的语音单元序列，且在确定各语音单元的时间长度(简称时长)后输出。其中，语音识别模组包括非特定人语音数据库与语音识别单元。此非特定语音数据库储存用于非特定人语音识别的所有语音单元模型参数，而语音识别单元耦接至非特定人语音数据库，在接收到频谱特征时，至非特定人语音数据库识别出与频谱特征相对应的相应语音段所包含的语音单元序列。
上述的语音合成模组耦接至语音识别模组与语音分析模组，负责接收时长、语音单元序列以及韵律信息，并与语音单元序列的相应语音单元数据进行合成，产生一特定人语音，最后由输出端输出特定人语音。其中，语音合成模组包括特定人语音数据库与语音合成单元，且特定人语音数据库储存有语音单元模型参数的相应特定人语音单元数据，而语音合成单元耦接至特定人语音数据库，在接收到语音单元序列时，至特定人语音数据库中识别出语音单元模型参数的相应特定人语音单元数据。
依照本发明的较佳实施例所述，上述非特定人语音数据库采用隐马尔可夫模型(Hidden Markov Model，简称HMM)建立，且各语音单元相应的隐马尔可夫模型可由非特定人大量的连续语音训练得到。
依照本发明的较佳实施例所述，上述特定人语音数据库可为一个或一个以上，且这些特定人语音数据库均有其相对应的特定人。
依照本发明的较佳实施例所述，上述韵律信息包括基音周期与短时能量。
依照本发明的较佳实施例所述，上述将非特定人语音分帧处理为将一连串的非特定人语音以一预设时间予以切割。
依照本发明的较佳实施例所述，上述语音识别模组仅进行语音层的识别，而不进行语义单元(如单词)的识别。
为达上述与其他的目的，本发明提出一种语音转换合成方法，适用于将所获得的非特定人语音转换合成一特定人语音。其方法为语音分析模组取得非特定人语音，接着将非特定人语音分帧处理，并划分为清音段与浊音段，其次语音分析模组将浊音段分析后得到频谱特征与韵律信息。语音识别模组则根据频谱特征，识别出与频谱特征相对应的相应语音段所包含的语音单元序列，并确定语音单元序列的时长。最后，语音合成模组根据语音单元序列、时长、韵律信息将语音单元序列的相应语音单元数据及清音段合成特定人语音后由输出端输出。
为让本发明的上述和其他目的、特征、和优点能更明显易懂，下文特举一较佳实施例，并配合附图，作详细说明如下

图1是本发明的较佳实施例的一种语音转换合成装置的功能方块图；图2是本发明的较佳实施例的一种以数字讯号处理器实现的电路方块图；以及图3是本发明的较佳实施例的一种语音转换合成方法的方法流程图。
具体实施例方式
请参照图1，其绘示了依照本发明的较佳实施例的一种语音转换合成装置的功能方块图。此语音转换合成装置100可做为文本转换系统设计、语音掩饰或玩具设计等方面，其包括语音分析模组110、语音识别模组120与语音合成模组130。
语音分析模组110接收语音转换合成装置100所获得的非特定人语音，将非特定人语音分帧处理后分为清音段与浊音段，其中，清音段直接输出至输出端，而浊音段则在被分析为频谱特征与韵律信息后输出，且韵律信息包括基音(pitch ofspeech)周期与短时能量。
另外，将非特定人语音分帧处理为将一连串的非特定人语音以一预设时间予以切割，例如是将非特定人语音每隔20毫秒即予以切割定义为一帧，且预设时间可为语音转换合成装置100出厂时已预设好。
语音识别模组120耦接至语音分析模组110，接收语音分析模组110传来的频谱特征，负责识别出与频谱特征相对应的相应语音段所包含的语音单元序列，且于确定语音单元序列的时长后输出。
其中，语音识别模组120包括非特定人语音数据库124与语音识别单元122。在非特定人语音数据库124中储存用于非特定人语音识别的所有语音单元序列，而语音识别单元122耦接至非特定人语音数据库124，在接收到频谱特征时，至非特定人语音数据库124中识别出与频谱特征相对应的相应语音段所包含的语音单元序列。
语音合成模组130耦接至语音识别模组120与语音分析模组110，接收语音识别模组120传来的时长、语音单元序列以及语音分析模组110传来的韵律信息，并利用语音单元序列相对应的相应语音单元数据进行合成，产生一特定人语音，最后由输出端输出特定人语音。
其中，语音合成模组130包括多个特定人语音数据库D1～DN储存有语音单元模型参数相对应的相应特定人语音单元数据，而语音合成单元132耦接至这些特定人语音数据库D1～DN，在接收到语音单元序列时，至特定人语音数据库D1～DN中识别出与语音单元序列相对应的相应语音单元数据。
在本发明的较佳实施例中，特定人语音数据库D1～DN可为一个或一个以上，且这些特定人语音数据库均有其相对应的特定人。
在本发明的较佳实施例中，非特定人语音数据库采用隐马尔可夫模型(HiddenMarkov Model，简称HMM)建立，且各语音单元相应的隐马尔可夫模型可由非特定人大量的连续语音训练得到。
在本发明的较佳实施例中，语音识别模组120仅进行语音层的识别，而不进行语义单元(如单词)的识别。
此语音转换合成装置100的动作方式为语音分析模组110接收语音转换合成装置100所获得的非特定人语音，将非特定人语音分帧处理后分为清音段与浊音段，接着将清音段直接输出至输出端，而浊音段则在被分析后得到频谱特征与韵律信息后输出。其次，语音识别模组120接收语音分析模组110传来的频谱特征，在识别出与频谱特征相对应的相应语音段所包含的语音单元序列及确定语音单元序列的时长后输出。最后，语音合成模组130接收语音识别模组120传来的时长、语音单元序列以及语音分析模组110传来的韵律信息，并利用语音单元序列相对应的相应语音单元数据进行合成，在产生特定人语音后由输出端输出特定人语音。
请接着参考图2，其绘示了本发明的较佳实施例的一种以数字讯号处理器实现的电路方块图。在图2中语音转换装置100包括模拟/数字转换器200、数字讯号处理器210、数字/模拟转换器220、非特定人语音数据库230以及多个特定人语音数据库D1～DN。
模拟/数字转换器200为语音输入端口，负责将所接收到的非特定人语音模拟讯号转换为非特定人语音数字讯号后输出。数字讯号处理器210负责执行语音转换中的计算，其包括非特定人语音的分析与识别以及特定人语音合成。数字/模拟转换器220为语音输出端口负责将特定人语音的模拟讯号转换成特定人语音数字讯号后输出。非特定人语音数据库230为储存有语音转换程式与隐马尔可夫模型(HMM)参数，其中非特定人语音数据库230为只读存储器。多个特定人语音数据库D1～DN为储存多个特定人的语音数据库，其中语音数据库D1～DN为存储器。
在本发明的较佳实施例中，数字讯号处理器210包括输入缓冲器212、数字讯号处理中心214与输出缓冲器216。其中，输入缓冲器212为储存输入语音段的频谱参数与韵律参数；数字讯号处理中心214负责执行语音转换的计算；输出缓冲器216为储存输出语音。
请继续参考图3，其绘示了本发明的较佳实施例的一种语音转换合成方法的流程图。在语音转换合成方法中，为便于了解，请合并参考图1与图3。此方法为语音分析模组110取得非特定人语音(s302)，接着将非特定人语音分帧处理，并划分为清音段与浊音段(s304)，其次语音分析模组110将浊音段分析后得到频谱特征与韵律信息(s306)。语音识别模组120则根据频谱特征，至非特定人语音数据库124中识别出与频谱特征相对应的相应语音段所包含的语音单元序列，并确定语音单元序列的时长。最后，语音合成模组130接收语音单元序列、时长、韵律信息，同时至特定人语音数据库D1～DN中识别出与语音单元序列相对应的相应语音单元数据，然后根据语音单元序列、时长与韵律信息将清音段与相应语音单元数据合成特定人语音后由输出端输出。
综合以上所述，本发明的语音转换合成装置及其方法具有下列优点(1)本发明的语音转换合成装置及其方法，可将所得到的任一语音转换成一特定人语音，在使用时无需调整，具有很强的适应力。
(2)本发明的语音转换合成装置及其方法，在不改变语音转换合成装置结构与参数下，仅增加新的特定人语音数据库，即可使语音转换合成装置具备对新特定人语音的转换能力。
虽然本发明已以一较佳实施例揭示如上，然其并非用以限定本发明，任何熟悉本技术领域者，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，因此本发明的保护范围当视后附的权利要求书所界定为准。
权利要求
1.一种语音转换合成装置，适用于将所获得的一非特定人语音予以转换合成，该语音转换合成装置包括一语音分析模组，接收该非特定人语音，将该非特定人语音分帧处理后分为一清音段与一浊音段，其中该清音段为输出至一输出端，而该浊音段被分析为一频谱特征与一韵律信息后输出；一语音识别模组，耦接至该语音分析模组，接收该语音分析模组传来的该频谱特征，用以识别出该频谱特征的一相应语音段所包含的一语音单元序列，且于确定该语音单元序列的一时长后输出；以及一语音合成模组，耦接至该语音识别器与该语音分析模组，接收该韵律信息、该时长与以及该语音单元序列，且根据该语音单元序列、该时长、该韵律信息并利用该语音单元序列相对应的一相应特定人语音单元数据合成一特定人语音后，由该输出端输出该特定人语音。
2.如权利要求1所述的语音转换合成装置，其特征在于，该语音识别模组包括一非特定人语音数据库，用以储存用于该非特定人语音识别的该语音单元序列；以及一语音识别单元，耦接至该非特定人语音数据库，用以于接收到该频谱特征时，至该非特定人语音数据库识别出该频谱特征的该相应语音段所包含的该语音单元序列。
3.如权利要求2所述的语音转换合成装置，其特征在于，该非特定人语音数据库采用一隐马尔可夫模型所建立，且该隐马尔可夫模型由特定人大量的连续语音训练得到。
4.如权利要求1所述的语音转换合成装置，其特征在于，该语音合成模组包括一特定人语音数据库，用以储存与该语音单元序列相对应的该相应特定人语音单元数据；以及一语音合成单元，耦接至该特定人语音数据库，用以于接收到该语音单元序列时，至该特定人语音数据库中识别出与该语音单元序列相对应的该相应特定人语音单元数据。
5.如权利要求4所述的语音转换合成装置，其特征在于，该特定人语音数据库储存至少一特定人的语音资料。
6.如权利要求1所述的语音转换合成装置，其特征在于，该韵律信息包括基音周期与短时能量。
7.如权利要求1所述的语音转换合成装置，其特征在于，将该非特定人语音分帧处理为将一连串的该非特定人语音以一预设时间予以切割。
8.如权利要求1所述的语音转换合成装置，其特征在于，该语音识别模组仅进行语音层的识别，而未进行语义单元的识别。
9.一种语音转换合成方法，包括下列步骤获得一非特定人语音；将该非特定人语音分帧处理，并划分为一清音段与一浊音段；将该浊音段分析后得到一频谱特征与一韵律信息；根据该频谱特征识别出一相应语音段所包含的一语音单元序列，并确定该语音单元序列一时长；以及根据该语音单元序列、该时长、该韵律信息，将该语音单元序列相对应的一相应语音单元数据及该清音段合成一特定人语音后输出。
10.如权利要求9所述的语音转换合成方法，其特征在于，该韵律信息包括基音周期与短时能量。
11.如权利要求9所述的语音转换合成方法，其特征在于，将该非特定人语音分帧处理为将一连串的该非特定人语音以一预设时间予以切割。
全文摘要
本发明提供一种语音转换合成装置及其方法，此装置包括语音分析模组、语音识别模组与语音合成模组。语音分析模组接收并分析非特定人语音，再经过语音识别模组的识别后输出语音单元序列，最后语音合成模组根据语音单元序列将相应特定人语音单元数据合成后输出一特定人语音。语音转换合成方法则根据分析识别的结果，将非特定人语音转换成使用者指定的特定人语音。
文档编号G10L15/00GK1534595SQ03116050
公开日2004年10月6日申请日期2003年3月28日优先权日2003年3月28日
发明者张江安, 张钦申请人:中颖电子(上海)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张江安;张钦
技术所有人：中颖电子〔上海〕有限公司
我是此专利的发明人