音质变换装置、音高变换装置及音质变换方法

文档序号：2818923阅读：317来源：国知局

专利名称：音质变换装置、音高变换装置及音质变换方法
技术领域：
本发明涉及变换输入声音的音质的音质变换装置及变换输入声音的音高的音高变换装置。
背景技术：
近年来，通过声音合成技术的进步，能够制作非常高音质的合成音。但是，在以往的合成音的用途中，将新闻文章用播音员语调朗读等的一律的用途是中心。另一方面，在便携电话的服务等中，提供代替来电音而使用名人的声音消息的服务等，有特征的声音(个人再现性较高的合成音、具有女子高中生风格、或关西方言风格等的特征性的韵律、音质的合成音)开始作为一个内容流通。这样，考虑到为了增加个人间的交流的乐趣、对制作特征性的声音使对方听到的需求会提高。作为以往的声音合成方法，已知有将声音分析、基于分析出的参数将声音合成的分析合成型声音合成方法。在分析合成型声音合成方法中，通过基于声音的生成原理分析声音，将声音信号分离为表示声道信息的参数(以下适当称作“声道信息”)和表示音源信息的参数(以下适当称作“音源信息”)。此外，在分析合成型声音合成方法中，通过将分离的参数分别变形，能够变换合成音的音质。在该声音的分析中，使用称作音源-声道模型的模型。在这样的分析合成型声音合成方法中，对于输入的文章，能够使用具有目标的音质的少量的声音(例如母音声音)仅变换输入声音的说者特征。输入的声音一般保持有自然的时间性的运动，但目标音质的少量声音(孤立母音发声等)不怎么具有时间性的运动。在使用这两种声音进行音质变换的情况下，需要一边保持输入声音具有的时间性的运动(动态特征)、一边进行向目标音质声音具有的说者特征(静态特征)的变换。为了解决该问题，在专利文献1中，关于声道信息，通过在输入声音与目标音质声音之间进行渐变 (morphing)，能够在保持输入声音的动态特征的同时、将目标音质声音的静态特征再现。如果能够在音源信息的变换中实施这样的变换，则能够得到更接近于目标音质的声音。此外，在声音合成技术中，作为生成表示音源信息的音源波形的方法，有使用音源模型的技术。例如，已知有Rosenberg Klatt模型(RK模型)的音源模型(例如参照非专利文献1)。该方法是将音源波形在时间域中模型化、基于模型参数生成音源波形的方法。如果使用RK模型，则通过将模型参数变形，能够灵活地变换音源特征。将通过RK模型在时间域中模型化的音源波形(r)表示在式1中。[数式1]r(n, η) = rc(nTs, η)
权利要求
1.一种音质变换装置，变换输入声音的音质，其特征在于，具备基本频率变换部，计算表示输入声音波形的音源信息的输入音源波形的基本频率、与表示目标声音波形的音源信息的目标音源波形的基本频率的、按照规定的变换比率的加权和，作为变换后的基本频率；低域谱计算部，在与由上述基本频率变换部计算的上述变换后的基本频率对应的边界频率以下的频率带域中，使用作为输入声音的音源谱的输入音源谱及作为目标声音的音源谱的目标音源谱，计算通过按照包括基本波的高次谐波的次数将上述输入音源波形的高次谐波的电平与上述目标音源波形的高次谐波的电平以上述规定的变换比率混合而得到的、以上述变换后的基本频率为基本频率的具有高次谐波的电平的低域的音源谱；高域谱计算部，在比上述边界频率大的频率带域中，通过将上述输入音源谱及上述目标音源谱以上述规定的变换比率混合，计算高域的音源谱；谱结合部，通过将上述低域的音源谱与上述高域的音源谱在上述边界频率处结合，生成全域的音源谱；合成部，使用上述全域的音源谱，将变换后的声音的波形合成。
2.如权利要求1所述的音质变换装置，其特征在于，上述变换后的基本频率越高，上述边界频率设定得越高。
3.如权利要求2所述的音质变换装置，其特征在于，上述边界频率是当(1)是依存于频率的频率带宽、并且存在于相同的频率带宽内的频率相互不同的两个音被人的耳朵作为将该两个音的强度相加的1个音感知的频率带宽即临界带宽的大小、与( 上述变换后的基本频率的大小一致时的、对应于该临界带宽的上述频率。
4.如权利要求1 3中任一项所述的音质变换装置，其特征在于，上述低域谱计算部还保持有用来根据基本频率决定边界频率的规则数据，基于该规则数据决定与由上述基本频率变换部计算的上述变换后的基本频率对应的上述边界频率。
5.如权利要求4所述的音质变换装置，其特征在于，上述规则数据表示频率与临界带宽的关系；上述低域谱计算部基于上述规则数据决定由上述基本频率变换部计算的上述变换后的基本频率的大小与上述临界带宽的大小一致时的、对应于上述临界带宽的频率作为上述边界频率。
6.如权利要求1 5中任一项所述的音质变换装置，其特征在于，上述低域谱计算部在上述边界频率以下的频率带域中，通过按照包括基本波的高次谐波的次数将上述输入音源波形的高次谐波的电平与上述目标音源波形的高次谐波的电平以上述规定的变换比率混合，计算高次谐波的电平，通过用计算出的高次谐波的电平代表基于上述变换后的基本频率计算的高次谐波的频率位置处的上述低域的音源谱的高次谐波的电平，计算上述低域的音源谱。
7.如权利要求6所述的音质变换装置，其特征在于，上述低域谱计算部还在上述边界频率以下的频率带域中，通过将基于上述变换后的基本频率计算的高次谐波的频率位置以外的频率位置处的上述低域的音源谱的电平，使用相邻的高次谐波的频率位置处的上述低域的音源谱的高次谐波的电平插补，计算上述低域的音源谱。
8.如权利要求1 5中任一项所述的音质变换装置，其特征在于，上述低域谱计算部在上述边界频率以下的频率带域中，通过变换上述输入音源谱及上述目标音源谱以使上述输入音源波形及上述目标音源波形的各自基本频率与上述变换后的基本频率一致、将变换后的输入音源谱及变换后的输出音源谱以上述规定的变换比率混合，计算上述低域的音源谱。
9.如权利要求1 8中任一项所述的音质变换装置，其特征在于，上述高域谱计算部在比上述边界频率大的频率带域中，通过计算上述输入音源谱的谱包络与上述目标音源谱的谱包络的、基于上述规定的变换比率的加权和，计算上述高域的音源谱。
10.如权利要求9所述的音质变换装置，其特征在于，还具备音源谱计算部，所述音源谱计算部根据对上述输入音源波形乘以第1窗函数后的波形及对上述目标音源波形乘以第2窗函数后的谱包络。
11.如权利要求10所述的音质变换装置，其特征在于，上述第1窗函数是上述输入音源波形的基本频率的2倍的长度的窗函数；上述第2窗函数是上述目标音源波形的基本频率的2倍的长度的窗函数。
12.如权利要求1 8中任一项所述的音质变换装置，其特征在于，上述高域谱计算部在比上述边界频率大的频率带域中，计算上述输入音源谱的谱倾斜与上述目标音源谱的谱倾斜的差，通过基于计算出的该差变换上述输入音源谱，计算上述高域的音源谱。
13.如权利要求1 12中任一项所述的音质变换装置，其特征在于，上述输入声音波形及上述目标声音波形是相同的音素的声音波形。
14.如权利要求13所述的音质变换装置，其特征在于，上述输入声音波形及上述目标声音波形是相同的音素的音源波形，并且是上述相同的音素内的相同的时间上的位置处的声音波形。
15.如权利要求1 14中任一项所述的音质变换装置，其特征在于，还具备基本频率计算部，所述基本频率计算部对上述输入音源波形及上述目标音源波形分别提取以音源波形的基本周期间隔重复出现的特征点、根据所提取的特征点的时间上的间隔分别计算上述输入音源波形及上述目标音源波形的基本频率。
16.如权利要求15所述的音质变换装置，其特征在于，上述特征点是声门闭锁点。
17.一种音高变换装置，变换输入声音的音高，其特征在于，具备音源谱计算部，基于表示输入声音的音源信息的输入音源波形，计算作为输入声音的音源谱的输入音源谱；基本频率计算部，基于上述输入音源波形计算上述输入音源波形的基本频率；低域谱计算部，在与规定的目标基本频率对应的边界频率以下的频率带域中，通过变换上述输入音源谱、以使上述输入音源波形的基本频率与上述规定的目标基本频率一致、并且在变换的前后包括基本波的高次谐波的电平相等，来计算低域的音源谱；谱结合部，通过将上述低域的音源谱、和比上述边界频率大的频率带域中的上述输入音源谱在上述边界频率处结合，生成全域的音源谱；以及合成部，使用上述全域的音源谱将变换后的声音的波形合成。
18.一种音质变换装置，变换输入声音的音质，其特征在于，具备音源谱计算部，基于表示输入声音的音源信息的输入音源波形，计算作为输入声音的音源谱的输入音源谱；基本频率计算部，基于上述输入音源波形计算上述输入音源波形的基本频率；电平比决定部，参照表示声门开放率、和第1高次谐波的电平与第2高次谐波的电平的比的关系的数据，决定与规定的声门开放率对应的第1高次谐波的电平与第2高次谐波的电平的比；谱生成部，通过将上述输入音源波形的第1高次谐波的电平变换、以使基于上述输入音源波形的基本频率决定的上述输入音源波形的第1高次谐波的电平与第2高次谐波的电平的比与由上述电平比决定部决定的上述比一致，生成变换后的声音的音源谱；以及合成部，使用上述谱生成部生成的上述音源谱，将上述变换后的声音的波形合成。
19.一种音质变换方法，变换输入声音的音质，其特征在于，包括基本频率变换步骤，计算表示输入声音波形的音源信息的输入音源波形的基本频率、与表示目标声音波形的音源信息的目标音源波形的基本频率的、按照规定的变换比率的加权和，作为变换后的基本频率；低域谱计算步骤，在与在上述基本频率变换步骤中计算的上述变换后的基本频率对应的边界频率以下的频率带域中，使用作为输入声音的音源谱的输入音源谱及作为目标声音的音源谱的目标音源谱，计算通过按照包括基本波的高次谐波的次数将上述输入音源波形的高次谐波的电平与上述目标音源波形的高次谐波的电平以上述规定的变换比率混合而得到的、以上述变换后的基本频率为基本频率的具有高次谐波的电平的低域的音源谱；高域谱计算步骤，在比上述边界频率大的频率带域中，通过将上述输入音源谱及上述目标音源谱以上述规定的变换比率混合，计算高域的音源谱；谱结合步骤，通过将上述低域的音源谱与上述高域的音源谱在上述边界频率处结合，生成全域的音源谱；以及合成步骤，使用上述全域的音源谱，将变换后的声音的波形合成。
20.一种程序，变换输入声音的音质，其特征在于，使计算机执行基本频率变换步骤，计算表示输入声音波形的音源信息的输入音源波形的基本频率、与表示目标声音波形的音源信息的目标音源波形的基本频率的、按照规定的变换比率的加权和，作为变换后的基本频率；低域谱计算步骤，在与在上述基本频率变换步骤中计算的上述变换后的基本频率对应的边界频率以下的频率带域中，使用作为输入声音的音源谱的输入音源谱及作为目标声音的音源谱的目标音源谱，计算通过按照包括基本波的高次谐波的次数将上述输入音源波形的高次谐波的电平与上述目标音源波形的高次谐波的电平以上述规定的变换比率混合而得到的、以上述变换后的基本频率为基本频率的具有高次谐波的电平的低域的音源谱；高域谱计算步骤，在比上述边界频率大的频率带域中，通过将上述输入音源谱及上述目标音源谱以上述规定的变换比率混合，计算高域的音源谱；谱结合步骤，通过将上述低域的音源谱与上述高域的音源谱在上述边界频率处结合，生成全域的音源谱；以及合成步骤，使用上述全域的音源谱，将变换后的声音的波形合成。
全文摘要
具备低域高次谐波电平计算部(202a、202b)及高次谐波电平混合部(203)，在边界频率以下的频率带域中，使用输入音源谱及目标音源谱，计算通过将安装包括基本波的高次谐波的次数将输入音源波形的高次谐波的电平与目标音源波形的高次谐波的电平以规定的变换比率混合而得到的、以变换后的基本频率为基本频率的具有高次谐波的电平的低域的音源谱；高域谱包络混合部(204)，在比边界频率大的频率带域中，通过将输入音源谱及目标音源谱以规定的变换比率混合，来计算高域的音源谱；谱结合部(205)，通过将低域的音源谱和高域的音源谱在边界频率中结合，生成全域的音源谱。
文档编号G10L21/04GK102227770SQ201080003378
公开日2011年10月26日申请日期2010年7月5日优先权日2009年7月6日
发明者广濑良文, 釜井孝浩申请人:松下电器产业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：广濑良文
技术所有人：松下电器产业株式会社
我是此专利的发明人