音乐修改语音信号的方法及装置的制作方法

文档序号:2837705阅读:475来源:国知局
专利名称:音乐修改语音信号的方法及装置的制作方法
技术领域
一般地说,本发明涉及用另一个音频流来调制某个音频流,更具体地说,涉及语音编码方法,在这种方法中,语音信号被用来调制一串周期音(periodic tone)。
背景技术
用另一种表示周期音的音频流对表示语音数据的音频流进行的调制被用来建立合成音乐和某些声音效果。这种调制技术通常被称作语音编码,用于对语音进行语音编码的装置称作语音编码器或相位语音编码器。术语语音编码器来源于语音编码。开发相位编码器的初衷是为了减少通过电话线或其它语音信号传输媒体传送语音所需的数据量。为此,语音编码器提取音调(pitch)和语音信息,以便对语音进行时间压缩,并且相位语音编码器可以被看作是一系列的带通滤波器,各个带通滤波器均具有一个中心频率。通过带通滤波处理,语音信号被减少为一系列带有中心频率的信号段。
在老式电话机中,用于通知呼入的振铃音通常由振铃器反复击打一个或两个电铃来产生。在移动电话中,振铃音由电子蜂鸣器产生,其中,电子蜂鸣器根据表示一系列乐音(musical tone)的数据流中的值来产生给定频率的音调。同样地,在电子组织者(electronic organizer)或诸如Palm Pilot的个人数字助理中,嘟嘟声被用来提醒用户有关安排事件或用户所请示任务的完成。
美国专利No.5452354(Kyronlahti等人)公开了一种振铃音装置,其中,用户识别信息被用来产生振铃音。根据Kyronlahti等人所公开的专利,可以根据诸如移动台识别号(MSIN)、移动识别号(MIN)等的用户识别号的两个或两个以上二进制数字来产生振铃音。例如,如果所述识别MSIN的最低位被描述为一串11个的二进制数字,D10-D9-D8-D7-D6-D5-D4-D3-D2-D1-D0,这些数字串可以按以下方法用来指定产生振铃音所需的参数D1和D0用来确定各振铃音脉冲的持续时间;D3和D2用来确定振铃音脉冲的频率;D5和D4用来确定一个脉冲序列中的脉冲数;D7和D6用来确定振铃音中要重复的序列数量;D10、D9以及D8用来确定脉冲序列之间的无声周期。尽管该音生成方法有助于为不同的用户产生不同的振铃音,但振铃音与合成的或是自然的语音数据都毫无关联。日本专利No.JP05346787(Nakae Tetsukazu)公开了一种方法,这种方法从数字语音信号中提取音调数据并根据该音调数据产生数字音乐声。数字语音信号和数字音乐被传送给语音编码器,以便产生生成包络线信号的音乐声信号和语音信号。最后,用该包络线信号来调制声音信号,以便将人声加入到音乐声中。对于大多数语言来说,根据音调变化,所谓的音乐声被限于一个或两个音符(note)。例如,在象“I am Bond,James Bond”这句话中,没有太多音调变化,所产生的音乐声信号听起来可能就象EEE_EE。美国专利No.5826064(Loring等人)公开了一种用户可配置的earcon事件引擎,其中,响应由计算机系统中执行的任务所发出的命令信息来提供听觉提示。根据所公开的专利,命令消息包括对earcon数据文件的索引,而该索引又包括对操作音频波声音参数的音频文件和音频参数的参考。但是,音频波没有语音内容。
提供一种用于用语音信号来修改表示乐音的载体流的方法和装置是具有优势而且是所需的,其中,可以利用许多乐音,而不管语音信号中的音调变化。

发明内容
本发明的第一方面是一种用于对表示具有多个音节(syllable)的语音数据流的语音信号进行修改的方法。该方法包括以下步骤
根据有关音节的预定规则,将来自语音信号的语音数据流映射到音数据流,用于提供表示音数据流的音信号;响应音信号,形成一串音符,用于提供表示音符串的载体信号;用语音信号对载体信号进行调制,用于提供调制信号;以及提供根据预定规则进行了音乐修改的表示语音信号的可听信号。
预定规则最好包括用于根据音节元音、音节辅音或音节声调(intonation)将一个、两个或两个以上音符分配给语音数据的音节的语言学规则。
也可以根据音节的元音、辅音和/或语将一个、两个或两个以上音符调分配给语音数据的音节。
可以将音色(timbre)、节奏(tempo)和/或音调范围分配给音符。
最好是,响应电话上的电话呼入而提供语音信号,并且可听信号表示所述电话呼入。
最好是,响应电话或通信装置上的消息来提供语音信号,并且可听信号表示所述消息。
最好是,响应个人数字助理装置中的安排事件来提供语音信号,并且可听信号是表示所述安排。
最好是,提供语音信号以指示有关电子装置的用户界面事件,其中,用户界面事件可以由基于分层结构的电子装置中的对象来表示,并且预定规则是以分层结构中对象的位置为基础的。
本发明的第二方面是一种用于对表示具有多个音节的语音数据流的语音信号进行修改的装置。该装置包括映射装置,用于响应语音信号,根据有关音节的预定规则将音节映射为音数据流,并用于提供表示音数据流的音信号;形成装置,用于响应音信号,根据音数据流来提供音符串,并用于提供表示音符串的载体信号;
调制装置,用于响应载体信号,用语音信号对载体信号进行调制,并用于提供表示该调制的经修改的语音信号;以及声音产生装置,用于响应经修改的语音信号,提供根据预定规则进行了音乐修改的表示语音信号的可听信号。
最好是,经修改的语音信号还结合未修改的语音信号,以便调整可听信号中的音乐内容。
最好是,调制装置是相位语音编码器,并且该调制按照语音编码处理。
通过阅读结合图1至5的说明,本发明将变得明显。


图1是说明根据本发明的用于修改语音信号的方法的流程图。
图2是说明根据本发明最佳实施例的用于修改语音信号的装置的方框图。
图3是说明语音信号修改装置的另一个实施例的方框图。
图4是说明一种电话或通信装置的示意图,其中经修改的语音信号被用来表示电话呼入。
图5是说明一种电子组织者或个人数字助理装置的示意图,其中经修改的语音信号被用来提醒用户有关即将来临的事件。
具体实施例方式
不是在电话中产生与被叫方的用户无关的振铃音,而是有利地提供进行了音乐修改的语音信号来通知电话呼入或提醒用户有关被叫方的留言。例如,可以提供来源于用户名称或电话呼入的被叫方名称的进行了音乐修改的语音信号。在某些语言中,例如意大利语、西班牙语以及日本语,诸如Giacomo Puccini、Pablo Picasso及Akira Kurosawa的人名可以用一串音节来表示为GIA-CO-MO_PUC-CI-NI、PA-BLO_PI-CAS-SO及A-KI-RA_KU-RO-SA-WA。这些音节串可以根据基于各音节中元音、辅音或元音和辅音的组合的简单规则被处理成一串进行了音乐修改的语音数据。尤其是日本语的单词和音节由假名符号组成。假名符号使得更易于将音节分配给音符,以便生成一串表示音节的音符。例如,元音a、i、u、e、o可以映射为五个音符,即C、D、E、G、A,如表I所示。

表I-元音作为音的决定要素这样,如果音节包括元音‘u’,如在‘ku’、‘tsu’等中,则被分配音符E。按照这个语言学规则,可以得到Fumiko Ichikawa(FU-MI-KO_I-CHI-KA-WA)=EDA_DDCCAkira Kurosawa(A-KI-RA_KU-RO-SA-WA)=CDC_EACCYukio Mishima(YU-KI-O_MI-SHI-MA)=EDA_DDC符号‘_’表示停顿,其长度可以处理成等于或不同于音符的长度。采用同样的规则,象“I-AM-BOND_JAMES-BOND”这样的一串音节可以被映射为一串象DCA_CA的音符。
同样,语言学规则可以根据音节的辅音来设置。例如,音符C可以分配给‘ka’、‘ki’、‘ku’、‘ke’、‘ko’,A可以分配给‘na’、‘ni’、‘nu’、‘ne’、‘no’,如表II所示。

表II-辅音作为音的决定要素应该指出,‘n’被移动到第二行,C2表示比C高八度音。要使用辅音作为音的决定因素,两个八度音的音范围足够。按照表II所提出的语言学规则,可以得到Fumiko Ichikawa(FU-MI-KO_I-CHI-KA-WA)=C2D2D_CGDA2Akira Kurosawa(A-KI-RA_KU-RO-SA-WA)=CDG2_DG2EA2Yukio Mishima(YU-KI-O_MI-SHI-MA)=E2DA2_D2ED2但是,在许多西方语言中,音节中可能有太多不同的辅音和多辅音,诸如pr、pl、tr、chr以及spl,要被映射为两个或三个八度音中的音符。可以使用类似于表III所提出的语言学规则。象表I和表II所提出的语言学规则是基于五音阶的单音实现。表III说明一种规则,它基于主要的西方辅音音阶和元音五音(the majorWestern scale for consonants and pentatonic for vowels)的多音实现。

表III-采用元音和辅音的多音实现按照表III所提出的语言学规则,可以得到Fumiko Ichikawa(FU-MI-KO_I-CHI-KA-WA)=C2D2D_CGDA2E D A_DDCCAkira Kurosawa(A-KI-RA_KU-RO-SA-WA)=CDG2_DG2EA2CDC_EA C CYukio Mishima(YU-KI-O_MI-SHI-MA)=E2DA2_D2ED2E D A_D D C此外,浊音/清音(nigori/maru)以及复合假名字符可以被映射到该系统中最接近的等效音节,或者可以被指定其自己的音符。另外,当按照一种规则(例如元音规则)来源于某个名称的一串音符听起来太单调时,可以用利用另一种规则(如辅音规则)的一串音符来进行替换。Nigori符号(ga、gi、gu、ge、go)、(za、ji、zu、ze、zo)、(da、ji、du、de、do)及(ba、bi、bu、be、bo)分别来自上档字符(ka、ki、ku、ke、ko)、(sa、shi、su、se、so)、(ta、chi、tzu、te、to)及(ha、hi、fu、he、ho)。当它们与其它词组合而成为复合词时,派生出这些词的字符就被浊化。例如,hana(鼻子)加上chi(血)组合成hanaji,字符chi就被浊化。当看作是复合词中的音节时,nigori符号在必要时可以被映射到与派生出它们的字符相同的音符。同样,maru符号(pa、pi、pu、pe、po)可以被映射到与派生出它们的(ta、chi、tzu、te、to)的上档字符相同的音符。对于下档复合字符kya、kyu、kyo、gya、gyu、gyo、cha等,它们可以被映射到系统中最接近的等效音节,但它们可以具有不同的速度或时长(time stretch)。例如,ki和kya可以被映射到同样的音符,但具有不同音长或不同音色。另一个符号,下档字符tsu,当位于辅音之前时,使紧接其后那个辅音加倍。例如,将tsu放在ka前面时,ka被延长为kka。因此,kka可以被映射到与ka同样的音符,但具有较长音长。
在诸如汉语和越南语的语言中,许多声调被用来修改单音节字的发音。汉语普通话中,四种声调被用来修改发音,这里用下标1、2、3及4来表示这些声调。例如,用于‘ba’的不同音是ba1(八),ba2(拔),ba3(靶),ba4(坝)这样就能够将诸如C、D、G、A四个不同的乐声分配给声调1、2、3、4,如表IV所示


表IV-声调作为音的决定因素按照本语言学规则,分配给已故日本作家Yukio Mishima的汉语发音的音符是san1dao3_you2ji4fu1=CG_DAC采用上述规则,就可以在各种语言中按照音节的元音、辅音或声调将音符分配给语音信号中的音节。
应该指出,在诸如电话的通信装置中,当使用合成语音来进行通知时,语音信号可以只是具有许多音节的语音数据流。可以根据所选的语言学规则从这些音节形成音符流。音符流随后便可以被用作载体流,以便音乐修改语音数据流。进行了音乐修改的语音数据可以传送给声音生成装置来产生可听信号。同样,语音内容被转换成音乐形式。根据语音数据的性质,进行了音乐修改的语音数据可以或可以不相似于所述语音信号。这样,可以将进行了音乐修改的语音数据与未修改的语音数据进行混合。混合部分可以被调整,使所得到的声音听起来像具有某种音乐特征混合的语音。
如上所述,语言学规则还可以被用于电子装置中提供指示用户界面(UI)事件的可听提示。在诸如计算机的电子装置中的UI事件通常由对象或图标来表示。根据本发明,UI对象或图标还由听觉图标来表示,使电子装置的用户可以采用可听提示来接收有关UI事件的通知。例如,用于电子邮件到达的可听图标可以由进行了音乐修改的音节“mes-sa-ges”来表示。可以根据元音、辅音或音节声调向上述音节分配音符。同样,“回复消息”的UI事件可以由进行了音乐修改的音节“re-ply-to-mes-sage’来表示。应该指出,装置UI中的对象可以按分层方式进行分类。例如,UI事件的分层结构表示该事件是否与文件夹、文件或文件在文件清单中的位置有关。装置UI中对象的划分和安排还可以由音色、速度及音调范围来表示。音色是模仿钢琴、英国管、长笛等声音的音色。速度是各个进行了音乐修改的音节的时间或音长的量度。表V列出了表示UI事件可听提示的几个示例,其中音符根据音节声调被分配给音节。

表V根据分层结构层次的速度及音调范围分配因此,经过语音编码的最终结果如下Messages(消息)(MES-SA-GES)=G2E2C2Calendar(日历)(CAL-END-AR)=A2D2F#2Inbox(收件箱){Messages(消息)}(MES-SA-GES_IN-BOX)=E3C3G2_C3C3View day notes(查看每日备注){Calendar(日历)}(VIEW_DAY_NOTES)=F#3_D3_A2Delete the note(删除备注)(DEL-ETE_THE_NOTE)=B3A3_F#3_D3在上述示例中,每个UI事件的音乐形式均被设计,使音符与口述内容的音节数量一样。应该指出,虽然音符向一串音节的映射由某种语言学规则来预定,然而对装置UI的对象的音调范围、音色以及速度的指定具有或多或少的任意性。较多的是设计的问题。
图1中概述了根据本发明的用于音乐修改语音信号的方法1。如图所示,在步骤2,语音信号被编成一串音节。在步骤4,使用所选语言学规则把这串音节映射为一串音数据。在步骤6,这串音数据被转换成音符的载体流。在步骤8,音符的载体流任选地被修改以包括表示乐器声音的音色。在步骤10,用语音信号调制载体流,以便产生进行了音乐修改的语音信号。在步骤12,进行了音乐修改的语音信号任选地与未修改的语音信号进行组合,以便调整语音信号中音乐内容量。应该知道,所产生的信号可以是完全进行了音乐修改的语音信号、或者是完全未修改的语音、或者是介于两者之间。在步骤14,所产生的信号被传送给声音生成装置,以便产生可听信号。
图2说明根据本发明最佳实施例的用于音乐修改语音信号110的装置20。如图2所示,当一串语音数据100由电话引擎或数据处理器(参见图3和4)提供给语音合成器22时,语音合成器22产生表示语音数据100的语音信号110。语音数据100通常包含一串音节。映射装置30被用来根据语言学规则32将语音数据100映射成一串音数据112。音合成器40被用来将这串音数据112转换成载体信号114。音合成器40可以包括这样一种装置用于将音色包含到载体信号114,使载体信号114具有所选乐器的音色。如果载体信号114被馈送到声音生成装置60产生可听信号,则该可听信号是一串由所选乐器演奏的音符。但是,根据本发明,在调制器50中用语音信号110调制载体信号114,以便产生进行了音乐修改的语音信号120。基于进行了音乐修改的语音信号120,声音生成装置60产生可听信号122,该可听信号具有类似说话的特征及音乐特征这两种特征。在这方面,由包含一串音符的载体信号对语音信号的修改在某种程度上与语音编码处理相关,并且可听信号122可称为语音编码的信号。因此,调制器50可以是相位语音编码器。
可听信号122听起来与语音相似的程度取决于多种因素。它可能取决于语言本身,或取决于语言学规则(表I至表V等)。这样,最好是调整音乐修改量使得可听信号122可以更象语音而不是音乐。图3说明根据本发明的用于音乐修改语音信号100的装置20’的另一个实施例。如图所示,进行了音乐修改的语音信号120在被馈送到声音生成装置60之前被传送给开关56。进行了音乐修改的语音信号120可以与未修改的语音信号110在混合器52中进行组合,以便产生混合信号116,该混合信号被传送给开关56。此外,未修改的语音信号110也被传送到开关56,使用户可以在信号110、116或120中选择一个信号用于产生可听信号122’。使用开关56,用户可以选择从完全修改的语音信号120、部分修改的语音信号116或者未修改的语音信号110生成的可听信号122’。所选的语音信号用标号120’来表示。
可听信号122可以以多种不同的方式来使用。图4和5说明两个示例。图4说明具有信息显示区212的移动电话202。例如,显示区212可用来显示呼入的主叫方名称和电话号码222。接收呼入时,电话引擎232产生一串语音数据100,以此为基础,装置20(或20’)产生信号120(或120’)。喇叭60产生的可听信号122(或122’)可用作例如振铃音来通知有呼入。可听信号122还可用来通知电话用户有关主叫方的留言,或者在完成电话簿内容搜索时通知用户。
图5说明电子组织者或个人数字助理(PDA)204,它也具有信息显示区204。众所周知,个人数字助理可用作通讯簿、预约簿及用于各种组织功能的信息存储器。当PDA 204被用来记录一个或多个安排事件时,在安排事件到期或接近时,PDA 204可以产生可听信号122来通知用户有关即将发生的安排事件,或者指示安排事件或备注已从日历中删除。如图所示,安排事件224由数据处理器234提供给显示器214。同时,数据处理器234产生一串语音数据100,以此为基础,装置20(或20’)产生信号120(或120’)。当PDA 204也被用来发送和接收电子邮件消息时,可听信号122可用来通知用户PDA 204收到消息。可听信号122还可用来指示回复或删除消息。
如图4和5所示,经语音编码的信号或可听信号122可用于多种用途。可听信号122可以指示主叫方名称、电话用户或事件。用来指示消息的可听信号122可以不同于用来指示呼入的可听信号122。可听信号122可以随时间有所不同。有许多不同于如上所述的语言学规则。例如,可以将元音、辅音以及声调组合在一个规则中。可以将两个音符分配给一个音节(例如,FU-MI-KO_I-CHI-KA-WA=CE-BD-FA_BD-BD-AC-AC)。也可以用多个不同方式来改变音符的音长。
这样,尽管就本发明的最佳实施例对本发明进行了说明,然而本领域技术人员知道,在不脱离本发明的精神和范围下,可以在形式和细节上作出上述及各种其它的改变、省略及偏离。
权利要求
1.一种用于对表示具有多个音节的语音数据流的语音信号进行修改的方法,它包括以下步骤根据有关所述音节的预定规则,将来自所述语音信号的所述语音数据流映射成音数据流,用于提供表示所述音数据流的音信号;响应所述音信号,形成一串音符,用于提供表示所述音符串的载体信号;用所述语音信号对所述载体信号进行调制,用于提供调制信号;以及提供按照根据所述预定规则进行了音乐修改的修改信号的、表示所述语音信号的可听信号。
2.权利要求1的方法,其特征在于所述预定规则包括根据所述音节的元音将至少一个音分配给所述语音数据的一个音节。
3.权利要求1的方法,其特征在于所述预定规则包括根据所述音节的辅音将至少一个音分配给所述语音数据的一个音节。
4.权利要求1的方法,其特征在于所述预定规则包括根据所述音节的声调将至少一个音分配给所述语音数据的一个音节。
5.权利要求1的方法,其特征在于所述预定规则包括根据所述音节的元音和辅音的组合将至少一个音分配给所述语音数据的一个音节。
6.权利要求1的方法,其特征在于所述预定规则包括将速度(tempo)分配给所述音符。
7.权利要求1的方法,其特征在于所述预定规则包括将音色分配给表示乐器的所述载体信号。
8.权利要求1的方法,其特征在于所述预定规则包括基于所述语音数据的语言的语言学规则。
9.权利要求1的方法,其特征在于响应电话上的电话呼入而提供所述语音信号,并且所述可听信号表示所述电话呼入。
10.权利要求1的方法,其特征在于响应电话或通信装置上的消息而提供所述语音信号,并且所述可听信号表示所述消息。
11.权利要求1的方法,其特征在于响应个人数字助理装置中的安排事件而提供所述语音信号,并且所述可听信号表示所述安排事件。
12.权利要求1的方法,其特征在于响应用户对电话簿内容的搜索而提供所述语音信号,并且所述可听信号表示完成所述搜索。
13.权利要求1的方法,其特征在于响应电子装置中的用户界面事件而提供所述语音信号,并且所述可听信号表示所述用户界面事件。
14.权利要求1的方法,其特征在于响应电子装置中的用户界面事件而提供所述语音信号,其中所述用户界面事件是根据所述电子装置中位置的分层结构来布置的,并且所述预定规则根据所述分层结构中所述用户界面事件的位置来音乐修改所述语音信号。
15.权利要求14的方法,其特征在于所述预定规则包括根据所述分层结构中所述用户界面的位置将音色分配给所述载体信号。
16.权利要求14的方法,其特征在于所述预定规则包括根据所述分层结构中所述用户界面的位置将音调范围分配给所述载体信号。
17.一种用于对表示具有多个音节的语音数据流的语音信号进行修改的装置,它包括映射装置,用于响应所述语音信号而根据有关所述音节的预定规则将所述音节映射为音数据流,并用于提供表示所述音数据流的音信号;形成装置,用于响应所述音信号而根据所述音数据流来提供音符串,并用于提供表示所述音符串的载体信号;调制装置,用于响应所述载体信号而用所述语音信号对所述载体信号进行调制,并用于提供表示所述调制的经修改的语音信号;以及声音生成装置,用于响应所述经修改的语音信号而提供根据所述预定规则进行了音乐修改的表示所述语音信号的可听信号。
18.权利要求17的装置,其特征在于所述预定规则包括基于所述语音数据的语言的语言学规则。
19.权利要求17的装置,其特征在于所述语音数据表示用户界面。
20.一种电子装置,它包括生成装置,用于响应用户界面事件而提供表示所述用户界面事件的语音信号,其中所述语音信号包括具有多个音节的语音数据流;映射装置,用于响应所述语音信号而根据有关所述音节的预定规则来将所述音节映射成音数据流,并用于提供表示所述音数据流的音信号;形成装置,用于响应所述音信号而根据所述音数据流来提供一串音符,并用于提供表示所述音符串的载体信号;调制装置,用于响应所述载体信号而用所述语音信号对所述载体信号进行调制,并用于提供表示所述调制的经修改的语音信号;以及声音生成装置,用于响应所述经修改的语音信号而提供根据所述预定规则进行了音乐修改的表示所述语音信号的可听信号。
21.权利要求20的电子装置,其特征在于所述用户界面事件包括使用所述电子装置的电话呼入。
22.权利要求20的电子装置,其特征在于所述用户界面事件包括使用所述电子装置的电话呼入,并且所述可听信号表示所述电话呼叫。
23.权利要求20的电子装置,其特征在于所述用户界面事件包括所述电子装置接收的消息,并且所述可听信号表示所述消息的接收。
24.权利要求20的电子装置,其特征在于所述用户界面事件包括所述电子装置接收的消息,并且所述可听信号表示所述消息的删除。
25.权利要求20的电子装置,其特征在于所述用户界面事件包括日历中的安排事件,并且所述可听信号表示所述安排事件。
26.权利要求20的电子装置,其特征在于所述用户界面事件包括日历中的安排事件,并且所述可听信号表示所述日历中所述安排事件的项目(entry)。
27.权利要求20的电子装置,其特征在于所述用户界面事件包括日历中的安排事件,并且所述可听信号表示从所述日历中删除所述安排事件。
全文摘要
一种用于对表示具有多个音节的语音数据流的语音信号进行修改的方法和装置。该方法包括以下步骤:根据有关音节的语言学规则,将来自语音信号的语音数据流映射成音数据流,用于提供表示音数据流的音信号;响应音信号,形成一串音符,用于提供表示音符串的载体信号;用语音信号对载体信号进行调制,用于提供调制信号;以及提供根据语言学规则进行了音乐修改的表示语音信号的可听信号。语言学规则包括根据音节的元音、音节的辅音以及单音节语言的音节的声调将音分配给语音数据的音节。进行了音乐修改的语音信号可用来指示电话呼入、电话留言、安排事件等。
文档编号G10H1/053GK1353413SQ01137428
公开日2002年6月12日 申请日期2001年11月6日 优先权日2000年11月6日
发明者J·马里拉, S·龙凯南, M·罗伊克基, F·伊奇卡瓦 申请人:诺基亚有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1