多语种混语文本字音转换方法及系统的制作方法

文档序号:10625456阅读:289来源:国知局
多语种混语文本字音转换方法及系统的制作方法
【专利摘要】本发明公开了一种多语种混语文本字音转换方法及系统,该方法包括:接收待处理多语种混语文本;确定所述混语文本中的主语种文本及次语种文本;采用统一发音符号对所述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列;修正所述次语种文本语音符号序列的韵律;连接所述主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文本语音符号序列。利用本发明,可以使主语种文本语音符号序列和次语种文本语音符号序列连接处的韵律感更平稳。
【专利说明】
多语种混语文本字音转换方法及系统
技术领域
[0001] 本发明设及自然语言处理领域,具体设及一种多语种混语文本字音转换方法及系 统。
【背景技术】
[0002] 随着世界经济、文化交流的日益增多,W及互联网技术的高速发展,全球信息化程 度迅速提高,进而产生大量新词、新术语。然而,并不是所有语种都可W完全表达所有新词、 新术语。因此,在一个语种文本中经常会出现其它语种的文本,即混语文本,如"APEC成立 于1989年","Microsoft Office是微软公司开发的一套办公软件"等中文中混有英文文 本的情况。一般混语文本的主语种是预先确定的,所述主语种文本占据混语文本的主要内 容,非主语种的文本称为次语种文本。由于不同语种在声学层面有很大区别,如主语种为中 文,次语种为英文时,中文词由单音节字组成,每个音节都有声调,所述声调表示基频高低 变化;英文词音节个数为一个或多个,词内重音落在其中一个音节上,所述重音表示声强大 小变化。因此,混语文本的字音转换必须考虑主语种与次语种连接处韵律的平稳性。而现 有的混语文本字音转换方法一般是针对混语文本中每个语种使用各自的字音转换方法,即 主语种使用主语种字音转换方法,次语种使用次语种字音转换方法,最后将主、次语种字音 转换后的语音符号序列相连接得到混语文本字音转换后的语音符号序列。显然现有方法容 易造成混语文本中主语种和次语种连接处的韵律感较差,韵律不平稳的现象,从而降低应 用效果。如混语文本的拼接语音合成系统中,主语种和次语种的合成语音段拼接处容易出 现韵律平稳性较差,韵律变化较突兀的现象,严重影响混语文本合成语音的自然度。因此, 如何对混语文本进行字音转换,使得到的语音符号序列在主语种和次语种连接处的韵律更 加平稳成为研究人员的重要研究任务。

【发明内容】

[0003] 本发明实施例提供一种多语种混语文本字音转换方法及系统,W使主语种文本语 音符号序列和次语种文本语音符号序列连接处的韵律感更平稳。
[0004] 为此,本发明实施例提供如下技术方案: 阳〇化]一种多语种混语文本字音转换方法,包括:
[0006] 接收待处理多语种混语文本;
[0007] 确定所述混语文本中的主语种文本及次语种文本;
[0008] 采用统一发音符号对所述混语文本中的主语种文本和次语种文本分别进行字音 转换,得到主语种文本语音符号序列和次语种文本语音符号序列; 阳009] 修正所述次语种文本语音符号序列的韵律;
[0010] 连接所述主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混 语文本语音符号序列。
[0011] 优选地,所述确定所述混语文本中的主语种文本及次语种文本包括:
[0012] 根据各语种词典或通过字符编码确定当前文本是主语种文本还是次语种文本。
[0013] 优选地,所述修正所述次语种文本语音符号序列的韵律包括W下任意一种或多种 修正:
[0014] 对主语种缺失的次语种发音符号的发音进行修正;
[0015] 对次语种音节结构进行修正;
[0016] 对次语种韵律特征进行修正。
[0017] 优选地,所述对主语种缺失的次语种发音符号的发音进行修正包括:
[0018] 将所述次语种发音符号映射为主语种发音最相近的发音符号;或者
[0019] 对主语种缺失的次语种发音符号进行录音。
[0020] 优选地,所述对次语种音节结构进行修正包括:
[0021] 对于次语种中的音节结构Ci$V$Ct,。为辅音头,V为元音核,C t为辅音尾,如果次 语种音节结构Ci$V$Ct中的Ci和Ct在主语种中不出现,则根据主语种辅音头集合{CJ和辅 音尾集合{Ct},将次语种Ci$V$Ct拆分为两个或多个音节。
[0022] 优选地,所述对次语种韵律特征进行修正包括W下任意一种或多种:
[0023] 如果主语种和次语种均为音素语言,则取消次语种重音,然后按主语种规则或者 主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置;
[0024] 如果主语种和次语种均为音节语言,则取消次语种声调,用和主语种声调曲线图 最接近的声调符号设置音节声调;
[00巧]如果主语种为音素语言,次语种为音节语言,则取消次语种声调,按主语种规则或 者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置;
[00%] 如果主语种为音节语言,次语种为音素语言,则对次语种重音音节按照主语种降 调声调处理,对次语种非重音音节按照主语种平调声调处理。
[0027] 一种多语种混语文本字音转换系统,包括:
[0028] 接收模块,用于接收待处理多语种混语文本;
[0029] 语种确定模块,用于确定所述混语文本中的主语种文本及次语种文本;
[0030] 字音转换模块,用于采用统一发音符号对所述混语文本中的主语种文本和次语种 文本分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列;
[0031] 修正模块,用于修正所述次语种文本语音符号序列的韵律;
[0032] 输出模块,用于连接所述主语种文本语音符号序列及修正后的次语种文本语音符 号序列,得到混语文本语音符号序列。
[0033] 优选地,所述语种确定模块,具体用于根据各语种词典或通过字符编码确定当前 文本是主语种文本还是次语种文本。
[0034] 优选地,所述修正模块包括W下任意一个或多个单元:
[0035] 发音修正单元,用于对主语种缺失的次语种发音符号的发音进行修正;
[0036] 音节结构修正单元,用于对次语种音节结构进行修正;
[0037] 韵律特征修正单元,用于对次语种韵律特征进行修正。
[0038] 优选地,所述发音修正单元,具体用于将所述次语种发音符号映射为主语种发音 最相近的发音符号;或者对主语种缺失的次语种发音符号进行录音。
[0039] 优选地,所述音节结构修正单元,具体用于对于次语种中的音节结构Ci$V$Ct,Ci为 辅音头,V为元音核,Ct为辅音尾,如果次语种音节结构c i$v$Ct中的c 1和c t在主语种中不 出现,则根据主语种辅音头集合{CJ和辅音尾集合{CtK将次语种Ci$V$Ct拆分为两个或多 个音节。
[0040] 优选地,所述韵律特征修正单元包括W下任意一个或多个子单元:
[0041] 第一修正子单元,用于在主语种和次语种均为音素语言时,取消次语种重音,然后 按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重 音位置;
[0042] 第二修正子单元,用于在主语种和次语种均为音节语言时,取消次语种声调,用和 主语种声调曲线图最接近的声调符号设置音节声调.
[0043] 第Ξ修正子单元,用于在主语种为音素语言,次语种为音节语言时,取消次语种声 调,按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的 重音位置;
[0044] 第四修正子单元,用于在主语种为音节语言,次语种为音素语言时,对次语种重音 音节按照主语种降调声调处理,对次语种非重音音节按照主语种平调声调处理。
[0045] 本发明实施例提供的多语种混语文本字音转换方法及系统,对所述混语文本中的 主语种文本和次语种文本分别进行字音转换,并在转换时采用统一发音符号描述混语文本 的发音情况,得到主语种文本语音符号序列和次语种文本语音符号序列,然后对次语种文 本语音符号序列的韵律进行修正,然后连接主语种文本语音符号序列及修正后的次语种文 本语音符号序列,得到混语文本语音序号序列。由于修正后的次语种文本语音符号序列的 韵律更加符合主语种文本语音符号序列的韵律,从而使主语种文本语音符号序列和次语种 文本语音符号序列连接处的韵律感更平稳。
【附图说明】
[0046] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一 些实施例,对于本领域普通技术人员来讲,还可W根据运些附图获得其他的附图。
[0047] 图1是本发明实施例多语种混语文本字音转换方法的流程图;
[0048] 图2是本发明实施例多语种混语文本字音转换系统的结构示意图。
【具体实施方式】
[0049] 为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施 方式对本发明实施例作进一步的详细说明。
[0050] 字音转换是指将文字序列转换成相应的发音内容后,使用语音符号序列表示所述 发音内容的过程。对于单一语种文本,可W根据该语种的发音特点,实现相应的字音转换。 而对于多语种混语文本,本发明实施例采用统一发音符号描述混语文本的发音情况,对所 述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种文本语音符号序 列和次语种文本语音符号序列,并对次语种文本语音符号序列的韵律进行修正,然后连接 主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文本语音序号序 列。由于修正后的次语种文本语音符号序列的韵律更加符合主语种文本语音符号序列的韵 律,从而使主语种文本语音符号序列和次语种文本语音符号序列连接处的韵律感更平稳。
[0051] 如图1所示,是本发明实施例多语种混语文本字音转换方法的流程图,包括W下 步骤:
[0052] 步骤101,接收待处理多语种混语文本。
[0053] 所述多语种混语文本中包括一种主语种文本,一种或多种非主语种文本,为了描 述方便,将其它非主语种文本统称为次语种文本。所述主语种和次语种是预先确定的。
[0054] 步骤102,确定所述混语文本中的主语种文本及次语种文本。 阳化5] 具体地,可W从文本形式上判断待处理文本是为主语种文本还是次语种文本。比 如,可W根据主语种词典或通过字符编码来判断待处理文本是否为主语种文本。
[0056] 需要说明的是,如果混语文本中的次语种文本字符属于多个语种,则可W分别根 据各次语种词典或通过字符编码来判断次语种文本所属的语种。
[0057] 步骤103,采用统一发音符号对所述混语文本中的主语种文本和次语种文本分别 进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列。
[0058] 本案中,在混语文本的发音上,使用统一的发音符号进行描述。统一的发音符号定 义遵循原则为有明显发音差异的发音单元定义为不同发音符号,不同语种间发音相似的发 音单元定义同一个发音符号。例如中文的声母[P]和英文的辅音[P]发音相似,发音符号 统一定义为b ;再如中文的韵母[iy和英文的元音[Λ ]发音相似,发音符号统一定义为a。 需说明:[P]、[為]、[八]为国际音标符号。定义的发音符号不限于b、a。
[0059] 对于包含声韵母的音节语言,需要将声韵母进行拆分,声母可拆分为一个或多个 辅音音素,韵母可拆分为元音核加上零到多个辅音音素尾。其中元音核可W为单元音或复 合元音。如中文"语音合成"中"音"的语音符号序列为即将韵母"in"拆分成元 音核"i"和辅音尾"η"来描述。
[0060] 对于混语文本中的主语种文本和次语种文本,分别采用单一语种转换方法对其进 行字音转换,得到各自对应的主语种文本语音符号序列和次语种文本语音符号序列。
[0061] W中文为例,具体的字音转换过程如下:首先对文本进行分词,然后查多音字词 典,标记多音字,得到多音字及存在多音字词典中的词的语音符号序列;然后通过查字典方 式得到其它的语音符号序列,最后连接各个字词的语音符号序列,得到文本语音符号序列。 获取语音符号序列时,W词为边界进行处理。
[0062] 例如,对于中文文本"长江大桥",其中"长江"存在多音字词典中,语音符号序列的 获取过程如下所述:
[0063] 首先分词得到"长江#大桥为词边界;然后查多音字词典,标记"长江"中 "长"是多音字,得到"长江"的语音符号序列"ch$a$ngl-j$ia$ngl";然后查字典,依次得到 "大"的语音符号序列"d$al","桥"的语音符号序列"q$iao2"。最后连接各个字词的语音 符号序列得到文本"长江大桥"的语音符号序列"ch$a$ngl-j$ia$ngl#d$al-q$iao2",其中, 符号"$"表示音素边界,符号表示音节边界,符号"表示词边界,数字1、2、3、4表示 所在音节声调。当然边界描述符号不限于和"#",声调描述符号也不限于1、2、3、 4。
[0064] 再W英文为例,具体的字音转换过程如下:首先按照空格对文本进行分词;然后 依次对每个词,查有预先记录语音符号序列的词典,如果是词典词,则得到该词语音符号序 列。如果是非词典词,则按照规则或者预先训练得到的字母-发音映射模型预测该词发音 序列;随后依次对非词典词按照结构Ci$V$Ct预测发音序列音节位置,其中,Ci为辅音头,V 为元音核,Ct为辅音尾;随后依次对非词典词根据音节结构预测重音位置,得到该词的语音 符号序列;最后连接各个词的语音符号序列得到文本语音符号序列。 柳6日]例如英文文本"good morning",语音符号序列的获取过程如下所述: W66] 首先按照空格分词得到"goocttmorning";然后依次对good和morning查词 典;如"good"是词典词,可W得到语音符号序列"g$uh$dl"。如"morning"是非词典 词,按照规则或者预先训练得到的字母-发音映射模型预测该词的发音序列,可W得到 "m$ao$r$n$ih$ng";然后按照结构Ci-V-Ct预测发音序列音节位置,得到"m$ao$;r-n$ih$ng"; 然后结合音节结构按照规则或者预先训练得到的重音映射模型预测音节串的重音位置, 得到该词的语音符号序列"m$ao$rl-n$ih$ng";最后连接各个词的语音符号序列得到文本 "good morning"的语音符号序列
[0067] 在实际应用时,需要预先建立分别对应主语种和各非主语种的词典,每个词典中 的单词都带有发音标记,使用统一的发音符号表示。
[0068] 需要说明的是,在本发明实施例中,采用统一的发音符号对不同语种文本的发音 进行描述,但对于每个语种来说,该语种的各词与该发音符号有一定的对应关系,因此在进 行字音转换时,需要根据该对应关系确定每个词的语音符号序列。也就是说,如果所述混语 文本中包含多个不同语种的次语种文本,还是需要区分所述次语种文本所属的具体语种。 在实际应用中,可W预先建立各次语种的词典,在该词典中收录一些常用词,运样,在确定 次语种文本所属的具体语种时,就可W通过查找词典来确定。如果次语种文本包括两种W 上语种的文本,可W依次查找各语种的词典,如果在多个不同语种的词典中均能查到该文 本,则可W选择对应人数多的语种。比如次语种包括英文和西班牙文,Barcelona(己塞罗 那)出现在两种次语种词典中,则按照语种人数最多判断为英文。
[0069] 另外,对于一些不能在词典中查找到的词,可W根据字符编码判定所述词的字符 属于哪些语种。比如,英语和西语字符编码是有区别的,西语多了 6个字母:0、6、?、贷、0、 ?。而如果次语种文本包含运特殊编码的字母,则可确定其为西文。但对于不能用编码区分 的非词典词,可W选择对应人数多的语种作为该文本所属的语种。
[0070] 步骤104,修正所述次语种文本语音符号序列的韵律。
[0071] 为了使混语文本语音符号序列中主语种和次语种的连接处韵律更加平稳,在本发 明实施例中,对字音转换后的次语种文本语音符号序列的韵律进行修正,使得到的次语种 文本语音符号序列更符合主语种语音符号序列的韵律,具体可W有W下几种修正方式:
[0072] a)次语种发音符号发音修正
[0073] 对于主语种缺失的次语种发音符号的发音,在字音转换时,需要对所述缺失的次 语种发音符号发音进行修正,具体有两种修正方法:1)根据发音相似性,将所述次语种发 音符号映射为主语种发音最相近发音符号;2)对主语种缺失的次语种发音符号进行录音。 如次语种为法文,当主语种为英文,法文的小舌音可W映射为英文中的卷舌音,或者单独对 法文的小舌音进行录音。
[0074] b)次语种音节结构修正
[00巧]语言的音节具有类似的结构Ci$V$Ct,。为辅音头,V为元音核,C t为辅音尾。C 1和 Ct包含辅音个数可W从零到多个不等。元音V的个数只能有一个,可W为单元音或复合元 音。如果次语种。和Ct在主语种中不出现,则需要首先对次语种音节结构做修正。具体修 正时根据主语种辅音头集合{CJ和辅音尾集合{Ct},将次语种Ci$V$Ct拆分为两个或多个 音节,如下所示;
[0076]
阳077] 其中。1、C。、Cim为修正后的辅音头,所述辅音头可W为单辅音或辅音串,C ti、Ct2、 Ct。为修正后的辅音尾,所述辅音尾可W为单辅音或辅音串,X为主语种弱读元音音素。弱读 元音音素指发音又短又轻的央元音音素。 W78] 例如,主语种为中文,次语种为英文,次语种词repOTt的语音符号序列为 "r$ih-p$ao$tl",音节修正后的语音符号序列为"r$ih-p$aol-t$ax"。
[0079] 例如,主语种为中文,次语种为泰文,次语种词。ihsmFAviEj''的语音符号序列为 "P$r$a$k2-t$ae$t3-th$ai 1",音节修正后的语音符号序列为"p$ax2-$r$a2-k$ax2-t$ae3- t$ax3-th$ail"。
[0080] c)次语种韵律特征修正
[0081] 具体修正时,将混语文本中主语种文本和次语种文本划分成两种语言结构,即音 素语言和音节语言,一般印欧语系语言大多为音素语言,汉藏语系语言大多为音节语言。音 素语言音节个数为一个或多个,词内部重音只有一个,落在音节上,如英文。音节语言往往 为单音节,音节上有声调,如中文。
[0082] 对次语种的韵律特征进行修正可W有W下几种情况:
[0083] 1)主语种为音素语言,次语种为音素语言
[0084] 取消次语种重音,按主语种规则或者主语种预先训练得到的重音预测模型在次语 种词内部预测音节串的重音位置。
[00化]例如,主语种为英文,次语种为法文。次语种词"的uipe"语音符号序列为 "ie-k$i$pl",重音修正后语音符号序列为"ie-k$i$pl",本例中修正前后重音位置不变。
[0086] 步2)主语种为音节语言,次语种为音节语言
[0087] 取消次语种声调,用和主语种声调曲线图最接近的声调符号设置音节声调。例如 主语种为中文,次语种为泰文,泰文中第一声调和中文中平调声调接近,可W将音节声调设 置为1。
[0088] 例如,主语种为中文,次语种为泰文。次语种词"ihuyiFTlvi音节修正后语音符 号序列为"9$日义2-$'$日2-1<:$日^;2-1$日日3-1$日记-1:11$日;[1",声调修正后语音符号序列为"9$日又3 -$r$a3-k$ax3-t$ae4-t$ax4-th$ai1"。
[0089] 步3)主语种为音素语言,次语种为音节语言
[0090] 取消次语种声调,按主语种规则或者主语种预先训练得到的重音预测模型在次语 种词内部预测音节串的重音位置。 W91] 例如,主语种为英文,次语种为中文。次语种词"中国"语音符号序列为 "zh$o$ngl-g$uo2 ",重音修正后语音符号序列为"zh$o$ngl-g$uo "。
[0092] 步4)主语种为音节语言,次语种为音素语言
[0093] 由于重音和降调表现形式类似,因此对次语种重音音节按照主语种降调声调处 理。由于非重音和平调表现形式类似,因此对次语种非重音音节按照主语种平调声调处理。 例如主语种为中文,次语种为英文,将重音音节设置为4,即降调,非重音音节设置为1,即 平调。
[0094] 例如,主语种为中文,次语种为英文。次语种词"report"音节修正后语音符号序 列为"r$ih-p$aol-t$ax"。声调修正后语音符号序列为"r$ihl-p$ao4-t$axl"。
[0095] 需要说明的是,在实际应用中,可W根据应用需要,针对上述四种情况之一或任意 几种进行修正,对此本发明实施例不做限定。
[0096] 步骤105,连接所述主语种文本语音符号序列及修正后的次语种文本语音符号序 列,得到混语文本语音符号序列。
[0097] 所述混语文本语音符号序列用于描述所述混语文本的发音内容,其包括发音符号 信息和韵律信息,所述韵律信息包括词、音节、重音、声调等信息。如中文"语音合成"字音 转换后的语音符号序列为"7$113-7$1$111拙$62-油$6$叫2";其中,符号"$"表示音素边界, 符号表示音节边界,符号"表示词边界,数字1、2、3、4表示所在音节声调。当然边界 描述符号不限于和"#",声调描述符号不限于1、2、3、4。
[0098] 需要说明的是,在实际应用中,上述确定所述混语文本中的主语种文本及次语种 文本及后续采用单一方式对确定了语种的文本进行字音转换的过程可W有不同的方式,一 种方式是先确定所述混语文本中所有文本的语种类别,即是主语种文本,还是次语种文本, 然后再分别对其进行字音转换;另一种方式对于当前待处理的文本(可W是一句话,一个 词等),确定其所属的语种类别,并根据确定的语种类别对其进行字音转换,得到相应的语 音符号序列;然后按照前述过程,处理下一个待处理文本,直到所述混语文本中的所有文本 处理完毕。
[0099] 本发明实施例多语种混语文本字音转换方法,采用统一发音符号描述混语文本的 发音情况,对所述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种 文本语音符号序列和次语种文本语音符号序列,并对次语种文本语音符号序列的韵律进行 修正,然后连接主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语 文本语音序号序列。由于修正后的次语种文本语音符号序列的韵律更加符合主语种文本语 音符号序列的韵律,从而使主语种文本语音符号序列和次语种文本语音符号序列连接处的 韵律感更平稳,提升了混语文本的应用效果。
[0100] 需要说明的是,本发明实施例的方法可W应用于语音合成、语音识别、语音捜索等 领域。 阳101] 相应地,本发明实施例还提供一种多语种混语文本字音转换系统,如图2所示,是 该系统的一种结构示意图。 阳102] 在该实施例中,所述系统包括: 阳103] 接收模块201,用于接收待处理多语种混语文本; 阳104] 语种确定模块202,用于确定所述混语文本中的主语种文本及次语种文本;
[01化]字音转换模块203,用于采用统一发音符号对所述混语文本中的主语种文本和次 语种文本分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列; 阳106] 修正模块204,用于修正所述次语种文本语音符号序列的韵律; 阳107] 输出模块205,用于连接所述主语种文本语音符号序列及修正后的次语种文本语 音符号序列,得到混语文本语音符号序列。
[0108] 上述语种确定模块202可W根据各语种词典或通过字符编码确定当前文本是主 语种文本还是次语种文本。
[0109] 需要说明的是,上述语种确定模块202可W针对当前待处理的文本,确定该文本 是主语种文本还是次语种文本,然后,字音转换模块203根据确定的语种类别对其进行字 音转换,得到相应的语音符号序列;然后重复上述过程,直到所述混语文本中的所有文本处 理完毕。另外,还可W由语种确定模块202先确定所述混语文本中所有文本的语种类别,即 是主语种文本,还是次语种文本,然后再由字音转换模块203分别对其进行字音转换。
[0110] 上述修正模块204可W采用多种方式修正所述次语种文本语音符号序列的韵律, 比如修正模块204可W包括W下任意一个或多个单元: 阳111] 发音修正单元,用于对主语种缺失的次语种发音符号的发音进行修正;
[0112] 音节结构修正单元,用于对次语种音节结构进行修正;
[0113] 韵律特征修正单元,用于对次语种韵律特征进行修正。 阳114] 其中:
[0115] 所述发音修正单元具体用于将所述次语种发音符号映射为主语种发音最相近的 发音符号;或者对主语种缺失的次语种发音符号进行录音。
[0116] 所述音节结构修正单元具体用于对于次语种中的音节结构Ci$V$Ct,。为辅音头, V为元音核,Ct为辅音尾,如果次语种音节结构C 中的C 1和C t在主语种中不出现,贝U 根据主语种辅音头集合{CJ和辅音尾集合{Ct},将次语种Ci$V$Ct拆分为两个或多个音节。
[0117] 所述韵律特征修正单元可W包括W下任意一个或多个子单元:
[0118] 第一修正子单元,用于在主语种和次语种均为音素语言时,取消次语种重音,然后 按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重 首位置;
[0119] 第二修正子单元,用于在主语种和次语种均为音节语言时,取消次语种声调,用和 主语种声调曲线图最接近的声调符号设置音节声调;
[0120] 第Ξ修正子单元,用于在主语种为音素语言,次语种为音节语言时,取消次语种声 调,按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的 重音位置; 阳121] 第四修正子单元,用于在主语种为音节语言,次语种为音素语言时,对次语种重音 音节按照主语种降调声调处理,对次语种非重音音节按照主语种平调声调处理。
[0122] 本发明实施例多语种混语文本字音转换系统,采用统一发音符号描述混语文本的 发音情况,对所述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种 文本语音符号序列和次语种文本语音符号序列,并对次语种文本语音符号序列的韵律进行 修正,然后连接主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语 文本语音序号序列。由于修正后的次语种文本语音符号序列的韵律更加符合主语种文本语 音符号序列的韵律,从而使主语种文本语音符号序列和次语种文本语音符号序列连接处的 韵律感更平稳,提升了混语文本的应用效果。
[0123] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实 施例而言,由于其基本相似于方法实施例,所W描述得比较简单,相关之处参见方法实施例 的部分说明即可。w上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明 的单元可W是或者也可W不是物理上分开的,作为单元显示的部件可W是或者也可W不是 物理单元,即可W位于一个地方,或者也可W分布到多个网络单元上。可W根据实际的需要 选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出 创造性劳动的情况下,即可W理解并实施。
[0124] W上对本发明实施例进行了详细介绍,本文中应用了【具体实施方式】对本发明进行 了阐述,W上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的 一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所 述,本说明书内容不应理解为对本发明的限制。
【主权项】
1. 一种多语种混语文本字音转换方法,其特征在于,包括: 接收待处理多语种混语文本; 确定所述混语文本中的主语种文本及次语种文本; 采用统一发音符号对所述混语文本中的主语种文本和次语种文本分别进行字音转换, 得到主语种文本语音符号序列和次语种文本语音符号序列; 修正所述次语种文本语音符号序列的韵律; 连接所述主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文 本语音符号序列。2. 根据权利要求1所述的方法,其特征在于,所述确定所述混语文本中的主语种文本 及次语种文本包括: 根据各语种词典或通过字符编码确定当前文本是主语种文本还是次语种文本。3. 根据权利要求1所述的方法,其特征在于,所述修正所述次语种文本语音符号序列 的韵律包括以下任意一种或多种修正: 对主语种缺失的次语种发音符号的发音进行修正; 对次语种音节结构进行修正; 对次语种韵律特征进行修正。4. 根据权利要求3所述的方法,其特征在于,所述对主语种缺失的次语种发音符号的 发音进行修正包括: 将所述次语种发音符号映射为主语种发音最相近的发音符号;或者 对主语种缺失的次语种发音符号进行录音。5. 根据权利要求3所述的方法,其特征在于,所述对次语种音节结构进行修正包括: 对于次语种中的音节结构Q为辅音头,V为元音核,C ,为辅音尾,如果次语种 音节结构中的CjPCt在主语种中不出现,则根据主语种辅音头集合{CJ和辅音尾 集合{CJ,将次语种拆分为两个或多个音节。6. 根据权利要求3所述的方法,其特征在于,所述对次语种韵律特征进行修正包括以 下任意一种或多种: 如果主语种和次语种均为音素语言,则取消次语种重音,然后按主语种规则或者主语 种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置; 如果主语种和次语种均为音节语言,则取消次语种声调,用和主语种声调曲线图最接 近的声调符号设置音节声调; 如果主语种为音素语言,次语种为音节语言,则取消次语种声调,按主语种规则或者主 语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置; 如果主语种为音节语言,次语种为音素语言,则对次语种重音音节按照主语种降调声 调处理,对次语种非重音音节按照主语种平调声调处理。7. -种多语种混语文本字音转换系统,其特征在于,包括: 接收模块,用于接收待处理多语种混语文本; 语种确定模块,用于确定所述混语文本中的主语种文本及次语种文本; 字音转换模块,用于采用统一发音符号对所述混语文本中的主语种文本和次语种文本 分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列; 修正模块,用于修正所述次语种文本语音符号序列的韵律; 输出模块,用于连接所述主语种文本语音符号序列及修正后的次语种文本语音符号序 列,得到混语文本语音符号序列。8. 根据权利要求7所述的系统,其特征在于, 所述语种确定模块,具体用于根据各语种词典或通过字符编码确定当前文本是主语种 文本还是次语种文本。9. 根据权利要求7所述的系统,其特征在于,所述修正模块包括以下任意一个或多个 单元: 发音修正单元,用于对主语种缺失的次语种发音符号的发音进行修正; 音节结构修正单元,用于对次语种音节结构进行修正; 韵律特征修正单元,用于对次语种韵律特征进行修正。10. 根据权利要求9所述的系统,其特征在于, 所述发音修正单元,具体用于将所述次语种发音符号映射为主语种发音最相近的发音 符号;或者对主语种缺失的次语种发音符号进行录音。11. 根据权利要求9所述的系统,其特征在于, 所述音节结构修正单元,具体用于对于次语种中的音节结构Ci$V$Ct,Ci为辅音头,V为 元音核,ct为辅音尾,如果次语种音节结构C jVSCt中的C jp c t在主语种中不出现,则根据 主语种辅音头集合{CJ和辅音尾集合{CJ,将次语种拆分为两个或多个音节。12. 根据权利要求9所述的系统,其特征在于,所述韵律特征修正单元包括以下任意一 个或多个子单元: 第一修正子单元,用于在主语种和次语种均为音素语言时,取消次语种重音,然后按主 语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位 置; 第二修正子单元,用于在主语种和次语种均为音节语言时,取消次语种声调,用和主语 种声调曲线图最接近的声调符号设置音节声调; 第三修正子单元,用于在主语种为音素语言,次语种为音节语言时,取消次语种声调, 按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重 音位置; 第四修正子单元,用于在主语种为音节语言,次语种为音素语言时,对次语种重音音节 按照主语种降调声调处理,对次语种非重音音节按照主语种平调声调处理。
【文档编号】G10L13/08GK105989833SQ201510091480
【公开日】2016年10月5日
【申请日】2015年2月28日
【发明人】闫润强, 苏增亮, 姚佳, 祖漪清, 王影, 胡国平, 胡郁, 刘庆峰
【申请人】讯飞智元信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1