具有编码信息的语音变换的制作方法

文档序号:2825605阅读:121来源:国知局
具有编码信息的语音变换的制作方法
【专利摘要】本发明提供用于语音变换的方法、系统及计算机程序产品。所述方法包括以下步骤:使用变换参数变换源语音(speech),及使用隐写术将关于所述变换参数的信息编码至输出语音中,其中可使用所述输出语音和关于所述变换参数的所述信息来重构所述源语音。本发明亦提供一种用于重构语音变换的方法,其包括以下步骤:接收语音变换系统的输出语音,其中所述输出语音是已使用隐写术编码有关于所述变换参数的信息的变换后的语音;提取关于所述变换参数的所述信息;及执行所述输出语音的逆变换,以获取原始源语音的近似物。
【专利说明】具有编码信息的语音变换【技术领域】
[0001]本发明涉及具有编码信息的语音变换或语音变形的领域。具体地说,本发明涉及用于防止诈欺地使用修改后的语音的语音变换。
【背景技术】
[0002]语音变换使得能够修改来自一人的语音样本,以使该语音样本听起来似乎由其他人所说。存在两种类型的变换:
[0003].修改语音,而无特定目标。举例而言,将音高降低某个恒定量。
[0004].修改语音,以便语音听起来尽可能接近目标说话者。
[0005]存在语音变换的许多用途。以下为一些实例:
[0006].影片配音。此允许一演员在一影片中配出若干语音,且亦允许在维持原始演员语音的同时以不同语言进行配音。
[0007].电信服务。各种服务允许呼叫者修改其语音。举例而言,使用儿童最喜爱的卡通角色语音或名人语音向其发送生日祝贺。
[0008].玩具。语音变换可使用在游戏及玩具中以用于生成各种语音。举例而言,以鹦鹉语音重复向其所说语句的鹦鹉状玩偶。
[0009].音乐行业。诸如 AUT0-TUNE (自动调谐)工具(AUT0-TUNE 为 Antares AudioTechnologies的商标)的语音变换工具已在音乐行业中非常流行。
[0010].在线聊天。聊天文 本及SMS(短消息服务)可变换成语音类似于发送者语音的语音。
[0011].游戏。此允许在线游戏玩家用其在线化身的语音而非其自身语音说话。
[0012].然而,在心术不正的人手中,语音变换工具亦可被不适当地使用。不适当使用的实例包括以下内容:
[0013].未经许可假冒另一个人。
[0014].在执行非法行为时进行语音伪装,以避免识别。
[0015]目前,通常可区分自然语音与变换后的语音,并且不可能完全模仿不同说话者。然而,随着研究的进展,预计在几年内,语音变换系统的质量可能足够高,从而难以与自然语音进行区分且难以与仿冒说话者进行区分。

【发明内容】

[0016]根据本发明的第一方面,提供一种用于语音变换的方法,包括:使用变换参数变换源语音;使用隐写术(steganography)将关于所述变换参数的信息编码至输出语音中;其中可使用所述输出语音和关于所述变换参数的所述信息来重构所述源语音。
[0017]根据本发明的第二方面,提供一种用于重构语音变换的方法,包括:接收语音变换系统的输出语音,其中所述输出语音是已用隐写术编码有关于所述变换参数的信息的变换后的语音;提取关于所述变换参数的所述信息;及执行所述输出语音的逆变换,以获取原始源语音的近似物。
[0018]根据本发明的第三方面,提供一种用于语音变换的系统,包括:处理器;语音变换组件,其用于利用变换参数变换源语音;及隐写术组件,其用于利用隐写术将关于所述变换参数的信息编码至输出语音中;其中可使用所述输出语音和关于所述变换参数的所述信息来重构所述源语音。
[0019]根据本发明的第四方面,提供一种用于重构语音变换的系统,包括:处理器;语音接收器,其用于接收输入语音,其中所述输入语音是已使用隐写术编码有关于所述变换参数的信息的变换后的语音;隐写术解码器组件,其用于从所述输入语音解码关于所述变换参数的所述信息;及语音重构组件,其用于执行所述输入语音的逆变换,以获取原始源语音的近似物。
[0020]根据本发明的第五方面,提供一种用于语音变换的计算机程序产品,所述计算机程序产品包括:计算机可读存储介质,其具有随之包含的计算机可读程序代码,所述计算机可读程序代码包括:被配置为执行以下步骤的计算机可读程序代码:使用变换参数变换源语音;及使用隐写术将关于所述变换参数的信息编码至输出语音中;其中可使用所述输出语音和关于所述变换参数的所述信息来重构所述源语音。
【专利附图】

【附图说明】
[0021]参考附图描述本发明的各优选实施例,这些附图是:
[0022]图1为根据本发明的一个优选实施例的语音变换方法的第一实施例的流程图;
[0023]图2为根据本发明的一个优选实施例的语音变换方法的第二实施例的流程图;
[0024]图3为根据本发明的一个优选实施例的重构语音变换的方法的一个实施例的流程图;
[0025]图4为根据本发明的一个优选实施例的重构语音变换的方法的一个方面的流程图;
[0026]图5为根据本发明的一个优选实施例的系统的第一实施例的方块图;
[0027]图6为根据本发明的一个优选实施例的系统的第二实施例的方块图;
[0028]图7为根据本发明的一个优选实施例的语音重构系统的方块图;及
[0029]图8为其中可实施本发明的计算机系统的方块图。
[0030]应了解,为了说明的简单及清楚起见,图中所示的组件未必按比例画出。举例而言,为清晰起见,一些组件的尺寸可相对于其他组件夸大。另外,在视为适当处,可在诸图中重复参考数字,以指示对应或类似的特征。
【具体实施方式】
[0031]在以下实施方式中,陈述了众多特定细节以便提供对本发明的全面理解。然而,本领域技术人员应理解,本发明可在没有所述特定细节的情况下实行。在其他例子中,未描述公知方法、程序及组件以免模糊本发明。
[0032]本文所使用的术语仅为了描述特定实施例,其并不意在限制本发明。如本文中所使用,单数形式“一”及“该”意欲亦包括复数形式,除非上下文另有清晰指示。应进一步理解,术语“包括”和/或“包含”在用于本说明书中时指定所陈述的特征、整数、步骤、操作、组件和/或组件的存在,但不排除一个或多个其他特征、整数、步骤、操作、组件、组件和/或其群组的存在或添加。
[0033]以下的权利要求中的对应结构、材料、操作以及所有功能性限定的装置(means)或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。所给出的对本发明的描述其目的在于示意和描述,并非是穷尽性的,也并非是要将本发明限定到所表述的形式。对于所属【技术领域】的普通技术人员来说,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属【技术领域】的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。
[0034]描述了方法、系统及计算机程序产品,其中,将隐写术或水印数据添加至变换后的语音,以便其可被识别且变换回原始语音。添加隐写数据至语音对于质量仅有较小影响,因此,系统的输出仍可用于大多数一般应用。
[0035]变换参数经由隐写术而编码至变换后的语音,以便可重构原始语音。所述变换参数可自变换后的语音取回,且可用于通过应用逆变换来重构原始语音。
[0036]在一实施例中,在语音变换发生后,可用隐写术添加所述变换参数。
[0037]在另一实施例中,语音变换系统可通过在变换后语音的参数的调制中编码所述变换参数而编码所述变换参数。
[0038]在一些情况下,变换不可倒转。在此类情况下,所述编码变换参数为在应用至修改后的语音时应使其尽可能接近原始语音的那些变换参数。可编码所述逆参数,而非编码所述变换参数本身。
[0039]如果某人使用此犯下诈欺或犯罪行为(例如,假冒不同人来呼叫银行),则所记录语音中的水印可被检测到且可用于将变换后的语音倒转回至原始语音(或其接近近似物)。随后,这可用于追踪或检 测用户。
[0040]任何意欲避免某人可能在利用语音变换系统的同时呼叫其的可能性的人可添加一系统,所述系统检测水印是否存在且如果水印存在于传入语音中则发出警告。
[0041]参看图1,流程图100展示所述方法的第一实施例。接收101源语音,且通过语音变换系统执行语音变换102。生成103变换后的语音。
[0042]语音变换系统视不同可调节参数而定对输入语音应用不同变换。可调节参数的实例包括:音高修改参数、频谱变换矩阵、高斯混合(GMM)系数、加速/减速比率、噪声水平修改参数等。所述参数可选自一系列预设配置,可手动调节或可通过比较源自两种语音的语音样本而自动训练所述参数。
[0043]确定104用于语音变换中的所述变换参数,且生成105关于所述变换参数的信息。关于所述变换参数的信息可为以下参数中的一个:所述变换参数本身、逆变换参数、编码或加密变换参数或逆变换参数,或变换参数或逆变换参数的近似值。
[0044]关于所述变换参数的所述信息可包括存储所述参数本身的远程数据库的索引。索引可允许自数据库取回所述参数。举例而言,所述变换参数可置于网站中,且这些参数的统一资源定位器(URL)(例如,http://www----)可编码至语音中。
[0045]关于所述变换参数的信息可包括来自语音变换系统的量化后的变换参数(或所述逆变换参数),其以二进制形式编码且亦可能被压缩及加密。接着可用隐写术将二进制数据编码至输出语音中。
[0046]对变换后的语音应用106隐写术方法以将关于所述变换参数的信息编码至变换后的语音中。这通过将作为隐写术信号(作为隐藏数据或水印)的关于所述变换参数的信息与变换后的语音相组合来完成,以生成输出语音107。应用至音频数据的隐写术方法可在插入呈信号噪声形式的信息的简单算法至利用复杂信号处理技术来隐藏信息的复杂算法的范围内变化。音频隐写术的一些实例包括LSB(最低有效位)编码、奇偶校验编码、相位编码、展频及回声隐藏(echo hiding)。
[0047]一些隐写算法通过操纵不同语音参数而工作。这些算法可直接在语音变换系统内操作,且这在参看图2的所述方法的第二实施例中予以描述。
[0048]参看图2,流程图200展示如在语音变换系统中执行的所述方法的一个实施例。接收201源语音,且对源语音建模202以获取模型参数203。
[0049]生成204变换参数,将变换参数应用于所述模型参数以修改205源语音的所述模型参数。
[0050]如图1的方法,可生成206关于所述变换参数的信息。关于所述变换参数的信息可为以下参数中的一个:所述变换参数本身、逆变换参数、编码或加密变换参数或逆变换参数,或变换参数或逆变换参数的近似值。关于所述变换参数的信息可包括来自语音变换系统的量化后的变换参数(或逆变换参数),其以二进制形式编码且亦可能被压缩及加密。所述变换参数可存储于数据库中,且关于所述变换参数的信息可为允许自数据库取回所述变换参数的索引。
[0051]通过在修改后的模型参数内编码207而将关于所述变换参数的信息应用于隐写术方法中。接着将编码的修改后的模型参数应用208于最终语音合成中,且生成输出语音209。
[0052]在第二实施例中,将编码后的变换系数与变换后的语音参数相组合。举例而言,所述系数可编码为最终语音的修改后的音高曲线上的小变化。
[0053]举例而言,可通过语音变换系统将变换数据编码至音高曲线中。语音变换系统通常控制输出信号的音高曲线。通常针对每一短帧(5-20毫秒)调整音高。可对于帧η取以赫兹为单位的整数音高Pn且最后一个位被替换为来自数据dn的位:
[0054]
【权利要求】
1.一种用于语音变换的方法,所述方法包括: 使用变换参数变换源语音; 使用隐写术将关于所述变换参数的信息编码至输出语音中; 其中可使用所述输出语音和关于所述变换参数的所述信息来重构所述源语音。
2.如权利要求1的方法,其中编码关于所述变换参数的信息包括: 在变换步骤后,通过将包括关于所述变换参数的所述信息的隐写信号和变换后的语音相组合而将所述信息编码至变换后的语音中,以生成所述输出语音。
3.如权利要求1的方法,其中编码关于所述变换参数的信息包括: 在变换所述输入语音期间,通过将关于所述变换参数的所述信息与变换后的语音参数相组合而编码所述信息。
4.如权利要求1的方法,其中可使用关于所述变换参数的所述信息将所述输出语音重构成所述源语音的接近近似物。
5.如权利要求1的方法,其中关于所述变换参数的所述信息包括以下参数组中的一个:所述变换参数、逆变换参数、压缩或加密变换参数或逆变换参数、所述变换参数或逆变换参数的近似值、来自源语音和变换后的语音的训练后的逆变换参数集、远程存储的变换参数或逆变换参数的索引。
6.如权利要求1的方 法,包括: 编辑关于所述变换参数的所述信息,包括: 量化所述变换参数;及 将量化后的变换参数转化为二进制流。
7.如权利要求1的方法,包括: 通过训练用于将变换后的语音转化为源语音的逆参数而编辑关于所述变换参数的所述信息。
8.如权利要求1的方法,包括: 将所述变换参数或逆变换参数存储在远程位置;及 编辑关于所述变换参数的所述信息包括提供对远程存储器的索引。
9.一种用于重构语音变换的方法,所述方法包括: 接收语音变换系统的输出语音,其中所述输出语音是已使用隐写术编码有关于所述变换参数的信息的变换后的语音; 提取关于所述变换参数的所述信息;及 执行所述输出语音的逆变换,以获取原始源语音的近似物。
10.如权利要求9的方法,包括: 检测所接收的输出语音中的编码信息;及 发出所接收的输出语音是变换后的语音的警告。
11.如权利要求9的方法,其中提取关于所述变换参数的所述信息的步骤提取加密信息,并且所述方法包括: 使用解密密钥解密关于所述变换参数的所述加密信息。
12.一种用于语音变换的系统,所述系统包括: 处理器;语音变换组件,其用于使用变换参数变换源语音?’及 隐写术组件,其用于使用隐写术将关于所述变换参数的信息编码至输出语音中; 其中可使用所述输出语音和关于所述变换参数的所述信息来重构所述源语音。
13.如权利要求12的系统,其中所述隐写术组件通过将包括关于所述变换参数的所述信息的隐写信号和变换后的语音相组合而将所述信息编码至所述语音变换组件的所述输出中,以生成所述输出语音。
14.如权利要求12的系统,其中所述隐写术组件集成在所述语音变换组件中,且在变换所述输入语音期间通过将关于所述变换参数的所述信息与变换后的语音参数相组合而编码所述信息。
15.如权利要求14的系统,其中所述语音变换组件包括变换参数组件,所述变换参数组件将变换参数提供给参数修改组件和所述隐写术组件。
16.如权利要求12的系统,包括:编辑组件,其用于编辑关于所述变换参数的所述信息,所述编辑组件包括: 量化组件,其用于量化所述变换参数;及 二进制流组件,其用于将量化后的变换参数转化为二进制流。
17.如权利要求12的系统,包括: 编辑组件,其用于通过训练 用于将变换后的语音转化为源语音的逆参数而编辑关于所述变换参数的所述信息。
18.如权利要求12的系统,包括: 编辑组件,其用于通过将所述变换参数或逆变换参数存储在远程位置和提供对远程存储器的索引而编辑关于所述变换参数的所述信息。
19.如权利要求12的系统,其中关于所述变换参数的所述信息包括以下参数组中的一个:所述变换参数、逆变换参数、压缩或加密变换参数或逆变换参数、所述变换参数或逆变换参数的近似值、来自源语音和变换后的语音的训练后的逆变换参数集、远程存储的变换参数或逆变换参数的索引。
20.一种用于重构语音变换的系统,所述系统包括: 处理器; 语音接收器,其用于接收输入语音,其中所述输入语音是已使用隐写术编码有关于所述变换参数的信息的变换后的语音; 隐写术解码器组件,其用于从所述输入语音解码关于所述变换参数的所述信息 '及 语音重构组件,其用于执行所述输入语音的逆变换,以获取原始源语音的近似物。
21.如权利要求20的系统,包括: 检测组件,其用于检测所接收的输出语音中的编码信息 '及 警告组件,其用于发出所接收的输出语音是变换后的语音的警告。
22.如权利要求20的系统,其中所述隐写术解码器组件包括解密组件,所述解密组件用于利用解密密钥来解密关于所述变换参数的加密信息。
23.一种用于语音变换的计算机程序产品,所述计算机程序产品包括: 计算机可读存储介质,其具有随之包含的计算机可读程序代码,所述计算机可读程序代码包括:被配置为执行以下步骤的计算机可读程序代码:使用变换参数变换源语音;及使用隐写术将关于所述变换参数的信息编码至输出语音中;其中可使用所述输出 语音和关于所述变换参数的所述信息来重构所述源语音。
【文档编号】G10L21/003GK103430234SQ201280013374
【公开日】2013年12月4日 申请日期:2012年3月13日 优先权日:2011年3月17日
【发明者】Z·康斯, R·霍瑞, D·纳哈莫, S·本-戴维 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1