用于声学变换的系统和方法

文档序号：2825783阅读：174来源：国知局

用于声学变换的系统和方法
【专利摘要】本发明公开了声学变换的系统和方法。一个具体的实施例是：变换由具有语音障碍的说话者产生的声学言语信号以使得他们的话语更易于普通听众理解。这些改变包括：语速或节奏的修正、响音中的共振峰频率的调整、异常发声的去除或调整、音素插入错误的删除、以及错误丢弃音素的替换。这些方法还可以被应用于音乐序列或声学序列的一般修正。
【专利说明】用于声学变换的系统和方法
[0001]交叉引用
[0002]本申请要求于2011年7月25日提交的美国专利申请第61/511，275号的优先权，其全部内容通过引用合并于此。

【技术领域】
[0003]本发明一般涉及声学变换，更具体地，本发明涉及用于改善说话者或声音的可理解性的声学变换。

【背景技术】
[0004]目前存在一些声音被不准确地产生的例子，结果是所听到的声音不是想要的声音。具有构音障碍的说话者通常不准确地发出言语声。
[0005]构音障碍是损害物理产生语音的一组神经运动失调。这些损害降低了对主要发声器官的正常控制，但是不影响对有意义的、语法正确的语言的常规理解或产生。例如，对喉返神经的损伤降低了对声壁振动(即，发声)的控制，这会引起异常地发声。由迷走神经的损伤引起的对软腭移动的控制不足可能导致在说话期间不成比例的空气量通过鼻子被释放(gp，鼻音重)。还已观察到的是，发音控制的不足还导致各种不自主的非言语声，包括腭咽或声门杂音。更普遍地，已表明的是，舌头和嘴唇灵活性的不足常常产生严重的口齿不清以及更加啰嗦以及更不可区分的元音目标空间。
[0006]导致构音障碍的神经损伤通常也影响其它的身体活动，这会对运动性或者计算机交互产生极大的不良影响。例如，已经表明的是，在键盘交互中，严重的构音障碍的说话者比普通的用户慢150至300倍。然而，因为构音障碍性言语被观察到通常仅比普通说话者的语音慢10至17倍，所以言语被认定是用于计算机辅助互动的一种可行的输入模式。
[0007]例如，必须使用公共交通前往城市的构音障碍的个人可能要购买车票、问路、或者向同行的乘客表明意图，所有这些都发生在嘈杂和拥挤的环境中。因此，一些提出的方案已涉及个人便携式通信装置(手持式的或连接到轮椅上的)，该通信装置在通过一组扬声器进行播放之前对讲入麦克风的相对难以理解的语音进行变换以使其更易于理解。这些提出的装置中的一些导致说话者包括个人做作的或者自然的表达的任意个人方面的损失，这是由于这些装置输出的是机器人的发声语音。使用韵律来表达诸如个人的情绪状态之类的个人信息通常不被这类系统支持，尽管如此，使用韵律仍被认为对一般的交际能力来说是很重要的。
[0008]此外，自然语言处理软件的使用日益增长，特别是在面向消费者的应用。随着对这类软件的使用和依赖的增加，对于受言语状况折磨的人的限制变得更加显著。
[0009]本发明的目标是克服或消除上述缺点中的至少一个。

【发明内容】

[0010]本发明提供了用于声学变换的系统和方法。
[0011]在一方面，提供了一种用于变换声学信号的系统，该系统包括声学变换引擎，其用于根据一个或多个变换规则将一个或多个变换施加至所述声学信号，所述一个或多个变换规则被配置为确定所述声学信号的一个或多个时间片段中的各时间片段的正确性。
[0012]在另一方面,提供了一种用于变换声学信号的方法,该方法包括:(a)配置一个或多个变换规则以确定所述声学信号的一个或多个时间片段中的各时间片段的正确性；(b)由声学变换引擎根据所述一个或多个变换规则将一个或多个变换施加至所述声学信号。

【专利附图】

【附图说明】
[0013]在以下结合附图所给出的详细说明中，本发明的特征将变得更加明显，其中:
[0014]图1是提供有声学变换引擎的系统的示例的框图；
[0015]图2是示出了声学变换方法的示例的流程图；
[0016]图3是获取的构音障碍的说话者和对照说话者的声学信号的图形化表示；和
[0017]图4是示出获取的声学信号(a)和相应的变换后的信号(b)的声谱图。

【具体实施方式】
[0018]本发明提供了声学变换的系统和方法。本发明包括声学变换引擎，其用于通过根据一个或多个变换规则对声学信号施加一个或多个变换来变换该声学信号。所述变换规则被配置为使所述声学变换引擎能够确定所述声学信号的一个或多个时间片段中的各时间片段的正确性。
[0019]确定为不正确的片段可以被变形、变换、替换或删除。可以将一个片段插入到具有确定为不正确地相邻的片段的声学信号中。不正确可定义为感知与期望的不同。
[0020]参考图1，示出了提供有声学变换引擎(2)的系统。声学变换引擎(2)包括输入装置(4)、滤波工具(8)、拼接工具(10)、时间变换工具(12)、频率变换工具(14)和输出装置
(16)。该声学变换引擎进一步包括声学规则引擎(18)和声学样本数据库(20)。该声学变换引擎可进一步包括降噪工具(6)、声学样本合成器(22)和合并工具(46)。
[0021]输入装置可操作用于获取将要进行变换的声学信号。该输入装置可以是麦克风
(24)或其它声音源(26)，或者可以是与麦克风(28)或其它声音源(30)以可通信方式链接的输入装置。例如，声音源可以是存储在存储器中的声音文件或者是发声装置的输出。
[0022]例如，降噪工具可以通过应用诸如谱减法之类的降噪算法对声学信号施加降噪。之后，滤波工具、拼接工具、时间变换工具和频率变换工具对该声学信号施加变换。之后变换后的信号可以通过输出装置输出。该输出装置可以是扬声器(32)或配置为存储变换后的信号的存储器(34)，或者可以是与扬声器(36)、配置为存储变换后的信号的存储器(38)或将变换后的信号作为输入接收的另一装置(40)以可通信方式链接的输出装置。
[0023]声学变换引擎可以通过计算机化装置实现，这些装置例如为桌面型计算机、膝上型计算机、平板电脑、移动装置或具有存储器(42)和一个或多个计算机处理器(44)的其它装置。存储器具有已存储于其上的计算机指令，当这些指令被一个或多个处理器执行时，其提供了在本文中描述的功能。
[0024]声学变换引擎可包括在声学变换装置。声学变换装置可以是，例如手持式计算机化装置，其包括:作为输入装置的麦克风、作为输出装置的扬声器、以及一个或多个处理器、控制器和/或实现滤波工具、拼接工具、时间变换工具以及频率变换工具的电路。
[0025]这种声学变换装置的一个特定的示例是可嵌入到轮椅中的移动装置。这种声学变换装置的另一个示例是可植入式或可佩戴式的装置(优选的是基于芯片或其他的小型化)。这种声学变换装置的又一个示例是可由声学信号的收听者佩戴的头戴式耳机。
[0026]声学变换引擎可以应用于任何由声学信号表不的声音以变换、标准化或调整该声音。在一个示例中，声音可以是个人的言语。例如，声学变换引擎可以应用于具有语音障碍的个人的言语以纠正他们的发音、语速和语调。
[0027]在另一个示例中，声音可能来自乐器。在该示例中，声音变换引擎可操作用于纠正未调谐的乐器的音高或者修改不正确的音符与和弦，此外其还可以分别插入漏掉的声音或者去除意外的声音，并且及时校正那些声音的长度。
[0028]在又一个不例中，声音可以是被合成为类似自然声音的预先录制的声音。例如，车载计算机可以被编程以输出类似引擎声音的特殊声音。适时地，输出的声音会受外部因素影响。声学变换引擎可以应用于纠正车载计算机的输出声音。
[0029]声学变换引擎还可以应用于特定人声的合成模仿。例如，通过改变配音演员的语音特征以更类似另一个人，能够使前者听起来更像后者。
[0030]尽管存在大量的针对声学变换引擎的应用的其它示例，但为了简化起见，本公开描述言语的变换。本公开更具体地描述构音障碍性言语的变换。应当理解，可以使用基本上类似于本文所描述的技术来提供其它语音和其它声音的变换。
[0031]声学变换引擎可以保留个人言语的自然韵律(包括音高和强音)，以保留诸如情绪之类的词汇外(extra-lexical)信息。
[0032]声学样本数据库可以填入由声学样本合成器产生的一组合成样本声音。声学样本合成器可以由第三方(例如，文本转语音引擎)提供或者可以包括在声学变换引擎中。这可能涉及，例如，使用具有低通滤波的多相滤波器对合成言语重新采样以避免与原始所讲的源言语混叠。
[0033]在另一个示例中，声学变换引擎的管理员或用户可以将一组样本声音记录填入声学样本数据库。在将声学变换引擎应用于言语的示例中，样本声音与诸如预先录制的词汇之类的适当或期望的言语版本对应。
[0034]在构音障碍性言语的示例中，文本转语音算法可以使用基于线性预测编码的方法来利用发音词典和帮助语调参数选择的词性标注器来合成音素。在该示例中，对于构音障碍的说话者说出的文本或语言，声学样本数据库填入了期望的语音。因为离散的音素序列本身可以不同，所以可以通过莱文斯坦算法在两者之间找到理想的校准，该算法提供了插入、删除和替换错误的总数。
[0035]声学规则引擎可以配置有与不适当输入声学信号的实验发现相关的规则。例如，在将声学变换引擎应用于由构音障碍的讲话者发出的言语的情况下，声学规则引擎可以配置有与针对构音障碍的讲话者的普遍言语问题相关的规则。此外，声学规则引擎可以包括学习算法或启发法以使这些规则适应于声学变换引擎的特定用户，这向用户提供了定制化。
[0036]在构音障碍性言语的示例中，声学规则引擎可以配置有与声学的各种变换相对应的一个或多个变换规则。各规则用以纠正如经验观察所确定的可能由构音障碍引起的特定类型的错误。这种观察的源的一个示例是构音障碍性言语的TORGO数据库。
[0037]声学变换引擎根据这些规则对通过输入装置提供的声学信号施加变换。
[0038]声学规则引擎可以应用源言语的自动或半自动的注释以能够进行更精确的词汇识别。这通过类似于在自动言语识别中使用但是用于受限制任务的高级分类技术来实现。目前存在很多能够应用的自动注释技术，包括，例如，根据停止间隙的出现、元音延长、以及不正确的音节重复将各种神经网络和粗糙集应用于分类言语片段的任务。在各种情况中，输入包括源波形和检测到的共振峰频率。使用粗糙集方法，可以高精确度(约97.2%)检测到停止间隙和元音延长，并且可以高精确度(高达约90%)检测到元音重复。使用更传统的神经网络精确度可能是相似的。即使对源言语进行频率改变，这些结果通常也是不变的。例如，通过使用音高、持续时间和停顿检测，能够可靠地识别出不流利的重复(具有高达约93%的精确度)。如果实施更传统的用于识别元音的言语识别模型，则它们产生猜测词汇的概率可以用于权衡进行声学变换的方式。如果将结合词汇预测，则能够将说出的句子片段的预测延续部分合成而不需要声学输入。
[0039]现在参考图2，其示出了由声学变换引擎提供的声学变换的示例方法。输入装置获取声学信号；该声学信号可以包括同时在多个通道上的声学录音，稍后会重新合并这些声学信号，如在波束形成中一样。在应用变换之前，声学变换引擎可以应用降噪或增强(例如，采用谱减法)，以及自动音位、音素、或词汇的注释。声学变换引擎应用的变换可以由提供发音方式、元音片段的识别、和/或其它的抽象言语和语言表示的知识的注释来辅助以处理声学信号。
[0040]声学信号的声谱图或其它基于频率或频率导出的(例如，倒谱)表示可以用快速傅里叶变换(FFT)、线性预测编码、或其它的这类方法(典型地通过分析时间信号的短窗口)来获取。这通常(但非必须)涉及这样的基于频率或频率导出的表示，在该表示中域由值的向量(例如，频带)进行编码。这通常涉及针对该域的限制范围(例如，频域中的O到8kHz)。发声边界可以从与声谱图对齐的一维向量中提取；例如，这可以通过使用高斯混合模型(GMMs)或用过零率、振幅、能量和/或频谱作为输入参数进行训练的其它概率函数来实现。音高(基于基本频率Ftl)升降曲线可以通过采用由倒谱和时序特征描述的Ftl轨迹的维特比类(Viterb1-1ike)电势解码的方法从声谱图中提取。可以表明的是，与同时被记录的舌动电流描记器的数据相比，在预估Ftl曲线时可以实现小于约0.14%的错误率。优选地，这些曲线不会由于变换而被改变，这是因为在声学变换引擎的一些应用中，使用原始Ftl导致了尽可能高的理解度。
[0041]变换可以包括滤波、拼接、时间变形和频率变形。在对构音障碍性言语施加声学变换的一个示例中，可以施加这些变换中的每一个。在其它应用中，这些变换中的一个或多个可能不需要被施加。要施加的这些变换能够基于声学信号的预期问题来选择，其可以是声学信号所表示的内容的结果。
[0042]此外，这些变换可以按照任意的顺序来施加。施加这些变换的顺序可以是声学变换引擎的实施或实施例中的结果。例如，当按照特定的顺序、是否基于处理器的特定指令集、在处理器中使用流水线的效率等来施加各变换时，可以更有效地利用实施声学变换引擎的特定处理器。
[0043]此外，可以独立地施加某些变换，其中包括以并行方式来施加。这些独立变换的信号能够之后被合并以产生变换后的信号。例如，当并行地执行丢弃或插入音素的纠正时，词汇中元音的共振峰频率能够可以被改变，并且这些能够在之后通过，例如，时域基音同步叠加(TD-PSOLA)由合并工具合并。可以串行地施加其它变换(例如，在某些示例中，声学噪声的去除与共振峰的改变的并行应用可能不会提供最优的输出)。
[0044]滤波工具施加滤波变换。在将声学变换引擎应用于构音障碍性言语的一个示例中，滤波工具可以被配置为基于由注释源提供的信息施加滤波。
[0045]例如，TORGO数据库表明，在构音障碍性言语中清辅音被不适当地的浊化为多达
18.7%的爆破音(例如，/d/发/t/的音)和多达8.5%的摩擦音(例如，M发/f/的音)。浊辅音一般通过浊音横杠(voice bar)的存在而与它们的对应清辅音相区分，浊音横杠是表示通常持续整个辅音或爆破音之前的闭合期间的声襞振动的低于150hz的能量集中。TORGO数据库还表明对于至少两个男性构音障碍的说话者来说，浊音横杠延伸得相当高，高达 250Hz。
[0046]为了纠正这些错误发音，滤波工具滤除所有注释为清辅音的声学子序列的浊音横杠。在该示例中，滤波器可以是高通巴特沃斯滤波器，其通带最平滑并且频域中振幅单一。巴特沃斯滤波器可以配置为在关于奈奎斯特频率的归一化频率范围上使用，使得如果波形的采样率是16kHz，则针对巴特沃斯滤波器的归一化截止频率是八=250/(1.6xl04/2) = 3.125xl0—2。该巴特沃斯滤波器是信号之间的全极点传递函数。滤波工具可以应用10阶的低通巴特沃斯滤波器，其振幅响应是

【权利要求】
1.一种用于变换声学信号的系统，包括:声学变换引擎，其用于根据一个或多个变换规则对所述声学信号施加一个或多个变换，所述一个或多个变换规则被配置为确定所述声学信号的一个或多个时间片段中的各时间片段的正确性。
2.根据权利要求1所述的系统，其中所述声学变换引擎用于对被确定为不正确的片段进行变形或变换。
3.根据权利要求1所述的系统，其中所述声学变换引擎用于将被确定为不正确的片段替换为样本声音。
4.根据权利要求1所述的系统，其中所述声学变换引擎用于删除被确定为不正确的片段。
5.根据权利要求1所述的系统，其中所述声学变换引擎用于在被确定为不正确地相邻的两个片段之间插入样本声音或合成声音。
6.根据权利要求1所述的系统，其中所述变换包括滤波、拼接、时间变换和频率变换中的一个或多个。
7.根据权利要求1所述的系统，其中所述变换规则与不当声学信号的实验发现相关。
8.根据权利要求1所述的系统，其中所述变换规则应用所述声学信号的自动或半自动的注释以识别所述片段。
9.根据权利要求 1所述的系统，其中施加所述变换包括从声学样本数据库获取基准信号或基准参数。
10.根据权利要求1所述的系统，其中所述声学变换引擎并行地施加所述变换并合并经变换的各声学信号以产生变换后的信号。
11.一种用于变换声学信号的方法，所述方法包括: (a)配置一个或多个变换规则以确定所述声学信号的一个或多个时间片段中的各时间片段的正确性；以及 (b)根据所述一个或多个变换规则由声学变换引擎将一个或多个变换施加至所述声学信号。
12.根据权利要求11所述的方法，还包括对被确定为不正确的片段进行变形或变换。
13.根据权利要求11所述的方法，还包括将被确定为不正确的片段替换为样本声音。
14.根据权利要求11所述的方法，还包括删除被确定为不正确的片段。
15.根据权利要求11所述的方法，还包括在被确定为不正确地相邻的两个片段之间插入样本声音或合成声音。
16.根据权利要求11所述的方法，其中所述变换包括滤波、拼接、时间变换和频率变换中的一个或多个。
17.根据权利要求11所述的方法，其中所述变换规则与不当声学信号的实验发现相关。
18.根据权利要求11所述的方法，其中所述变换规则应用所述声学信号的自动的或半自动的注释以识别所述片段。
19.根据权利要求11所述的方法,其中施加所述变换包括从声学样本数据库获取基准信号或基准参数。
20.根据权利要求11所述的方法,还包括并行地施加所述变换并合并经变换的各声学信号以产生变换后的信号。
【文档编号】G10H1/36GK104081453SQ201280037282
【公开日】2014年10月1日申请日期:2012年7月25日优先权日:2011年7月25日
【发明者】弗兰克·鲁德奇兹, 格雷姆·约翰·赫斯特, 帕斯卡尔·胡贝特·亨利·玛丽·范利斯豪特, 杰拉尔德·布拉德利·佩恩, 格雷厄姆·弗雷泽·沙因申请人:索拉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：弗兰克·鲁德奇兹;格雷姆·约翰·赫斯特;帕斯卡尔·胡贝特·亨利·玛丽·范利斯豪特;杰拉尔德·布拉德利·佩恩;格雷厄姆·弗雷泽·沙因
技术所有人：索拉公司
我是此专利的发明人