用于通过交互式话音响应系统防止语音理解的方法和设备的制作方法

文档序号：2823492阅读：370来源：国知局

专利名称：用于通过交互式话音响应系统防止语音理解的方法和设备的制作方法
技术领域：
一般来说，本发明涉及文本到语音(TTS)合成系统，具体来说，涉及这样的方法和设备用于产生和修改TTS系统的输出以防止交互式话音响应(IVR)系统理解来自TTS系统的语音输出，同时能使语音输出能被TTS用户理解。
背景技术：
文本到语音(TTS)合成技术给计算机提供了将机器可读的文本转换为听得见的语音的能力。当计算机应用程序需要与人进行通信时，TTS技术是有用的。虽然记录的话音提示常常符合此需要，此方法提供了有限的灵活性，在高容量应用程序中成本非常高。如此，TTS对于电话业务特别有用，提供一般商务(股票行情)和体育资讯，借助于电话从因特网读取电子邮件或Web页面。
语音合成在技术上要求较高，因为TTS系统必须模型化普通和语音特征，以使语音可理解，并模型化特质和声音特征，以使其像真人那样发声。虽然书面的文本包括语音信息，但是，基本上没有反映代表情绪状态、语气、和强调或姿势的变化的发音质量。例如，在书面的文本中，很少表示出包括音域、重读、语调和语速等韵律的元素。然而，若没有这些特征，合成的语音听起来不自然，单调。
从书面的文本生成语音的过程基本上涉及文本和语言的分析和合成。第一个任务是将文本转换为语言表示形式，包括音素和它们的持续时间、词组边界的位置，以及每一个词组的音高和频率轮廓。合成过程从语言分析所提供的信息产生声波波形或语音信号。
图1显示了涉及远程通信应用程序内的语音识别和生成的常规客户服务系统10的方框图。用户12通常向自动化客户服务系统10输入话音信号22。自动语音识别(ASR)子系统14对话音信号22进行分析。ASR子系统14对所说的话进行解码，并将这些话馈送到口语理解(SLU)子系统16。
SLU子系统16的任务是提取话的含义。例如，“我需要JohnAdams的电话号码”这句话的含义是，用户12希望话务员的帮助。然后，优选情况下，对话管理子系统18确定客户服务系统10应该采取的下一操作，如判断要拨打的人的城市和州，并指示TTS子系统20合成问题“请问，是什么城市和州？”然后，将此问题作为语音信号24从TTS子系统20输出到用户12。
有多种合成语音的不同方法，但每一种方法都可以分为发音合成、共振峰合成或可串联合成。发音合成使用产生语音的计算生物力学模型，如声门的模型，这些模型产生周期和吸气激励和移动声道。发音合成器通常通过诸如舌头、口唇和声门之类的发音器官的模拟肌肉活动来进行控制。发音合成器还对与时间有关的三维微分方程进行求解，以计算合成语音输出。然而，除了高计算要求之外，发音合成却不会产生听起来逼真的流利的语音。
共振峰合成使用一组规则来控制高度简化的源滤波器模型，该模型假设源或声门独立于滤波器或声道。滤波器是通过诸如共振峰频率和带宽之类的控制参数来确定的。共振峰与局部谐振关联，局部谐振的特征是声道的滤波器特征曲线中的峰值。源为周期声或吸气的噪音生成风格化的声门或其他脉冲。共振峰合成会生成可理解的，但听起来不完全逼真的语音，并具有存储器速度低和计算要求适中的优点。
可串联合成使用记录的语音中的从记录中删去的并存储在库存或声音数据库中的那些部分，作为未编码的波形，或通过合适的语音编码方法进行编码。基本单元或语音片段是，例如，元音或辅音之类的单音素，或双音素，其中包含一个音素的后半部分和下一音素的前半部分的音素到音素的过渡。双音素也可以被视为“元音到辅音的过渡”。
可串联合成器常常使用半音节(它们是半音节或音节到音节的过渡)，并将双音素方法应用到音节的时间标定。然后，对应的合成过程将从声音数据库中选择的单元联合，并且，在可选的解码之后，输出所产生的语音信号。由于可串联系统使用预先记录的语音的部分，此方法最有可能听起来逼真。
原始语音的每一个部分都具有关联的韵律轮廓，包括发言者发出的音高和持续时间。然而，当连接数据库中的不同发声产生自然的语音的小部分时，所产生的合成语音可能仍基本上不同于听起来逼真的韵律，这有助于单词中的语调和重音的感觉。
尽管存在这些差别，从图4所示的常规TTS子系统20输出的语音信号24轻松地被语音识别系统识别。虽然这可能起初好像是一个优点，它实际上产生了可能会导致安全违反、误用信息和丧失数据完整性的严重缺点。
例如，假设图1所示的客户服务系统10是如图2所示的自动化银行系统11，用户12已经被自动交互式话音响应(IVR)系统13替代，系统13利用语音识别来与TTS子系统20连接，利用合成语音生成来与语音识别子系统14连接。依赖扬声器的识别系统需要一个训练期来适应单个扬声器之间的变化。然而，从TTS子系统20输出的所有语音信号24通常是相同的声音，如此，对IVR系统13，感觉起来好像是同一个人发出的，这进一步促进了其识别过程。
通过将IVR系统13与一种算法集成以收集和/或修改从自动化银行系统11获取的信息、可以轻松地较大规模地实现潜在的安全违反、信用欺诈、盗用资金、未授权修改信息等等。鉴于前面的情况，需要用于解决保证对TTS系统中的信息的访问的安全性的日益增长的需求。

发明内容
本发明的一个目标是提供用于生成具有至少一个基于韵律样本修改的韵律特征的方法和设备。
本发明的一个目标是提供基本上防止交互式话音响应(IVR)系统理解文本到语音(TTS)系统输出的语音信号的方法和设备。
本发明的另一个目标是提供大大地减少由IVR系统所引起的安全违反、误用信息，以及修改TTS系统中的信息的方法和设备。
本发明的再一个目标是提供基本上防止IVR系统识别TTS系统输出的语音信号，同时相对于人的理解不会大大地降低语音信号的质量的方法和设备。
根据本发明的一种形式，包括某些优选功能，防止语音信号被语音识别系统理解和/或识别的方法包括通过TTS子系统生成语音信号的步骤。文本到语音合成器可以是轻松地从市场上获得的程序。语音信号包括至少一个韵律特征。该方法还包括修改语音信号的至少一个韵律特征并输出修改的语音信号。修改的语音信号包括至少一个修改的韵律特征。
根据本发明的另一个形式，包括某些优选功能，用于防止语音信号被语音识别系统识别的系统包括TTS子系统和韵律修改器。TTS子系统输入文本文件并生成代表文本文件的语音信号。文本语音合成器或TSS子系统可以是精通本技术的那些人通常所知道的系统。语音信号包括至少一个韵律特征。韵律修改器输入语音信号并修改与语音信号关联的至少一个韵律特征。韵律修改器生成包括至少一个修改的韵律特征的修改的语音信号。
在优选实施例中，系统也可以包括用来生成随机频率信号的频率覆盖子系统，随机频率信号被覆盖到修改的语音信号上。频率覆盖子系统也可以包括被设置为在预先确定的时间终止的计时器。使用计时器，以便在它终止之后频率覆盖子系统将重新计算新的频率，以便进一步防止IVR系统识别这些信号。
在本发明的一个优选实施例中，获取韵律样本，然后使用该韵律样本来修改语音信号的至少一个韵律特征曲线。通过韵律样本对语音信号进行修改，以输出修改的语音信号，该信号可以随每一个用户而变化，从而防止IVR系统理解语音信号。
通过提示用户提供诸如此人的姓名或其他标识信息之类的信息，可以获取韵律样本。在从用户接收到该信息之后，从响应中获取韵律样本。然后使用韵律样本来修改文本语音合成器创建的语音信号，以创建韵律修改的语音信号。
在另一个实施例中，为进一步防止语音信号被IVR系统识别，优选情况下，将随机频率信号覆盖在韵律修改的语音信号中，以创建修改的语音信号。优选情况下，随机频率信号在人耳听觉范围内，在20Hz和8,000Hz之间以及16,000Hz到20,000Hz之间。在计算随机频率信号之后，将它与位于人耳听觉范围内的可接受的频率范围进行比较。如果随机频率信号在可接受的范围之内，则将它覆盖在语音信号上或与该信号混合。然而，如果随机频率信号不在可接受的频率范围内，则重新计算随机频率信号，然后再次与可接受的频率范围进行比较。此过程持续进行，直到找到可接受的频率。
在优选实施例中，优选情况下，使用各种随机参数来计算随机频率信号。优选情况下，计算第一随机数。然后测量诸如风速或气温之类的可变参数。然后，使用可变参数作为第二随机数。将第一随机数除以第二随机数以生成商。然后，优选情况下，将商规范化到听觉范围内的值。如果商在可接受的频率范围之内，则如前所述使用随机频率信号。然而，如果商不在可接受的频率范围内，则可以重复获取第一随机数和第二随机数的步骤，直到获得可接受的频率范围。这种特殊的生成随机频率信号的方式的优点是，它取决于诸如风速(不是决定性的)之类的可变参数。
在本发明的另一个实施例中，优选情况下，随机频率信号包括覆盖计时器，以降低IVR系统认识语音输出的可能性。使用覆盖计时器以便可以每隔一段时间更换新的随机频率信号，以防止IVR系统识别语音信号。在输出语音信号之前，首先初始化覆盖计时器。覆盖计时器被设置为在预先确定的时间终止，该时间可以由用户进行设置。然后，系统判断覆盖计时器是否已经终止。如果覆盖计时器没有终止，则利用频率覆盖子系统输出修改的语音信号。然而，如果覆盖计时器已经终止，则重新计算随机频率信号，并重新初始化覆盖计时器，以便用修改的语音信号输出新的随机频率信号。使用覆盖计时器的优点是，随机频率信号将发生变化，使得IVR系统难以识别任何特定的频率。
通过阅读下面的参考附图进行的说明，本发明的其他目标和特点将变得显而易见。然而，应该理解，图形只作为说明，而不作为对本发明的限制。

图1是在远程通信应用程序内集成了语音识别和生成的常规客户服务系统的方框图。
图2是集成了语音识别和生成的常规自动化银行系统的方框图。
图3是常规文本到语音(TTS)子系统的方框图。
图4是显示了单元选择过程的操作的图表。
图5是根据本发明构成的TTS子系统的方框图。
图6是获取用户的声音的韵律的方法的流程图。
图7是韵律修改子系统的操作的流程图。
图8A是频率覆盖子系统的操作的流程图。
图8B是包括覆盖计时器的频率覆盖子系统的另一个实施例的操作的流程图。
图9A是获取随机频率信号的方法的流程图。
图9B是获取随机频率信号的方法的第二个实施例的流程图。
图9C是获取随机频率信号的方法的第三个实施例的流程图。
具体实施例方式
可串联合成的一个困难是判断要正好选择什么类型的段。长的句子再现最初所说的实际发声，并广泛地在交互式话音响应(IVR)系统中使用。对于文本中的甚至细微的变化，这样的片段都很难修改或扩展。可以从对齐的语音-声音数据序列中提取音素大小的片段，但单独的简单音素通常不能模型化稳态的中间部分之间的困难的过渡周期，这也会导致听起来不逼真的语音。双音素和半音节片段在TTS系统中已经比较流行，因为这些片段包括过渡区域，并可以方便地产生本地可理解的声波波形。
连接音素或较大的单元所存在的另一个问题是需要根据韵律要求和预定的上下文修改每一个片段。音频信号的线性预测编码(LPC)表示法使得音高被轻松地修改。所谓的音高-同步-重叠-和-添加(PSOLA)技术使得音高和持续时间对于完整的输出波形的每一个片段被修改。在LPC的情况下，这些方法会通过带来涉及所选择的激励的有感觉的效果造成输出波形的衰减，在PSOLA的情况下，由于片段之间的偶然的不连续性，而造成不需要的噪声。
在大多数可串联合成系统中，实际片段的判断也是一个严重问题。如果手工确定片段，则该过程太慢并繁琐。如果片段是自动确定的，则片段可能会包含将使话音质量降低的错误。当通过在音素识别模式下使用语音识别引擎可以进行自动分段而没有操作员干预时，在语音级别的分段的质量可能不适于隔离单元。在此情况下，仍将需要手动调谐。
图3显示了使用可串联合成的TTS子系统20的方框图。TTS子系统20优选情况下提供文本分析功能，这些功能输入ASCII消息文本文件32并将它转换为音符和韵律(基频、持续时间和振幅)目标的系列。TTS子系统20的文本分析部分优选情况下包括三个单独的子系统26、28、30，并具有在许多方面彼此依赖的功能。符号和缩写扩展子系统26优选情况下输入文本文件32并分析非字母符号和缩写，以便扩展为全字。例如，在句子“Dr.Smith lives at4305 Elm Dr.”中，第一个“Dr.”被转换为“Doctor”，而第二个“Dr.”被转换为“Drive”。然后，符号和缩写子系统26将“4305”扩展为“fortythree oh five”。
然后，优选情况下，句法分析和标记子系统28识别语音的与句子中的每一个单词关联的那一部分，并使用此信息来标记文本。句法标记去除句子的组成部分，以借助于发音词典数据库42生成音素的正确字符串。如此，对于上文讨论的句子，消除了动词“lives”与“life”的复数“lives”的歧义。
如果词典搜索未能检索到适当的结果，则优选情况下使用“字母-到-声音”规则数据库42。
然后，韵律子系统30优选情况下使用来自句法分析和标记子系统28的加标点的文本、句法信息，以及音位信息预测句子的措辞和字的重音。韵律子系统30从此信息生成被指向的目标，例如，基频、音素持续时间、以及振幅。
图3所示的单元组装子系统34优选情况下利用声音单元数据库36来根据韵律子系统30生成的目标列表来组装这些单元。单元组装子系统34对于实现自然声音合成语音非常有用。由单元组装子系统34所选择的单元优选情况下被输送给生成语音信号24的语音合成子系统38。
如上文所指出的，可串联合成的特征在于存储、选择和平稳地连接语音的预记录的片段。直到最近，大多数可串联TTS系统都是基于双音素的。双音素单元包含了从一个似稳定语音到下一个似稳定语音的语音部分。例如，双音素可以大致包含/ih/的中间到大致包含单词″in″中的/n/的中间。
美国英语的基于双音素的可串联合成器至少需要1000个双音素单元，它们通常是从指定的发言者获取的记录内容。基于双音素的可串联合成具有适度的存储器要求的优点，因为对于所有可能的上下文使用了一个双音素单元。然而，由于为了提供用于合成的双音素而记录的语音数据库听起来不逼真和自然，因为发言者被要求清晰地发出清楚的单音，所产生的合成语音的发音不自然。
专家手动贴标机被用来检查波形和光谱图，以及使用完善的听力技能来产生注释或标记，如单词标记(单词的末尾的时间标记)、音调标记(发声的音调的符号表示法)、音节和重音标记、音素标记，以及区别单词、子短语、和句子之间的分隔符的分隔符索引。然而，通过语音的大型数据库的自动标记，基本上掩蔽了手动标记。
自动标记工具可以被分为创建必需的音素标记的自动语音标记工具，以及创建必需的音调和重音标记的自动韵律标记工具，以及分隔符索引。如果文本消息是已知的，以便识别器只需要选择适当的音素边界而不是音素标识，则自动语音标记是适当的。相对于给定声音，也需要对话音识别器进行训练。自动韵律标记工具用一组在语言上激发的声音功能来进行工作，如规范化的持续时间和最大/平均音高比率，并被提供了来自语音标记的输出。
由于高质量自动语音标记工具的出现，利用了使用逼真、更加自然的说话风格记录的语音数据库的单元选择合成变得可行。这种数据库可以仅局限于较窄的应用，如旅行预定或电话号码合成，也可以用于一般的应用，如电子邮件或新闻报道。与基于双音素的可串联合成器不同，单元选择合成自动从可以包含成千上万的特定双音素的示例的库存中选择最佳合成单元，并将这些单元连接起来，以生成合成语音。
图4显示了单元选择过程，该过程试图选择单元选择网络中的对应于单词“two”中的声音的最佳路径。给每一个节点44分配了目标成本，给每一个箭头46分配了联合成本。单元选择过程试图发现最佳路径，该最佳路径通过粗体箭头48显示，它使得所有目标成本和联合成本的总和最小化。单元的最佳选择取决于诸如单元边界处的频谱相似性、两个单元之间的联合成本的分量，以及每一个单元的目标成本的匹配韵律目标或分量之类的因素。
单元选择合成表示语音合成的改善，因为它使得语音的片段更长，如在合成中要使用的整个词句(如果在库存中发现具有所希望的属性的词句)。相应地，单元选择最适合用于受限的-域应用程序，如合成要嵌入在固定载体句子内的电话号码。在诸如电子邮件读取之类的公开的域应用程序中，单元选择可以减少每个合成的句子的单元到单元的过渡的数量，如此提高了合成输出的质量。此外，单元选择允许库存中的一个单元的多个实例化，当取自不同的语言和韵律上下文时，降低了进行韵律修改的必要性。
图5显示了根据本发明构成的TTS子系统50。TTS子系统50基本上类似于图3所示的子系统，只是在输出修改的语音信号54之前，语音合成子系统38的输出优选情况下被韵律修改子系统52修改。此外，优选情况下，TTS子系统50也包括韵律修改子系统52之后的频率覆盖子系统53以在输出修改的语音信号54之前修改韵律。在输出修改的语音信号54之前覆盖韵律修改的语音信号上的频率确保了修改的语音信号54将不会被利用自动语音识别技术的IVR系统理解，同时相对于人的理解不会大大地降低语音信号的质量。
图6是显示优选情况下在如图5所示的韵律子系统30中进行的获取用户的语音模式的韵律的方法的流程图。用户的韵律的计算可以在检索文本文件32之前交替地进行。在步骤60中，首先提示用户提供诸如姓名之类的标识信息。然后，在步骤62中，用户必须响应该提示。然后，在步骤64中，对用户的响应进行分析，并从响应计算语音模式的韵律。然后，在步骤70中，将韵律的计算的输出存储在如图5所示的韵律数据库72中。用户的话音信号的韵律的计算结果将供韵律修改子系统52使用。
图7显示了韵律修改子系统52的操作的流程图。韵律修改子系统52首先在步骤80中从韵律数据库72中检索用户输出声音的韵律，这是以前计算出的。优选情况下，用户的响应的韵律是用户的声音的音高和音调的组合，随后，该组合被用来修改语音合成子系统输出。可以使用用户的响应的音高和音调值作为语音合成子系统输出内容的音高和音调。
例如，如图5所示，通过文本分析符号和缩写扩展子系统26来对文本文件32进行分析。使用词典和规则数据库42来生成字素到到音素录音，并“规范化”缩写。然后，文本分析韵律子系统30生成所说的句子的“旋律”的目标。然后，单元组装子系统文本分析句法分析和标记子系统34通过使用高级网络优化技术来使用声音单元数据库36，这些技术评估在记录和合成过程中出现的文本中的候选单元。声音单元数据库36是诸如半音素之类的记录内容的片断。目标是最大化记录内容和合成触点的相似性，以便合成语音的质量非常高。语音合成子系统38转换存储的语音单元，按顺序连接这些单元，并保持边界处的平滑。如果用户希望改变声音，优选情况下，在声音单元数据库36中交换声音单元的新存储。
如此，在步骤82中，用户的响应的韵律与语音合成子系统输出组合。然后，在计算适当的“字母到声音”的过渡之后，用户的响应的韵律被语音合成子系统38使用。语音合成子系统可以是诸如AT&TNatural VoicesTM文本到语音之类的已知的程序。在步骤84中，经过韵律响应修改的组合的语音合成被韵律修改子系统52输出(图5)，以创建韵律修改的语音信号。根据本发明形成的韵律修改子系统52的优点是，来自语音合成子系统38的输出被用户的自己声音韵律和从子系统50输出的修改的语音信号54(优选情况下，该信号可以随每一个用户而变化)修改。相应地，此功能使得IVR系统很难识别TTS输出。
图8A显示了一个流程图，该流程图显示了图5所示的频率覆盖子系统53的操作的一个实施例。优选情况下，频率覆盖子系统53首先在步骤90中访问频率数据库68以查找可接受的频率。优选情况下，可接受的频率在人耳听觉范围(20-20,000Hz)内，分别位于诸如20-8,000Hz和16,000-20,000Hz之类的可听范围的上端和下端。然后，在步骤92中计算随机频率信号。优选情况下，使用当前技术中已知的随机数生成算法，来计算随机频率信号。然后，优选情况下，在步骤94中，将随机计算出的频率与可接受的频率范围进行比较。如果在步骤96中随机频率信号不在可接受的范围内，则该系统在步骤92中重新计算随机频率信号。不断重复此循环，直到随机计算出的频率在可接受的频率范围之内。如果随机频率信号在可接受的频率范围之内，则在步骤98中将随机频率信号92覆盖到韵律修改的子系统语音信号上。可以通过将信号组合或混合起来，将随机频率信号92覆盖到韵律修改的子系统语音信号上，以创建供输出的修改的语音信号。可以同时输出随机频率信号和韵律修改的子系统语音信号，以创建供输出的修改的语音信号。然而，随机频率信号将被用户听到，它将不会使韵律修改的子系统语音信号变得无法理解。然后，在步骤99中，输出供输出的修改的语音信号。
在图8B所示的另一个实施例中，优选情况下，在步骤99中的输出修改的语音信号的过程中，改变生成的随机频率信号。现在请参看图8B，在激活随机频率信号覆盖子系统之前，优选情况下，系统将在步骤100中初始化覆盖计时器。预设覆盖计时器100，以便在预先确定的时间之后，将复位计时器。在设置覆盖计时器之后，优选情况下，执行图8A所示的频率覆盖子系统的功能。然后，在步骤99中，输出供输出的修改的语音信号54。在输出供输出的修改的语音信号54时，在步骤102中访问覆盖计时器以查看计时器是否已经终止。如果计时器已经终止，然后，系统将在步骤100中重新初始化覆盖计时器，并反复步骤90、92、94、96和98以覆盖不同的随机频率信号。如果覆盖计时器没有终止，优选情况下，继续供输出的修改的语音信号54，其中，相同的随机频率信号92被覆盖。此系统的一个优点是，随机频率信号将周期性地改变，如此使得IVR系统很难识别修改的语音信号54。
请参看图9A，优选情况下，在步骤110中，通过首先获取低于值1.0的第一随机数，来计算在图8A和8B中的步骤92中计算出的随机频率信号。然后，在步骤112中测量诸如室外温度之类的第二随机数112。然后，优选情况下，在步骤114中，系统将第一随机数除以第二随机数。在步骤94中，将此商与可接受的频率进行比较，如果在步骤96中它在可接受的范围之内，则使用该随机数作为覆盖频率。然而，如果在步骤96中该商不在可接受的范围内，则系统获取新的低于值1.0的第一随机数，并重复步骤110、112、94和96。优选情况下，通过当前技术中已知的随机数生成算法，获取低于1.0的数字的值。优选情况下，由操作员确定此数字中的小数位数。
在图9B所示的另一个实施例中，代替步骤112中的测量室外温度的过程，在步骤212中可以测量外部风速，并用来生成第二随机数。可以预料，在本发明的范围之内，也可以使用其他变量。其余步骤基本上类似于图9A所示的那些步骤。室外温度或外部风速的重要特征是，它们是随机的，而不是预先确定的，如此使得IVR系统计算对应于修改的语音信号的频率变得更加困难。
在图9C所示的另一个实施例中，在于步骤310中获取第一随机数并在步骤314中除以室外温度之后，优选情况下，商低于1.0。优选情况下，在步骤315中，将该数字四舍五入到第五个小数位中的最近的数字。可以预料，在本发明的范围之内，可以改变用于获取随机频率信号的任何参数。
这里专门显示和/或描述了本发明的多个实施例。然而，可以理解，上述说明涵盖了本发明的各种修改方法，在不偏离本发明的精神和预定范围的情况下，都在所附权利要求的范围内。
权利要求
1.一种生成语音信号的方法，包括下列步骤基于韵律样本，修改语音信号的至少一个韵律特征曲线；以及输出修改的语音信号，修改的语音信号包括至少一个修改的韵律特征，从而防止所述修改的语音信号被语音识别系统理解。
2.根据权利要求1所述的生成语音信号的方法，其中，获取韵律样本的步骤进一步包括下列步骤提示用户提供信息；以及从用户的响应中获取韵律样本。
3.根据权利要求2所述的生成语音信号的方法，其中，修改语音信号的步骤进一步包括用韵律样本修改所述语音信号以创建韵律修改的语音信号的步骤。
4.根据权利要求3所述的生成语音信号的方法，其中，修改语音信号的步骤进一步包括下列步骤生成随机频率信号；将随机频率信号覆盖在韵律修改的语音信号上，以生成修改的语音信号；以及输出修改的语音信号。
5.根据权利要求3所述的生成语音信号的方法，其中，修改语音信号的步骤进一步包括下列步骤(a)获取可接受的频率范围；(b)计算随机频率信号；(c)将随机频率信号与所述可接受的频率范围进行比较；(d)响应计算出的随机频率信号不在所述可接受的频率范围之内的情况，执行步骤(a)-(c)；以及(e)响应随机频率信号在可接受的频率范围之内的情况，将所述随机频率信号覆盖到语音信号上。
6.根据权利要求5所述的生成语音信号的方法，进一步包括下列步骤初始化覆盖计时器，所述覆盖计时器适于在预先确定的时间终止；判断覆盖计时器是否已经终止；响应覆盖计时器没有终止的情况，通过频率覆盖子系统输出修改的语音信号；以及响应初始覆盖计时器已终止的情况，重新计算随机频率信号。
7.根据权利要求6所述的生成语音信号的方法，其中，计算随机频率信号的步骤进一步包括下列步骤(a)获取第一随机数；(b)测量可变参数；(c)使第二随机数与可变参数相等；(d)将第一随机数除以第二随机数以生成商；(e)判断商是否在可接受的频率范围之内；(f)执行步骤(a)-(d)，直到所述的商在所述可接受的频率范围之内；以及(g)响应所述商在可接受的频率范围之内的情况，使所述商与所述随机频率信号相等。
8.根据权利要求7所述的生成语音信号的方法，其中，所述第二随机数包括测量的外部周围温度。
9.根据权利要求8所述的生成语音信号的方法，其中，第二随机数包括外部风速。
10.根据权利要求9所述的生成语音信号的方法，其中，所产生的随机频率信号数字被四舍五入到第五个小数位。
11.根据权利要求5所述的生成语音信号的方法，其中，可接受的频率范围在人耳听觉范围之内。
12.根据权利要求11所述的生成语音信号的方法，其中，可接受的频率范围在20Hz和8,000Hz之间。
13.根据权利要求11所述的生成语音信号的方法，其中，可接受的频率范围在16,000Hz和20,000Hz之间。
14.一种生成语音信号和防止语音信号被语音识别系统理解的方法，该方法包括下列步骤访问文本文件；利用文本到语音合成器来从文本文件生成语音信号；提示用户提供信息；存储所述用户的响应；从所述用户的响应，获取韵律样本；用从所述用户的响应获取的所述韵律样本来修改语音信号；以及输出韵律修改的语音信号。
15.根据权利要求14所述的生成语音信号和防止语音信号被语音识别系统理解的方法，其中，修改语音信号的步骤进一步包括下列步骤生成随机频率信号；将随机频率信号覆盖在韵律修改的语音信号上，以生成修改的语音信号；以及输出修改的语音信号。
16.根据权利要求15所述的生成语音信号和防止语音信号被语音识别系统理解的方法，其中，修改语音信号的步骤进一步包括下列步骤(a)获取可接受的频率范围；(b)计算随机频率信号；(c)将随机频率信号与所述可接受的频率范围进行比较；(d)响应计算出的随机频率信号不在所述可接受的频率范围之内的情况，执行步骤(a)-(c)；以及(e)响应随机频率信号在可接受的频率范围之内的情况，将所述随机频率信号覆盖到语音信号上。
17.根据权利要求16所述的生成语音信号和防止语音信号被语音识别系统理解的方法，进一步包括下列步骤初始化覆盖计时器，所述覆盖计时器适于在预先确定的时间终止；判断覆盖计时器是否已经终止；响应覆盖计时器没有终止的情况，通过频率覆盖子系统输出修改的语音信号；以及响应覆盖计时器已终止的情况，重新计算随机频率信号。
18.根据权利要求17所述的生成语音信号和防止语音信号被语音识别系统理解的方法，其中，计算随机频率信号的步骤进一步包括下列步骤(a)获取第一随机数；(b)测量可变参数；(c)使第二随机数与可变参数相等；(d)将第一随机数除以第二随机数以生成商；(e)判断商是否在可接受的频率范围之内；(f)执行步骤(a)-(d)，直到所述的商在可接受的频率范围之内；以及(g)响应所述商在可接受的频率范围之内的情况，使所述商与所述随机频率信号相等。
19.根据权利要求18所述的生成语音信号和防止语音信号被语音识别系统理解的方法，其中，所述第二随机数包括测量的外部周围温度。
20.根据权利要求19所述的生成语音信号和防止语音信号被语音识别系统理解的方法，其中，第二随机数包括外部风速。
21.根据权利要求20所述的生成语音信号和防止语音信号被语音识别系统理解的方法，其中，所产生的随机频率信号数字被四舍五入到第五个小数位。
22.根据权利要求16所述的生成语音信号和防止语音信号被语音识别系统理解的方法，其中，可接受的频率范围在人耳听觉范围之内。
23.根据权利要求22所述的生成语音信号和防止语音信号被语音识别系统理解的方法，其中，可接受的频率范围在20Hz和8,000Hz之间。
24.根据权利要求22所述的生成语音信号和防止语音信号被语音识别系统理解的方法，其中，可接受的频率范围在16,000Hz和20,000Hz之间。
25.一种用于降低语音识别系统对语音信号的理解的设备，该系统包括韵律修改器，用于输入语音信号和韵律样本，韵律修改器根据韵律样本修改与语音信号关联的至少一个韵律特征；以及韵律修改器输出设备，用于生成修改的语音信号，修改的语音信号包括至少一个修改的韵律特征。
26.根据权利要求25所述的用于降低语音识别系统对语音信号的理解的设备，进一步包括频率覆盖子系统，频率覆盖子系统生成随机频率信号以覆盖在修改的语音信号上。
27.根据权利要求26所述的用于降低语音识别系统对语音信号的理解的设备，其中，所述频率覆盖子系统进一步包括覆盖计时器，该覆盖计时器适于在预先确定的时间终止，以表明生成了随机频率。
全文摘要
一种方法和设备，利用文本到语音(TTS)系统输出的语音信号的韵律修改来基本上防止交互式话音响应(IVR)系统理解语音信号而不会大大地降低人对语音信号的理解。本发明涉及通过使用用户对提示的响应的韵律来修改语音输出信号的韵律。此外，还使用随机生成的覆盖频率来修改语音信号以进一步防止IVR系统识别TTS输出。可以使用覆盖计时器周期性地改变随机生成的频率，以便以预先确定的间隔改变随机频率信号。
文档编号G10L13/02GK1758330SQ20051010698
公开日2006年4月12日申请日期2005年9月27日优先权日2004年10月1日
发明者卓塞弗·德西蒙尼申请人:美国电报电话公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卓塞弗.德西蒙尼
技术所有人：美国电报电话公司
我是此专利的发明人

上一篇：乐曲再生装置的制作方法
上一篇：乐谱架装置和具有乐谱架装置的乐器的制作方法