用于从声学数据生成词条的方法和设备的制作方法

文档序号：2823144阅读：186来源：国知局

专利名称：用于从声学数据生成词条的方法和设备的制作方法
技术领域：
本发明涉及一种用于从输入声学数据自动生成词条的方法和设备。这样的词汇例如可以用于语音识别系统、语音合成系统或用于信息检索的视听讲座的自动处理中。
背景技术：
语音识别和语音合成系统应用包含单词及其发音形式的词汇。发音形式的创建和所得的音位序列都被称为语音标音。单词与其语音标音一起形成了词条。当前语音处理系统中未解决的问题之一是存在“词汇表之外”(OOV)的单词，即词汇表中未包含的单词，例如参考US 7181398 B2。OOV单词可以是通用的单词或已知单词的用户特异性发音。大部分现有技术语音识别系统不能自动检测到这些OOV单词；相反，它们会造成识别错误。正常情况下，在这样的系统中，由校正师或用户自己识别这些OOV单词。在识别之后，系统可以确定对应的输入声学数据。在另一实施例中，用户有机会通过简单地拼写新单词而向词汇表中增加它们。在所有情况下，现有系统仅能够为标准单词——即符合实际语言的词法的单词——自动产生词条，但它们不能为词法不同于实际所用语言的特殊单词自动产生词条。具体而言，这样的特殊单词是外语单词、外源性姓氏或缩写。这使得校正OOV单词的过程和向词汇表增加新单词的过程都很繁琐且耗时。此夕卜，由于缺少为特殊单词自动生成词条的能力，从任何公共可访问声学数据自动生成词汇也是不可能的。

发明内容
因此，本发明的目的是克服上述问题，并提供一种方法和一种设备，其能够为包括特殊单词的任何种类的单词从指定输入声学数据自动产生词条。根据本发明的第一方面，提供了一种用于从输入声学数据自动生成词条的方法，所述方法包括以下步骤-执行词条类型特异性声学语音标音和基于语音结构的词条类型的分类，_其中，根据若干预定类型执行词条的分类；以及-执行词条类型特异性音位到字形转换，以导出包括成对的语音标音及其字形形式的相应词条。根据本发明的第二方面，提供了一种用于从输入声学数据自动生成词条的设备，其包括-词条类型分类器装置和词条类型特异性声学语音标音装置，-词条合成器装置，-其中，所述词条类型分类器装置被布置成根据若干预定类型对词条分类，并且-其中，所述词条合成器装置包括词条类型特异性统计学音位到字形转换器装置。此外，根据第三方面，本发明提供了一种可以直接加载到计算机的存储器中的计算机程序产品，其包括软件代码段，在计算机上运行该计算机程序时，所述软件代码段用于执行根据本发明的方法。根据本发明，有可能从指定输入声学数据自动生成词条。词条是成对的语音标音及其对应的字形形式(单词)。在自动生成之后，可以立即将词条加入词汇表中。该方法是通用的，即适用于生成任何种类的词条。特定的优点是它还能够生成语音标音不同于语言词法的特殊词条。这样的词条例如是外来单词(外语单词)、外源性姓氏或缩写。为了实现词条生成的自动化，简言之，提供了以下特征词条类型特异性声学语音标音；词条类型的自动分类；词条类型特异性音位到字形转换(反向语音标音)。具体而言，提供了一种基于词法(语音结构)的词汇类型自动分类。分类方法可以是基于分数和语音距离度量的方法，或可以基于基于特定神经网络的语言识别。不过，也可以执行基于语音结构的分类的任何其他已知的实现。优选地，引入以下词条类型符合语言词法的词条(正常的单词或非外源性姓氏)；符合指定语言集中外语的词法的词条(例如外语单词或外源性姓氏)；不符合任一已支持语言的词法且正常发音的词条(例如“Philips”)；不符合任一已支持语言的词法且通过拼写来发音的词条，即缩写(例如“IBM”)。由分类器判定指定输入声学数据的词条类型并从所供应的输入声学数据提取声学语音标音。至于词条类型分类，尤其有利的是在组合步骤中与声学语音标音一起执行词条分类。与之相关地，优选在声学语音标音期间假设词条类型，并为每种假设的词条类型应用独立的声学语音标音。另一方面，如上所述，如果针对自动词条类型分类，应用基于神经网络的语言识别也是有用的。在这里，还优选首先执行基于神经网络的分类，之后基于所述词条类型信息执行声学语音标音。至于上述四种优选词条类型，还优选地，针对符合所提供语言词法的词条，与音节语言模型一起应用标准声学模型，而针对正常缩写类型应用高分辨率声学模型，针对拼写缩写应用拼写声学模型。至于词汇类型分类器，尤其有利的是所述词条类型分类器装置包括针对相应词条类型的门电路装置，所述门电路装置被布置成输出相应的词条类型信息以及语音标音。所述声学语音标音装置可以包括音节语言模型装置，尤其是标准声学模型装置、高分辨率声学模型装置和拼写声学模型装置。在这里，在为了分类而提供布置成输出词条类型的神经网络装置的情况下，分类器装置包括神经网络装置，所述神经网络装置被布置成输出针对每个预定词条类型的概率信息以及输入声学数据；将所述词条类型信息以及输入声学数据供应给布置成输出所述词条类型信息以及语音标音的词条类型特异性声学语音标音装置。此外，尤其有利的是，所述声学语音标音装置包括与给定声学模型装置相关联的声学模型选择器以及与给定音节语言模型装置相关联的音节语言模型选择器，两个选择器都连接到所述词条类型信息。
从以上内容可以看出本发明有两个主要的优选实施例，它们具有不同形式的词条类型分类。在第一实施例中，在近乎单一的组合步骤中执行词条类型分类和声学语音标音。通过应用音位识别从指定输入声学数据提取声学语音标音。不同的音节语言模型对已支持语言的词法信息进行建模。此外，为了识别缩写的音位序列，需要有不同的声学模型。通过这种方法，通过为音位识别设置不同的资源来执行词条类型特异性声学语音标音。以并行方式针对每种假设的词条类型执行词条类型特异性声学语音标音。于是，所得的音位序列是假设的语音标音，即候选者。最多两级分类过程就判定了词条类型，之后，对应的候选者变为指定输入声学数据的语音标音。在第一级中，做出基于声学概率的判定以检测通过拼写发音的缩写。如果发现当前词条具有另一种类型，那么还应用第二级。在这里，可以对剩余的词条类型假设做出组合的基于语音距离和概率的判定。这种语音距离例如是音位序列之间不同音位的数目除以那些音位序列中音位的平均数目(归一化语音距离)。在本发明的第二主要实施例中，以相继方式执行类型分类和声学语音标音。在第一步骤中，应用基于神经网络的分类器来判定指定输入声学数据的词条类型。之后，使用这一词条类型信息设置音位识别器的资源，以仅执行相关的词条类型特异性声学语音标音。通过拼写词条类型发音的缩写具有唯一的音位到字形分配，其被用于从语音标音得到缩写单词。为了为其他词条类型执行音位到字形转换，可以应用标准的统计学方法，例如，联合的基于 N-gram 的方法，如 L.Galescu，J. Allen(2001)在 Proc. 4th ISCA Workshop on Speech Synthesis, Pitlochry, Scotland, 2001 上的文章‘‘Bi-directional Conversation Between Graphemes andPhonemes Using a joint N-gram model，，中的方法。这种方法使用了词条类型特异性反向语音标音资源。为了培训这种资源，使用特定的预备词汇表，其由类型对应于所需资源的类型的词条构建。

从下文参考附图所述的实施例，本发明的以上和其他方面会显而易见并将得以阐明，当然并非意在将本发明限于这些优选实施例。在附图中图1为示意图，其在主要处理框中示出了根据本发明的自动词条生成的第一实施例；图2为方框图，其示出了根据本发明第一实施例的优选词条类型特异性声学语音标音装置的结构；图3为方框图，其示出了本发明第一实施例的优选词条类型分类器装置；图4示出了可以用于本发明第一和第二主实施例的优选词条合成器装置的结构；图5为示意图，其示出了根据本发明的自动词条生成的第二实施例及其主要处理框，类似于图1的例示；图6为方框图，其示出了属于本发明第二实施例的基于神经网络的词条类型分类器；以及图7为示意图，其示出了根据本发明第二实施例的词条类型特异性声学语音标音器。
具体实施例方式在基于附图描述本发明的优选实施例之前，似乎适于指出，在附图中，通过矩形框示出了本发明部件的相应结构的功能块，而利用实线椭圆形单元表示用于特定功能的相应资源；此外，利用虚线椭圆单元示出属于共同体(或者实现为合成物)的数据。然后，附图中用箭头示出了数据流。为了进一步一般性介绍当前技术，应当想起，词条是成对的语音标音及其对应的字形形式(单词)。由于其在很多语音处理应用情形中具有附加价值，从指定输入声学数据自动生成词条具有特殊的重要性。这样的应用情形例如是，向系统增加OOV单词或新单词，或设立用户特异性发音辞典。然而，在过去，自动词条生成的问题仅得到部分解决。以前的系统不能以自动方式执行特殊项目一如外语单词、外源性姓氏或缩写的处理。在使用这样的系统时这是相当不便的，它阻止了实现新的应用情形，如发音辞典的自动生成。本发明的目标是提出一种技术，利用这种技术能够从指定输入声学数据自动生成任何种类的词条。该技术的一项特殊任务是还实现特殊词条的自动创建。通常，这种词条的语音标音与语言词法不同，即与语言的固有语音结构不同。可以认为本技术包括三个主要步骤词条类型特异性声学语音标音；词条类型的自动分类；以及词条合成。在图1中示出了对应于这些主要步骤的处理框。更详细地，图1示意性示出了设备1，在第一框中包括词条类型特异性声学语音标音装置2，在3处向声学语音标音装置2供应声音数据。在声学语音标音装置2的输出处，获得4处示出的音位序列以及5处示出的分数，将它们供应给词条类型指定器装置6，即本设备1中第二个主框。在这里，词条的类型是固定的，从分类器装置6的输出处向词条合成器装置9供应对应的词条类型信息7连同语音标音8。在词条合成器装置9的输出处，在 10处获得相应的词条。根据本发明，定义以下词条类型“正常”类型符合当前语言的语音结构的词条(正常单词或非外源性姓氏)—— 类型“N”；类型“第i种已支持外语”符合已支持语言的指定组的第i种外语(i = 1···η)的语音结构的词条(例如，外语单词或外源性姓氏)——类型“Fi”或“F1”……"Fn"；类型“正常缩写”不符合任何已支持语言的语音结构，但正常发音的词条(如 “Philips”)——类型 “AN”；类型“拼写缩写”不符合任何已支持语言的语音结构，并通过拼写而发音的词条 (如“IBM”)——类型“AS”。应当指出，一些缩写可能会意外地符合当前语言的语音结构，因此它们属于类型 “正常”。现在，特别参考图1中声学语音标音框2，通过应用标准音位识别从指定输入声学数据(输入3处的声音)获得语音标音是一种公知技术。对于关于标准音位识别的详情，可以参考例如 K. F.Lee，H. W. Hon (1989)在 Proc. IEEE Trans. ASSP, Vol. 37, No. 11，pp 1641-1648 的文章 “Speaker-Independent Phone Recognition Using Hidden Markov Models”。这项技术被称为声学语音标音。在标准音位识别中，使用音位语言建模来改进音素(phone)准确度。然而，音位语言建模仅具有非常受限的搜索空间限制能力。这意味着，通过这种方式只能对音素准确度实现适度的改进(再次参看上述K. F.Lee，H. W. Hon的文章(1989))。另一方面，由于同样的原因，音位图音素准确度高得多，即，音位识别器的音位图包括具有高概率的正确音位序列。因此，优选应用音节语言建模而不是音位语言建模，因为其搜索空间限制能力要强得多。于是，更好的利用了语言的语音结构，这实现更高的音素准确度。在音节语言建模中，音节被表示为音位序列以能够在音位识别器中应用它。在开始从输入声学数据自动生成词条时，指定输入声学数据的内容的词条类型是未知的。因此，每种词条类型都是假设的。不同词条类型的声学语音标音需要不同的资源，因此该方法针对每种假设的词条类型应用独立的声学语音标音。于是，并行运行的音位识别器 11、12. 1... 12. N、13、14 (N、Fl... Fn、AN、AS)的音位序列输出 4. N、4. Fl-4. Fn、4. AN、 4. AS是假设的语音标音，即指定输入声学数据的有效语音标音的候选者。根据对应的假设的词条类型，还由AS、AN、N、F1、…Fn表示音位识别器11-14。在生成候选者之后，分别向输出4和5放置这些候选者(音位序列)和所有音位识别器的分数。在假设“正常缩写”AN和“拼写缩写”AS的情况下，使用的分数为声学分数，与图2中的线5.AN、5.AS比较。对于其他情况(IFl··+!!)，分数为总分数，S卩，声学分数与语言建模分数之和，比较图2中的线5. N、5.Fn。分数是公知项，用于语音识别领域中。它是概率的负对数。因此，声学分数是指定输入声学数据的声学概率的负对数。类似地，语言模型分数是给定单位——在该情况下为音节——的语言模型概率的累计负对数。正常情况下，为了执行声学语音标音，音位识别器11-14需要对声学单元(如音素)进行声学资源建模——这是除统计语言模型之外的又一种标准声学模型，参考图2中的音节语言模型15、16. 1··· 16η对当前语言的语音结构建模——音节语言模型。对于词条类型“正常”，这种情况成立，参考图2中的标准声学模型。类似地，针对词条类型“第i种已支持外语”的音位识别使用相同的声学资源17。不过，它应用第i种已支持外语特异性音节语言模型16. 1··· 16η,如图2所示。通常，正常发音的缩写AN不符合当前语言的语音结构。因此，针对假设词条类型 “正常缩写” AN的音位识别仅使用AN声学资源，而不使用音节语言模型。不使用任何语言模型意味着音素准确度的劣化。为了进行补偿，应用高分辨率声学模型18。最特殊的情况是“拼写缩写”AS类型。识别拼写单词的任务与识别正常发音显著不同，例如参见WO 2005/098817。因此，必须要针对所发音的单个字符的序列优化拼写识别器14。通常，这是通过对所拼写的音素应用声学建模而实现的，这样得到拼写声学模型19。因此，针对假设的“拼写缩写”词条AS的音位识别使用拼写声学模型19，且类似于“正常缩写”AN的情况，不使用音节语言模型。这是因为“拼写缩写”也不符合当前语言的语音结构。不过，特殊的拼写声学模型确保了高的音素准确度，因此在这种情况下，由于缺失的语言模型的效果，如在“正常缩写”的情况下那样，不需要应用任何补偿方法。在下面的表1中总结了所有这些音位识别器设置。
表 权利要求
1.一种用于从输入声学数据自动生成词条的方法，所述方法包括以下步骤 -执行词条类型特异性声学语音标音和基于语音结构的词条类型的分类， -其中，根据若干预定类型执行词条的所述分类；以及-执行词条类型特异性音位到字形转换，以导出包括成对的语音标音及其字形形式的相应词条。
2.根据权利要求1所述的方法，其中，在词条类型特异性声学语音标音期间应用音节语言建模。
3.根据权利要求1所述的方法，其中，在组合步骤中与所述词条类型特异性声学语音标音一起执行词条的所述分类。
4.根据权利要求3所述的方法，其中，在声学语音标音期间假设词条类型，并为每种假设的词条类型应用独立的声学语音标音。
5.根据权利要求1所述的方法，其中，对于自动词条类型分类，应用基于神经网络的语言识别。
6.根据权利要求5所述的方法，其中，首先执行基于神经网络的分类，之后基于词条类型信息执行所述声学语音标音。
7.根据权利要求1到6中的任一项所述的方法，其中，根据四种类型对词条进行分类，这四种类型为符合给定语言词法的词条；符合至少一种其他已支持语言的词法的词条，例如源于外语的单词；不符合任何已支持语言词法但正常发音的词条，例如正常缩写；以及不符合任何已支持语言词法且通过拼写发音的词条，例如拼写缩写。
8.根据权利要求7所述的方法，其中，针对符合所供应的语言词法之一的词条，与音节语言模型一起应用标准声学模型，而针对正常缩写类型应用高分辨率声学模型，针对拼写缩写应用拼写声学模型。
9.一种用于从输入声学数据自动生成词条的设备，包括-基于语音结构工作的词条类型分类器装置，以及词条类型特异性声学语音标音装置， -词条合成器装置，-其中，所述词条类型分类器装置被布置成根据若干预定类型对词条分类，并且 -其中，所述词条合成器装置包括词条类型特异性统计学音位到字形转换器装置。
10.根据权利要求9所述的设备，其中，所述声学语音标音装置包括音节语言模型装置。
11.根据权利要求9所述的设备，其中，所述声学语音标音装置包括标准高分辨率和拼写声学模型装置。
12.根据权利要求9所述的设备，其中，所述词条类型分类器装置包括针对相应词条类型的门电路装置，所述门电路装置被布置成输出相应的词条类型信息以及语音标音。
13.根据权利要求9所述的设备，其中，所述词条类型分类器装置包括神经网络装置，所述神经网络装置被布置成输出针对每个预定词条类型的概率信息以及所述输入声学数据。
14.根据权利要求13所述的设备，其中，将所述词条类型信息和所述输入声学数据供应给布置成输出所述词条类型信息以及所述语音标音的词条类型特异性声学语音标音装置。
15.根据权利要求14所述的设备，其中，所述声学语音标音装置包括与给定声学模型装置相关联的声学模型选择器以及与给定音节语言模型装置相关联的音节语言模型选择器，两个选择器都连接到所述词条类型信息。
16.一种能够直接加载到计算机的存储器中的计算机程序产品，包括软件代码段，当所述计算机程序产品在所述计算机上时，所述软件代码段用于执行根据权利要求1所述的方法。
全文摘要
一种用于从输入声学数据(3)自动生成词条的方法和设备(1)，包括词条类型特异性声学语音标音模块(2；T)以及基于语音结构对词条类型分类的分类器模块(6；6′)，其中根据若干预定类型执行词条的分类；以及词条类型特异性音位到字形转换装置(28)，以导出包括成对的语音标音及其字形形式的相应词条。
文档编号G10L15/08GK102077275SQ200980124546
公开日2011年5月25日申请日期2009年6月17日优先权日2008年6月27日
发明者Z·萨费申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｚ·萨费
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

上一篇：多声道音频信号的空间合成的制作方法
上一篇：听写系统语音到文本转换用户性能的测量方法和系统的制作方法