用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统的制作方法

文档序号：2832816阅读：146来源：国知局

专利名称：用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统的制作方法
用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统
技术领域
语音识别(有时候被称为自动语音识别(ASR)或计算机语音识别)将口语字转换为文本。术语“声音识别”有时被用来指语音识别，其中，对于特定的说话者来训练识别系统，以尝试基于其唯一的声音来特定地识别说话的人。
背景技术：
语音识别系统一般基于隐马尔科夫模型(HMM)，这是输出符号和数量的序列的统计模型。语音信号可以被看做分段的静止(stationary)信号或短时静态信号，从而在短时内，语音可以被近似为静态过程。语音由此可被认为是用于许多随机过程的马尔科夫模型。
HMM输出用于每一个静态信号的η维实数值向量的序列。该向量包括倒谱 (cepstral)系数，这是通过对语音的短时窗口进行傅里叶变换、对该变换去相关、并采用第一(最重要)系数而得到的。HMM可以具有给出每一个观察到的向量的可能性的统计分布。每一个单词或每一个音素(phoneme)可具有不同的输出分布。用于单词或音素的序列的HMM 是通过将对于各个单词和音素的单独训练的HMM进行连接(concatenating)来生成的。
语音的解码(例如当用新的发音来展示ASR并计算最可能的源句子时)可使用维特比(Viterbi)解码器来执行，给定音频信号，该解码器确定最优文本序列、期望语法以及在大数据集上训练的一组HMM。发明内容
在一个示例性方面，提供了一种处理音频信号的方法。该方法包括接收包含声音元素的音频信号，并执行声音元素和该声音元素的相应文本转录的对准(al ignment)。所述方法还包括基于该对准，确定与对于声音元素部分的持续时间而言的时间流逝量关联的定时边界信息，并输出置信量度，其表示对于声音元素部分的持续时间而言的定时边界信息的确定程度。
在一个实施例中，执行在正向上处理的声音兀素和该声音兀素的相应文本转录的正向对准，并执行在反向上处理的声音元素和该声音元素的相应反向文本转录的反向对准。此外，所述方法包括确定与对于正向处理过的声音元素部分的持续时间而言的时间流逝量关联的正向定时边界信息，并来确定与对于反向处理过的声音元素部分的持续时间而言的时间流逝量相关的反向定时边界信息。在该实施例中，例如，基于正向定时信息和反向定时信息之间的比较来输出置信量度。
在另一实施例中，所述音频信号是包含歌词的歌曲，且，所述方法还包括将声音元素的相应文本转录与该音频信号进行同步，并输出时间注释同步(time-annotate)的歌词，表不与音频信号相关的歌词行的定时信息。
在另一示例性方面，提供了一种计算机可读存储介质，具有在其中存储的可由计算设备执行以使得该计算设备执行功能的指令。该功能包括接收包含声音元素的音频信号，并执行声音元素和该声音元素的相应文本转录的对准。所述功能还包括基于该对准来确定与对于声音元素部分的持续时间而言的时间流逝量关联的定时边界信息，并输出置信量度，其表示对于声音元素部分的持续时间而言的定时边界信息的确定程度。在又一示例性方面，提供了一种系统，其包含隐马尔科夫模型(HMM)数据库，该数据库可以包括在多维特征空间中(例如使用梅尔倒频谱系数)的音素的统计建模、定义了语法解码器可识别的单词的可选期望语法、将单词映射到音素的发音字典数据库以及语音解码器。语音解码器接收音频信号并访问HMM、期望的语法以及字典，以将音频信号中的声音元素映射到单词。该语音解码器还执行音频信号与声音元素的相应文本转录的对准，并确定与对于声音元素部分的持续时间而言的时间流逝量关联的定时边界信息。该语音解码器还确定置信量度，其表示对于声音元素部分的持续时间而言的定时边界信息的确定程度。在一个实施例中，语音解码器将声音元素的文本转录与音频信号进行同步，并输出时间注释同步的歌词，其表示与该音频信号相关的歌词行的定时边界信息。上述发明内容仅是示例性的，并且不意图以任何方式来限制。除了上述示例性方面、实施例和特征，参考附图及下列详细描述，进一步的，实施例和特征将变得明显。

图1示出了用于执行语音识别并将文本与所识别的语音进行同步的系统的说明性实施例。图2示出了用于执行语音识别并将文本与识别的语音进行同步的系统的另一说明性实施例。图3说明了示出反转输入歌词的概念图。图4是确定正向和反向对准之间的不匹配的例子的概念说明。图5是使用正向或反向对准来确定同步的或映射的行的异常值的例子的概念说明。图6示出了用于处理音频信号的方法的说明性实施例的流程图。图7示出了用于处理音频信号的方法的另一说明性实施例的流程图。图8示出了以迭代方式来处理音频信号的方法的说明性实施例的流程图。图9是说明层次化HMM训练和模型选择的框图。图10示出了使用来自特定演奏者的现有同步歌词数据来适应HMM的方法的说明性实施例的流程图。图11是示出示例性并行同步系统的框图。图12是用于选择合适HMM的示例性系统的框图。图13是用于音频和歌词的混合同步的示例性系统的框图。
具体实施例方式在下列详细描述中，引用了附图，其构成了这里的一部分。在图中，相同的符号典型地表示相同的组件，除非上下文另有说明。在详细描述、附图和权利要求中描述的说明性实施例不是限制性的。可以使用其他实施例，且可以进行其他修改，而不偏离这里展示的主题的精神和范围。容易理解，如这里一般地描述并在图中说明，本公开的方面可以以多种不同的配置来布置、替换、组合、分离和设计，所有这些都在这里被显式地考虑。
在示例实施例中，音频和相应文本(例如转录)可被同步(在一些例子中使用语音识别技术)，且生成的定时元数据可被用于多种不同应用，诸如，例如，启用音频的上下文搜索、音频的浏览、以及随着音频播放的文本显示(例如字幕、歌词的类卡拉ok显示等)。
示例实施例描述了用于获取定时元数据、对时间同步的元数据计算置信标志、并使用置信信息来增强自动同步过程的方法。例如，由于输入音频和声学模型之间可能的不匹配以及转录的不准确，以自动方式获取的信息不会总是准确的，且由此，生成描述定时信息质量的置信度量，以使用自动或手动的方式来增强不准确定时元数据的质量。
图1示出了使用语音识别技术来执行自动同步的系统100的说明性实施例。系统 100在音频引擎102接收音频信号。音频信号可包括语音、歌曲或音乐数据、电视信号等，且由此，可包括说或唱的单词以及伴奏器乐或背景噪声。音频引擎102抑制任意器乐或背景噪声，并向自动语音识别(ASR)解码器104输出说或唱的单词(例如声音)。例如，当输入音频信号是音乐歌曲时，说或唱的单词可以对应于歌曲的歌词。
使用借助于声音通常位于立体声的中心而器乐不是的这一事实的技术，音频引擎102可抑制音频信号中的任何器乐。使用频率分析方法来标识和声丰富(harmonically rich)的区域，音乐(或其他非声音数据)也可被抑制。作为例子，音频引擎102可使用来自 iZotope公司的Vocal Remover产品来处理音频信号。例如，音频引擎102可抑制非声音数据，以提取声音数据或表示单词的口头发音的数据。
系统100还在过滤器106接收与音频信号的歌词相应的歌词文本文件。过滤器106 清理并规范化歌词文本。例如，过滤器106可使用查询表来校正误拼错误，可以将修改发声 (如类似“heeeey”、“yeah”等单词)减少到更小的集合(例如“heeeey”和“heeey”将被改变为“heey”)，执行语法改变(例如大写每行的第一个字母)，并移除无关非歌词文本(例如，艺术家和歌曲的名字，可能标识音乐片段例如合声或韵律的标签)。
语法处理器108从过滤器106接收歌词文本，并创建“语法”，表示文本被期望位于音频信号的声音中。歌词文本可被转换为单词的序列，伴随着在开始和结束插入的信号的 “单词”建模器乐(仅音乐)部分。可选的器乐和/或填充模型可以被插入到歌词中的单词之间，以解释(account for)余音(voice rest)和可能的背景伴奏。
ASR解码器104从音频引擎102接收声音且从语法处理器108接收语法，并执行歌词同步。在提前知道准确歌词的例子中，ASR解码器104将执行音频和歌词的强制对准，即，语法中的期望响应将被映射到被唱出的相应单词。准确的歌词可基于歌词文本的源而确定。如果歌词文本是从可信源接收的，则可以假定准确的歌词，且可以使用强制对准以将歌词映射到音频信号。由此，使用强制对准，定义语法，从而不存在分支，即，只有特定的可能单词序列可以被识别。关于歌曲的时间流失量，例如，通过包含系统100的时间戳或计数器(未示出)或作为ASR解码器104的功能，可以对歌词的每一行的开始和结束时间存储定时信息。
ASR解码器104具有对于发音字典数据库110的访问，该数据库定义了单词的语音表示(例如音素)。尽管字典数据库110与系统100分开示出，但是在其他例子中，字典数据库110可以是系统100的组件或可被包含在系统100的组件中。
过滤器106可清理歌词文本，并为语法处理器108准备歌词。语法处理器108将从所清理的歌词中创建期望的响应语法。如果歌词源不是可信的，或者如果歌词文本不太可能完全匹配音频信号中的单词，则语法处理器108可创建随机语法。为了创建随机语法，语法处理器108可以并行放置将所有歌词行，并允许歌词行的任意序列被识别。语法处理器108可在单词之间并在语法的开始和结束插入可选的且多个的单词建模器乐。此外，填充单词模型可被用于建模非单词(发音等)的发生。于是，在不可信歌词源的例子中，可以以允许分支的方式来定义语法(例如，歌词的任意行可以跟随任意其他行)。音频引擎102可通过大约每IOms提取特征向量来分析所抑制的音频信号(例如，使用梅尔(Mel)倒频谱系数或(MFCC))。然后，ASR解码器104可以将特征向量的序列映射到语法中定义的期望响应。ASR解码器104将通过使用字典数据库110以将单词扩展为音素，来将由语法处理器108创建的单词语法扩展为语音语法。ASR解码器104可使用隐马尔科夫模型(HMM)数据库112来从与音频信号语法和相应特征向量匹配的音素中获取最优单词序列，该数据库(例如使用MFCC)统计地描述了特征空间中的每一个音素。尽管HMM数据库112与系统100分离地示出，但是在其他例子中，HMM数据库112可以是系统100的组件或者可被包含在系统100的组件中。典型地在大量的相关数据上训练HMM;在歌词同步的上下文中，这可以是大量的歌曲。例如，模型参数的估算可以使用Baum-Welch算法来进行。例如，给定与特定模型相应的一组训练例子，可以通过重新估算来确定参数的模型。例如，给定音频信号、期望语法以及在大量的数据上训练的一组HMM，ASR解码器104可使用来自数据库112的HMM以使用确定文本的最优序列的维特比解码算法来对音频信号进行解码。由此，例如，ASR解码器104使用音素的HMM数据库112来将口语映射到音素描述，并使用字典数据库110来将单词映射到音素描述。ASR解码器104将对音频信号执行语音识别或强制对准，以创建与音频信号中的语音相应的单词和音素转录的序列。在执行歌词同步时，ASR解码器104还可执行音素描述的定时分析。在一个例子中，在下列表I中示出一组输入歌词文本和相应音素转录。
哥欠词
B输入歌词文本(单词和相应音素转录)
行__
Would You Believe Your Eyes
__W UH D . Y UW . B IH L IY V . Y AO R . AY Z_As I Fell Asleep IfFireilies__AEZ .AY .F EH L .Ali S1.1V IMH F . F AY ERF L AYZ_Produce Light For The World_ PROM DOOCE . L AY T . F OUR ■ DH AH ■ W ER L D_
表I
音素转录可以是标准字典转录，从而例如，单词“asle印”可被音素转录为 “AHSHLIYP”，且为了清楚地表示单词转录的开始/结束而使用句点(period)和空格，以表示语音中的停顿，或表示在单词之间可被听到的背景器乐。注意到为了简单的目的，(总共 N行)中的仅前三行歌词文本在表I中显示。
在执行语音识别之后，音频信号可与输入歌词匹配，以生成如下表2所示的输出歌词。
权利要求
1.一种处理音频信号的方法，包括接收包含声音元素的音频信号；处理器执行所述声音元素和所述声音元素的相应文本转录的对准；基于所述对准，确定与对于所述声音元素部分的持续时间而言的时间流逝量关联的定时边界信息；以及输出表示对于所述声音元素部分的持续时间而言的定时边界信息的确定程度的置信量度。
2.如权利要求1所述的方法，其中，执行所述声音元素和所述声音元素的相应文本转录的对准包括执行在正向上处理过的所述声音元素和所述声音元素的相应文本转录的正向对准，其中，确定定时边界信息包括确定与对于在正向上处理过的所述声音元素部分的持续时间而言的时间流逝量关联的正向定时边界信息，且其中，所述方法进一步包括执行在反向上处理过的所述声音元素和所述声音元素的相应反向文本转录的反向对准；确定与对于在反向上处理过的声音元素部分的持续时间而言的时间流逝量关联的反向定时边界信息；以及基于所述正向定时信息和所述反向定时信息之间的比较，输出表示所述正向定时边界信息的确定程度的所述置信量度。
3.如权利要求2所述的方法，进一步包括确定所述正向定时边界信息和所述反向定时边界信息之间的差异；做出所述差异与预定阈值的比较；以及基于所述比较，用置信水平来标记所述声音元素部分。
4.如权利要求2所述的方法，其中，所述音频信号是音乐歌曲，且其中，所述声音元素部分是音乐歌曲的行，且其中所述正向定时信息和所述反向定时信息的每一个都表示所述音乐歌曲的行的开始和结束时间，且其中，所述方法进一步包括通过下列方式来比较所述正向定时信息和所述反向定时信息将所述正向定时信息的开始时间和所述反向定时信息的开始时间进行比较，以提供开始不匹配量度；以及将所述正向定时信息的结束时间和所述反向定时信息的结束时间进行比较，以提供结束不匹配量度。
5.如权利要求1所述的方法，进一步包括对于所述声音兀素的多个部分中的每一个，确定定时边界信息；基于所述声音元素的多个部分来计算所述声音元素部分的给定持续时间的统计模型；对于所述声音元素的多个部分中的每一个，确定持续时间符合所述统计模型的概率，并将所述概率与阈值进行比较；以及对于具有低于所述阈值的概率的声音元素的部分，用低置信标志来标记所述声音元素部分。
6.如权利要求1所述的方法，进一步包括对于所述声音兀素的多个部分中的每一个，确定定时边界信息；将所述声音元素的多个部分的每一个的定时边界信息互相进行比较；以及基于所述比较，识别所述声音元素的多个部分的异常值。
7.如权利要求1所述的方法，其中，所述音频信号包括声音元素和非声音元素，且所述方法进一步包括抑制所述非声音元素。
8.如权利要求1所述的方法，其中，所述音频信号是包含歌词的歌曲，且其中，所述方法进一步包括将所述声音元素的相应文本转录与所述音频信号进行同步；以及输出时间注释同步的歌词，其表示与音频信号相关的歌词的行的定时信息。
9.如权利要求1所述的方法，其中，执行所述对准包括使用维特比解码器和隐马尔科夫模型(HMM)来对所述声音元素执行语音识别，且其中，所述音频信号是艺术家的音乐曲目，且所述方法进一步包括访问用于所述艺术家的同步歌词的数据库；使用所述艺术家的同步歌词作为适应数据来适应HMM，以生成更新的HMM ;以及使用所述更新的HMM来重复所述对准。
10.如权利要求1所述的方法，其中，所述音频信号是音乐曲目，且其中，是从由音乐吟唱的歌词的行和音乐曲目的歌词的单词所构成的组中选择所述声音元素部分。
11.如权利要求10所述的方法，其中，输出表示所述声音元素部分的持续时间的定时边界信息的确定程度的所述置信量度包括将所述音乐吟唱的歌词的行标记为高或低置信行。
12.如权利要求1所述的方法，进一步包括对所述声音元素执行语音识别，以创建音素转录的序列；以及执行所述声音元素与所述音素转录的对准。
13.如权利要求12所述的方法，其中，执行所述对准包括接收与所述音频信号相应的歌词文本；确定所述歌词文本的语法；以及将所述声音元素的音素描述映射到所述歌词文本的语法。
14.如权利要求1所述的方法，其中执行所述对准包括使用隐马尔科夫模型(HMM)对所述声音元素的多个部分来执行语音识别，且其中，所述方法进一步包括做出所述置信量度是否超过预定阈值的确定；以及使用包含所述声音元素部分的数据来适应HMM，以生成更新的HMM，所述声音元素部分具有不超过预定阈值的置信量度；以及使用所述更新的HMM来重复所述对准。
15.如权利要求14所述的方法，进一步包括在低置信行的数量不再减少之前以迭代的方式重复如下步骤执行所述对准、输出所述置信量度、适应所述HMM和重复所述对准。
16.如权利要求1所述的方法，其中，执行所述对准包括使用隐马尔科夫模型(HMM)来对所述声音元素执行语音识别，且所述方法进一步包括基于所述音频信号的元数据信息在训练数据上训练HMM的数据库；以及基于所述音频信号的元数据信息选择HMM来执行所述对准。
17.如权利要求16所述的方法，其中，所述元数据信息表示从由流派、艺术家、性别和节奏所构成的组中选择的信息。
18.如权利要求1所述的方法，进一步包括对每一个对准使用不同的隐马尔科夫模型(HMM)来多次执行所述对准；为每一个各自的对准确定所述定时边界信息；为每一个各自的对准确定所述置信量度；选择具有表示所述定时边界信息的最高确定程度的置信量度的对准；以及输出时间注释同步的歌词，其表示与选中的对准相应的定时边界信息，其中，所述定时边界信息属于与所述音频信号相关的歌词的行。
19.一种计算机可读存储介质，在其中存储了由计算设备可执行的指令，以使得所述计算设备执行下列功能接收包含声音元素的音频信号；执行所述声音元素和所述声音元素的相应文本转录的对准；基于所述对准，确定与对于所述声音元素部分的持续时间而言的时间流逝量关联的定时边界信息；输出表示对于所述声音元素部分的持续时间而言的定时边界信息的确定程度的置信量度。
20.如权利要求19所述的计算机可读存储介质，其中，执行所述声音元素和所述声音元素的相应文本转录的对准的功能包括执行在正向上处理过的声音元素和所述声音元素的相应文本转录的正向对准，其中，确定定时边界信息的功能包括确定与对于在正向上处理过的所述声音元素部分的持续时间而言的时间流逝量关联的正向定时边界信息，且其中，所述指令是进一步可执行的，以执行下列功能执行在反向上处理过的所述声音元素和所述声音元素的相应反向文本转录的反向对准；确定与对于在反向上处理过的所述声音元素部分的持续时间而言的时间流逝量关联的反向定时边界信息；以及基于所述正向定时信息和所述反向定时信息之间的比较，输出表示所述正向定时边界信息的确定程度的置信量度，。
21.如权利要求20所述的计算机可读存储介质，其中，所述指令是进一步可执行的，以执行下列功能确定所述正向定时边界信息和所述反向定时边界信息之间的差异；做出所述差异与预定阈值的比较；以及基于所述比较，用置信水平来标记所述声音元素部分。
22.如权利要求20所述的计算机可读存储介质，其中，所述音频信号是音乐歌曲，且其中，所述声音元素部分是音乐歌曲的行，且其中所述正向定时信息和所述反向定时信息的每一个都表示所述音乐歌曲的行的开始和结束时间，且其中，所述指令是进一步可执行的，以执行通过下列方式来比较所述正向定时信息和所述反向定时信息的功能将所述正向定时信息的开始时间和所述反向定时信息的开始时间进行比较，以提供开始不匹配量度；以及将所述正向定时信息的结束时间和所述反向定时信息的结束时间进行比较，以提供结束不匹配量度。
23.如权利要求19所述的计算机可读存储介质，其中，所述指令是进一步可执行的，以执行下列功能对于所述声音兀素的多个部分的每一个，确定定时边界信息；对于所述声音元素的多个部分，计算所述定时边界信息的平均值；对于声音元素的多个部分中的每一个，确定所述声音元素部分的持续时间与所述平均值的差异是否大于阈值；以及对于与所述平均值的差异大于阈值的所述声音元素部分，用低置信概率来标记所述声音元素部分。
24.如权利要求19所述的计算机可读存储介质，其中，所述音频信号是包含歌词的歌曲，且其中，所述指令是进一步可执行的，以执行下列功能将所述声音元素的相应文本转录与所述音频信号进行同步；以及输出时间注释同步的歌词，其表示与所述音频信号相关的歌词的行的定时信息。
25.如权利要求19所述的计算机可读存储介质，其中，执行所述对准的功能包括使用隐马尔科夫模型(HMM)来对所述声音元素执行语音识别，且其中，所述指令是进一步可执行的，以执行下列功能基于所述音频信号的元数据信息来选择HMM。
26.—种系统,包括隐马尔科夫模型(HMM)数据库,其包含单词的音素建模；发音字典数据库，其包含表示单词的语法；以及语音解码器，其接收音频信号，并且访问所述HMM以将所述音频信号中的声音元素映射到音素描述并访问所述发音字典数据库以将所述音素描述映射到语法，所述语音解码器进一步执行所述语法与所述声音元素的相应文本转录的对准，其中，所述语音解码器确定与对于所述声音元素部分的持续时间而言的时间流逝量关联的定时边界信息，并且所述语音解码器确定表示对于所述声音元素部分的持续时间而言的定时边界信息的确定程度的置信量度。
27.如权利要求26所述的系统，其中，所述语音解码器接收正向和反向的音频信号，并访问所述HMM以将所述音频信号中的声音元素在正向和反向两者上映射到音素描述，并访问所述发音字典数据库以将所述音素描述在正向和反向两者上映射到语法，所述语音解码器进一步在正向和反向两者上执行所述语法与所述声音元素的相应文本转录的对准，并且其中，所述语音解码器确定与在正向上处理过的声音元素的部分的持续时间的时间流逝量关联的正向定时边界信息以及与在反向上处理过的声音元素的部分的持续时间的时间流逝量关联的反向定时边界信息，并基于所述正向定时边界信息和所述反向定时边界信息之间的比较，所述语音解码器确定表示所述正向定时边界信息的确定程度的置信量度。
28.如权利要求27所述的系统，进一步包括语法处理器，用于接收与所述音频信号的歌词相应的文本，并用于确定与所述歌词相应的语法，其中，所述语音解码器通过将所述音频信号的语法和所述歌词的语法进行对准，在正向和反向两者上，执行所述语法和所述声音元素的相应文本转录的对准。
29.如权利要求27所述的系统，其中，所述语音解码器确定所述正向定时信息和所述反向定时信息之间的差异，并基于所述差异与预定阈值之间的比较，所述语音解码器用置信水平来标记所述声音元素部分。
30.如权利要求26所述的系统，其中，所述语音解码器将所述声音元素的文本转录与所述音频信号进行同步，并输出时间注释同步的歌词，其表示与所述音频信号相关的歌词的行的定时边界信息。
全文摘要
本发明提供了用于执行音频与相应文本转录的同步并确定定时同步的置信值的方法和系统。可以用语音识别在正向和反向上同步音频和相应文本(例如副本)，以输出时间注释的音频-歌词同步的数据。可以计算量度以量化和/或限制同步的置信。基于该量度，示例实施例描述了一种方法，用于增强自动同步过程，以可能使隐马尔科夫模型(HMM)适应同步音频，用于在语音识别时使用。其他例子描述了用于选择合适的HMM来使用的方法。
文档编号G10L15/05GK103003875SQ201180035459
公开日2013年3月27日申请日期2011年5月16日优先权日2010年5月18日
发明者O.托迪克申请人:沙扎姆娱乐有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：O.托迪克
技术所有人：沙扎姆娱乐有限公司
我是此专利的发明人

上一篇：音频信号产生装置的制作方法
上一篇：声音信号处理装置及声音信号处理方法