用于识别语音的系统和方法_4

文档序号：9529295阅读：来源：国知局

>[0105] 在给定了每一个解释的更新的分数的情况下，重新评分相当于针对η-最佳列表的每一个条目，利用修改的分数函数来评估分数。另选地，基于点阵或η-最佳列表，可能词序列的图表可W利用修改的分数函数，利用诸如前后向算法、Viterbi解码或堆找解码的各种算法来有效地捜索。在评估分数的处理中，生成修改的η-最佳列表或点阵。
[010引如果约束仅针对词序列，则声学模型分数（如上述示例中的觀AM终1 )和与每个词相对应的估计区R可W保持不变。然而，在其它实施方式中，约束的类型是声学类型并且声学分数P狂|W)根据约束而改变。例如，在计算词与声学特征之间的对准的情况下，重新评分还可W取决于对准。一个实施方式限定模型
并且基于针对R的约束来更新分数：
[0107]
[0108] 其中，eSi《表示加强希望的约束的允许的对准的子集。例如，一个运样的约束可 W是在特定时间区内仅存在一个词。
[0109] 图3D示出了用于确定用于更新分数的绝对或相对约束的方法的流程图。在一些实施方式中，如果约束是绝对的，则不匹配该约束的词序列的解释W最小可能分数进行重新评分。相反，如果约束是相对的（例如，概率性的），则不匹配该约束的解释W比匹配该约束的解释小的权重来重新评分，但不匹配的解释仍可W具有比与相对约束一致的解释的分数高的最终分数。
[0110] 例如，在一些实施方式中，相对约束具有表示不同约束满足程度的连续值。运种约束可W利用表示约束的倍增因子来公式化。在一个实施方式中，约束包括约束因子f狂，W，时369,其输出是指示针对声学序列、词序列W及对准中的一个或更多个的约束满足程度的数字。利用该约束因子，一个实施方式公式化一般的重新评分函数。
[0111]
[0112] 根据约束因子，可W实现许多不同种类的约束，包括利用绝对约束和相对约束的情况。例如，在一些实施方式中，约束因子可W利用指标函数363和权重参数367来确定，指标函数363将用户指定的词序列约束与适于更新解释的分数的约束相映射，并且权重参数367指示相对约束的程度（直至使该相对约束变绝对）。
[0113] 例如，如果约束因子
[0114]f〇(，W，R)=f(W)=αIi抑加(W)^6+0，
[0115] 其中，符号f(W)指示该约束因子不取决于X和R，则在运种情况下，α和β是表示约束满足程度的非负权重参数，而且例如，
[0116]
[0117] 是针对序列中存在六个词的约束的指标函数。如果权重参数α相对于β较大，则约束满足程度较强，否则约束满足程度较弱。绝对约束可W通过将β设置成零W使函数 f(W)在不希望的所有情况下具有零值来实现，。
[0118]在另一实施方式中，针对对准的约束可W利用巧义===4·穿来实现，其中，4g:f是针对R处于约束组疫中的条件的指标函数。
[0119]在具有在具有参数Θ ' 的受约束的语言模型口域Μ中具体实施的约束的情况下，约束因子为
[0120]
[0121] 其中，p(W)是在初始识别中使用的语言模型。运对分数而言具有和如W新模型巧。代替旧模型p(w)相同的效果。
[0122] 注意，在重新评分之后，f的绝对标度不影响不同的词假设的相对评分，使得与另一约束因子成比例的任何其它约束因子f'狂，W，时OCf狂，W，R)，对得到的η-最佳列表或点阵生成相同的效果。
[0123] 另外或另选的是，针对解释的多个约束可W基于从用户接收到的词序列约束来确定。例如，如果用户指示词序列中的词正确，则一些实施方式确定该词左侧或右侧的词也正确（根据语言模型）。在那些实施方式中，生成针对相邻词的附加约束。
[0124] 例如，在一个实施方式中，评分函数测试特定词的存在。例如，语音的方向可W基于语言模型来确定，并且评分函数利用针对在传送给用户的解释中的特定词之前和之后 (根据该语音的方向）的词的存在的测试来更新。在运个实施方式中，评分函数不仅测试特定词，而且根据语音的方向测试与所述特定词相邻的其它词。
[0125] 在确定针对解释的约束之后，基于特定解释与约束的一致性来更新370 -些解释的分数。在一些实施方式中，更新每一个解释，使得对于每一个解释，分数可W增加或减少。运意味着在更新370之后，每一个解释的分数可W增加或减少。实施方式的一些变型例允许一些解释的分数保持不变。
[0126] 在更新分数后，确定380具有最大分数的解释，并且形成390对用户的输出，接着传送给用户。一些实施方式利用可视装置传送解释，诸如在显示器上示出的词和字符。一些实施方式利用音频反馈传送解释，诸如利用文本至语音（text-to-speech)或录制音频波形从扬声器生成声音。各种实施方式可传送具有最佳分数的一个或多个解释。
[0127] 图4、图5及图6示出了用于基于传送给语音的用户的解释来选择词序列约束的接口的示例。解释可W是该语音的初始解释，或者是在更新分数之后选择的随后解释。
[0128] 词序列4是包括五个词的句子，其中，第Ξ个词（Word3)配有虚线框40。在另一实施方式中，Word3被确定为词序列的最有效约束。
[0129] 而且，在图4的示例中，虚线框40不仅表示强调，而且表示选择器（selector)，所述选择器可被用户移动W选择被错误识别并因此需要纠正的词。运种移动例如可W借助于操纵杆或通过箭头键逐个词地执行，并且接着可W通过按压专用按钮或键（其例如可W集成到操纵杆或触摸屏中或者通过操纵杆或触摸屏实现）来执行选择。
[0130] 图5示出了另选接口，其中，用户可W选择一个或多个词，例如，Word3和Words。在选择词或词序列之后，用户可w执行下列动作之一：将所选择的词或序列标记为正确；将所选择词或序列中的一个或更多个标记为不正确；跳过所选择的词或序列；请求针对所选择的词或序列的另外选择；或者可能改变某些其它约束，如文本的主题或风格。
[0131] 在一个实施方式中，在选择词或词序列之后，与所选择的词相关联的时间或时间窗可W被用于检索可能在该时间或时间窗已说出一组词，并且将运些中的一些或全部显示给用户，优选地按分数从高到低的次序排序。
[013引图6例证了针对词序列6中的第Ξ个词（Word3)的向下滚动列表60。滚动列表 60包括基于与word3相对应的时间窗选择的四个词候选。选择器61自动放置在向下滚动列表60中的第一条目上，选择器61可W垂直移动到从向下滚动列表60选择的条目。
[0133] 示例
[0134] 图7A示出了根据本发明一个实施方式的用于解释经受词序列约束的语音710的示例性方法的示意图。在运个示例中，词序列约束包括针对词的数量（即，语音具有六个词）的约束714。值得注意的是，约束714用于更新整组解释711的分数712,W生成解释的具有更新的分数716的更新的组715。如可W从图7A的示例看出，整组解释的分数716 被更新。
[0135] 针对该示例性实施方式，一般的重新评分函数
[0136]
[0137] 可W如上所述地使用，具有向具有六个词的序列赋予较高权重的特定约束因子 f狂，W，时，诸如：
[013引 f0(，W，R) =f(W) =αIi抑加(W)^6+0，
[0139]和
[0140]
[0141] 还可W使用其它约束因子和/或指标函数。
[0142] 图7B示出了根据本发明一个实施方式的用于解释经受词序列约束的语音720的示例性方法的示意图。在运个示例中，词序列约束包括针对该语音的主题（即，该语音有关污染）的约束724。约束724用于更新整组解释721的分数722,W生成解释的具有更新的分数716的更新的组725。
[0143] 该示例性实施方式使用具有适于主题为"污染"的词序列的参数Θ' 的受约束的语言模型P也由此，该实施方式可W利用受约束的语言模型来更新上述分数函数 s' (w|x)。
[0144] 图7C示出了根据本发明一个实施方式的用于解释经受词序列约束的语音730的示例性方法的示意图。在运个示例中，词序列约束包括针对语音中的特定词"Carts"的存在的约束734。约束734被用于更新整组解释731的分数732,W生成解释的具有更新的分数7

完整全部详细技术资料下载

当前第4页1 2 3 4 5