完整语言序列的语言建模的制作方法

文档序号：9476312阅读：287来源：国知局

完整语言序列的语言建模的制作方法
【专利说明】完整语言序列的语言建模
[0001] 相关申请的交叉引用
[0002] 本申请要求于2013年5月2日提交的美国申请第13/875, 406号和于2013年3 月14日提交的美国临时申请第61/781，140号的优先权权益。美国申请第13/875, 406号和美国临时申请第61/781，140号的全部内容通过引用结合于此。
【背景技术】
[0003] 许多语音识别系统使用语言模型来转换（transcribe)话语。语言模型经常使用包括语言用法示例的训练数据集合来训练。通常，语言模型包括关于训练数据中构成话语的词或其它语言单元的统计数据。

【发明内容】

[0004] 在一些实现方式中，语言模型可存储用于向定义的语言序列集合指派评分的概率数据。语言序列中的每一个可W是一个或多个用户先前提供的完整的用户输入序列，诸如完整的短语、完整的句子、完整的查询或者完整的文本消息。对于集合中的每个语言序列，语言模型可存储基于语言序列整体在训练数据集合中出现的频率的概率。例如，语言模型可存储在训练数据中W高频率出现的特定完整语言序列的概率。
[0005]一种计算系统可在语音识别中使用语言模型，W向话语的候选转录指派概率。当候选转录是预定语言序列集合中的一个语言序列时，计算系统可使用语言模型来向候选转录整体指派概率（例如，使用所存储的与候选转录相对应的概率），而非例如基于候选转录的成分（例如，n元词串）的多个条件概率来计算概率。
[0006] 在一些实现方式中，一种计算系统可生成包括第一组件和第二组件的混合语言模型。第一组件可被训练来直接向预定语言序列集合（例如，最常见话音查询的集合）中的语言序列指派概率评分。语言模型的第二组件基于另外的技术，诸如n元词串建模，来指派概率评分，在n元词串建模中，使用条件概率来构建语言序列的总体概率。当使用混合语言模型时，第一组件被用来向高频率语言序列集合中包括的语言序列指派概率评分。第二组件被用来向不在预定语言序列集合中的语言序列指派概率。阳007]本说明书中所述的主题的一个创新方面在包括如下动作的方法中具体实现：访问指示多种语言序列的训练数据；确定各语言序列在训练数据中的相对出现频率；选择语言序列的真子集；训练语言模型的第一组件，所述第一组件包括用于向被选语言序列指派评分的第一概率数据；基于训练数据训练语言模型的第二组件，所述第二组件包括用于向被选语言序列中未包括的语言序列指派评分的第二概率数据；确定归一化第一概率数据和第二概率数据的调整数据；W及存储第一组件、第二组件和调整数据。
[0008]本说明书中所述的主题的另一创新方面在包括如下动作的方法中具体实现：访问指示多种语言序列的训练数据；确定各语言序列在训练数据中的相对出现频率；选择语言序列的真子集；训练语言模型的第一组件，所述第一组件包括用于向被选语言序列指派评分的第一概率数据；确定相对于第一概率数据归一化语言模型的第二组件的第二概率数据的调整数据；w及存储第一组件、第二组件和调整数据。
[0009] 本说明书中所述的主题的另一创新方面在包括如下动作的方法中具体实现：访问指示一个或多个用户所提交的查询的训练数据；针对查询中的每一个确定训练数据指示该查询被提交的次数的计数；基于计数选择查询的真子集；基于计数训练语言模型的第一组件，所述第一组件包括指示训练数据当中被选查询的相对频率的第一概率数据；基于训练数据训练语言模型的第二组件，所述第二组件包括用于向被选查询中未包括的查询指派评分的第二概率数据；确定相对于第一概率数据归一化第二概率数据的调整数据；W及存储第一组件、第二组件和调整数据。
[0010] 本说明书中所述的主题的另一创新方面在包括如下动作的方法中具体实现：接收一个或多个话语的第一候选转录；确定第一候选转录是与语言模型的第一组件相关联的预定语言序列集合中的一个语言序列；响应于确定该候选转录是与语言模型的第一组件相关联的预定语言序列集合中的一个语言序列，使用语言模型的第一组件确定第一候选转录的第一评分；基于第一评分评价第一候选转录；接收所述一个或多个话语的第二候选转录；确定第二候选转录不是与语言模型的第一组件相关联的预定语言序列集合中的一个语言序列；响应于确定该候选转录不是与语言模型的第一组件相关联的预定语言序列集合中的一个语言序列，使用语言模型的第二组件确定第二候选转录的第二评分；W及基于第二评分评价第二候选转录。
[0011] 运些方面的其它实施例包括相应的系统、装置W及编码在计算机存储设备上的被配置成执行方法动作的计算机程序。一个或多个计算机的系统可借助于进行操作来使得系统执行运些动作的安装在系统上的软件、固件、硬件或它们的组合来配置。一个或多个计算机程序可借助于具有当被数据处理装置运行时使得该装置执行运些动作的指令来配置。
[0012] 运些及其它实施例可每个可选地包括下列特征中的一个或多个。例如，基于计数训练语言模型的第一组件包括生成在局限于出现在训练数据中的查询的可能结果的集合上的第一概率分布。基于训练数据训练语言模型的第二组件包括生成第二概率分布，对于该第二概率分布，可能结果的范围不局限于定义的查询集合。确定调整数据包括确定用于相对于第一概率分布对第二概率分布加权W形成组合概率分布的一个或多个权重值。访问指示一个或多个用户所提交的查询的训练数据包括访问指示不同用户说出的话音查询的一个或多个查询日志。基于计数选择查询的真子集包括选择具有最高计数的查询。基于计数选择查询的真子集包括选择具有等于或者超过最小阔值的计数的查询，所述最小阔值大于一。基于计数选择查询的真子集包括：（i)基于第一阔值选择具有第一词语数量的查询； W及（ii)基于第二阔值选择具有第二词语数量的查询，第二词语数量不同于第一词语数量，并且第二阔值不同于第一阔值。基于计数训练语言模型的第一组件包括针对被选查询中的每一个查询确定指示该被选查询作为完整查询在训练数据中的相对出现频率的评分。
[0013] 运些及其它实施例可每个都可选地包括下列特征中的一个或多个。例如，训练语言模型的第一组件包括生成指示第一概率分布的数据，对于第一概率分布，被选查询的出现概率的第一总和是第一值。训练语言模型的第二组件包括生成指示第二概率分布的数据，对于第二概率分布，被选查询的出现概率的第二总和是第二值。确定调整数据包括基于第一值和第二值来确定权重值。确定调整数据包括确定要应用于第二组件的输出的权重值，所述权重值使第二组件的概率分布的一部分与第一组件的概率分布的相应部分相等。
[0014] 运些及其它实施例可每个可选地包括下列特征中的一个或多个。例如，使用语言模型的第一组件来确定特定查询的第一评分，使用语言模型的第二组件来确定该特定查询的第二评分，W及确定第一评分和第二评分不满足预定关系。响应于确定第一评分和第二评分不满足预定关系，从被选查询中去除该特定查询W生成变更的被选查询集合。在从被选查询中去除该特定查询之后，基于变更的被选查询集合来确定第二调整数据。基于训练数据训练语言模型的第二组件包括训练n元词串模型。训练n元词串模型包括确定每个指示在给定一个或多个其它词语的出现的情况下一词语的出现概率的条件概率。基于训练数据训练语言模型的第二组件包括使用训练数据的真子集训练第二组件，所述训练数据的真子集排除了被选查询的实例。
[0015] 运些及其它实施例可每个可选地包括下列特征中的一个或多个。例如，访问指示一个或多个用户所提交的查询的训练数据包括（i)访问指示与第一地理区域相关联的第一查询的第一训练数据，W及（ii)访问指示与比第一地理区域更大的第二地理区域相关联的第二查询的第二训练数据。针对查询中的每一个确定训练数据指示该查询被提交的次数的计数包括针对第一查询中的每一个确定第一训练数据指示该查询被提交的次数的计数。基于计数选择查询的真子集包括从与第一地理区域相关联的第一查询当中选择查询。基于计数训练语言模型的第一组件包括基于指示第一训练数据指示被选查询被提交的次数的计数来训练第一组件。基于训练数据训练语言模型的第二组件包括基于指示与第二地理区域相关联的查询的第二训练数据来训练语言模型的第二组件。
[0016] 运些及其它实施例可每个可选地包括下列特征中的一个或多个。例如，接收查询，确定所接收的查询与第一地理区域相关联，W及响应于确定所接收的查询与第一地理区域相关联，从与不同地理区域相对应的多个语言模型当中选择第一组件。使用第一组件来评价被选查询中包括的一个或多个候选转录，W及使用第二组件来评价被选查询中未包括的一个或多个候选转录。接收一个或多个话语的候选转录；确定候选转录是被选查询之一；响应于确定候选转录是被选查询之一，使用语言模型的第一组件确定该候选转录的评分； W及基于评分来评价该候选转录。接收一个或多个话语的候选转录；确定候选转录不是被选查询之一；响应于确定候选转录不是被选查询之一，使用语言模型的第二组件确定该候选转录的评分；W及基于评分来评价该候选转录。
[0017] 有利的实现方式可包括下列特征中的一个或多个。语音识别的速度和准确度可被改善。语言模型的复杂度可被减少。对于至少一些语言序列，语言模型所指示的概率可比 n元词串模型更好地反映语言序列在训练数据中的出现频率。
[0018] 本说明书中所述的主题的一个或多个实施例的细节在附图和下面的描述中进行了阐述。根据描述、附图和权利要求，主题的其它特征、方面和优点将变得明显。
【附图说明】
[0019] 图1是图示用于训练语言模型的系统的示例的示图。
[0020] 图2是图示用于训练语言模型的过程的示例的流程图。
[0021] 图3至图5是图示语音识别中使用语言模型的过程的示例的流程图。
[0022] 各图中同样的参考数字和标号指示同样的元素。
【具体实施方式】
[002引图1是图示用于训练语言模型120的系统100的示例的示图。系统100包括与一个或多个数据存储设备112通信的计算系统110。图1还图示了示为表示数据流程的阶段 (A)到（巧的数据流程。阶段（A)到（巧可按所图示的序列或按与所图示的序列不同的序列发生。
[0024]计算系统110可生成包括两个组件的语言模型120 :可向所定义的语言序列集合指派评分的第一组件，W及可向任意语言序列指派评分的第二组件。所定义的语言序列集合可W是完整的语言片段，诸如完全句或者完整查询。例如，该集合可W是训练数据中出现的高频率查询的集合。第一组件指派给查询的概率评分可基于查询作为整体（例如，作为用户的整个查询串，而不是作为查询的一部分或者子集）在训练数据中出现的相对频率。因为第一组件基于整个查询出现在训练数据的实际频率来指派概率，所W与诸如n元词串模型的其它类型的语言模型相比，第一组件可更好地预测高频率查询出现的可能性。
[00巧]第二组件可W是既可向高频率查询指派概率又可向其它查询指派概率的语言模型。例如，第二组件可能够例如使用用于组合多个条件概率的链式法则来向任意语言序列指派概率（例如，非零概率）。第二组件可W是一一但不局限于一一基于语言序列中的n元词串的条件概率来为语言序列生成概率评分的n元词串语言模型。
[00%]当语言序列被包括在所定义的高频率查询集合中时，第一组件被用来输出语言序列的概率评分。当语言序列不在所定义的高频率查询集合中时，第二组件被用来输出概率评分。从第一组件回退到第二组件可确保语言模型可将概率评分指派给任意语言序列，运远远超过用于第一组件的所定义集合中或者甚至训练数据中出现的序列。
[0027]在一些语音识别使用中，诸如对话音查询的识别中，典型的语言序列经常是短的，通常在3到5个词之间。在许多实例中，预期的话音查询长度大约为=个词。此外，按照长度的查询分布可严重倾向=个词或更少词的查询。在一些数据集合中，=个词或更少词的查询经常构成话音捜索引擎接收到的查询的70%或更多。为了改善识别，下面论述的语言模型120可存储整个查询的概率。此外，仅存储训练期间遇到查询的所定义子集的概率可导致使用比例如n元词串（其中n例如是3、4或更大）模型更少存储空间的语言模型120。 [00測在阶段（A)期间，计算系统110访问训练数据114,训练数据114将被用于训练（例如，生成或更新）语言模型120。训练数据114包括多种不同的语言序列。
[0029] 在所图示的示例中，训练数据114是指示用户所提交的查询116的查询数据。例如，训练数据114可包括指示多个用户中的任意用户在特定时段内提交的查询的一个或多个查询日志，所述特定时段诸如一星期、一个月、一年等等。训练数据114可指示特定地理区域中的用户所提交的查询，或者特定语言的查询。
[0030] 在一些实现方式中，查询数据指示特定类型的查询或者来自特定源的查询，例如，话音查

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：C.I.切尔巴;H.萨克;J.沙尔克威克;
技术所有人：谷歌公司;
我是此专利的发明人