完整语言序列的语言建模的制作方法

文档序号:9476312阅读:287来源:国知局
完整语言序列的语言建模的制作方法
【专利说明】完整语言序列的语言建模
[0001] 相关申请的交叉引用
[0002] 本申请要求于2013年5月2日提交的美国申请第13/875, 406号和于2013年3 月14日提交的美国临时申请第61/781,140号的优先权权益。美国申请第13/875, 406号 和美国临时申请第61/781,140号的全部内容通过引用结合于此。
【背景技术】
[0003] 许多语音识别系统使用语言模型来转换(transcribe)话语。语言模型经常使用 包括语言用法示例的训练数据集合来训练。通常,语言模型包括关于训练数据中构成话语 的词或其它语言单元的统计数据。

【发明内容】

[0004] 在一些实现方式中,语言模型可存储用于向定义的语言序列集合指派评分的概率 数据。语言序列中的每一个可W是一个或多个用户先前提供的完整的用户输入序列,诸如 完整的短语、完整的句子、完整的查询或者完整的文本消息。对于集合中的每个语言序列, 语言模型可存储基于语言序列整体在训练数据集合中出现的频率的概率。例如,语言模型 可存储在训练数据中W高频率出现的特定完整语言序列的概率。
[0005]一种计算系统可在语音识别中使用语言模型,W向话语的候选转录指派概率。当 候选转录是预定语言序列集合中的一个语言序列时,计算系统可使用语言模型来向候选转 录整体指派概率(例如,使用所存储的与候选转录相对应的概率),而非例如基于候选转录 的成分(例如,n元词串)的多个条件概率来计算概率。
[0006] 在一些实现方式中,一种计算系统可生成包括第一组件和第二组件的混合语言模 型。第一组件可被训练来直接向预定语言序列集合(例如,最常见话音查询的集合)中的 语言序列指派概率评分。语言模型的第二组件基于另外的技术,诸如n元词串建模,来指派 概率评分,在n元词串建模中,使用条件概率来构建语言序列的总体概率。当使用混合语言 模型时,第一组件被用来向高频率语言序列集合中包括的语言序列指派概率评分。第二组 件被用来向不在预定语言序列集合中的语言序列指派概率。 阳007]本说明书中所述的主题的一个创新方面在包括如下动作的方法中具体实现:访问 指示多种语言序列的训练数据;确定各语言序列在训练数据中的相对出现频率;选择语言 序列的真子集;训练语言模型的第一组件,所述第一组件包括用于向被选语言序列指派评 分的第一概率数据;基于训练数据训练语言模型的第二组件,所述第二组件包括用于向被 选语言序列中未包括的语言序列指派评分的第二概率数据;确定归一化第一概率数据和第 二概率数据的调整数据;W及存储第一组件、第二组件和调整数据。
[0008]本说明书中所述的主题的另一创新方面在包括如下动作的方法中具体实现:访问 指示多种语言序列的训练数据;确定各语言序列在训练数据中的相对出现频率;选择语言 序列的真子集;训练语言模型的第一组件,所述第一组件包括用于向被选语言序列指派评 分的第一概率数据;确定相对于第一概率数据归一化语言模型的第二组件的第二概率数据 的调整数据;w及存储第一组件、第二组件和调整数据。
[0009] 本说明书中所述的主题的另一创新方面在包括如下动作的方法中具体实现:访问 指示一个或多个用户所提交的查询的训练数据;针对查询中的每一个确定训练数据指示该 查询被提交的次数的计数;基于计数选择查询的真子集;基于计数训练语言模型的第一组 件,所述第一组件包括指示训练数据当中被选查询的相对频率的第一概率数据;基于训练 数据训练语言模型的第二组件,所述第二组件包括用于向被选查询中未包括的查询指派评 分的第二概率数据;确定相对于第一概率数据归一化第二概率数据的调整数据;W及存储 第一组件、第二组件和调整数据。
[0010] 本说明书中所述的主题的另一创新方面在包括如下动作的方法中具体实现:接收 一个或多个话语的第一候选转录;确定第一候选转录是与语言模型的第一组件相关联的预 定语言序列集合中的一个语言序列;响应于确定该候选转录是与语言模型的第一组件相关 联的预定语言序列集合中的一个语言序列,使用语言模型的第一组件确定第一候选转录的 第一评分;基于第一评分评价第一候选转录;接收所述一个或多个话语的第二候选转录; 确定第二候选转录不是与语言模型的第一组件相关联的预定语言序列集合中的一个语言 序列;响应于确定该候选转录不是与语言模型的第一组件相关联的预定语言序列集合中的 一个语言序列,使用语言模型的第二组件确定第二候选转录的第二评分;W及基于第二评 分评价第二候选转录。
[0011] 运些方面的其它实施例包括相应的系统、装置W及编码在计算机存储设备上的被 配置成执行方法动作的计算机程序。一个或多个计算机的系统可借助于进行操作来使得系 统执行运些动作的安装在系统上的软件、固件、硬件或它们的组合来配置。一个或多个计算 机程序可借助于具有当被数据处理装置运行时使得该装置执行运些动作的指令来配置。
[0012] 运些及其它实施例可每个可选地包括下列特征中的一个或多个。例如,基于计数 训练语言模型的第一组件包括生成在局限于出现在训练数据中的查询的可能结果的集合 上的第一概率分布。基于训练数据训练语言模型的第二组件包括生成第二概率分布,对于 该第二概率分布,可能结果的范围不局限于定义的查询集合。确定调整数据包括确定用于 相对于第一概率分布对第二概率分布加权W形成组合概率分布的一个或多个权重值。访问 指示一个或多个用户所提交的查询的训练数据包括访问指示不同用户说出的话音查询的 一个或多个查询日志。基于计数选择查询的真子集包括选择具有最高计数的查询。基于计 数选择查询的真子集包括选择具有等于或者超过最小阔值的计数的查询,所述最小阔值大 于一。基于计数选择查询的真子集包括:(i)基于第一阔值选择具有第一词语数量的查询; W及(ii)基于第二阔值选择具有第二词语数量的查询,第二词语数量不同于第一词语数 量,并且第二阔值不同于第一阔值。基于计数训练语言模型的第一组件包括针对被选查询 中的每一个查询确定指示该被选查询作为完整查询在训练数据中的相对出现频率的评分。
[0013] 运些及其它实施例可每个都可选地包括下列特征中的一个或多个。例如,训练语 言模型的第一组件包括生成指示第一概率分布的数据,对于第一概率分布,被选查询的出 现概率的第一总和是第一值。训练语言模型的第二组件包括生成指示第二概率分布的数 据,对于第二概率分布,被选查询的出现概率的第二总和是第二值。确定调整数据包括基于 第一值和第二值来确定权重值。确定调整数据包括确定要应用于第二组件的输出的权重 值,所述权重值使第二组件的概率分布的一部分与第一组件的概率分布的相应部分相等。
[0014] 运些及其它实施例可每个可选地包括下列特征中的一个或多个。例如,使用语言 模型的第一组件来确定特定查询的第一评分,使用语言模型的第二组件来确定该特定查询 的第二评分,W及确定第一评分和第二评分不满足预定关系。响应于确定第一评分和第二 评分不满足预定关系,从被选查询中去除该特定查询W生成变更的被选查询集合。在从被 选查询中去除该特定查询之后,基于变更的被选查询集合来确定第二调整数据。基于训练 数据训练语言模型的第二组件包括训练n元词串模型。训练n元词串模型包括确定每个指 示在给定一个或多个其它词语的出现的情况下一词语的出现概率的条件概率。基于训练数 据训练语言模型的第二组件包括使用训练数据的真子集训练第二组件,所述训练数据的真 子集排除了被选查询的实例。
[0015] 运些及其它实施例可每个可选地包括下列特征中的一个或多个。例如,访问指示 一个或多个用户所提交的查询的训练数据包括(i)访问指示与第一地理区域相关联的第 一查询的第一训练数据,W及(ii)访问指示与比第一地理区域更大的第二地理区域相关 联的第二查询的第二训练数据。针对查询中的每一个确定训练数据指示该查询被提交的次 数的计数包括针对第一查询中的每一个确定第一训练数据指示该查询被提交的次数的计 数。基于计数选择查询的真子集包括从与第一地理区域相关联的第一查询当中选择查询。 基于计数训练语言模型的第一组件包括基于指示第一训练数据指示被选查询被提交的次 数的计数来训练第一组件。基于训练数据训练语言模型的第二组件包括基于指示与第二地 理区域相关联的查询的第二训练数据来训练语言模型的第二组件。
[0016] 运些及其它实施例可每个可选地包括下列特征中的一个或多个。例如,接收查询, 确定所接收的查询与第一地理区域相关联,W及响应于确定所接收的查询与第一地理区域 相关联,从与不同地理区域相对应的多个语言模型当中选择第一组件。使用第一组件来评 价被选查询中包括的一个或多个候选转录,W及使用第二组件来评价被选查询中未包括的 一个或多个候选转录。接收一个或多个话语的候选转录;确定候选转录是被选查询之一; 响应于确定候选转录是被选查询之一,使用语言模型的第一组件确定该候选转录的评分; W及基于评分来评价该候选转录。接收一个或多个话语的候选转录;确定候选转录不是被 选查询之一;响应于确定候选转录不是被选查询之一,使用语言模型的第二组件确定该候 选转录的评分;W及基于评分来评价该候选转录。
[0017] 有利的实现方式可包括下列特征中的一个或多个。语音识别的速度和准确度可被 改善。语言模型的复杂度可被减少。对于至少一些语言序列,语言模型所指示的概率可比 n元词串模型更好地反映语言序列在训练数据中的出现频率。
[0018] 本说明书中所述的主题的一个或多个实施例的细节在附图和下面的描述中进行 了阐述。根据描述、附图和权利要求,主题的其它特征、方面和优点将变得明显。
【附图说明】
[0019] 图1是图示用于训练语言模型的系统的示例的示图。
[0020] 图2是图示用于训练语言模型的过程的示例的流程图。
[0021] 图3至图5是图示语音识别中使用语言模型的过程的示例的流程图。
[0022] 各图中同样的参考数字和标号指示同样的元素。
【具体实施方式】
[002引图1是图示用于训练语言模型120的系统100的示例的示图。系统100包括与一 个或多个数据存储设备112通信的计算系统110。图1还图示了示为表示数据流程的阶段 (A)到(巧的数据流程。阶段(A)到(巧可按所图示的序列或按与所图示的序列不同的序 列发生。
[0024]计算系统110可生成包括两个组件的语言模型120 :可向所定义的语言序列集合 指派评分的第一组件,W及可向任意语言序列指派评分的第二组件。所定义的语言序列集 合可W是完整的语言片段,诸如完全句或者完整查询。例如,该集合可W是训练数据中出现 的高频率查询的集合。第一组件指派给查询的概率评分可基于查询作为整体(例如,作为 用户的整个查询串,而不是作为查询的一部分或者子集)在训练数据中出现的相对频率。 因为第一组件基于整个查询出现在训练数据的实际频率来指派概率,所W与诸如n元词串 模型的其它类型的语言模型相比,第一组件可更好地预测高频率查询出现的可能性。
[00巧]第二组件可W是既可向高频率查询指派概率又可向其它查询指派概率的语言模 型。例如,第二组件可能够例如使用用于组合多个条件概率的链式法则来向任意语言序列 指派概率(例如,非零概率)。第二组件可W是一一但不局限于一一基于语言序列中的n元 词串的条件概率来为语言序列生成概率评分的n元词串语言模型。
[00%]当语言序列被包括在所定义的高频率查询集合中时,第一组件被用来输出语言序 列的概率评分。当语言序列不在所定义的高频率查询集合中时,第二组件被用来输出概率 评分。从第一组件回退到第二组件可确保语言模型可将概率评分指派给任意语言序列,运 远远超过用于第一组件的所定义集合中或者甚至训练数据中出现的序列。
[0027]在一些语音识别使用中,诸如对话音查询的识别中,典型的语言序列经常是短的, 通常在3到5个词之间。在许多实例中,预期的话音查询长度大约为=个词。此外,按照长 度的查询分布可严重倾向=个词或更少词的查询。在一些数据集合中,=个词或更少词的 查询经常构成话音捜索引擎接收到的查询的70%或更多。为了改善识别,下面论述的语言 模型120可存储整个查询的概率。此外,仅存储训练期间遇到查询的所定义子集的概率可 导致使用比例如n元词串(其中n例如是3、4或更大)模型更少存储空间的语言模型120。 [00測在阶段(A)期间,计算系统110访问训练数据114,训练数据114将被用于训练(例 如,生成或更新)语言模型120。训练数据114包括多种不同的语言序列。
[0029] 在所图示的示例中,训练数据114是指示用户所提交的查询116的查询数据。例 如,训练数据114可包括指示多个用户中的任意用户在特定时段内提交的查询的一个或多 个查询日志,所述特定时段诸如一星期、一个月、一年等等。训练数据114可指示特定地理 区域中的用户所提交的查询,或者特定语言的查询。
[0030] 在一些实现方式中,查询数据指示特定类型的查询或者来自特定源的查询,例如, 话音查
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1