完整语言序列的语言建模的制作方法_6

文档序号:9476312阅读:来源:国知局
查询与第一地理区域相关联,从与不同地理区域相对应的多个语 言模型当中选择第一组件; 使用第一组件来评价所述被选查询中包括的一个或多个候选转录;以及 使用第二组件来评价所述被选查询中未包括的一个或多个候选转录。35. 如权利要求19所述的系统,其中,所述操作还包括: 接收一个或多个话语的候选转录; 确定所述候选转录是所述被选查询中的一个被选查询; 响应于确定所述候选转录是所述被选查询中的一个被选查询,使用语言模型的第一组 件确定所述候选转录的评分;以及 基于所述评分来评价所述候选转录。36. 如权利要求19所述的系统,其中,所述操作还包括: 接收一个或多个话语的候选转录; 确定所述候选转录不是所述被选查询之一; 响应于确定所述候选转录不是所述被选查询之一,使用语言模型的第二组件确定所述 候选转录的评分;以及 基于所述评分来评价所述候选转录。37. -种存储计算机程序的计算机存储介质,所述程序包括在被一个或多个计算机运 行时使得所述一个或多个计算机执行操作的指令,所述操作包括: 访问指示一个或多个用户所提交的查询的训练数据; 针对所述查询中的每一个查询确定训练数据指示该查询被提交的次数的计数; 基于计数选择所述查询的真子集; 基于计数训练语言模型的第一组件,所述第一组件包括指示训练数据当中被选查询的 相对频率的第一概率数据; 基于训练数据训练语言模型的第二组件,所述第二组件包括用于向所述被选查询中未 包括的查询指派评分的第二概率数据; 确定相对于第一概率数据归一化第二概率数据的调整数据;以及 存储第一组件、第二组件和调整数据。38. 如权利要求37所述的计算机存储介质,其中,基于计数训练语言模型的第一组件 包括:生成在局限于出现在训练数据中的查询的可能结果的集合上的第一概率分布;并且 其中,基于训练数据训练语言模型的第二组件包括:生成第二概率分布,对于所述第二 概率分布,可能结果的范围不局限于所定义的查询集合。39. 如权利要求38所述的计算机存储介质,其中,确定调整数据包括:确定用于相对于 第一概率分布对第二概率分布加权以形成组合概率分布的一个或多个权重值。40. 如权利要求37所述的计算机存储介质,其中,访问指示一个或多个用户所提交的 查询的训练数据包括:访问指示不同用户说出的话音查询的一个或多个查询日志;并且 其中,基于计数选择所述查询的真子集包括:选择具有最高计数的查询。41. 如权利要求37所述的计算机存储介质,其中,基于计数选择所述查询的真子集包 括:选择具有等于或者超过最小阈值的计数的查询,所述最小阈值大于一。42. 如权利要求37所述的计算机存储介质,其中,基于计数选择所述查询的真子集包 括: 基于第一阈值选择具有第一词语数量的查询;以及 基于第二阈值选择具有第二词语数量的查询,所述第二词语数量不同于所述第一词语 数量,并且所述第二阈值不同于所述第一阈值。43. 如权利要求37所述的计算机存储介质,其中,基于计数训练语言模型的第一组件 包括:针对被选查询中的每一个被选查询确定指示该被选查询作为完整查询在训练数据中 的相对出现频率的评分。44. 如权利要求37所述的计算机存储介质,其中,训练语言模型的第一组件包括:生成 指示第一概率分布的数据,对于所述第一概率分布,被选查询的出现概率的第一总和是第 一值; 其中,训练语言模型的第二组件包括:生成指示第二概率分布的数据,对于所述第二概 率分布,被选查询的出现概率的第二总和是第二值;并且 其中,确定调整数据包括:基于第一值和第二值来确定权重值。45. 如权利要求37所述的计算机存储介质,其中,确定调整数据包括:确定要应用于第 二组件的输出的权重值,所述权重值使第二组件的概率分布的一部分与第一组件的概率分 布的相应部分相等。46. 如权利要求37所述的计算机存储介质,其中,所述操作还包括: 使用语言模型的第一组件来确定特定查询的第一评分; 使用语言模型的第二组件来确定所述特定查询的第二评分; 确定第一评分和第二评分不满足预定关系;以及 响应于确定第一评分和第二评分不满足预定关系,从所述被选查询中去除该特定查询 以生成变更的被选查询集合。47. 如权利要求46所述的计算机存储介质,其中,所述操作还包括,在从所述被选查询 中去除所述特定查询之后,基于变更的被选查询集合来确定第二调整数据。48. 如权利要求37所述的计算机存储介质,其中,基于训练数据训练语言模型的第二 组件包括:训练n元词串模型。49. 如权利要求48所述的计算机存储介质,其中,训练n元词串模型包括:确定每个指 示在给定一个或多个其它词语的出现的情况下一词语的出现概率的条件概率。50. 如权利要求37所述的计算机存储介质,其中,基于训练数据训练语言模型的第二 组件包括:使用训练数据的真子集训练第二组件,所述训练数据的真子集排除了所述被选 查询的实例。51. 如权利要求37所述的计算机存储介质,其中,访问指示一个或多个用户所提交的 查询的训练数据包括:(i)访问指示与第一地理区域相关联的第一查询的第一训练数据, 以及(ii)访问指示与大于第一地理区域的第二地理区域相关联的第二查询的第二训练数 据; 其中,针对所述查询中的每一个查询确定训练数据指示该查询被提交的次数的计数包 括:针对第一查询中的每一个第一查询确定第一训练数据指示该查询被提交的次数的计 数; 其中,基于计数选择所述查询的真子集包括:从与第一地理区域相关联的第一查询当 中选择查询; 其中,基于计数训练语言模型的第一组件包括:基于指示第一训练数据指示被选查询 被提交的次数的计数来训练第一组件;并且 其中,基于训练数据训练语言模型的第二组件包括:基于指示与第二地理区域相关联 的查询的第二训练数据来训练语言模型的第二组件。52. 如权利要求51所述的计算机存储介质,其中,所述操作还包括: 接收查询; 确定所接收的查询与第一地理区域相关联; 响应于确定所接收的查询与第一地理区域相关联,从与不同地理区域相对应的多个语 言模型当中选择第一组件; 使用第一组件来评价所述被选查询中包括的一个或多个候选转录;以及 使用第二组件来评价所述被选查询中未包括的一个或多个候选转录。53. 如权利要求37所述的计算机存储介质,其中,所述操作还包括: 接收一个或多个话语的候选转录; 确定所述候选转录是所述被选查询中的一个被选查询; 响应于确定所述候选转录是所述被选查询中的一个被选查询,使用语言模型的第一组 件确定所述候选转录的评分;以及 基于所述评分来评价所述候选转录。54. 如权利要求37所述的计算机存储介质,其中,所述操作还包括: 接收一个或多个话语的候选转录; 确定所述候选转录不是所述被选查询之一; 响应于确定所述候选转录不是所述被选查询之一,使用语言模型的第二组件确定所述 候选转录的评分;以及 基于所述评分来评价所述候选转录。55. -种由数据处理装置执行的方法,所述方法包括: 接收一个或多个话语的候选转录; 确定所述候选转录是与包括指示语言序列整体出现的可能性的数据的语言模型组件 相关联的预定语言序列集合中的一个语言序列; 响应于确定所述候选转录是与所述语言模型组件相关联的预定语言序列集合中的一 个语言序列,使用语言模型的第一组件确定第一候选转录的第一评分;以及 基于所述评分评价所述候选转录。56. 如权利要求55所述的方法,其中,确定所述候选转录是与包括指示语言序列整 体出现的可能性的数据的语言模型组件相关联的预定语言序列集合中的一个语言序列包 括: 确定所述候选转录与所述预定语言序列集合中的语言序列之一的整体准确匹配。57. 如权利要求55所述的方法,其中,所述语言序列中的每一个表不一个或多个用户 所提交的完整语言序列。58. 如权利要求55所述的方法,其中,所述语言序列中的每一个表示一个或多个用户 所提交的完整查询。59. 如权利要求55所述的方法,其中,所述语言模型组件是第一语言模型组件; 其中,所述方法还包括: 接收一个或多个话语的第二候选转录; 确定所述第二候选转录不是与第一语言模型组件相关联的预定语言序列集合中的语 目序列之一; 响应于确定候选转录不是与第一语言模型组件相关联的预定语言序列集合中的一个 语言序列,使用第二语言模型组件确定所述第二候选转录的第二评分;以及 基于所述第二评分评价所述第二候选转录。60. 如权利要求59所述的方法,其中,确定第二评分包括:使用n元词串模型来确定第 二评分;并且 确定第一评分包括:在不使用n元词串模型的情况下确定第一评分。61. -种系统,包括: 一个或多个计算机和存储可操作的指令的一个或多个存储设备,所述指令在被所述一 个或多个计算机运行时使得所述一个或多个计算机执行操作,所述操作包括: 接收一个或多个话语的候选转录; 确定所述候选转录是与包括指示语言序列整体出现的可能性的数据的语言模型组件 相关联的预定语言序列集合中的一个语言序列; 响应于确定所述候选转录是与所述语言模型组件相关联的预定语言序列集合中的一 个语言序列,使用语言模型的第一组件确定第一候选转录的第一评分;以及 基于所述评分评价所述候选转录。62. 如权利要求61所述的系统,其中,确定所述候选转录是与包括指示语言序列整 体出现的可能性的数据的语言模型组件相关联的预定语言序列集合中的一个语言序列包 括: 确定所述候选转录与所述预定语言序列集合中的语言序列之一的整体准确匹配。63. 如权利要求61所述的系统,其中,所述语言序列中的每一个表示一个或多个用户 所提交的完整语言序列。64. 如权利要求61所述的系统,其中,所述语言序列中的每一个表示一个或多个用户 所提交的完整查询。65. 如权利要求61所述的系统,其中,所述语言模型组件是第一语言模型组件; 其中,所述操作还包括: 接收一个或多个话语的第二候选转录; 确定所述第二候选转录不是与第一语言模型组件相关联的预定语言序列集合中的语 目序列之一; 响应于确定候选转录不是与第一语言模型组件相关联的预定语言序列集合中的一个 语言序列,使用第二语言模型组件确定所述第二候选转录的第二评分;以及 基于所述第二评分评价所述第二候选转录。66. 如权利要求65所述的系统,其中,确定第二评分包括:使用n元词串模型来确定第 二评分;并且 确定第一评分包括:在不使用n元词串模型的情况下确定第一评分。67. -种存储计算机程序的计算机存储介质,所述程序包括在被一个或多个计算机运 行时使得所述一个或多个计算机执行操作的指令,所述操作包括: 接收一个或多个话语的候选转录; 确定所述候选转录是与包括指示语言序列整体出现的可能性的数据的语言模型组件 相关联的预定语言序列集合中的一个语言序列; 响应于确定所述候选转录是与所述语言模型组件相关联的预定语言序列集合中的一 个语言序列,使用语言模型的第一组件确定第一候选转录的第一评分;以及 基于所述评分评价所述候选转录。68. 如权利要求67所述的计算机存储介质,其中,确定所述候选转录是与包括指示语 言序列整体出现的可能性的数据的语言模型组件相关联的预定语言序列集合中的一个语 目序列包括: 确定所述候选转录与所述预定语言序列集合中的语言序列之一的整体准确匹配。69. 如权利要求67所述的计算机存储介质,其中,所述语言序列中的每一个表示一个 或多个用户所提交的完整语言序列。70. 如权利要求67所述的计算机存储介质,其中,所述语言序列中的每一个表示一个 或多个用户所提交的完整查询。71. 如权利要求67所述的计算机存储介质,其中,所述语言模型组件是第一语言模型 组件; 其中,所述操作还包括: 接收一个或多个话语的第二候选转录; 确定所述第二候选转录不是与第一语言模型组件相关联的预定语言序列集合中的语 目序列之一; 响应于确定候选转录不是与第一语言模型组件相关联的预定语言序列集合中的一个 语言序列,使用第二语言模型组件确定所述第二候选转录的第二评分;以及 基于所述第二评分评价所述第二候选转录。72. 如权利要求71所述的计算机存储介质,其中,确定第二评分包括:使用n元词串模 型来确定第二评分;并且 确定第一评分包括:在不使用n元词串模型的情况下确定第一评分。
【专利摘要】提供方法、系统和装置,包括在计算机存储介质上编码的计算机程序,用于对完整语言序列的语言建模。访问指示语言序列的训练数据,确定每个语言序列在训练数据中出现的次数的计数。选择语言序列的真子集,并且训练语言模型的第一组件。第一组件包括用于向被选语言序列指派评分的第一概率数据。基于训练数据来训练语言模型的第二组件,其中第二组件包括用于向被选语言序列中未包括的语言序列指派评分的第二概率数据。生成相对于第一概率数据归一化第二概率数据的调整数据,并且存储第一组件、第二组件和调整数据。
【IPC分类】G10L15/06, G10L15/197
【公开号】CN105229723
【申请号】CN201380076599
【发明人】C.I.切尔巴, H.萨克, J.沙尔克威克
【申请人】谷歌公司
【公开日】2016年1月6日
【申请日】2013年11月19日
【公告号】EP2973544A1, US20140278407, WO2014158239A1
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1