完整语言序列的语言建模的制作方法_5

文档序号：9476312阅读：来源：国知局

，本发明的实施例可在具有显示设备和键盘W及指示设备的计算机上实现，所述显示设备例如，CRT(阴极射线管）或者LCD(液晶显示器）监视器，用于向用户显示信息，所述指示设备例如，鼠标或者跟踪球，通过所述指示设备，用户可向计算机提供输入。其它种类的设备也可用于支持与用户的交互；例如，提供给用户的反馈可W 是任意形式的感官反馈，例如，视觉反馈、听觉反馈或者触觉反馈；并且来自用户的输入可按包括声学、语音或触觉输入的任意形式接收到。
[0118] 本发明的实施例可在计算系统中实现，所述计算系统包括例如作为数据服务器的后端组件，或者包括例如应用服务器的中间件组件，或者包括前端组件，例如，具有图形用户接口的客户端计算机或者通过其用户可与本发明的实现方式交互的Web浏览器，或者所述计算系统包括一个或多个运样的后端、中间件或者前端组件的任意组合。系统的组件可由数字数据通信的任意形式或者介质，例如，通信网络来互连。通信网络的示例包括局域网 ("LAN")和广域网（"WAN"),例如，互联网。
[0119] 计算系统可包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助于在各个计算机上运行且相互具有客户端-服务器关系的计算机程序而发生。
[0120] 尽管本说明书包含许多细节，但运些不应被解释为对本发明的范围和可能要求保护的内容的限制，而是应被解释为对特定于本发明的具体实施例的特征的描述。在本说明书中描述的分开的实施例的上下文中的某些特征也可在单个实施例中组合地实现。反之，单个实施例的上下文中所述的各种特征也可在多个实施例中分开地实现或者W任意合适的变形实现。此外，虽然特征可能在w上被描述为w某些组合动作w及甚至最初要求运样保护，但来自要求保护的组合的一个或多个特征在一些情况下可从组合中删去，并且要求保护的组合可指向变形或变形的变体。阳121] 类似地，尽管在图中按特定顺序描绘了操作，但运不应被理解成为实现期望的结果要求运样的操作按示出的特定顺序或按连续顺序执行，或者所有图示出的操作都被执行。在特定状况下，多任务处理和并行处理可能是有利的。此外，上述实施例中各种系统组件的分离不应当被理解为所有实施例中都需要运样的分离，并且应理解，所述的程序组件和系统一般可共同集成在单个软件产品中或者被封装到多个软件产品中。阳122] 在提及HTML文件的每个实例中，可替换成其它文件类型或格式。例如，HTML文件可被XMUJSON、纯文本或者其它类型的文件替代。此外，在提及表或者散列表的情况下，可使用其它数据结构（诸如电子数据表、关系数据库或者结构文件）。阳123] 到此，已描述了本发明的特定实施例。其它实施例在所附权利要求的范围内。例如，权利要求中叙述的动作可按不同顺序执行但仍实现期望的结果。
【主权项】
1. 一种由数据处理装置执行的方法，所述方法包括：访问指示一个或多个用户所提交的查询的训练数据；针对所述查询中的每一个查询确定训练数据指示该查询被提交的次数的计数；基于计数选择所述查询的真子集；基于计数训练语言模型的第一组件，所述第一组件包括指示训练数据当中被选查询的相对频率的第一概率数据；基于训练数据训练语言模型的第二组件，所述第二组件包括用于向所述被选查询中未包括的查询指派评分的第二概率数据；确定相对于第一概率数据归一化第二概率数据的调整数据；以及存储第一组件、第二组件和调整数据。2. 如权利要求1所述的方法，其中，基于计数训练语言模型的第一组件包括：生成在局限于出现在训练数据中的查询的可能结果的集合上的第一概率分布；并且其中，基于训练数据训练语言模型的第二组件包括：生成第二概率分布，对于所述第二概率分布，可能结果的范围不局限于定义的查询集合。3. 如权利要求2所述的方法，其中，确定调整数据包括：确定用于相对于第一概率分布对第二概率分布加权以形成组合概率分布的一个或多个权重值。4. 如权利要求1所述的方法，其中，访问指示一个或多个用户所提交的查询的训练数据包括：访问指示不同用户说出的话音查询的一个或多个查询日志；并且其中，基于计数选择所述查询的真子集包括：选择具有最高计数的查询。5. 如权利要求1所述的方法，其中，基于计数选择所述查询的真子集包括：选择具有等于或者超过最小阈值的计数的查询，所述最小阈值大于一。6. 如权利要求1所述的方法，其中，基于计数选择所述查询的真子集包括：基于第一阈值选择具有第一词语数量的查询；以及基于第二阈值选择具有第二词语数量的查询，所述第二词语数量不同于所述第一词语数量，并且所述第二阈值不同于所述第一阈值。7. 如权利要求1所述的方法，其中，基于计数训练语言模型的第一组件包括：针对被选查询中的每一个被选查询，确定指示该被选查询作为完整查询在训练数据中的相对出现频率的评分。8. 如权利要求1所述的方法，其中，训练语言模型的第一组件包括：生成指示第一概率分布的数据，对于所述第一概率分布，被选查询的出现概率的第一总和是第一值；其中，训练语言模型的第二组件包括：生成指示第二概率分布的数据，对于所述第二概率分布，被选查询的出现概率的第二总和是第二值；并且其中，确定调整数据包括：基于第一值和第二值来确定权重值。9. 如权利要求1所述的方法，其中，确定调整数据包括：确定要应用于第二组件的输出的权重值，所述权重值使第二组件的概率分布的一部分与第一组件的概率分布的相应部分相等。10. 如权利要求1所述的方法，还包括：使用语言模型的第一组件来确定特定查询的第一评分；使用语言模型的第二组件来确定所述特定查询的第二评分；确定第一评分和第二评分不满足预定关系；以及响应于确定第一评分和第二评分不满足预定关系，从所述被选查询中去除所述特定查询以生成变更的被选查询集合。11. 如权利要求10所述的方法，还包括，在从所述被选查询中去除所述特定查询之后，基于变更的被选查询集合来确定第二调整数据。12. 如权利要求1所述的方法，其中，基于训练数据训练语言模型的第二组件包括：训练n元词串模型。13. 如权利要求12所述的方法，其中，训练n元词串模型包括：确定每个指示在给定一个或多个其它词语的出现的情况下一词语的出现概率的条件概率。14. 如权利要求1所述的方法，其中，基于训练数据训练语言模型的第二组件包括：使用训练数据的真子集训练第二组件，所述训练数据的真子集排除了所述被选查询的实例。15. 如权利要求1所述的方法，其中，访问指示一个或多个用户所提交的查询的训练数据包括：（i)访问指示与第一地理区域相关联的第一查询的第一训练数据，以及（ii)访问指示与大于第一地理区域的第二地理区域相关联的第二查询的第二训练数据；其中，针对所述查询中的每一个查询确定训练数据指示该查询被提交的次数的计数包括：针对第一查询中的每一个查询确定第一训练数据指示该查询被提交的次数的计数；其中，基于计数选择所述查询的真子集包括：从与第一地理区域相关联的第一查询当中选择查询；其中，基于计数训练语言模型的第一组件包括：基于指示第一训练数据指示被选查询被提交的次数的计数来训练第一组件；并且其中，基于所述训练数据训练语言模型的第二组件包括：基于指示与第二地理区域相关联的查询的第二训练数据来训练语言模型的第二组件。16. 如权利要求15所述的方法，还包括：接收查询；确定所接收的查询与第一地理区域相关联；响应于确定所接收的查询与第一地理区域相关联，从与不同地理区域相对应的多个语言模型当中选择第一组件；使用第一组件来评价所述被选查询中包括的一个或多个候选转录；以及使用第二组件来评价所述被选查询中未包括的一个或多个候选转录。17. 如权利要求1所述的方法，还包括：接收一个或多个话语的候选转录；确定所述候选转录是所述被选查询中的一个被选查询；响应于确定所述候选转录是所述被选查询中的一个被选查询，使用语言模型的第一组件确定所述候选转录的评分；以及基于所述评分来评价所述候选转录。18. 如权利要求1所述的方法，还包括：接收一个或多个话语的候选转录；确定所述候选转录不是所述被选查询之一；响应于确定所述候选转录不是所述被选查询之一，使用语言模型的第二组件确定所述候选转录的评分；以及基于所述评分来评价所述候选转录。19. 一种系统，包括：一个或多个计算机和存储可操作的指令的一个或多个存储设备，所述指令在被所述一个或多个计算机运行时使得所述一个或多个计算机执行操作，所述操作包括：访问指示一个或多个用户所提交的查询的训练数据；针对所述查询中的每一个查询确定训练数据指示该查询被提交的次数的计数；基于计数选择所述查询的真子集；基于计数训练语言模型的第一组件，所述第一组件包括指示训练数据当中被选查询的相对频率的第一概率数据；基于训练数据训练语言模型的第二组件，所述第二组件包括用于向所述被选查询中未包括的查询指派评分的第二概率数据；确定相对于第一概率数据归一化第二概率数据的调整数据；以及存储第一组件、第二组件和调整数据。20. 如权利要求19所述的系统，其中，基于计数训练语言模型的第一组件包括：生成在局限于出现在训练数据中的查询的可能结果的集合上的第一概率分布；并且其中，基于训练数据训练语言模型的第二组件包括：生成第二概率分布，对于所述第二概率分布，可能结果的范围不局限于定义的查询集合。21. 如权利要求20所述的系统，其中，确定调整数据包括：确定用于相对于第一概率分布对第二概率分布加权以形成组合概率分布的一个或多个权重值。22. 如权利要求19所述的系统，其中，访问指示一个或多个用户所提交的查询的训练数据包括：访问指示不同用户说出的话音查询的一个或多个查询日志；并且其中，基于计数选择所述查询的真子集包括：选择具有最高计数的查询。23. 如权利要求19所述的系统，其中，基于计数选择所述查询的真子集包括：选择具有等于或者超过最小阈值的计数的查询，所述最小阈值大于一。24. 如权利要求19所述的系统，其中，基于计数选择所述查询的真子集包括：基于第一阈值选择具有第一词语数量的查询；以及基于第二阈值选择具有第二词语数量的查询，所述第二词语数量不同于所述第一词语数量，并且所述第二阈值不同于所述第一阈值。25. 如权利要求19所述的系统，其中，基于计数训练语言模型的第一组件包括：针对所述被选查询中的每一个被选查询，确定指示该被选查询作为完整查询在训练数据中的相对出现频率的评分。26. 如权利要求19所述的系统，其中，训练语言模型的第一组件包括：生成指示第一概率分布的数据，对于所述第一概率分布，所述被选查询的出现概率的第一总和是第一值；其中，训练语言模型的第二组件包括：生成指示第二概率分布的数据，对于所述第二概率分布，所述被选查询的出现概率的第二总和是第二值；并且其中，确定调整数据包括：基于第一值和第二值来确定权重值。27. 如权利要求19所述的系统，其中，确定调整数据包括：确定要应用于第二组件的输出的权重值，所述权重值使第二组件的概率分布的一部分与第一组件的概率分布的相应部分相等。28. 如权利要求19所述的系统，其中，所述操作还包括：使用语言模型的第一组件来确定特定查询的第一评分；使用语言模型的第二组件来确定所述特定查询的第二评分；确定第一评分和第二评分不满足预定关系；以及响应于确定第一评分和第二评分不满足预定关系，从所述被选查询中去除该特定查询以生成变更的被选查询集合。29. 如权利要求28所述的系统，其中，所述操作还包括：在从所述被选查询中去除该特定查询之后，基于变更的被选查询集合来确定第二调整数据。30. 如权利要求19所述的系统，其中，基于训练数据训练语言模型的第二组件包括：训练n元词串模型。31. 如权利要求30所述的系统，其中，训练n元词串模型包括：确定每个指示在给定一个或多个其它词语的出现的情况下一词语的出现概率的条件概率。32. 如权利要求19所述的系统，其中，基于所述训练数据训练语言模型的第二组件包括：使用训练数据的真子集训练第二组件，所述训练数据的真子集排除了所述被选查询的实例。33. 如权利要求19所述的系统，其中，访问指示一个或多个用户所提交的查询的训练数据包括：（i)访问指示与第一地理区域相关联的第一查询的第一训练数据，以及（ii)访问指示与大于第一地理区域的第二地理区域相关联的第二查询的第二训练数据；其中，针对所述查询中的每一个查询确定训练数据指示该查询被提交的次数的计数包括：针对第一查询中的每一个查询确定第一训练数据指示该查询被提交的次数的计数；其中，基于计数选择所述查询的真子集包括：从与第一地理区域相关联的第一查询当中选择查询；其中，基于计数训练语言模型的第一组件包括：基于指示第一训练数据指示被选查询被提交的次数的计数来训练第一组件；并且其中，基于训练数据训练语言模型的第二组件包括：基于指示与第二地理区域相关联的查询的第二训练数据来训练语言模型的第二组件。34. 如权利要求33所述的系统，其中，所述操作还包括：接收查询；确定所接收的查询与第一地理区域相关联；响应于确定所接收的

完整全部详细技术资料下载

当前第5页1 2 3 4 5 6