使用校正的术语的声学模型训练的制作方法

文档序号:35037839发布日期:2023-08-05 21:50阅读:97来源:国知局

本说明书涉及语音识别。


背景技术:

1、设备可以包括用于响应设备的用户的话语的软件。一些话语可以包括给设备指令以呼叫电话号码、发送电话号码、操作应用或在移动设备或因特网上搜索信息。设备可以采用语音到文本或自动语音识别(asr)处理来识别来自用户的话音(voice)输入。


技术实现思路

1、在示例实现方式中,提供了一种改进的语音识别系统,其可以从一个或多个术语的各种发音产生一个或多个术语的改进的转录。根据一个示例实现方式,语音识别系统从用户接收一个或多个术语的话语。作为响应,语音识别系统向用户设备提供话语的转录。当提供的转录不正确时,语音识别系统可以接收用户输入以校正转录的一个或多个特定术语。语音识别系统使用用户输入训练声学模型以校正一个或多个特定术语以及对应于的一个或多个特定术语的音频数据。

2、通常,本说明书中描述的主题的一个创新方面可以体现在包括如下动作的方法中:接收对应于话语的第一音频数据;获得第一音频数据的第一转录;接收指示(i)对第一转录的一个或多个术语的选择和(ii)替换术语中的一个或多个的数据;确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正;响应于确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正,获得对应于第一转录的一个或多个术语的第一音频数据的第一部分;以及使用与第一转录的一个或多个术语相关联的第一音频数据的第一部分来训练声学模型用于识别替换术语中的一个或多个。该方面的其他实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序,每个被配置为执行所述方法的动作。对于要被配置为执行特定操作或动作的一个或多个计算机系统,意味着系统已经在其上安装了软件、固件、硬件或它们的组合,其在操作中使得所述系统执行操作或动作。对于要被配置为执行特定操作或动作的一个或多个计算机程序,意味着一个或多个程序包括当由数据处理装置执行时使装置执行操作或动作的指令。

3、前述和其他实施例可以各自可选地包括一个或多个以下特征,单独地或组合地。具体地,一个实施例包括组合的所有以下特征。该方法还包括接收对应于话语的第二音频数据,所述第二音频数据包括对应于第一音频数据的第一部分的第二部分;获得第二音频数据的第二转录;从第二音频数据中辨别第二部分;使用训练的声学模型获得第二部分的校正的转录;以及获得将第二转录和校正的转录合并的转录。该方法还包括获得响应于将第二转录和校正的转录合并的转录的搜索结果;以及提供搜索结果中的一个或多个。确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个与替换术语中的一个或多个之间的语音(phonetic)相似性。确定语音相似性包括计算选择的术语中的一个或多个中的每一个与替换术语中的一个或多个中的每一个之间的语音距离。确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个当中的连接。确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个是连续的。确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个中的每一个包括阈值数量的字符。

4、根据本公开的一个方面,提供一种计算机实现的方法,当在数据处理硬件上执行时,使得数据处理硬件执行操作,包括:从用户设备的用户接收语音输入;在用户设备的图形用户界面中显示语音输入的第一转录,该第一转录包括多个识别的术语;在图形用户界面中显示一个或多个建议术语,该一个或多个建议术语替换第一转录中的多个识别术语中的一个;接收指示对显示在图形用户界面中的一个或多个建议术语中的一个的用户选择的选择指示,以提供语音输入的校正的转录;以及在图形用户界面中显示到被确定为响应于校正的转录的资源的一个或多个链接。

5、根据本公开的一个方面,提供一种系统,包括:数据处理硬件;以及存储器硬件,与数据处理硬件通信并存储指令,当由数据处理硬件执行指令时,所述指令使得数据处理硬件执行操作,包括:从用户设备的用户接收语音输入;在用户设备的图形用户界面中显示语音输入的第一转录,该第一转录包括多个识别的术语;在图形用户界面中显示一个或多个建议术语,该一个或多个建议术语替换第一转录中的多个识别术语中的一个;接收指示显示在图形用户界面中的一个或多个建议术语中的一个的用户选择的选择指示,以提供语音输入的校正的转录;以及在图形用户界面中显示到被确定为响应于校正的转录的资源的一个或多个链接。

6、根据本公开的一个方面,提供一种计算机实现的方法,当在数据处理硬件上执行时,使得数据处理硬件执行操作,包括:接收包括校正转录的训练数据,该校正转录包括替换话语的初始转录中的另一术语的特定术语;使用训练数据训练模型,以学习识别话音输入中特定术语的发音;接收包括特定术语的发音的话音查询;使用语音识别引擎将话音查询转录成包括多个识别术语的第一识别查询;以及使用训练的模型,基于特定术语和多个识别术语中的一个之间的语音相似性,生成用特定术语替换多个识别术语中的一个的校正的识别查询。

7、根据本公开的一个方面,提供一种系统,包括:数据处理硬件;和存储器硬件,与数据处理硬件通信并存储指令,当由数据处理硬件执行时,所述指令使得数据处理硬件执行操作,包括:接收包括校正转录的训练数据,该校正转录包括替换话语的初始转录中的另一术语的特定术语;使用训练数据训练模型,以学习识别语音输入中特定术语的发音;接收包括特定术语的发音的话音查询;使用语音识别引擎将话音查询转录成包括多个识别术语的第一识别查询;以及使用训练的模型,基于特定术语和多个识别术语中的一个之间的语音相似性,生成用特定术语替换多个识别术语中的一个的校正的识别查询。

8、根据本公开的一个方面,提供一种方法,其包括:在用户设备处从用户设备的用户接收语音输入;在接收到语音输入之后,由用户设备在图形用户界面中显示语音输入的第一转录,该第一转录包括多个识别的术语;在用户设备处接收指示由用户通过图形用户界面输入的一个或多个文本字符的键入输入,该一个或多个文本字符替换语音输入的第一转录的多个识别术语中的一个,以提供语音输入的校正转录;以及由用户设备在图形用户界面中显示到被确定为响应于语音输入的校正转录的资源的一个或多个链接,其中,到被确定为响应于在图形用户界面中显示的语音输入的校正转录的资源的一个或多个链接包括由用户通过图形用户界面输入的一个或多个文本字符。

9、根据本公开的一个方面,提供一种用户设备,其包括:数据处理硬件;以及存储器硬件,与数据处理硬件通信并存储指令,当由数据处理硬件执行时,所述指令使得数据处理硬件执行操作,包括:从用户设备的用户接收语音输入;在接收到语音输入之后,在图形用户界面中显示语音输入的第一转录,该第一转录包括多个识别的术语;接收指示由用户通过图形用户界面输入的一个或多个文本字符的键入输入,该一个或多个文本字符替换语音输入的第一转录的多个识别术语中的一个,以提供语音输入的校正转录;以及在图形用户界面中显示到被确定为响应于语音输入的校正转录的资源的一个或多个链接,其中,到被确定为响应于在图形用户界面中显示的语音输入的校正转录的资源的一个或多个链接包括由用户通过图形用户界面输入的一个或多个文本字符。

10、根据本公开的发明,提供一种计算机实现的方法,包括:接收对应于话语的音频数据;提供用于输出的包括话语转录的图形用户界面,其中,话语包括使用非规范发音说出的特定术语,并且其中,话语转录包括对应于使用非规范发音说出的特定术语的误转录术语;接收指示以下的数据:(i)已经在图形用户界面上选择了对应于使用非规范发音说出的特定术语的误转录术语,以及(ii)已经输入了不同的术语作为对应于使用非规范发音说出的特定术语的误转录术语的替代;响应于接收到指示以下的数据:(i)已经在图形用户界面上选择了对应于使用非规范发音说出的特定术语的误转录术语,以及(ii)已经输入了不同的术语作为对应于使用非规范发音说出的特定术语的误转录术语的替代,隔离包括特定术语的音频数据的一部分,以用作训练模型来识别特定术语的训练数据;使用包括特定术语的音频数据的隔离部分作为训练数据来训练或更新模型来识别特定术语;以及响应于接收也包括使用非规范发音说出的特定术语的后续话语,使用训练或更新的模型来处理后续话语,然后提供包括后续话语的转录的图形用户界面用于输出,其中,话语的转录包括作为误转录术语的替代而输入的不同术语,并且其中,后续话语的转录不包括误转录术语。

11、根据本公开的一个方面,提供一种系统,包括一个或多个计算机和存储指令的一个或多个存储设备,当由一个或多个计算机执行时,该指令可操作以使一个或多个计算机执行操作,包括:接收对应于话语的音频数据;提供用于输出的包括话语转录的图形用户界面,其中,话语包括使用非规范发音说出的特定术语,并且其中,话语转录包括对应于使用非规范发音说出的特定术语的误转录术语;接收指示以下的数据:(i)已经在图形用户界面上选择了对应于使用非规范发音说出的特定术语的误转录术语,以及(ii)已经输入了不同的术语作为对应于使用非规范发音说出的特定术语的误转录术语的替代;响应于接收到指示以下的数据:(i)已经在图形用户界面上选择了对应于使用非规范发音说出的特定术语的误转录术语,以及(ii)已经输入了不同的术语作为对应于使用非规范发音说出的特定术语的误转录术语的替代,隔离包括特定术语的音频数据的一部分,以用作训练模型来识别特定术语的训练数据;使用包括特定术语的音频数据的隔离部分作为训练数据来训练或更新模型来识别特定术语;以及响应于接收也包括使用非规范发音说出的特定术语的后续话语,使用训练或更新的模型来处理后续话语,然后提供包括后续话语的转录的图形用户界面用于输出,其中,话语的转录包括作为误转录术语的替代而输入的不同术语,并且其中,后续话语的转录不包括误转录术语。

12、根据本公开的一个方面,提供一种存储软件的计算机可读存储设备,软件包括可由一个或多个计算机执行的指令,指令在这样执行时使一个或多个计算机执行操作,操作包括:接收对应于话语的音频数据;提供用于输出的包括话语转录的图形用户界面,其中,话语包括使用非规范发音说出的特定术语,并且其中,话语转录包括对应于使用非规范发音说出的特定术语的误转录术语;接收指示以下的数据:(i)已经在图形用户界面上选择了对应于使用非规范发音说出的特定术语的误转录术语,以及(ii)已经输入了不同的术语作为对应于使用非规范发音说出的特定术语的误转录术语的替代;响应于接收到指示以下的数据:(i)已经在图形用户界面上选择了对应于使用非规范发音说出的特定术语的误转录术语,以及(ii)已经输入了不同的术语作为对应于使用非规范发音说出的特定术语的误转录术语的替代,隔离包括特定术语的音频数据的一部分,以用作训练模型来识别特定术语的训练数据;使用包括特定术语的音频数据的隔离部分作为训练数据来训练或更新模型来识别特定术语;以及响应于接收也包括使用非规范发音说出的特定术语的后续话语,使用训练或更新的模型来处理后续话语,然后提供包括后续话语的转录的图形用户界面用于输出,其中,话语的转录包括作为误转录术语的替代而输入的不同术语,并且其中,后续话语的转录不包括误转录术语

13、本说明书中描述的主题可以在特定实施例中实现,以便实现以下优点中的一个或多个。训练声学模型以从特定术语的各种发音中识别特定术语。使用训练的声学模型的语音识别系统可以从特定术语的各种发音提供特定术语的正确转录,而无需接收用户的校正输入。

14、在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求,本主题的其他特征、方面和优点将变得显而易见。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!