基于语音识别的拨号的制作方法

文档序号:12512886阅读:376来源:国知局
基于语音识别的拨号的制作方法与工艺

本发明总体涉及基于语音识别的拨号。



背景技术:

语音拨号是电子装置,诸如电话或安装在车辆上的音响单元中的有用功能,有了所述功能,电子装置可使用语音识别技术在电话簿内检索联系人姓名或电话号码。在一些现有的解决方案中,电子装置只支持用特定语言,诸如汉语、英语和日语来拨号,所述特定语言的对应的声学模型和语言模型已预先存储在电子装置中。



技术实现要素:

在一个实施方案中,提供了基于语音识别的拨号方法。所述方法包括:基于用户的语音输入、至少一个声学模型和至少一个语言模型而确定识别结果,其中至少一个声学模型和至少一个语言模型是基于电子装置中收集的信息而获得。

在一些实施方案中,电子装置中收集的信息可以包括用语言书写的内容,并且至少一个声学模型和至少一个语言模型对应于所述语言。

在一些实施方案中,电子装置中收集的信息可以指示地点,并且至少一个声学模型和至少一个语言模型对应于所述地点内使用的语言。

在一些实施方案中,所收集的信息可以包括电子装置中的电话簿中的内容。在一些实施方案中,电话簿中的内容可以包括联系人姓名和对应的电话号码。

在一些实施方案中,所收集的信息还可以包括电子装置的操作系统的语言。在一些实施方案中,所收集的信息还可以包括电子装置的历史位置信息。

在一些实施方案中,至少一个声学模型和至少一个语言模型可以被包含在不同的语音识别引擎中。在一些实施方案中,可以基于电子装置中收集的信息而获得至少一个语音识别引擎。

在一些实施方案中,可以基于电子装置中收集的信息而确定用户在对电子装置说出语音输入时可能使用何种语言;并且可以基于所确定的语言而获得至少一个声学模型和至少一个语言模型。

在一些实施方案中,可以将语音输入的识别结果与电话簿中的内容进行比较,并且可以将电话簿中与识别结果匹配的内容确定为是目标联系人姓名。目标联系人姓名表示包括在来自用户的语音输入中的联系人姓名,也就是说,目标联系人姓名是用户想要呼叫的人。

在一些实施方案中,所确定的目标联系人姓名可以包括多个可能的联系人姓名,并且多个可能的联系人姓名中的一个可以被用户选择来拨打电话。

在一个实施方案中,提供了基于语音识别的拨号系统。基于语音识别的拨号系统可以包括处理装置,所述处理装置用于:基于电子装置中收集的信息而获得至少一个声学模型和至少一个语言模型;并且基于用户的语音输入、至少一个声学模型和至少一个语言模型而确定识别结果。

在一些实施方案中,电子装置中收集的信息可以包括用语言书写的内容,并且至少一个声学模型和至少一个语言模型对应于所述语言。

在一些实施方案中,电子装置中收集的信息可以指示地点,并且至少一个声学模型和至少一个语言模型对应于所述地点内使用的语言。

在一些实施方案中,所收集的信息可以包括电子装置中的电话簿中的内容。在一些实施方案中,电话簿中的内容可以包括联系人姓名和对应的电话号码。

在一些实施方案中,所收集的信息还可以包括电子装置的操作系统的语言。在一些实施方案中,所收集的信息还可以包括电子装置的历史位置信息。

在一些实施方案中,电子装置可以包括麦克风以便接收用户的语音输入。

在一些实施方案中,处理装置可以安装在电子装置上。在一些实施方案中,电子装置可以是音响单元或手机。

在一些实施方案中,处理装置可以还用于:基于电子装置中收集的信息而确定用户在对电子装置说出语音输入时可能使用何种语言;并且可以基于所确定的语言而下载至少一个声学模型和至少一个语言模型。

在一些实施方案中,至少一个声学模型和至少一个语言模型被包含在不同的语音识别引擎中。在一些实施方案中,处理装置可以还用于基于电子装置中收集的信息而下载至少一个语音识别引擎。

在一些实施方案中,处理装置可以还用于:将语音输入的识别结果与电话簿中的内容进行比较;并且将电话簿中与识别结果匹配的内容确定为是目标联系人姓名。目标联系人姓名表示包括在来自用户的语音输入中的联系人姓名,也就是说,目标联系人姓名是用户想要呼叫的人。

在一些实施方案中,处理装置可以安装在服务器上。

在一些实施方案中,电子装置可以用于向服务器发送所收集的信息,并且处理装置可以还用于:基于电子装置中收集的信息而确定用户对电子装置说出的可能的语言;并且基于可能的语言而获得至少一个声学模型和至少一个语言模型。

在一些实施方案中,电子装置可以用于:基于电子装置中收集的信息而确定用户对电子装置说出的可能的语言,并向服务器发送包含可能的语言的列表,并且处理装置可以用于基于接收的可能的语言而获得至少一个声学模型和至少一个语言模型。

在一些实施方案中,电子装置可以还用于向服务器发送用户的语音输入,并且服务器可以还用于向电子装置发送识别结果。

在一些实施方案中,至少一个声学模型和至少一个语言模型被包含在不同的语音识别引擎中。在一些实施方案中,处理装置可以还用于:基于电子装置中收集的信息而获得至少一个语音识别引擎。

附图说明

本发明的前述和其他特征将从以下结合附图进行的描述和随附权利要求书中变得更充分地显而易见。应理解,这些图仅展示根据本发明的若干实施方案,并且因此不应被视为对本发明范围的限制,因而将通过使用附图来更明确且更详细地描述本发明。

图1是一般语音识别系统的示意图;

图2是根据实施方案的语音识别拨号方法100的流程图;

图3是根据实施方案的语音识别拨号方法200的流程图;

图4是根据实施方案的安装在第一车辆上的语音识别拨号系统300的示意性框图;以及

图5是根据实施方案的语音识别拨号系统400的示意性框图。

具体实施方式

在以下具体实施方式中,参考了形成其一部分的附图。在附图中,除非上下文另外指出,否则类似的符号通常标识类似的部件。在具体实施方式、附图和权利要求书中描述的说明性实施方案并不意味着是限制性的。在不脱离此处提出的主题的精神或范围的情况下,可以利用其他实施方案并且可以作出其他改变。将容易理解的是,如本文大体所述和图中所示的本发明的各方面可以多种不同的配置加以布置、替换、组合和设计,所有这些不同的配置都被本发明明确涵盖并且成为本发明的一部分。

语音拨号是电子装置中能为用户带来很大便利的功能。例如,当用户在驾驶过程中想要呼叫一个人时,他或她可能不能通过按压移动电话或音响单元上的对应的按键,而是通过对支持语音拨号的音响单元说出联系人姓名或电话号码来给那个人拨打电话。音响单元将基于语音识别技术而检索联系人姓名或电话号码。

语音识别是将音频输入转换成文本的过程。一般而言,语音识别过程由被称为语音识别引擎的软件部件来执行。语音识别引擎的主要功能是处理音频输入,并且将所述音频输入翻译成电子装置可以读懂的文本。

图1是一般语音识别系统的示意图。

一般而言,语音识别引擎需要两种类型的文件来识别语音。一种类型是声学模型,所述声学模型通过以下方式来创建:获取语音的声学记录及其转录(获自语音库),并且(通过称为“训练”的过程)将它们“编译”成组成每个字词的声音的统计表示。另一种类型是语言模型。语言模型使用特定语法或一系列规则来定义能够被语音识别引擎识别的字词和短语。语言模型可以像字词列表一样简单,或者它可以有足够的灵活性以允许可以说出的话语具有可变性,以使得所述语言模型逼近自然语言能力。一旦语音识别引擎识别出说出的话语的最有可能的匹配,所述语音识别引擎就将其识别出的话语作为文本串返回。

在实践中,语音识别引擎可以支持若干种语言,也就是说,它可以识别若干种语言的音频输入。一般而言,一种语言对应于一个声学模型和一个语言模型。因此,为了实现语音识别,语音引擎可以包含若干个声学模型和若干个对应的语言模型。

在一些现有的解决方案中,支持语音拨号的电子装置具有预先存储在其中的若干个声学模型和对应的语言模型。另外,电子装置可以识别用户的对应于若干个声学模型和语言模型的多种语言,诸如汉语、英语和日语的语音,但是无法识别其他语言,诸如方言的其他语音。

图2示出根据实施方案的语音拨号方法100的流程图。

参考图2,在S101中,电子装置基于电子装置中收集的信息而确定语音拨号中使用的可能的语言。

在一些实施方案中,电子装置可以具有语音拨号功能。在一些实施方案中,电子装置可以是安装在车辆上的音响单元或移动电话。

在一些实施方案中,电子装置中收集的信息可以包括用语言书写的内容,并且在随后的过程中有待下载的声学模型和语言模型可以对应于所述语言。在一些实施方案中,电子装置中收集的信息可以指示地点,并且在随后的过程中有待下载的声学模型和语言模型可以对应于所述地点内使用的语言。

在一些实施方案中,所收集的信息可以包括电子装置中的电话簿中的内容。在一些实施方案中,电话簿中的内容可以包括联系人姓名和对应的电话号码。在一些实施方案中,在随后的过程中,可以基于电话簿中记录的联系人姓名的语言和电话号码的属性而下载声学模型和语言模型。

在一些实施方案中,所收集的信息还可以包括电子装置的操作系统的语言。在一些实施方案中,所收集的信息还可以包括电子装置的历史位置信息。

在一些实施方案中,可能的语言可以包括国家的官方语言或国家的各个地区的方言。

应注意到,在电子装置中收集的信息发生变化时,语音拨号中使用的可能的语言的确定过程是动态的。

在S103中,电子装置基于可能的语言而下载声学模型和语言模型。

在一些实施方案中,声学模型可以对应于语言模型,也就是说,一个声学模型对应于一个语言模型。声学模型及其对应的语言模型用来识别一种语言。

在一些实施方案中,声学模型和语言模型被包含在不同的语音识别引擎中,也就是说,可能的语言可以受到不同的语音识别引擎的支持。一个语音识别引擎可以支持一些特定的语言,但是可能无法支持世界各地的语言和方言。

例如,Siri语音识别引擎可在许多国家,诸如美国、英国、中国和加拿大运行,并且可以理解和说出多种语言和方言。Siri语音识别引擎被设计来识别受支持的国家的特定口音。所述语音识别引擎支持超过十种语言,诸如英语、西班牙语、普通话以及日语。

在另一个实例中,由iFLYTEK生产的语音识别引擎可以支持普通话、英语和粤语。

在一些实施方案中,有待下载的声学模型和语言模型可以被包含在不同的语音识别引擎中,其中不同的引擎中的一些被包含在电子装置中,并且不同的引擎中的一些未被包含在电子装置中。也就是说,一些可能的语言受到被包含在电子装置中的语音识别引擎的支持,并且一些可能的语言受到未被包含在电子装置中的语音识别引擎的支持。因此,电子装置可以进一步下载未被包含在电子装置中的语音识别引擎。

应注意到,在可能的语言随着电子装置中收集的信息而变化时,用于声学模型和语言模型的下载过程是动态的。

在S105中,在从用户接收到语音输入之后,电子装置产生对语音输入的记录。

在一些实施方案中,电子装置可以具有麦克风来接收语音输入。在接收到语音输入之后,电子装置可以记录语音输入。在一些实施方案中,语音输入可以包括电子装置中的电话簿中的联系人姓名。

在S107中,电子装置使用声学模型和语言模型来处理记录以获得所述记录的识别结果。

在一些实施方案中,记录被输入到包含声学模型和语言模型的语音识别引擎中来进行处理。

在一些实施方案中,在语音识别引擎中,记录可以被输入到声学模型中来获得音节,并且所述音节可以被输入到语言模型中来获得字词。用于语音识别的详细过程在本领域中是众所周知的,并且在此处不进行详细描述。

在一些实施方案中,在输入到语音识别引擎中之前,将记录编码。

在一些实施方案中,可以将一个下载的声学模型和一个对应的语言模型与记录进行匹配,并且从对应的语言模型获得的字词可以是识别结果。

在一些实施方案中,识别结果可以包括从超过一个语言模型获得的字词,也就是说,超过一个声学模型和超过一个对应的语言模型与所述记录匹配。识别结果可以相应地通过来自每个匹配的语言模型的识别的字词输出连同其匹配度来表示。

在S109中,电子装置将识别结果与电子装置中的电话簿中的内容进行比较,并且将电话簿中与识别结果很好地匹配的内容确定为是目标联系人姓名。

在一些实施方案中,目标联系人姓名表示包括在来自用户的语音输入中的联系人姓名,也就是说,目标联系人姓名是用户想要呼叫的人。

在S111中,电子装置拨打对应于目标联系人姓名的电话号码。

在一些实施方案中,目标联系人姓名可以包括多个可能的联系人姓名,电子装置可以将多个可能的联系人姓名呈现在显示装置上,以使得多个可能的联系人姓名中的一个可以被用户选择来拨打电话。

根据上文,基于电子装置中收集的信息诸如电话簿,操作系统的语言和电子装置的历史位置信息,电子装置可以确定用户在语音拨号中可能使用的可能的语言,并且根据所述可能的语言来下载声学模型和语言模型。以此方式,基于电子装置中收集的信息而更新声学模型和语言模型,这可以有助于基于语音识别的拨号。

图3示出根据实施方案的语音拨号方法200的流程图。

参考图3,在S201中,电子装置基于电子装置中收集的信息而确定语音拨号中使用的可能的语言。

在一些实施方案中,电子装置可以具有语音拨号功能。在一些实施方案中,电子装置可以是安装在车辆上的音响单元或移动电话。

在一些实施方案中,电子装置中收集的信息可以包括用语言书写的内容,并且在随后的过程中有待获得的声学模型和语言模型可以对应于所述语言。

在一些实施方案中,电子装置中收集的信息可以指示地点,并且在随后的过程中有待获得的声学模型和语言模型可以对应于所述地点内使用的语言。

在一些实施方案中,所收集的信息可以包括电子装置中的电话簿中的内容。在一些实施方案中,电话簿中的内容可以包括联系人姓名和对应的电话号码。在一些实施方案中,在随后的过程中,可以基于电话簿中记录的联系人姓名的语言和电话号码的属性而获得声学模型和语言模型。

在一些实施方案中,所收集的信息还可以包括电子装置的操作系统的语言。在一些实施方案中,所收集的信息还可以包括电子装置的历史位置信息。

在S203中,电子装置向服务器发送可能的语言的列表和用于向服务器请求获得对应于可能的语言的声学模型和语言模型的第一请求。

不同于以上实施方案,在一些实施方案中,电子装置自身可能不下载声学模型和语言模型,并且可以向服务器请求获得所述声学模型和语言模型,这可以减轻计算负担。

在S205中,在从电子装置接收可能的语言的列表和第一请求之后,服务器基于可能的语言的列表而获得声学模型和语言模型。

在一些实施方案中,声学模型和语言模型可以被包含在不同的语音识别引擎中。

在一些实施方案中,服务器可以进一步获得包含声学模型和语言模型的语音识别引擎。

任选地,在一些实施方案中,电子装置可能不会向服务器发送可能的语言的列表,而是向服务器发送所收集的信息,并且服务器可以基于从电子装置接收到的所收集的信息而确定可能的语言。

在S207中,在从用户接收语音输入之后,电子装置产生对语音输入的记录,并且向服务器发送所述记录和用于确定记录的识别结果的第二请求。

在一些实施方案中,电子装置可以具有麦克风来接收语音输入。在一些实施方案中,语音输入可以包括电子装置中的电话簿中的联系人姓名。

不同于以上实施方案,在一些实施方案中,电子装置自身可能不会确定记录的识别结果,并且可以请求服务器来确定所述识别结果,这可以进一步减轻计算负担。

在S209中,在从电子装置接收记录和用于确定记录的识别结果的第二请求之后,服务器使用声学模型和语言模型来处理所述记录以获得记录的识别结果。

在一些实施方案中,记录被输入到包含声学模型和语言模型的语音识别引擎中来进行处理。在一些实施方案中,在语音识别引擎中,记录可以被输入到声学模型中来获得音节,并且所述音节可以被输入到语言模型中来获得字词。

在一些实施方案中,在输入到语音识别引擎中之前,可以将记录编码。

在一些实施方案中,可以将至少一个声学模型和至少一个对应的语言模型与记录进行匹配,并且从至少一个对应的语言模型获得的字词可以是识别结果。

在S211中,服务器向电子装置发送记录的识别结果。

在S213中,在从服务器接收记录的识别结果之后,电子装置将识别结果与电子装置中的电话簿中的内容进行比较,并且确定将电话簿中与识别结果很好地匹配的内容确定为是目标联系人姓名。

在S215中,电子装置拨打对应于目标联系人姓名的电话号码。

在一些实施方案中,目标联系人姓名可以包括多个可能的联系人姓名,电子装置可以将多个可能的联系人姓名呈现在显示装置上,以使得多个可能的联系人姓名中的一个可以被用户选择来拨打电话。

根据上文,基于电子装置中收集的信息诸如电话簿,操作系统的语言和电子装置的历史位置信息,电子装置可以确定用户在语音拨号中可能使用的可能的语言,并且根据所述可能的语言来向服务器请求获得声学模型和语言模型。以此方式,由服务器基于电子装置中收集的信息而更新声学模型和语言模型,这可以有助于基于语音识别的拨号并且减轻计算负担。

图4示出根据一个实施方案的安装在电子装置上的基于语音识别的拨号系统300的示意性框图。参考图4,基于语音识别的拨号系统300包括麦克风301、处理装置303、显示装置305以及存储器装置307。

在一些实施方案中,电子装置可以是安装在车辆上的音响单元或移动电话。

在一些实施方案中,处理装置303可以用于基于电子装置中收集的信息而确定语音拨号中使用的可能的语言。

在一些实施方案中,电子装置中收集的信息可以包括用语言书写的内容,并且至少一个声学模型和至少一个语言模型对应于所述语言。在一些实施方案中,电子装置中收集的信息可以指示地点,并且至少一个声学模型和至少一个语言模型对应于所述地点内使用的语言。

在一些实施方案中,所收集的信息可以包括电子装置中的电话簿中的内容。在一些实施方案中,电话簿中的内容可以包括联系人姓名和对应的电话号码。在一些实施方案中,可以基于电话簿中记录的联系人姓名的语言和电话号码的属性而下载声学模型和语言模型。

在一些实施方案中,所收集的信息还可以包括电子装置的操作系统的语言。在一些实施方案中,所收集的信息还可以包括电子装置的历史位置信息。

在一些实施方案中,处理装置303可以还用于基于可能的语言而下载声学模型和语言模型。

在一些实施方案中,声学模型和语言模型被包含在不同的语音识别引擎中。

在一些实施方案中,一些可能的语言受到被包含在电子装置中的语音识别引擎的支持,并且一些可能的语言受到未被包含在电子装置中的语音识别引擎的支持。因此,电子装置303可以还用于下载未被包含在电子装置中的语音识别引擎。

在一些实施方案中,处理装置303可以还用于:在麦克风从用户接收语音输入之后,产生对语音输入的记录;使用声学模型和语言模型来处理所述记录以获得记录的识别结果;将识别结果与电子装置中的电话簿中的内容进行比较;并且将电话簿中与识别结果很好地匹配的内容确定为是目标联系人姓名。

在一些实施方案中,处理装置303可以还用于拨打对应于目标联系人姓名的电话号码。

在一些实施方案中,目标联系人姓名可以包括多个可能的联系人姓名。在一些实施方案中,处理装置303可以还用于控制显示装置305以向用户呈现多个可能的联系人姓名,以使得多个可能的联系人姓名中的一个可以被用户选择来拨打电话。

在一些实施方案中,处理装置303可以是CPU、或MCU、或DSP等,或其任何组合。存储器装置307可以存储操作系统和程序指令。

图5示出根据一个实施方案的基于语音识别的拨号系统400的示意性框图。参考图5,基于语音识别的拨号系统400包括电子装置410和服务器420。电子装置410包括麦克风411、处理装置413、传输装置415、显示装置417以及存储器装置419。服务器420包括传输装置421、处理装置423和存储器装置425。

在一些实施方案中,电子装置410可以是安装在车辆上的音响单元或移动电话。

在一些实施方案中,处理装置413可以用于基于电子装置410中收集的信息而确定语音拨号中使用的可能的语言。

在一些实施方案中,电子装置410中收集的信息可以包括用语言书写的内容。在一些实施方案中,电子装置410中收集的信息可以指示地点。

在一些实施方案中,所收集的信息可以包括电子装置410中的电话簿中的内容。在一些实施方案中,电话簿中的内容可以包括联系人姓名和对应的电话号码。

在一些实施方案中,所收集的信息还可以包括电子装置410的操作系统的语言。在一些实施方案中,所收集的信息还可以包括电子装置410的历史位置信息。

在一些实施方案中,传输装置415可以用于向服务器420发送可能的语言的列表和用于向服务器请求获得对应于可能的语言的声学模型和语言模型的第一请求。

麦克风411用于接收用户的语音输入。在一些实施方案中,语音输入可以包括电子装置410中的电话簿中的联系人姓名。

处理装置413可以还用于产生对语音输入的记录,并且传输装置415可以用于向服务器420发送所述记录和用于确定记录的识别结果的第二请求。

在一些实施方案中,处理装置413可以还用于:在由传输装置415接收记录的识别结果之后,将识别结果与电子装置410中的电话簿中的内容进行比较;并且将电话簿中与识别结果很好地匹配的内容确定为是目标联系人姓名。

在一些实施方案中,处理装置413可以还用于拨打对应于目标联系人姓名的电话号码。

在一些实施方案中,目标联系人姓名可以包括多个可能的联系人姓名。在一些实施方案中,处理装置413可以还用于控制显示装置417以向用户呈现多个可能的联系人姓名,以使得多个可能的联系人姓名中的一个可以被用户选择来拨打电话。

在一些实施方案中,处理装置413可以是CPU、或MCU、或DSP等,或其任何组合。存储器装置419可以存储操作系统和程序指令。

在一些实施方案中,处理装置423可以用于:在由传输装置421接收可能的语言的列表和第一请求之后,基于可能的语言的列表而获得声学模型和语言模型。

在一些实施方案中,声学模型和语言模型可以被包含在不同的语音识别引擎中。在一些实施方案中,处理装置423可以还用于:获得包含声学模型和语言模型的语音识别引擎。

在一些实施方案中,处理装置423可以还用于:在由传输装置421接收记录和第二请求之后,使用声学模型和语言模型来处理记录以获得记录的识别结果。

在一些实施方案中,传输装置421可以用于向电子装置410发送记录的识别结果。

在一些实施方案中,处理装置423可以是CPU、或MCU、或DSP等,或其任何组合。存储器装置425可以存储操作系统和程序指令。

任选地,在一些实施方案中,处理装置413可能不会被配置来基于电子装置410中收集的信息而确定语音拨号中使用的可能的语言。取而代之的是,传输装置415可以用于向服务器420发送电子装置410中收集的信息,并且在传输装置421从电子装置410接收到所收集的信息之后,处理装置423可以用于基于所收集的信息而确定可能的语言。

根据一个实施方案,提供了非暂态计算机可读介质,其包含用于基于语音识别的拨号的计算机程序。当计算机程序被处理器执行时,所述计算机程序将指示所述处理器:基于用户的语音输入、至少一个声学模型和至少一个语言模型而确定识别结果,其中至少一个声学模型和至少一个语言模型是基于电子装置中收集的信息而获得。

系统各方面的硬件与软件实现方式之间几乎没有区别;硬件或软件的使用一般是表示成本对效率折衷的设计选择。例如,如果实施人员确定速度和准确性是最重要的,那么实施人员可以选择主要的硬件和/或固件载体;如果灵活性是最重要的,那么实施人员可以选择主要的软件实现方式;或者,再一次可替代地,实施人员可以选择硬件、软件和/或固件的一些组合。

虽然本文已经公开了各个方面和实施方案,但是其他方面和实施方案对于本领域技术人员而言将是显而易见的。本文公开的各个方面和实施方案是用于说明的目的并且不意在进行限制,其中真正的范围和精神由以上权利要求指出。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1