识别语音数据的方法和装置的制造方法_2

文档序号：8223500阅读：来源：国知局

语音数据发送给语音识别服务器，记录待识别语音数据的发送时间。
[0046]步骤102，根据待识别语音数据的采样时间，将待识别语音数据分割成多个预设时长的数据段，将得到的每个数据段的语音特征信息与预先存储的基准信息进行匹配检测，确定与待识别语音数据中的第一语音特征信息相匹配的第一基准信息，基于确定出的第一基准信息，获取待识别语音数据对应的第一控制指令。
[0047]步骤103，如果从发送时间开始，在预设时长内，未接收到语音识别服务器发送的携带有第二控制指令的识别消息，则将第一控制指令确定为待识别语音数据的识别结果；如果从发送时间开始，在预设时长内，接收到语音识别服务器发送的携带有第二控制指令的识别消息，则将第二控制指令确定为待识别语音数据的识别结果。
[0048]本发明实施例提供中，接收用户输入的待识别语音数据，将待识别语音数据发送给语音识别服务器，记录待识别语音数据的发送时间，根据待识别语音数据的采样时间，将待识别语音数据分割成多个预设时长的数据段，将得到的每个数据段的语音特征信息与预先存储的基准信息进行匹配检测，确定与待识别语音数据中的第一语音特征信息相匹配的第一基准信息，基于确定出的第一基准信息，获取待识别语音数据对应的第一控制指令，如果从发送时间开始，在预设时长内，未接收到语音识别服务器发送的携带有第二控制指令的识别消息，则将第一控制指令确定为待识别语音数据的识别结果；如果从发送时间开始，在预设时长内，接收到语音识别服务器发送的携带有第二控制指令的识别消息，则将第二控制指令确定为待识别语音数据的识别结果，这样，可以将本地的语义识别方式和语音识别服务器的识别方式相结合，分别获取每种识别方式的识别结果，从中选取一个识别结果确定为待识别语音数据的识别结果，而不需要用户记忆大量指令词，从而，可以提高对语音数据进行识别的灵活性。
[0049]实施例二
[0050]本发明实施例提供了一种识别语音数据的方法，该方法可以由语音识别设备实现。其中的语音识别设备可以是具有语音识别功能的任意设备。
[0051]下面将结合【具体实施方式】，对图1所示的处理流程进行详细的说明，内容可以如下:
[0052]步骤101，接收用户输入的待识别语音数据，将待识别语音数据发送给语音识别服务器，记录待识别语音数据的发送时间。
[0053]在实施中，语音识别与处理技术在信息技术的人机接口中得到普遍关注，它在电子产品中的应用使得人们的生活变得更加精彩，通过语音命令，人们能够控制系统设备使其响应语音指令的相应操作，语音识别可以应用于多个领域，例如语音识别技术应用于车载平台上，它可以使得对汽车的驾驶显得更加灵活简单、更加安全和舒适。本发明实施例中，以车载平台的语音识别为例进行方案的详细说明，对于应用于其它领域的情况与此类似，在此不再赘述。
[0054]随着汽车产业的发展和汽车的普及，人们对汽车的安全性。便利性提出了更高的要求，这样，汽车中添加的功能越来越多、越来越智能化，车载语音已成为车载系统的重要组成部分，通过用户的语音即可控制车载系统的各项功能，具体地，如图2所示，汽车中可以设置有用于对语音数据进行识别的设备，该设备中可以设置有语音识别按键，当用户需要进行某项操作时，例如，启动导航仪进行导航，此时，用户可以点击语音识别按键，该设备生成语音输入请求，开启该设备的麦克风，开启成功后，可以通过扬声器发出提示信号，提示用户输入语音数据，用户可以向该设备输入语音，该设备接收该语音，该语音为模拟信号，可以通过麦克风将该模拟信号转换为数字信号，用户输入完成后，可以点击完成按键，此时，如果由于用户的声音过小，该设备无法接收到语音数据，则该设备可以发出语音数据接收失败的提示信号，如果该设备接收到的语音数据，则可以将接收到的语音数据确定为待识别语音数据，为了使待识别语音数据的识别结果更准确，该设备可以通过自身的无线通信器件，将待识别语音数据发送给语音识别服务器，以使语音识别服务器接收到待识别语音数据时，对其进行识别，该设备在向语音识别服务器发送待识别语音数据时，可以记录待识别语音数据的发送时间。
[0055]可选地，上述接收用户输入的待识别语音数据的处理方式可以多种多样，以下提供一种可选的处理方式，具体可以包括以下内容:当接收到语音输入请求时，接收用户输入的语音数据，当用户停止输入后的时长达到预设的接收时长阈值时，将用户停止输入之前输入的语音数据确定为待识别语音数据。
[0056]在实施中，用户可以点击语音识别按键，该设备生成语音输入请求，该设备通过该语音输入请求开启该设备的麦克风，开启成功后，可以播放预先存储的语音，提示用户输入语音数据，用户可以向该设备输入语音数据，该设备可以接收该语音数据，为了确定用户输入语音数据的结束时间，可以预先设置时长阈值(即接收时长阈值)，当用户停止输入后的时长达到接收时长阈值时，可以将用户停止输入之前输入的语音数据确定为待识别语音数据。
[0057]步骤102，根据待识别语音数据的采样时间，将待识别语音数据分割成多个预设时长的数据段，将得到的每个数据段的语音特征信息与预先存储的基准信息进行匹配检测，确定与待识别语音数据中的第一语音特征信息相匹配的第一基准信息，基于确定出的第一基准信息，获取待识别语音数据对应的第一控制指令。
[0058]其中，第一语音特征信息可以是任意的语音特征信息，第一基准信息可以是任意基准信息。
[0059]在实施中，上述设备可以对待识别语音数据进行预处理，例如，对待识别语音数据进行采样(采样频率可以为1KHz或16KHz等)、反混叠滤波、去除声门激励和噪声影响等处理，然后，该设备可以对处理后的待识别语音数据进行特征提取，特征提取的作用是从语音数据的波形中提取一组或多组能够描述语音数据特征的参数，如平均能量、过零数、共振峰、倒谱、线性预测系数等，以便进行后续的语音训练和识别，而且参数的选择直接关系着语音识别设备识别率的高低，具体过程可以为:语音信号通常可看作为短时平稳的信号，例如可以认为在预设的时间段(如10-20ms)内，其频谱特性和某些物理特征参量可近似地看作是不变的，这样就可以采用平稳过程的分析处理方法，对待识别语音数据进行处理，具体可以为:将待识别语音数据分隔成多个预设时长的数据段，可以对每一个数据段进行端点检测，端点检测就是指从包含语音的一段数据中确定出语音的起始点和结束点，该设备中可以预先存储有多个基准信息，该基准信息是通过对上述处理得到的语音数据进行大量训练得到的，该设备可以获取每个数据段的语音特征信息，并将其与预先存储的基准信息进行匹配检测，得到与语音特征信息相匹配的基准信息，如果待识别语音数据中的第一语音特征信息与第一基准信息相匹配，则该设备可以基于第一基准信息进行语义理解，从而得到该设备对待识别语音数据进行识别的识别结果，该设备可以通过该识别结果，生成相应的控制指令(即第一控制指令)。
[0060]该设备还可以通过其它方式对待识别语音数据进行识别，例如基于声道模型和语音知识的方法、利用人工神经网络的方法等，上述方法可以通过现有技术的方式进行处理，在此不再赘述。
[0061]语音识别服务器可以通过上述方法对待识别语音数据进行识别，由于语音识别服务器中预先存储的基准信息的量较大，远远大于该设备中存储的基准信息的量，因此，通常语音识别服务器对待识别语音数据进行识别的识别结果较准确，其具体处理过程可以参见上述相关内容，在此不再赘述。
[0062]可选地，由于该设备对待识别语音数据进行识别，得到的识别结果可能会不准确，可以通过某些方式对该识别结果的准确性进行说明，相应的处理方式可以多种多样，以下提供一种可选的处理方式，可以包括以下内容:根据第一语音特征信息与第一基准信息的匹配程度，获取第一控制指令的置信度。
[0063]在实施中，由于语音数据会受到噪声等影响，使得语音数据的语音特征信息与基准信息存在差异，当上述设备确定出第一语音特征信息对应的第一基准信息后，可以计算第一语音特征信息与第一基准信息的匹配程度，该匹配程度可以是与第一基准信息具有相同特征和第一语音特征信息中所有特征的比值，该设备可以将该比值作为第一控制指令的置信度。
[0064]步骤103，如果从发送时间开始，在预设时长内，未接收到语音识别服务器发送的携带有第二控制指令的识别消息，则将第一控制指令确定为待识别语音数据的识别结果；如果从发送时间开始，在预设时长内，接收到语音识别服务器发送的携带有第二控制指令的识别消息，则将第二控制指令确定为待识别语音数据的识别结果。

完整全部详细技术资料下载

当前第2页1 2 3 4 5