用于检测语音的端点的方法和装置与流程

文档序号:16188358发布日期:2018-12-08 05:26阅读:155来源:国知局
用于检测语音的端点的方法和装置与流程

本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于检测语音的端点的方法和装置。

背景技术

随着人工智能技术的发展,新型智能设备(例如智能音箱、智能交互机器人等)开始涌现,语音交互这种新型人机交互技术逐步被大众所接收,语音识别技术的重要性日益凸现。语音端点检测,即在连续的音频数据中找到语音的起点与尾点,是语音识别系统的重要组成部分,其准确性会对语音识别的准确性造成影响。



技术实现要素:

本申请实施例提出了用于检测语音的端点的方法和装置。

第一方面,本申请实施例提供了一种用于检测语音的端点的方法,该方法包括:基于获取到的音频数据,生成音频帧序列,其中,生成的音频帧序列中的音频帧与音频帧类型相对应,音频帧类型为语音类型或非语音类型;对于音频帧序列中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息;根据音频帧序列中的音频帧对应的音频帧类型和位置信息,确定音频帧序列对应的音频中语音的端点。

在一些实施例中,基于获取到的音频数据,生成音频帧序列,包括:根据声能量,确定音频数据中的有效音频数据;对于有效音频数据,进行移窗分帧,得到音频帧序列;对音频帧序列中的音频帧进行语音检测,确定音频帧对应的音频帧类型。

在一些实施例中,对音频帧序列中的音频帧进行语音检测,确定音频帧对应的音频帧类型,包括:对于音频帧序列中的音频帧,提取该音频帧的预定义种类的音频特征值;对于音频帧序列中的音频帧,将从该音频帧中提取的音频特征值导入预先建立的语音检测模型,生成音频帧类型,其中,语音检测模型用于表征音频特征值与音频帧类型之间的对应关系。

在一些实施例中,语音检测模型通过以下步骤建立:获取音频数据集合,音频数据集合中的音频数据与音频帧类型相对应;对音频数据集合中的音频数据,提取预定义种类的音频特征值作为训练样本,以及生成训练样本集,其中,训练样本与音频帧类型对应;将上述训练样本集中的训练样本作为初始神经网络的输入,将与输入的训练样本对应的音频帧类型作为上述初始神经网络的期望输出,训练初始神经网络,得到语音检测模型。

在一些实施例中,根据声能量,确定音频数据中的有效音频数据,包括:对获取到的音频数据按照固定长度采样点进行切分,得到至少一个子音频数据;确定切分得到的各个子音频数据的声能量是否大于预设声能量阈值;响应于确定子音频数据的声能量大于预设声能量阈值,则确定子音频数据为有效音频数据。

在一些实施例中,根据音频帧序列中的音频帧对应的音频帧类型和位置信息,确定音频帧序列对应的音频中语音的端点,包括:根据音频帧序列中的语音类型的第一个音频帧,确定语音的起点,以及将第一个音频帧对应的位置信息确定为初始位置信息;根据初始位置信息和音频帧序列中第一个音频帧之后的语音类型的音频帧对应的位置信息,确定语音的尾点。

在一些实施例中,根据初始位置信息和音频帧序列中第一个音频帧之后的语音类型的音频帧对应的位置信息,确定语音的尾点,包括:对于音频帧序列中的语音类型的音频帧,确定该音频帧对应的位置信息所指示的位置与初始位置信息所指示的位置是否大于预设角度;响应于确定大于预设角度,将该音频帧的音频帧类型变更为非语音类型;从第一个音频帧开始,确定音频帧序列中是否连续出现预定数目个非语音类型的音频帧;响应于确定音频帧序列中连续出现预定数目个非语音类型的音频帧,根据预定数目个非语音类型的音频帧,确定语音的尾点。

第二方面,本申请实施例提供了一种用于检测语音的端点的装置,该装置包括:音频生成单元,被配置成基于获取到的音频数据,生成音频帧序列,其中,生成的音频帧序列中的音频帧与音频帧类型相对应,音频帧类型为语音类型或非语音类型;位置确定单元,被配置成对于音频帧序列中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息;端点确定单元,被配置成根据音频帧序列中的音频帧对应的音频帧类型和位置信息,确定音频帧序列对应的音频中语音的端点。

在一些实施例中,音频生成单元包括:有效音频确定模块,被配置成根据声能量,确定音频数据中的有效音频数据;移窗分帧模块,被配置成对于有效音频数据,进行移窗分帧,得到音频帧序列;音频帧类型确定模块,被配置成对音频帧序列中的音频帧进行语音检测,确定音频帧对应的音频帧类型。

在一些实施例中,音频帧类型确定模块进一步被配置成:对于音频帧序列中的音频帧,提取该音频帧的预定义种类的音频特征值;对于音频帧序列中的音频帧,将从该音频帧中提取的音频特征值导入预先建立的语音检测模型,生成音频帧类型,其中,语音检测模型用于表征音频特征值与音频帧类型之间的对应关系。

在一些实施例中,语音检测模型通过以下步骤建立:获取音频数据集合,音频数据集合中的音频数据与音频帧类型相对应;对音频数据集合中的音频数据,提取预定义种类的音频特征值作为训练样本,以及生成训练样本集,其中,训练样本与音频帧类型对应;将上述训练样本集中的训练样本作为初始神经网络的输入,将与输入的训练样本对应的音频帧类型作为上述初始神经网络的期望输出,训练初始神经网络,得到语音检测模型。

在一些实施例中,有效音频确定模块进一步被配置成:对获取到的音频数据按照固定长度采样点进行切分,得到至少一个子音频数据;确定切分得到的各个子音频数据的声能量是否大于预设声能量阈值;响应于确定子音频数据的声能量大于预设声能量阈值,则确定子音频数据为有效音频数据。

在一些实施例中,端点确定单元包括:起点确定模块,被配置成根据音频帧序列中的语音类型的第一个音频帧,确定语音的起点,以及将第一个音频帧对应的位置信息确定为初始位置信息;尾点确定模块,被配置成根据初始位置信息和音频帧序列中第一个音频帧之后的语音类型的音频帧对应的位置信息,确定语音的尾点。

在一些实施例中,尾点确定模块进一步被配置成:对于音频帧序列中的语音类型的音频帧,确定该音频帧对应的位置信息所指示的位置与初始位置信息所指示的位置是否大于预设角度;响应于确定大于预设角度,将该音频帧的音频帧类型变更为非语音类型;从第一个音频帧开始,确定音频帧序列中是否连续出现预定数目个非语音类型的音频帧;响应于确定音频帧序列中连续出现预定数目个非语音类型的音频帧,根据预定数目个非语音类型的音频帧,确定语音的尾点。

第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的用于检测语音的端点的方法和装置,通过基于获取到的音频数据,生成音频帧序列,其中,生成的音频帧序列中的音频帧与音频帧类型相对应,音频帧类型为语音类型或非语音类型;对于音频帧序列中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息;根据音频帧序列中的音频帧对应的音频帧类型和位置信息,确定音频帧序列对应的音频中语音的端点,技术效果至少可以包括:提供了新的检测语音的端点的方式。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本申请可以应用于其中的示例性系统架构图;

图2是根据本申请的用于检测语音的端点的方法的一个实施例的流程图;

图3a是根据本申请的用于步骤201的一种实现方式的示意性流程图;

图3b是根据本申请的用于检测语音的端点的方法的一个应用场景的示意图;

图4是根据本申请的用于检测语音的端点的方法的又一个实施例的流程图;

图5是根据本申请的用于检测语音的端点的装置的一个实施例的结构示意图;

图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于检测语音的端点的方法或用于检测语音的端点的装置的实施例的示例性系统架构100。

如图1所示,系统架构100可以包括终端设备101、102,网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102通过网络103与服务器104交互,以接收或发送消息等。终端设备101、102上可以安装有各种通讯客户端应用,例如音频采集类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102可以是硬件,也可以是软件。当终端设备101、102为硬件时,可以是具有声音采集功能的各种电子设备,包括但不限于智能音箱、智能手机、平板电脑、电子书阅读器、mp3播放器(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务),也可以实现成单个软件或软件模块。在此不做具体限定。

服务器104可以是提供各种服务的服务器,例如对终端设备101、102采集的音频数据提供支持的后台服务器。后台服务器可以对接收到的音频等数据进行分析等处理,并将处理结果(例如端点信息)反馈给终端设备。

需要说明的是,本申请实施例所提供的用于检测语音的端点的方法一般由服务器104执行,相应地,用于检测语音的端点的装置一般设置于服务器104中。

需要说明的是,服务器104可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供端点确定服务),也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是,本申请实施例所提供的用于检测语音的端点的方法可以通过服务器104执行,也可以通过终端设备101、102执行,还可以通过服务器104和终端设备101、102共同执行,本申请对此不做限定。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

请参考图2,其示出了用于检测语音的端点的方法的一个实施例的流程200。本实施例主要以该方法应用于有一定运算能力的电子设备中来举例说明,该电子设备可以是图1示出的服务器104,也可以是图1示出的终端设备101。该用于检测语音的端点的方法,包括以下步骤:

步骤201,基于获取到的音频数据,生成音频帧序列。

在本实施例中,用于检测语音的端点的方法的执行主体(例如图1所示的智能音箱)可以从上述执行主体本地或者其他电子设备获取音频数据,生成音频帧序列。

可选的,如果上述执行主体为终端,终端可以利用终端上的声音采集装置采集音频数据,从而获取音频数据。在这里,声音采集装置可以是各种形式的能够辅助确定声音发出声音时的位置的装置。作为示例,声音采集装置可以是各种形式的麦克风阵列。

可选的,如果上述执行主体为服务器,服务器可以从终端接收终端采集的音频数据。

在本实施例中,上述执行主体获取到的音频数据,可以是声音采集装置采集的原始数据,也可以是对声音采集装置采集的原始数据处理之后得到的数据。作为示例,上述处理可以是对原始数据的强度信息进行了过滤,而保留了频谱信息。

需要说明的是,如果上述获取到的音频数据为原始数据,则获取到的音频数据包括确定位置信息用参数。如果上述获取到的音频数据为处理后的数据,则音频数据与确定位置信息用参数相关联。

在这里,确定位置信息用参数可以是用于声源发出该音频帧对应的声音时的位置信息的有关参数。确定位置信息用参数可以是预定义种类的参数。作为示例,预定义种类参数可以包括但不限于:麦克风阵列中的各个麦克风接收到的声强信息、声密度信息等。

在本实施例中,上述音频数据可以通过终端设备实时采集。音频数据中可能包括人的语音和人的语音之外的背景噪音。

在本实施例中,音频帧序列可以是音频帧的序列。音频帧序列中的音频帧与音频帧类型对应,音频帧类型为语音类型或非语音类型。在这里,语音类型可以用于指示音频帧对应的声音为语音。非语音类型可以用于指示音频帧对应的声音不是语音。需要说明的是,本申请中语音可以指人发出的声音。

作为示例,可以对于获取到的音频数据,进行加窗操作,每窗对应一音频帧,再按时间顺序排列音频帧,得到音频帧序列。可以根据声强确定音频帧的音频帧类型。

步骤202,对于音频帧序列中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息。

在本实施例中,用于检测语音的端点的方法的执行主体(例如图1所示的智能音箱)可以对于上述音频需要中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息。

在本实施例中,可以利用各种算法和确定位置信息用参数,确定声源发出该音频帧对应的声音时的位置信息。作为示例,可以利用以下至少一种但不限于:波束形成法、声达时间差方法等,确定声源发出该音频帧对应的声音时的位置信息。

步骤203,根据音频帧序列中的音频帧对应的音频帧类型和位置信息,确定上述音频帧序列对应的音频中语音的端点。

在本实施例中,用于检测语音的端点的方法的执行主体(例如图1所示的智能音箱)可以根据上述音频帧序列中的音频帧对应的音频帧类型和位置信息,确定上述音频帧序列对应的音频中语音的端点。

可以理解,对一段音频进行分帧会得到音频帧,音频帧按时间顺序排列可以组成音频帧序列。此段音频可以称为音频帧序列对应的音频。

在本实施例中,语音的端点可以包括以下至少一项:语音的起点和语音的尾点。上述起点也可以称为头点。

在本实施例中,语音的端点可以用各种形式指示。作为示例,上述端点用音频帧指示,也可以利用音频帧在音频序列中的位置指示。

在本实施例中,上述步骤203可以通过各种方式实现。

在一些实施例中,步骤203可以通过以下方式实现:根据上述音频帧序列中的语音类型的第一个音频帧,确定语音的起点,以及将上述第一个音频帧对应的位置信息确定为初始位置信息;根据上述初始位置信息和上述音频帧序列中上述第一个音频帧之后的语音类型的音频帧对应的位置信息,确定语音的尾点。

作为示例,可以从上述第一个音频帧开始,确定音频帧序列中是否连续出现预定数目个非语音类型的音频帧。响应于确定上述音频帧序列中连续出现预定数目个非语音类型的音频帧,确定上述预定数目个非语音类型的音频帧对应的位置信息所指示的位置与初始位置信息所指示的位置之间的角度。响应于确定该角度的小于预设角度,将该音频帧的确定为目标音频帧,响应于确定上述预定数目个非语音类型的音频帧中目标音频帧的个数大于预设个数阈值,根据上述预定数目个非语音类型的音频帧,确定语音的尾点。

作为示例,可以上述预定数目个非语音类型的音频帧中第一个非目标音频帧,确定语音的尾点。

本申请的上述实施例提供的方法,通过基于获取到的音频数据,生成音频帧序列,其中,生成的音频帧序列中的音频帧与音频帧类型对应,音频帧类型为语音类型或者非语音类型;对于上述音频帧序列中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息;根据上述音频帧序列中的音频帧对应的音频帧类型和位置信息,确定上述音频数据中语音的端点,技术效果至少可以包括:

第一,提供了新的检测语音的端点的方式。

第二,对于音频帧序列,以音频帧序列为粒度确定音频帧类型,可以细粒度地确定音频帧序列中的语音片段,为进一步检测语音的端点提供准确的依据,从而可以提高语音端点检测的准确性。

第三,利用声源发出该音频帧对应的声音时的位置信息,可以对于一些声源位置偏差较大的音频帧进行排除,从而可以抑制背景噪音,排除背景噪音对于确定语音端点的干扰,从而可以提高检测语音的端点的准确性。

在一些实施例中,上述步骤201可以通过图3a所示流程201实现,流程201可以包括:

步骤2011,根据声能量,确定音频数据中的有效音频数据。

在这里,步骤2011可以通过以下方式实现:对获取到的音频数据按照固定长度采样点进行切分,得到至少一个子音频数据;确定切分得到的各个子音频数据的声能量是否大于预设声能量阈值;响应于确定子音频数据的声能量大于预设声能量阈值,则确定子音频数据为有效音频数据。

在这里,可以利用声能量对音频数据进行初步分类,对于声能量低于声能量阈值的音频数据认为是静音数据。不对静音数据进行后续处理,可以减少上述执行主体的计算量。

步骤2012,对于有效音频数据,进行移窗分帧,得到音频帧序列。

步骤2013,对音频帧序列中的音频帧进行语音检测,确定音频帧对应的音频帧类型。

作为示例,步骤2013可以通过以下方式实现:对于音频帧序列中的音频帧,将该音频帧导入预先建立的检测模型,生成音频帧类型,其中,上述检测模型用于表征音频与音频帧类型之间的对应关系。

作为示例,步骤2013可以通过以下方式实现:对于音频帧序列中的音频帧,提取该音频帧的预定义种类的音频特征值;对于音频帧序列中的音频帧,将从该音频帧中提取的音频特征值导入预先建立的语音检测模型,生成音频帧类型,其中,上述语音检测模型用于表征音频特征值与音频帧类型之间的对应关系。

在这里,音频特征值的预定义种类可以包括但不限于:梅尔频率倒谱系数、感知线性预测系数、上述梅尔频率倒谱系数的一阶差分、梅尔频率倒谱系数的二阶差分、感知线性预测系数的一阶差分和感知线性预测系数的二阶差分。

可选的,语音检测模型可以是对应关系表,对应关系表用于表征语音特征值与音频帧类型之间的对应关系。

可选的,语音检测模型可以通过以下步骤建立:获取音频数据集合,音频数据集合中的音频数据与音频帧类型相对应;对音频数据集合中的音频数据,提取预定义种类的音频特征值作为训练样本,以及生成训练样本集,其中,训练样本与音频帧类型对应;将上述训练样本集中的训练样本作为初始神经网络的输入,将与输入的训练样本对应的音频帧类型作为上述初始神经网络的期望输出,训练初始神经网络,得到语音检测模型。

在这里,音频数据集合中的音频数据可以是从真实场景中采集的数据。音频数据集合中的音频数据可以包括语音数据和非语音数据。语音数据可以与语音类型对应。非语音数据可以与非语音类型对应。

在这里,可以对于音频数据集合中的每个音频数据,提取一组预定义种类的音频特征值,并将该组音频特征值作为训练样本,则该训练样本与该音频数据的音频帧类型对应。可以理解,如果音频数据集合中的音频数据为多个,则可以提取出多组音频特征值,从而可以得到多个训练样本,多个训练样本可以组成训练样本集合。

在这里,初始神经网络可以是各种结构的神经网络,初始神经网络可以包括但不限于以下至少一项:卷积神经网络、循环神经网络,长短期记忆神经网络。

请参考图3b,图3b是根据本实施例的用于检测语音的端点的方法的应用场景的一个示意图。在图3的应用场景中:

用户301在唤醒智能音箱302之后,发出一段语音。作为示例,用户发出的语音为“请播放一首歌”。

智能音箱在被唤醒后,可以开始采集声音,从而获得音频数据。

智能音箱可以基于获得的音频数据,生成音频帧序列。生成的音频帧序列中的音频帧与音频帧类型对应。作为示例,可以将获得的音频数据中去除了静音数据的音频作为生成音频帧序列的基础。

智能音箱可以对于上述音频帧序列中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息。

智能音箱可以根据上述音频帧序列中的音频帧对应的音频帧类型和位置信息,确定上述音频帧序列对应的音频中语音的端点。作为示例,智能音箱可以确定语音“请播放一首歌”的起点和/或尾点。

进一步参考图4,其示出了用于检测语音的端点的方法的又一个实施例的流程400。该用于检测语音的端点的方法的流程400,包括以下步骤:

步骤401,基于获取到的音频数据,生成音频帧序列。

在本实施例中,用于检测语音的端点的方法的执行主体(例如图1所示的智能音箱)可以从上述执行主体本地或者其他电子设备获取音频数据,生成音频帧序列。在这里,生成的音频帧序列中的音频帧与音频帧类型对应,音频帧类型为语音类型或者非语音类型。

步骤402,对于音频帧序列中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息。

在本实施例中,用于检测语音的端点的方法的执行主体(例如图1所示的智能音箱)可以对于上述音频帧序列中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息。

在本实施例中步骤401和步骤402的具体操作与图2所示的实施例中步骤201和步骤202的操作基本相同,在此不再赘述。

步骤403,根据音频帧序列中的语音类型的第一个音频帧,确定语音的起点,以及将第一个音频帧对应的位置信息确定为初始位置信息。

在本实施例中,用于检测语音的端点的方法的执行主体(例如图1所示的智能音箱)可以根据上述音频帧序列中的语音类型的第一个音频帧,确定语音的起点,以及将上述第一个音频帧对应的位置信息确定为初始位置信息。

作为示例,可以将音频帧序列中的语音类型的第一个音频帧,确定为语音的起点。

步骤404,对于音频帧序列中的语音类型的音频帧,确定该音频帧对应的位置信息所指示的位置与初始位置信息所指示的位置是否大于预设角度;响应于确定大于预设角度,将该音频帧的音频帧类型变更为非语音类型。

在本实施例中,用于检测语音的端点的方法的执行主体(例如图1所示的智能音箱)可以对于上述音频帧序列中的语音类型的音频帧,确定该音频帧对应的位置信息所指示的位置与上述初始位置信息所指示的位置是否大于预设角度;响应于确定大于预设角度,将该音频帧的音频帧类型变更为非语音类型。

步骤405,从第一个音频帧开始,确定音频帧序列中是否连续出现预定数目个非语音类型的音频帧。

在本实施例中,用于检测语音的端点的方法的执行主体(例如图1所示的智能音箱)可以从上述第一个音频帧开始,确定经步骤404的音频帧序列中是否连续出现预定数目个非语音类型的音频帧。

在这里,预定数目可以根据实际应用场景确定。作为示例,中文语音场景中的预定数目和日语语音场景中的预定数目,可能会有所不同。

步骤406,响应于确定音频帧序列中连续出现预定数目个非语音类型的音频帧,根据预定数目个非语音类型的音频帧,确定语音的尾点。

在本实施例中,用于检测语音的端点的方法的执行主体(例如图1所示的智能音箱)可以响应于确定上述音频帧序列中连续出现预定数目个非语音类型的音频帧,根据上述预定数目个非语音类型的音频帧,确定语音的尾点。

可以理解,可以根据从上述第一个音频帧开始,第一次连续出现的预定数目个非语音类型的音频帧,确定语音的尾点。

作为示例,可以将上述预定数目个非语音类型的音频帧中的第一个音频帧,确定为语音的尾点。

作为示例,可以将上述预定数目个非语音类型的音频帧中的中间位置的音频帧,确定为语音的尾点。还可以可以将上述预定数目个非语音类型的音频帧中的最后一个音频帧,确定为语音的尾点。

从图4中可以看出,与图2对应的实施例相比,本实施例中的用于检测语音的端点的方法的流程400突出了根据与初始位置信息指示的位置的角度差异,更改音频帧的音频帧类型,再确定语音的尾点的步骤,从而,技术效果至少可以包括:

第一,提供了一种新的检测语音的端点的方式。

第二,可以从与初始位置的角度差异,确定出音频帧类型出现偏差(本不是语音而错标为语音类型)的音频帧。从而,可以排除与初始位置相差较大的各种声源的声音。

第三,排除与初始位置相差较大的各种声源的声音,可以在本实施例应用过程中,排除非目标用户的语音。例如,用户发出语音命令的时候,房间内有其他人发出干扰语音,利用本实施例的方式,可以排除非用户的他人的语音,从而,可以确定更为准确的语音的端点。为之后的语音识别准备准确的识别用材料。

进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于检测语音的端点的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图5所示,本实施例的用于检测语音的端点的装置500包括:音频生成单元501、位置确定单元502和端点确定单元503。其中,音频生成单元501,被配置成基于获取到的音频数据,生成音频帧序列,其中,生成的音频帧序列中的音频帧与音频帧类型相对应,音频帧类型为语音类型或非语音类型;位置确定单元502,被配置成对于上述音频帧序列中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息;端点确定单元503,被配置成根据上述音频帧序列中的音频帧对应的音频帧类型和位置信息,确定上述音频帧序列对应的音频中语音的端点。

在本实施例中,用于检测语音的端点的装置500的音频生成单元501、位置确定单元502和端点确定单元503的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202和步骤203的相关说明,在此不再赘述。

在本实施例的一些可选的实现方式中,上述音频生成单元501可以包括:有效音频确定模块(图5中未示出),被配置成根据声能量,确定音频数据中的有效音频数据;移窗分帧模块(图5中未示出),被配置成对于有效音频数据,进行移窗分帧,得到音频帧序列;音频帧类型确定模块(图5中未示出),被配置成对音频帧序列中的音频帧进行语音检测,确定音频帧对应的音频帧类型。

在本实施例的一些可选的实现方式中,上述音频帧类型确定模块(图5中未示出)可以进一步被配置成:对于音频帧序列中的音频帧,提取该音频帧的预定义种类的音频特征值;对于音频帧序列中的音频帧,将从该音频帧中提取的音频特征值导入预先建立的语音检测模型,生成音频帧类型,其中,上述语音检测模型用于表征音频特征值与音频帧类型之间的对应关系。

在本实施例的一些可选的实现方式中,语音检测模型可以通过以下步骤建立:获取音频数据集合,音频数据集合中的音频数据与音频帧类型相对应;对音频数据集合中的音频数据,提取预定义种类的音频特征值作为训练样本,以及生成训练样本集,其中,训练样本与音频帧类型对应;将上述训练样本集中的训练样本作为初始神经网络的输入,将与输入的训练样本对应的音频帧类型作为上述初始神经网络的期望输出,训练初始神经网络,得到语音检测模型。

在本实施例的一些可选的实现方式中,上述有效音频确定模块(图5中未示出)可以进一步被配置成:对获取到的音频数据按照固定长度采样点进行切分,得到至少一个子音频数据;确定切分得到的各个子音频数据的声能量是否大于预设声能量阈值;响应于确定子音频数据的声能量大于预设声能量阈值,则确定子音频数据为有效音频数据。

在本实施例的一些可选的实现方式中,上述端点确定单元503可以包括:起点确定模块(图5中未示出),被配置成根据上述音频帧序列中的语音类型的第一个音频帧,确定语音的起点,以及将上述第一个音频帧对应的位置信息确定为初始位置信息;尾点确定模块(图5中未示出),被配置成根据上述初始位置信息和上述音频帧序列中上述第一个音频帧之后的语音类型的音频帧对应的位置信息,确定语音的尾点。

在本实施例的一些可选的实现方式中,上述尾点确定模块(图5中未示出)可以进一步被配置成:对于上述音频帧序列中的语音类型的音频帧,确定该音频帧对应的位置信息所指示的位置与上述初始位置信息所指示的位置是否大于预设角度;响应于确定大于预设角度,将该音频帧的音频帧类型变更为非语音类型;从上述第一个音频帧开始,确定音频帧序列中是否连续出现预定数目个非语音类型的音频帧;响应于确定上述音频帧序列中连续出现预定数目个非语音类型的音频帧,根据上述预定数目个非语音类型的音频帧,确定语音的尾点。

需要说明的是,本申请实施例提供的用于检测语音的端点的装置中各单元的实现细节和技术效果可以参考本申请中其它实施例的说明,在此不再赘述。

下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示,计算机系统600包括中央处理单元(cpu,centralprocessingunit)601,其可以根据存储在只读存储器(rom,readonlymemory)602中的程序或者从存储部分608加载到随机访问存储器(ram,randomaccessmemory)603中的程序而执行各种适当的动作和处理。在ram603中,还存储有系统600操作所需的各种程序和数据。cpu601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o,input/output)接口605也连接至总线604。

以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt,cathoderaytube)、液晶显示器(lcd,liquidcrystaldisplay)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan(局域网,localareanetwork)卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括音频生成单元、位置确定单元和端点确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,音频生成单元还可以被描述为“基于获取到的音频数据,生成音频帧序列的单元”。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:基于获取到的音频数据,生成音频帧序列,其中,生成的音频帧序列中的音频帧与音频帧类型相对应,音频帧类型为语音类型或非语音类型;对于音频帧序列中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息;根据音频帧序列中的音频帧对应的音频帧类型和位置信息,确定音频帧序列对应的音频中语音的端点。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1