一种笑声检测方法及装置与流程

文档序号:12749370阅读:434来源:国知局
一种笑声检测方法及装置与流程

本发明涉及音视频处理技术领域,特别涉及一种笑声检测方法及装置。



背景技术:

随着我国经济的飞速发展,民众对衣食住行体验的要求越来越高,而先进的语音检测系统是提高民众体验的一种有效途径。笑声检测系统更是语音检测系统中的关键,而且笑声检测系统不仅可以提取语音中的精彩片段,减少语音剪切中的工作量和提高准确性,还可以根据笑声检测识别出情绪的变化,制定差异化的体验方案。

目前笑声检测领域在进行笑声检测时,根据笑声检测模型,判断每个语音帧是否笑声帧,并根据判断结果确定每个语音帧是否为笑声帧。该方法中通过笑声检测模型,判断每个语音帧是否为笑声帧,而笑声模型是通过训练获取的,虽然笑声检测模型具有较高的检测精确度,但是通过笑声检测模型确定每一帧是否为笑声帧的方式,还是在很大程度上受笑声检测模型精确度的限制。



技术实现要素:

本发明实施例公开了一种笑声检测方法及装置,用以提高笑声检测的准确性。

为达到上述目的,本发明实施例公开了一种笑声检测方法,应用于电子设备,该方法包括:

针对待检测语音信号,将所述待检测语音信号划分为多个语音帧,并获取每个语音帧的基因频率及多维语音特征参数;

根据预先训练完成的笑声检测模型及获取的每个语音帧的基因频率及多维语音特征参数,预测每个语音帧是否为笑声帧;

识别与所述当前的语音帧相邻的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;

当所述数量大于设定的数量阈值时,将所述当前的语音帧确定为笑声帧。

进一步地,所述笑声检测模型的训练过程包括:

针对训练集中每个语音信号,将所述语音信号划分为多个语音帧;

获取每个语音帧的基因频率及多维语音特征参数;

识别每个语音帧是否为笑声帧,如果是,在所述语音帧中添加第一标签,否则,在所述语音帧中添加第二标签;

将添加标签后的语音帧的基因频率及多维语音特征参数输入到笑声检测模型中,对所述笑声检测模型进行训练。

进一步地,所述对所述笑声检测模型进行训练包括:

采用支持向量机SVM方法,对所述笑声检测模型进行训练;或,

采用极限学习机ELM方法,对所述笑声检测模型进行训练。

进一步地,所述针对待检测语音信号,将所述待检测语音信号划分为多个语音帧包括:

对所述语音信号进行预加重处理,将预处理后的待检测语音信号划分为多个语音帧。

进一步地,所述将所述待检测语音信号划分为多个语音帧之后,所述获取每个语音帧的基因频率及多维语音特征参数之前,所述方法还包括:

对每个语音帧进行端点检测,去除所述语音帧中的噪声帧和静音帧。

进一步地,所述识别与所述当前的语音帧相邻的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量包括:

识别当前的语音帧的位置,判断当前的语音帧是否位于语音信号的前端;

如果是,识别所述当前的语音帧之后的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;

如果否,判断当前的语音帧是否位于语音信号的后端;

如果是,识别所述当前的语音帧之前的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;否则,识别所述当前的语音帧之前第四设定数量和所述当前的语音帧之后的第五设定数量的语音帧中,预测结果为笑声帧的语音帧的数量,其中第四设定数量和第五设定数量的和为所述第一设定数量。

另一方面,本发明实施例公开了一种笑声检测装置,所述装置包括:

划分获取模块,用于针对待检测语音信号,将所述待检测语音信号划分为多个语音帧,并获取每个语音帧的基因频率及多维语音特征参数;

预测模块,用于据预先训练完成的笑声检测模型及获取的每个语音帧的基因频率及多维语音特征参数,预测每个语音帧是否为笑声帧;

识别检测模块,用于识别与所述当前的语音帧相邻的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;当所述数量大于设定的数量阈值时,将所述当前的语音帧确定为笑声帧。

进一步地,所述装置还包括:

训练模块,用于针对训练集中每个语音信号,将所述语音信号划分为多个语音帧;获取每个语音帧的基因频率及多维语音特征参数;识别每个语音帧是否为笑声帧,如果是,在所述语音帧中添加第一标签,否则,在所述语音帧中添加第二标签;将添加标签后的语音帧的基因频率及多维语音特征参数输入到笑声检测模型中,对所述笑声检测模型进行训练。

进一步地,所述划分获取模块,具体用于对所述语音信号进行预加重处理,将预处理后的待检测语音信号划分为多个语音帧;

所述装置还包括:

过滤模块,用于对每个语音帧进行端点检测,去除所述语音帧中的噪声帧和静音帧。

进一步地,所述识别检测模块,具体用于识别当前的语音帧的位置,判断当前的语音帧是否位于语音信号的前端;如果是,识别所述当前的语音帧之后的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;如果否,判断当前的语音帧是否位于语音信号的后端;如果是,识别所述当前的语音帧之前的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;否则,识别所述当前的语音帧之前第四设定数量和所述当前的语音帧之后的第五设定数量的语音帧中,预测结果为笑声帧的语音帧的数量,其中第四设定数量和第五设定数量的和为所述第一设定数量。

本发明实施例提供了一种笑声检测方法及装置,该方法用于电子设备,该方法包括:针对待检测语音信号,将所述待检测语音信号划分为多个语音帧,并获取每个语音帧的基因频率及多维语音特征参数;根据预先训练完成的笑声检测模型及获取的每个语音帧的基因频率及多维语音特征参数,预测每个语音帧是否为笑声帧;识别与所述当前的语音帧相邻的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;当所述数量大于设定的数量阈值时,将所述当前的语音帧确定为笑声帧。由于在本发明实施例中,根据当前语音帧及其相邻第一设定数量的语音帧共同判定当前帧是否为笑声帧,从一定程度上弱化了对笑声检测模型的误差率,并且也充分考虑到了笑声的连续性,使得笑声检测结果更加的准确。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种笑声检测方法的检测过程;

图2A-图2B为本发明实施例提供的在检测语音信号中,当前检测帧所在的位置的示意图;

图3为本发明实施例提供的一种笑声检测方法的检测装置结构示意图。

具体实施方式

为了提高笑声检测的准确性,本发明实施例提供了一种笑声检测方法及装置

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的一种笑声检测方法的检测过程,该过程包括以下步骤:

S101:针对待检测语音信号,将所述待检测语音信号划分为多个语音帧,并获取每个语音帧的基因频率及多维语音特征参数。

本发明实施例提供的笑声检测方法应用于电子设备,该电子设备可以为音频采集设备,如录音笔、录音机等,也可以是手机、平板电脑、个人电脑等设备。

具体的,针对待检测语音信号进行分帧处理,将待检测语音信号划分为多个语音帧,并对每个语音帧的基因频率及多维语音特征参数进行获取。

在本发明实施例中将语音信号划分为多个语音帧和获取每个语音帧的基因频率及多维语音特征(MFCC)参数,属于现有技术,在本发明实施例中对该过程不进行说明。相应的下述各实施例中也同样存在该情况,也就不再一一赘述。

S102:根据预先训练完成的笑声检测模型及获取的每个语音帧的基因频率及多维语音特征参数,预测每个语音帧是否为笑声帧。

在本发明实施例中预先对笑声检测模型进行训练,并且在对笑声检测模型进行训练时,也是根据训练集中每个语音信号的每个语音帧的基因频率及多维语音特征参数,对笑声检测模型训练完成的。训练完成的笑声检测模型可以根据输入的语音帧的基因频率及多维语音特征参数,预测该语音帧是否笑声帧。具体的笑声检测模型针对该语音帧会输出相应的结果,即该语音帧是笑声帧还是语音帧,在本发明实施例中将笑声检测模型针对每个语音帧输入的结果,作为该语音帧对应的预测结果。

S103:识别与所述当前的语音帧相邻的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量。

具体的,在本发明实施例中在检测当前的语音帧是否为笑声帧时,根据该语音帧及与该语音帧相邻的第一数量的语音帧中,预测结果为笑声帧的语音帧的数量,确定该当前的语音帧是否为笑声帧。识别当前的语音帧相邻的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量,其中第一设定数量为不小于1的整数,例如可以为2、3、10、20等等。

因为本发明实施例中在确定与所述当前的语音帧相邻的第一设定数量的语音帧时,可以将当前语音帧之前的第一设定数量的语音帧作为与当前的语音帧相邻的语音帧;也可以是将当前语音帧之后的第一设定数量的语音帧作为与当前的语音帧相邻的语音帧;也可以是将当前语音帧之前及之后的第一设定数量的语音帧作为与当前的语音帧相邻的语音帧,当前语音帧之前和之后的语音帧的数量不进行限定,只要保证相邻语音帧的数量为第一设定数量即可。

例如第一设定数量为20,当前语音帧的编号为060,则可以将当前语音帧之前的编号为040-059的语音帧作为与当前语音帧相邻的语音帧,也可以将当前语音帧之后的编号为061-080的语音帧作为与当前语音帧相邻的语音帧,也可以将当前语音帧之前的编号为055-059的语音帧,以及当前语音帧之后的编号为061-075的语音帧作为与当前语音帧相邻的语音帧,当然也可以是其他方式,例如当前语音帧之前的10帧及之后的10帧,或者之前的13帧之后的7帧等等,在进行确定时可以任意选择。

S104:当所述数量大于设定的数量阈值时,将所述当前的语音帧确定为笑声帧。

所述的数量阈值为根据第一设定数量设定的,如预测结果为笑声帧的语音帧的数量大于设定的数量阈值时,将所述当前的语音帧确定为笑声帧。例如第一设定数量为40帧,数量阈值为20,与当前语音帧相邻的40帧中预测结果为笑声帧的语音帧的帧数为25,当前语音帧的预测结果为笑声帧,笑声帧的数量为26,大于数量阈值20,确定当前的语音帧为笑声帧。

由于在本发明实施例中,根据当前语音帧及其相邻第一设定数量的语音帧共同判定当前帧是否为笑声帧,从一定程度上弱化了对笑声检测模型的误差率,并且也充分考虑到了笑声的连续性,使得笑声检测结果更加的准确。

本发明实施例中该笑声检测模型是根据训练集中的每个语音信号,训练得到的,具体的在本发明的一个实施例中,笑声检测模型的训练过程包括:

针对训练集中每个语音信号,将所述语音信号划分为多个语音帧;

获取每个语音帧的基因频率及多维语音特征参数;

识别每个语音帧是否为笑声帧,如果是,在所述语音帧中添加第一标签,否则,在所述语音帧中添加第二标签;

将添加标签后的语音帧的基因频率及多维语音特征参数输入到笑声检测模型中,对所述笑声检测模型进行训练。

具体的,所述训练集中包含大量的语音信号,每个语音信号的长度相同或不同,对于训练集中的每个语音信号,对每个语音信号进行分帧处理,将每个语音信号划分为多个语音帧,

获取每个语音帧的每个语音帧的基因频率及多维语音特征参数,根据每个语音帧是否为笑声帧,对笑声帧添加第一标签,对不是笑声帧的添加第二标签,将每个语音帧添加的标签及该语音帧的基因频率、多维语音特征参数输入到笑声检测模型中,对所述笑声检测模型进行训练。具体的,对笑声检测模型进行训练的过程属于现有技术,在本发明实施例中对该过程不进行赘述。

笑声检测模型训练完成后,当将待检测的语音信号的每一语音帧的基因频率及多维语音特征参数输入到笑声检测模型后,笑声检测模型可以识别每一语音帧是否为笑声帧,当语音帧为笑声帧时,其对应的输出结果携带第一标签,当语音帧非笑声帧时,其对应的输出结果携带第二标签。

在本发明实施例中对所述笑声检测模型进行训练包括:

采用支持向量机(Support Vector Machine,SVM)方法,对所述笑声检测模型进行训练;或,

采用极限学习机(Extreme Learning Machine,ELM)方法,对所述笑声检测模型进行训练。

在本发明实施例中使用支持向量机SVM或极限学习机ELM,属于现有技术,在本发明实施例中对该过程不进行说明。为了在不降低检测精度的前提下,提高训练的效率,在本发明实施例中可以采用ELM方法对笑声检测模型进行训练。

为了提高检测效率,并且提高检测的准确性,在本发明上述实施例的基础上,本发明的另一实施例中针对待检测语音信号,将所述待检测语音信号划分为多个语音帧包括:

对所述语音信号进行预加重处理,将预处理后的待检测语音信号划分为多个语音帧;

当将待检测语音信号划分为多个语音帧后,获取每个语音帧的基因频率及多维语音特征参数之前,所述方法还包括:

对每个语音帧进行端点检测,去除所述语音帧中的噪声帧和静音帧。

具体的,为了便于对语音信号进行分帧处理,消除语音信号受字长的影响,在对语音信号进行分帧处理之前,首先对语音信号进行预加重处理,即使语音信号通过一个一阶有限的激励加响应高通滤波器,使信号变得平坦,对处理过的语音信号进行分帧处理,将其划分为多个语音帧。对语音信号进行预加重处理及分帧处理的过程属于现有技术,在本发明实施例中对此不进行赘述。

将语音信号划分为多个语音帧后,对每个语音帧进行端点检测,找出每个语音帧中语音的开始和终止点,从而去除语音帧中的噪声帧和静音帧。对语音帧进行端点检测,去除语音帧中的噪声帧和静音帧属于现有技术,在本发明实施例中对该过程不进行说明。

本发明实施例充分考虑笑声的连续性,在进行检测时,针对待检测的当前帧,根据当前帧及与该当前帧相邻的第一设定数量的语音帧的预测结果,确定当前帧是否为笑声帧。具体的,在本发明图1所示实施例的基础上,在本发明的另一实施例中,所述识别与所述当前的语音帧相邻的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量包括:

识别当前的语音帧的位置,判断当前的语音帧是否位于语音信号的前端;

如果是,识别所述当前的语音帧之后的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;

如果否,判断当前的语音帧是否位于语音信号的后端;

如果是,识别所述当前的语音帧之前的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;否则,识别所述当前的语音帧之前第四设定数量和所述当前的语音帧之后的第五设定数量的语音帧中,预测结果为笑声帧的语音帧的数量,其中第四设定数量和第五设定数量的和为所述第一设定数量。

在上述实施例中充分考虑了笑声的连续性,针对每个语音帧,如果根据该语音帧之前及之后第一设定数量的语音帧的预测结果,确定当前帧是否为笑声帧,能够较准确的实现对当前帧的检测,并且可以降低因为检测模型的检测精度带来的影响。但如果当前语音帧为语音信号中位置靠前的语音帧,该语音帧之前没有相应数量的语音帧,因此在进行检测时,需要根据当前的语音帧位于语音信号的位置,确定采用怎样的方式识别与所述当前的语音帧相邻的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量。

在进行位置识别时,因为在对每个语音信号进行分帧处理后,每个语音帧对应的标识信息可以根据每一帧的时间顺序进行标识,该标识信息可以是语音帧的编号,并且语音信号中划分的总的语音帧的数量也已知,因此根据当前的语音帧的标识信息,可以确定当前的语音帧是位于语音信号的前端还是后端。在具体划分前端和后端时,可以设置位于前端的语音信号的标识信息的范围,例如将标识信息位于000-020范围的语音帧作为位于语音信号前端的语音帧,将标识信息位于A-B范围的语音帧作为位于语音信号后端的语音帧,其中,B为语音信号的末端语音帧对应的标识信息,A为语音信号的末端语音帧对应的标识信息减去15,或其他数值。

另外,当对语音信号进行了端点检测,去除了语音信号中的噪声帧和静音帧,因此语音信号可能不连续,但采用上述方式依然能够检测每个语音帧是否为笑声帧。但为了进一步提高检测的准确性,因为语音信号中出现的静音帧一般会连续出现,静音帧的标识信息也是可以预先知道的,因此在对语音帧进行检测的,位于静音帧之前的语音帧也可以将其作为位于语音信号的后端的语音帧进行处理,将位于静音帧之后的语音帧也可以将其作为位于语音信号的前端的语音帧进行处理。

图2A-2B为发明实施例提供的在检测语音信号中,当前检测帧所在的位置的示意图。

结合图2A-2B对本发明的上述实施例进行说明。在进行位置识别时,因为在对每个语音信号进行分帧处理后,每个语音帧对应的标识信息可以根据每一帧的时间顺序进行标识,该标识信息可以是语音帧的编号,并且语音信号中划分的总的语音帧的数量也已知,可以根据语音帧的标识信息及总的语音帧的数量设置位于前端的语音信号的标识信息的范围和位于前端的语音信号的标识信息的范围。

如图2A所示,M所示阴影范围可以为将标识信息位于000-020范围的语音帧作为位于语音信号前端的语音帧,也可以为标识信息位于000-015范围的语音帧作为位于语音信号前端的语音帧,或者从000至其他数值的语音帧作为位于语音信号前端的语音帧;N所示阴影范围可以为将标识信息位于A-B范围的语音帧作为位于语音信号后端的语音帧,其中,B为语音信号的末端语音帧对应的标识信息,A为语音信号的末端语音帧对应的标识信息减去15,或其他数值;L所示范围为除去前端范围和后端范围的中间范围。

如图2B所示,语音信号中存在静音帧,因为一般静音帧会连续出现,静音帧的标识信息也是可以预先知道的,因此在对语音帧进行检测时,位于静音帧之前的语音帧也可以将其作为位于语音信号的后端的语音帧进行处理,将位于静音帧之后的语音帧也可以将其作为位于语音信号的前端的语音帧进行处理。如可以将图中O、Q看做与图2A中M相同的语音信号的前端;可以将图中P、R看做与图2A中N相同的语音信号的后端;可以将图中S、T看做与图2A中L相同的除去前端范围和后端范围的中间范围。

图3为本发明实施例提供的一种笑声检测方法的检测装置结构示意图应用于电子设备,该装置包括:

划分获取模块32,用于针对待检测语音信号,将所述待检测语音信号划分为多个语音帧,并获取每个语音帧的基因频率及多维语音特征参数;

预测模块33,用于据预先训练完成的笑声检测模型及获取的每个语音帧的基因频率及多维语音特征参数,预测每个语音帧是否为笑声帧;

识别检测模块34,用于识别与所述当前的语音帧相邻的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;当所述数量大于设定的数量阈值时,将所述当前的语音帧确定为笑声帧。

所述装置还包括:

训练模块31,用于针对训练集中每个语音信号,将所述语音信号划分为多个语音帧;获取每个语音帧的基因频率及多维语音特征参数;识别每个语音帧是否为笑声帧,如果是,在所述语音帧中添加第一标签,否则,在所述语音帧中添加第二标签;将添加标签后的语音帧的基因频率及多维语音特征参数输入到笑声检测模型中,对所述笑声检测模型进行训练。

所述划分获取模块32,具体用于对所述语音信号进行预加重处理,将预处理后的待检测语音信号划分为多个语音帧;

所述装置还包括:

过滤模块35,用于对每个语音帧进行端点检测,去除所述语音帧中的噪声帧和静音帧。

所述识别检测模块34,具体用于识别当前的语音帧的位置,判断当前的语音帧是否位于语音信号的前端;如果是,识别所述当前的语音帧之后的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;如果否,判断当前的语音帧是否位于语音信号的后端;如果是,识别所述当前的语音帧之前的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;否则,识别所述当前的语音帧之前第四设定数量和所述当前的语音帧之后的第五设定数量的语音帧中,预测结果为笑声帧的语音帧的数量,其中第四设定数量和第五设定数量的和为所述第一设定数量。

本发明实施例提供了一种笑声检测方法及装置,该方法用于电子设备,该方法包括:针对待检测语音信号,将所述待检测语音信号划分为多个语音帧,并获取每个语音帧的基因频率及多维语音特征参数;根据预先训练完成的笑声检测模型及获取的每个语音帧的基因频率及多维语音特征参数,预测每个语音帧是否为笑声帧;识别与所述当前的语音帧相邻的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;当所述数量大于设定的数量阈值时,将所述当前的语音帧确定为笑声帧。由于在本发明实施例中,根据当前语音帧及其相邻第一设定数量的语音帧共同判定当前帧是否为笑声帧,从一定程度上弱化了对笑声检测模型的误差率,并且也充分考虑到了笑声的连续性,使得笑声检测结果更加的准确。

对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1