音频检测方法及装置与流程

文档序号：13909135阅读：456来源：国知局

本发明涉及多媒体技术领域，特别涉及一种音频检测方法及装置。

背景技术：

自助语音服务一般在呼叫中心的非人工客服渠道的话务分流中份额占比最大，因此，自助语音服务的健壮性至关重要。实际应用中，自助语音服务通常对接的业务系统较多，故障风险较高。由于自助语音服务全程无人工参与，一旦发生业务层服务中断，故障现象较为隐蔽，客户通过人工坐席反映或者人工拨测等发现问题的手段造成故障处理滞后，服务体验不佳。

技术实现要素：

本发明所要解决的一个技术问题是：如何实现对音频健壮性的自动检测。

根据本发明实施例的一个方面，提供了一种音频检测方法，包括：对待检测音频片断进行采样，获得待检测音频片断数据；生成待检测音频片断数据的特征值；判断待检测音频片断数据的特征值是否与样本库的特征值匹配；若待检测音频片断数据的特征值与样本库的特征值匹配，则认定待检测音频片断正常。

根据本发明实施例的另一个方面，提供了一种音频检测装置，包括：采样模块，用于对待检测音频片断进行采样，获得待检测音频片断数据；特征值生成模块，用于生成待检测音频片断数据的特征值；特征值匹配模块，用于判断待检测音频片断数据的特征值是否与样本库的特征值匹配，若待检测音频片断数据的特征值与样本库的特征值匹配，则认定待检测音频片断正常。

本发明通过将待检测音频片断数据的特征值与样本库的特征值进行匹配，从而实现了对音频健壮性的自动检测。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出本发明音频检测方法的一个实施例的流程示意图。

图2示出生成待检测音频片断数据的频域特征值的方法的流程示意图。

图3示出生成待检测音频片断数据的时域特征值的方法的流程示意图。

图4示出本发明音频检测方法的另一个实施例的流程示意图。

图5示出本发明音频检测装置的一个实施例的结构示意图。

图6示出本发明音频检测装置的另一个实施例的结构示意图。

图7示出自助语音业务检测系统的一个实施例的结构示意图。

图8示出音频检测业务信号特征库的创建方式的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1描述本发明一个实施例的音频检测方法。

图1示出本发明音频检测方法的一个实施例的流程示意图。如图1所示，该实施例中的音频检测方法包括以下步骤：

步骤s102，对待检测音频片断进行采样，获得待检测音频片断数据。

例如，待检测音频片断的时长为2秒，采用频率为8khz的pcm(pulsecodemodulation,脉冲编码调制)时域脉冲对信号进行采样，可以获得在时间上离散的待检测音频片断数据。

步骤s104，生成待检测音频片断数据的特征值。

其中，该特征值例如可以是频域特征值以及时域特征值中的至少一种。

步骤s106，将待检测音频片断数据的特征值与样本库的特征值进行匹配。若待检测音频片断数据的特征值与样本库的特征值匹配，则认定待检测音频片断正常(步骤s106a)；若待检测音频片断数据的特征值与样本库的特征值不匹配，则认定待检测音频片断异常(步骤s106b)。

如果在步骤s104中生成了待检测音频片断数据的频域特征值，则在步骤s106中判断待检测音频片断数据的频域特征值与样本库的频域特征值是否匹配，若匹配，则待检测音频片断正常，否则，待检测音频片断异常。

如果在步骤s104中生成了待检测音频片断数据的时域特征值，则在步骤s106中判断待检测音频片断数据的以及时域特征值与样本库的时域特征值是否匹配，若匹配，则待检测音频片断正常，否则，待检测音频片断异常。

如果在步骤s104中生成了待检测音频片断数据的频域特征值以及时域特征值，则在步骤s106中判断待检测音频片断数据的频域特征值以及时域特征值与样本库的频域特征值以及时域特征值是否匹配。若均匹配,则认定待检测音频片断正常，否则，待检测音频片断异常。

上述实施例通过将待检测音频片断数据的特征值与样本库的特征值进行匹配，从而实现了对音频健壮性的自动检测。

下面结合图2描述生成待检测音频片断数据的频域特征值的方法。

图2示出生成待检测音频片断数据的频域特征值的方法的流程示意图。如图2所示，该实施例中的生成待检测音频片断数据的频域特征值的方法包括以下步骤：

步骤s2041，对待检测音频片断数据进行离散时间傅里叶变换，得到离散时间傅立叶变换值。

例如，对于待检测音频片断的时长为2秒，采用pcm时域脉冲、频率为8khz对信号进行采样，得到16000个采样点。然后，在对采样数据进行离散时间傅里叶变换的过程中，输入连续采样点的个数需要大于16000，假设采样点的个数设置为16834。

步骤s2042，计算离散时间傅立叶变换值在各个频点上的幅度均值。

例如，计算离散时间傅立叶变换值在16384个频点上的幅度均值kb＝(k1+...+k32)/32。

步骤s2043，对离散时间傅立叶变换值所对应的频点进行分段，并计算各个分段内的离散时间傅立叶变换值在各个频点上的幅度均值。

例如，将16384个频点进行均匀的分为32个频段，并计算每个频段内的频点的算术平均值ki。

步骤s2044，将各个分段内的离散时间傅立叶变换值在各个频点上的幅度均值与离散时间傅立叶变换值在各个频点上的幅度均值作比较。

步骤s2045，根据分段内的离散时间傅立叶变换值在各个频点上的幅度均值与离散时间傅立叶变换值在各个频点上的幅度均值之间的数值关系，采用不同标记表示出分段的特征值。

例如，每个频段的特征值pi采用如下方式计算：如果ki>kb，则pi＝1，否则pi＝0。

步骤s2046，将各个分段内的待检测音频片断数据的特征值级联得到待检测音频片断数据的特征值。

例如，待检测音频片断数据的特征值为(1,0,0,1,...,0,1)。

通过上述实施例，可以准确、简便的生成音频片断数据的频域特征，以便进行音频片断频域特征的匹配。

下面结合图3描述生成待检测音频片断数据的时域特征值的方法。

图3示出生成待检测音频片断数据的时域特征值的方法的流程示意图。如图3所示，该实施例中的生成待检测音频片断数据的时域特征值的方法包括以下步骤：

步骤s3041，计算待检测音频片断数据在各个采样点上的幅度均值。

例如，对于待检测音频片断的时长为2秒，采用pcm时域脉冲、频率为8khz对信号进行采样，得到16000个采样点。输入连续采样点的个数需要大于16000，计算离散时间傅立叶变换值在16384个频点上的幅度均值tb＝(t1+...+t32)/32。

步骤s3042，对待检测音频片断数据所对应的采样点进行分段，并计算各个分段内的待检测音频片断数据在各个采样点上的幅度均值。

例如，将16384个频点进行均匀的分为32个频段，并计算每个频段内的频点的算术平均值ti。

步骤s3043，将各个分段内的待检测音频片断数据在各个采样点上的幅度均值与待检测音频片断数据在各个采样点上的幅度均值作比较。

步骤s3044，根据分段内的待检测音频片断数据在各个采样点上的幅度均值与待检测音频片断数据在各个采样点上的幅度均值之间的数值关系，采用不同标记表示出分段的特征值。

例如，每个频段的特征值pi采用如下方式计算：如果ti>tb，则pi＝1，否则pi＝0。

步骤s3045，将各个分段内的待检测音频片断数据的特征值级联得到待检测音频片断数据的特征值。

例如，待检测音频片断数据的特征值为(1,0,0,1,...,0,1)。

通过上述实施例，可以准确、简便的生成音频片断数据的时域特征，以便进行音频片断时域特征的匹配。

下面结合图4描述本发明另一个实施例的音频检测方法。

图4示出本发明音频检测方法的另一个实施例的流程示意图。如图4所示，在图1所示实施例的基础上，该实施例中的音频检测方法还包括以下步骤：

步骤s400,在待检测音频流中实时寻找人声的起点，并从人声的起点处截取多个待检测音频片段。

步骤s401,判断待检测音频片段的能量、长度是否满足后续的音频检测要求。如果满足要求，则执行步骤s102；如果不满足要求，则返回步骤s400。

步骤s408,判断正常的待检测音频片段与所有待检测音频片段的比值是否大于预设值。若正常的待检测音频片段与所有待检测音频片段的比值大于预设值，则认定待检测音频正常(步骤s408a)；否则认定待检测音频异常(步骤s408b)。

例如，若正常的待检测音频片段与所有待检测音频片段的比值大于94％，则认定待检测音频正常；否则认定待检测音频异常。

通过上述实施例，基于多个音频片段的自动检测结果，判断待检测音频的健壮性，从而实现对音频健壮性的自动检测。此外，该方法可以使用于对自助语音业务的健壮性检测。

下面结合图5描述本发明一个实施例的音频检测装置。

图5示出本发明音频检测装置的一个实施例的结构示意图。如图5所示，该实施例中的音频检测装置50包括：

采样模块502，用于对待检测音频片断进行采样，获得待检测音频片断数据；

特征值生成模块504，用于生成待检测音频片断数据的特征值；

特征值匹配模块506，用于判断待检测音频片断数据的特征值是否与样本库的特征值匹配，若待检测音频片断数据的特征值与样本库的特征值匹配，则认定待检测音频片断正常。

可选的，特征值生成模块504用于生成待检测音频片断数据的频域特征值以及生成待检测音频片断数据的时域特征值。

可选的，特征值匹配模块504包括：

频域特征值匹配单元，用于判断待检测音频片断数据的频域特征值与样本库的频域特征值是否匹配，和/或

时域特征值匹配单元，用于判断待检测音频片断数据的时域特征值与样本库的时域特征值是否匹配。

可选的,采样模块502用于对待检测音频片断进行pcm时域脉冲信号采样，获得在时间上离散的待检测音频片断数据。

可选的,频域特征值匹配单元用于：对待检测音频片断数据进行离散时间傅里叶变换，得到离散时间傅立叶变换值；计算离散时间傅立叶变换值在各个频点上的幅度均值；对离散时间傅立叶变换值所对应的频点进行分段；计算各个分段内的离散时间傅立叶变换值在各个频点上的幅度均值；将各个分段内的离散时间傅立叶变换值在各个频点上的幅度均值与离散时间傅立叶变换值在各个频点上的幅度均值作比较；根据分段内的离散时间傅立叶变换值在各个频点上的幅度均值与离散时间傅立叶变换值在各个频点上的幅度均值之间的数值关系，采用不同标记表示出分段的特征值；将各个分段内的待检测音频片断数据的特征值级联得到待检测音频片断数据的特征值。

可选的,时域特征值匹配单元用于：计算待检测音频片断数据在各个采样点上的幅度均值；对待检测音频片断数据所对应的采样点进行分段；计算各个分段内的待检测音频片断数据在各个采样点上的幅度均值；将各个分段内的待检测音频片断数据在各个采样点上的幅度均值与待检测音频片断数据在各个采样点上的幅度均值作比较；

根据分段内的待检测音频片断数据在各个采样点上的幅度均值与待检测音频片断数据在各个采样点上的幅度均值之间的数值关系，采用不同标记表示出分段的特征值；将各个分段内的待检测音频片断数据的特征值级联得到待检测音频片断数据的特征值。

下面结合图6描述本发明另一个实施例的音频检测装置。

图6示出本发明音频检测装置的另一个实施例的结构示意图。如图6所示，在图5所示的实施例基础上，该实施例中的音频检测装置60还包括：

音频片段截取模块601，用于从待检测音频中截取多个待检测音频片段；

比较模块608，用于若正常的待检测音频片段与所有待检测音频片段的比值大于预设值，则认定待检测音频正常。

下面结合图7描述本发明音频检测装置的一个应用例。

图7示出自助语音业务检测系统的一个实施例的结构示意图。如图7所示，该实施例中的自助语音业务检测系统70包括:

检测管理器702、浏览器704以及拨测引擎706。其中，拨测引擎706包括电话拨测模块7062、音频监测装置60以及音频检测业务信号特征库7064。

本系统中的拨测引擎706和检测管理器702采用tcp长连接方式。拨测引擎706作为tcp服务器，检测管理器702作为tcp客户端。拨测引擎706绑定一个tcp端口，检测管理器702通过该端口与拨测引擎706连接。拨测引擎706一旦启动，则等待检测管理器702的连接。检测管理器702一旦启动，则尝试连接拨测引擎706给定的地址端口。拨测引擎706如果检测出连接的异常，则关闭此连接并立即等待新的连接。检测管理器702如果检测出连接异常则关闭此连接并重新连接。检测管理器702与拨测引擎706中任何一方如果10秒没有收到对方的消息，则认为连接异常。

电话拨测模块7062具备高频次的拨测能力，系统配置多路媒体通道，支持可配置多路并发循环拨测，可根据任务设定，定时、定范围、定量主动发起针对特定业务的拨测。电话拨测模块可按照语音流程的需求以rfc2833的格式发送dtmf码对业务流程进行遍历，并抓取rtp语音流，经音频监测装置60处理用于和音频检测业务信号特征库7064进行匹配，根据匹配的情况来判断待检测语音业务号码是否接续正常。高频次的拨测可以在短时间内快速遍历待检测语音业务号码的语音菜单，及时发现问题并上报告警，为平台故障定位及解决争取时间。

浏览器704可供用户或管理员查看检测管理器702中的监测信息。

音频检测业务信号特征库7064的创建方式具体可以如图8所示。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李青;赵彦杰;戴浩;张文涛
技术所有人：中国电信股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。