卡帧检测方法和装置制造方法

文档序号:2827254阅读:220来源:国知局
卡帧检测方法和装置制造方法
【专利摘要】本发明公开了一种卡帧检测方法和装置。其中,该方法包括:对待测音频信号进行特征检测,得到待测音频信号中的各帧的特征值;从各帧中查找并标记出特征值出现异常的帧段,其中,帧段的标记信息包括以下至少之一:帧段的起始帧的时间信息以及帧段的帧长;根据帧段是否为静音段来从帧段中选择出现卡帧的帧段;输出出现卡帧的帧段的标记信息。本发明解决了现有技术中音频卡顿检测的准确性较低的技术问题,达到了消除在检测卡顿帧段时的误判,实现准确而高效地检测出音频通信系统中音频卡顿的帧段的技术效果。
【专利说明】卡帧检测方法和装置

【技术领域】
[0001] 本发明涉及通信领域,具体而言,涉及一种卡帧检测方法和装置。

【背景技术】
[0002] 随着计算机及多媒体通信技术的发展,音频实时通信在网络电话、流媒体、游戏 V0IP、娱乐音/视频直播中的应用越来越广。互联网网络状况的复杂性,不可避免的存在 延时/抖动/丢包等因素影响,这些因素的存在会导致音频服务不流畅,也即出现音频卡 帧,然而,目前业界对于音频流不流畅性的评估反应在音频质量上是由ITU-TP.862PESQ及 ITU-RBS. 1387PEAQ等客观评估标准进行,其将音频等卡帧/不流畅体现在整体音质评估的 评分中,这样,概念不突出也比较模糊。对于音频不流畅性的专项评估中,很少有针对对于 音频流畅性的评估。
[0003] 对延时/抖动因素的影响,目前业界有基于抖动缓存(JitterBuffer)的比较成熟 解决方案来缓解和吸收延时,但是,这只可部分解决音频卡的问题,音频卡的评估也可以基 于这一层对存入抖动缓存中的数据包的时间间隔或根据抖动缓存中当前数据包的有无来 评估音频的卡顿程度,然而音频经抖动缓存处理再到最终音频播放出来,中间的环节可能 不可避免的对音频进行处理,如清空/重置抖动缓存(JitterBuffer)数据、置零相关数据 包、或丢弃高能量音频包等操作,这些中间处理流程导致的音频帧丢失,严重影响了卡帧评 估的准确性。对于丢包可能引发的卡顿,目前业界比较成熟的处理方法有基于前向/后向 复制或帧间插值重叠的方法弥补音频帧丢失引起的卡顿,而补包方法所修补的音频帧本身 或前后的不连贯性也有可能会导致音频卡,对于补包这一类卡帧对音频质量的评估若基于 PESQ/PEAQ的评估也只是将音频卡帧整体归入音频质量部分。
[0004] 音频的不流畅性即卡顿,是音频服务中的一项极重要的指标,卡顿的严重程度将 会影响用户体验,因此有必要将音频流畅性(卡顿)的评估作为专项指标量化出来,对第三 方提供的音频整体解决方案或与竞争产品之间的流畅性比较以评估音频产品的流畅度好 与坏,推动音频产品流畅性体验的改进与提升。
[0005] 现有音频流畅性评估方法分主观评估和客观评估方法。
[0006] 对音频流畅性的评估方法中,开发人员可以有自己的一套基于代码评判的标准, 比如在抖动缓冲区处理层来检测相邻音频数据包的到达时间间隔级别是否超出预定的阀 值(比如 200ms, 200ms*2, 200ms*3, 200ms*4,. . . 200ms*10)来判定是否引发了一次卡顿。但 对于评估人员来讲,音频被测系统可能是黑盒的,很容易在检测卡顿的时候统计到非卡顿 的帧,从而使得上述检测卡顿的方式的准确性较低。
[0007] 目前对于流畅性评估更多的方法是基于主观听觉来评判。主观评估需要请受众 群体来主观感受比较,一方面人力成本高;另一方面对于音频卡顿,很容易让受众产生不良 情绪或厌烦心理,不但易引起误判而且会使评估人员的效率大打折扣。现有的客观评估技 术对于音频流畅性一卡顿严重性的评估指标并没有单独量化出来,只是作为音频整体质 量评估的一部分,因此并不能具体反应音频通信系统单位时间内的音频卡帧次数及卡帧时 长,这对于音频产品流畅性的评估是粗糙和低效的方法,难以反应音频不流畅的严重程度, 不利于及时推进音频产品流畅性体验的验证和改进。
[0008] 针对上述的问题,目前尚未提出有效的解决方案。


【发明内容】

[0009] 本发明实施例提供了一种卡帧检测方法和装置,以至少解决现有技术中音频卡顿 检测的准确性较低的技术问题。
[0010] 根据本发明实施例的一个方面,提供了一种卡帧检测方法,包括:对待测音频信号 进行特征检测,得到待测音频信号中的各帧的特征值;从各帧中查找并标记出特征值出现 异常的帧段,其中,帧段的标记信息包括以下至少之一:帧段的起始帧的时间信息以及帧段 的帧长;根据帧段是否为静音段来从帧段中选择出现卡帧的帧段;输出出现卡帧的帧段的 标记信息。
[0011] 可选地,根据帧段是否为静音段来从帧段中选择出现卡帧的帧段包括:若帧段为 静音段,则判断属于静音段的帧段是否满足第一卡帧条件;若属于静音段的帧段不满足第 一卡帧条件,则判断出属于静音段的帧段不为出现卡帧的帧段;若属于静音段的帧段满足 第一卡帧条件,则判断出属于静音段的帧段为出现卡帧的帧段。
[0012] 可选地,判断属于静音段的帧段是否满足第一卡帧条件包括:判断属于静音段的 帧段的帧数是否大于第一预定阈值;若帧数大于第一预定阈值,则判断出属于静音段的帧 段满足第一卡帧条件;若帧数小于等于第一预定阈值,则判断出属于静音段的帧段不满足 第一^^巾贞条件。
[0013] 可选地,判断出属于静音段的帧段不为出现卡帧的帧段包括:对属于静音段的帧 段的特征参数进行检测;根据检测结果判断属于静音段的帧段是否满足第一卡帧条件中的 自然静音条件;若属于静音段的帧段满足自然静音条件,则判断出帧段不满足第一卡帧条 件。
[0014] 可选地,在根据检测结果判断属于静音段的帧段是否满足第一卡帧条件中的自然 静音条件之后,还包括:若属于静音段的帧段不满足自然静音条件,则判断属于静音段的帧 段是否满足第一卡帧条件中的音频瞬断条件;若属于静音段的帧段满足音频瞬断条件,则 判断满足音频瞬断条件的帧段的帧数是否大于第二预定阈值;若帧数大于第二预定阈值, 则判断出满足音频瞬断条件的帧段满足第一卡帧条件;若帧数小于等于第二预定阈值,则 判断出满足音频瞬断条件的帧段不满足第一卡帧条件。
[0015] 可选地,在判断属于静音段的帧段是否满足第一卡帧条件中的音频瞬断条件之 后,还包括:若属于静音段的帧段不满足音频瞬断条件,则判断属于静音段的帧段是否满足 第一卡帧条件中的尖锐下滑/时域截断条件;若属于静音段的帧段不满足尖锐下滑/时域 截断条件,则判断出不满足尖锐下滑/时域截断条件的帧段满足第一卡帧条件;若属于静 音段的帧段满足尖锐下滑/时域截断条件,则判断满足尖锐下滑/时域截断条件的帧段的 帧数是否大于第三预定阈值;若帧数大于第三预定阈值,则判断出满足尖锐下滑/时域截 断条件的帧段满足第一卡帧条件;若帧数小于等于第三预定阈值,则判断出满足尖锐下滑 /时域截断条件的帧段不满足第一卡帧条件。
[0016] 可选地,根据帧段是否为静音段来从帧段中选择出现卡帧的帧段包括:若帧段不 为静音段,则判断帧段是否满足第二卡帧条件;若帧段不满足第二卡帧条件,则判断出帧段 不为出现卡帧的帧段;若帧段满足第二卡帧条件,则判断出帧段为出现卡帧的帧段。
[0017] 可选地,判断帧段是否满足第二卡帧条件包括:判断帧段是否满足第二卡帧条件 中的重音条件;若帧段不满足重音条件,则判断帧段是否满足第二卡帧条件中的磁化/机 械音条件;若帧段不满足第二卡帧条件中的磁化/机械音条件,则判断出帧段不满足第二 卡中贞条件。
[0018] 可选地,若帧段满足重音条件或者满足磁化/机械音条件,方法还包括:判断属于 帧段的帧数是否大于第四预定阈值;若帧数大于第四预定阈值,则判断出属于帧段满足第 二卡帧条件;若帧数小于等于第四预定阈值,则判断出属于帧段不满足第二卡帧条件。
[0019] 可选地,从各帧中查找并标记出特征值出现异常的帧段包括:各帧中的连读多个 帧中的每一个的至少一个特征值均不在对应的阈值范围之内,则将连续多个帧组成的帧段 标记为特征值出现异常的帧段,其中,特征值中的每一个对应的阈值范围相同或不同。
[0020] 可选地,特征值包括以下至少之一:能量包络值、频谱流量、频谱平滑度、谱偏斜、 谱峰态。
[0021] 根据本发明实施例的另一方面,还提供了一种卡帧检测装置,包括:检测单元,用 于对待测音频信号进行特征检测,得到待测音频信号中的各帧的特征值;查找标记单元,用 于从各帧中查找并标记出特征值出现异常的帧段,其中,帧段的标记信息包括以下至少之 一:帧段的起始帧的时间信息以及帧段的帧长;选择单元,用于根据帧段是否为静音段来 从帧段中选择出现卡帧的帧段;输出单元,用于输出出现卡帧的帧段的标记信息。
[0022] 可选地,选择单元包括:第一判断模块,用于在帧段为静音段时,判断属于静音段 的帧段是否满足第一卡帧条件;在判断出属于静音段的帧段不满足第一卡帧条件时,判断 出属于静音段的帧段不为出现卡帧的帧段;在判断出属于静音段的帧段满足第一卡帧条 件,判断出属于静音段的帧段为出现卡帧的帧段。
[0023] 可选地,第一判断模块包括:第一判断子模块,用于判断属于静音段的帧段的帧数 是否大于第一预定阈值;在帧数大于第一预定阈值时,判断出属于静音段的帧段满足第一 卡帧条件;在帧数小于等于第一预定阈值时,判断出属于静音段的帧段不满足第一卡帧条 件。
[0024] 可选地,第一判断模块包括:检测子模块,用于对属于静音段的帧段的特征参数进 行检测;第二判断子模块,用于根据检测模块的检测结果判断属于静音段的帧段是否满足 第一卡帧条件中的自然静音条件;在属于静音段的帧段满足自然静音条件时,判断出帧段 不满足第一卡帧条件。
[0025] 可选地,第一判断模块包括:第三判断子模块,用于在属于静音段的帧段不满足自 然静音条件时,判断属于静音段的帧段是否满足第一卡帧条件中的音频瞬断条件;第四判 断子模块,用于在属于静音段的帧段满足音频瞬断条件时,判断满足音频瞬断条件的帧段 的帧数是否大于第二预定阈值;在帧数大于第二预定阈值时,判断出满足音频瞬断条件的 帧段满足第一卡帧条件;在帧数小于等于第二预定阈值时,判断出满足音频瞬断条件的帧 段不满足第一卡帧条件。
[0026] 可选地,第一判断模块包括:第五判断子模块,用于在属于静音段的帧段不满足音 频瞬断条件时,判断属于静音段的帧段是否满足第一卡帧条件中的尖锐下滑/时域截断条 件;在属于静音段的帧段不满足尖锐下滑/时域截断条件时,判断出不满足尖锐下滑/时域 截断条件的帧段满足第一卡帧条件;第六判断子模块,用于在属于静音段的帧段满足尖锐 下滑/时域截断条件时,判断满足尖锐下滑/时域截断条件的帧段的帧数是否大于第三预 定阈值;在帧数大于第三预定阈值时,判断出满足尖锐下滑/时域截断条件的帧段满足第 一卡帧条件;在帧数小于等于第三预定阈值时,判断出满足尖锐下滑/时域截断条件的帧 段不满足第一卡帧条件。
[0027] 可选地,选择单元包括:第二判断模块,用于在帧段不为静音段时,判断帧段是否 满足第二卡帧条件;在帧段不满足第二卡帧条件时,判断出帧段不为出现卡帧的帧段;在 帧段满足第二卡帧条件时,则判断出帧段为出现卡帧的帧段。
[0028] 可选地,第二判断模块包括:第七判断子模块,用于判断帧段是否满足第二卡帧条 件中的重音条件;第八判断子模块,用于在帧段不满足重音条件时,判断帧段是否满足第二 卡帧条件中的磁化/机械音条件;在帧段不满足第二卡帧条件中的磁化/机械音条件时,判 断出帧段不满足第二卡帧条件。
[0029] 可选地,第二判断模块包括:第九判断子模块,用于在帧段满足重音条件或者满足 磁化/机械音条件时,判断属于帧段的帧数是否大于第四预定阈值;在帧数大于第四预定 阈值时,判断出属于帧段满足第二卡帧条件;在帧数小于等于第四预定阈值时,判断出属于 帧段不满足第二卡帧条件。
[0030] 可选地于,查找标记单元包括:标记模块,用于在各帧中的连读多个帧中的每一个 的至少一个特征值均不在对应的阈值范围之内,将连续多个帧组成的帧段标记为特征值出 现异常的帧段,其中,特征值中的每一个对应的阈值范围相同或不同。
[0031] 可选地,特征值包括以下至少之一:能量包络值、频谱流量、频谱平滑度、谱偏斜、 谱峰态。
[0032] 在本发明实施例中,从出现异常的帧段中提取出出现卡顿的帧段,而忽略其他的 帧段,从而消除了在检测卡顿帧段时的误判,解决了现有技术中音频卡顿检测的准确性较 低的技术问题,实现了准确而高效地检测出音频通信系统中音频卡顿的帧段的技术效果。

【专利附图】

【附图说明】
[0033] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中: [0034] 图1是根据本发明实施例的一种可选的卡帧检测方法的流程图;
[0035] 图2是根据本发明实施例的另一种可选的卡帧检测方法的流程图;
[0036] 图3是根据本发明实施例的又一种可选的卡帧检测方法的流程图;
[0037] 图4是根据本发明实施例的又一种可选的卡帧检测方法的流程图;
[0038] 图5是根据本发明实施例的又一种可选的卡帧检测方法的流程图;
[0039] 图6是根据本发明实施例的又一种可选的卡帧检测方法的流程图;
[0040] 图7是根据本发明实施例的一种可选的卡帧检测方法中静音条件的判决算法流 程图;
[0041] 图8是根据本发明实施例的一种可选的卡帧检测方法中音频瞬断条件的判决算 法流程图;
[0042] 图9是根据本发明实施例的一种可选的卡帧检测方法中尖锐下滑/时域截断条件 的判决算法流程图;
[0043] 图10是根据本发明实施例的一种可选的卡帧检测方法中重音条件的判决算法流 程图;
[0044] 图11是根据本发明实施例的一种可选的卡帧检测方法中磁化/机械音条件的判 决算法流程图;
[0045] 图12是根据本发明实施例的一种可选的卡帧检测装置的示意图;
[0046] 图13是根据本发明实施例的另一种可选的卡帧检测装置的示意图;
[0047] 图14是根据本发明实施例的又一种可选的卡帧检测装置的示意图;以及
[0048] 图15是根据本发明实施例的一种可选的卡帧检测输出结果的示意图。

【具体实施方式】
[0049] 首先,在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解 释:
[0050] 为了使本【技术领域】的人员更好地理解本发明方案,下面将结合本发明实施例中的 附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范 围。
[0051] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语"第一"、"第 二"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用 的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或 描述的那些以外的顺序实施。此外,术语"包括"和"具有"以及他们的任何变形,意图在于 覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限 于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产 品或设备固有的其它步骤或单元。
[0052] 实施例1
[0053] 根据本发明实施例,提供了一种卡帧检测方法,如图1所示,该方法包括:
[0054] S102,对待测音频信号进行特征检测,得到待测音频信号中的各帧的特征值;
[0055] 可选地,在本实施例中提供的卡帧检测方法可以但不限于应用于音频系统,如图 2所示,该被测音频系统包括本地测试发起端202,远端测试接收端204,测试逻辑服务器 (TestLogic Server) 206。对待测音频系统的输出进行音频录音,并基于该音频内容进行 特征分析检测,得到各帧的特征值。可选的,在本实施例中音频文件可以为带有头格式(例 如,包括采样率,声道数,样本位比特数等信息)的音频文件,音频文件的格式可以包括但 不限于以下至少之一 :wav、wma、mp3。
[0056] 可选地,在本实施例中对音频信号段进行时域/时频变换/频域特征分析得到各 帧对应域的特征值,其中,各帧的特征值包括但不限于以下至少之一:能量包络值、频谱流 量、频谱平滑度、谱偏斜、谱峰态。
[0057] 可选地,若待检测的当前帧的上述特征值中的至少一个出现异常,则判断出该待 检测的当前帧为特征值出现异常的帧。
[0058] 例如,如图2所示,该被测音频的录音检测流程包括:
[0059] 1)本地端卡帧测试App及远端的卡帧测试App分别都要登录到测试逻辑服务器 (TestLogic Server) 206,并保持在线;
[0060] 2)本地测试发起端202配置本地模拟的网络延时/抖动丢包,并开启相应延时/ 丢包率模拟,并通知对端远端测试接收端204当前的延时/丢包模型;
[0061] 3)本地测试发起端202开始播放音频码本,并设置循环播放,输出的码本信号经 被测音频系统采集并经其处理流程传输到被测音频系统的远端播放输出后,经远端测试 App采集,并以带音频头格式的音频wav/wma/mp3等格式保存起来;
[0062] 4)远端测试接收端204在设定的时间内,采集完经网络延时/丢包环境模拟发出 的音频后,对录音文件中音频的各帧的特征值进行卡帧的自动化分析。
[0063] S104,从各帧中查找并标记出特征值出现异常的帧段;
[0064] 可选地,帧段的标记信息包括以下至少之一:帧段的起始帧的时间信息以及帧段 的中贞长。
[0065] 可选地,在本实施例中对上述待测音频的各帧的特征值进行检测后,对特征值出 现异常的帧段进行标记,并将上述特征值出现异常的帧段标记为第一卡帧段。
[0066] 可选地,在本实施例中的帧段为连续多个特征值出现异常的帧组成的帧段。
[0067] 例如,音频信号中包括A、B、C、D、E、F、G、Η八个帧段,检测各帧的特征值后得到出 现异常的帧段为A、B、C、D、E,则对各帧的起始帧的时间信息(例如,时间为t)以及所述帧段 的中贞长(例如,巾贞长为N)做标记。
[0068] S106,根据帧段是否为静音段来从帧段中选择出现卡帧的帧段;
[0069] 可选地,在本实施例中判断音频的信号段中的帧段是否为静音段的方式包括但不 限于:进行音频活动检测(VAD检测,Voice Activity Detection)。
[0070] 可选地,对出现异常的帧段进行进一步判断,判断是否静音段,进而从中选择出现 卡帧的帧段。
[0071] 可选地,在本实施例中,可以从记为第一卡帧段的帧段中选择出出现卡帧的帧段, 并将选择出的帧段标记为第二卡帧段。
[0072] S108,输出出现卡帧的帧段的标记信息。
[0073] 可选地,将出现卡帧的帧段的标记信息输出,例如,音频信号中包括A、B、C、D、E、F、 G、H八个帧段,检测各帧的特征值后得到出现异常的帧段(例如,能量包络值异常的帧段)为 A、B、C、D、E,再经进一步分析判断得到,帧段C、D、E为真正有效的卡帧,帧段A、B为误判帧 段,则将有效卡帧的帧段C、D、E的起始帧的时间信息(例如,时间为t)以及上述帧段的帧长 (例如,巾贞长为N)信息输出。
[0074] 如图15,图中显示了出现卡帧的帧段的标记信息,其中,文件"Summery_ KaDuninfo"中示出了 6个音频文件(WavFile),5分钟内各个音频文件中出现卡 中贞的巾贞段的个数(5Min_KaDunTImes),及各个音频文件出现卡巾贞现象的总时长 (5MinContinousKaSeconds)。以音频文件"6. wav"为例,5分钟内存在7个出现卡巾贞的中贞 段,占用的总时长为〇.76s。
[0075] 此外,图15中文件"6_KaDuninfo"中示出了音频文件"6. wav"具体的卡巾贞信 息,例如,出现卡帧的帧段的序号(KaDunNo),每个出现卡帧的帧段中起始帧的时间戳 (1(已卩08[]\1;[11:36(3011(18]),出现卡巾贞的巾贞段中的总巾贞数(〇0111:;[1101181(&卩四11168(卩四11168/201118)) (其中,每巾贞的时长为20ms),以及每个出现卡巾贞的巾贞段的时长(ContinousKaSeconds),以序 号为1的出现卡帧的帧段为例,起始帧的时间戳为第53. 439999s,该帧段有10个帧,10帧 的总时长为0. 200000s。图15中还示出了音频文件"5.wav","4. wav"具体的卡帧信息,本 申请对此不再赘述。
[0076] 通过本申请提供的实施例,提取检测音频信号的特征值,并将出现异常的帧段标 记出来,经进一步判断后选择出出现卡帧的帧段,然后输出出现卡帧的帧段的标记信息,进 而实现准确而高效地检测出音频通信系统中音频卡顿的帧段。
[0077] 作为一种可选的方案,如图3所示,根据帧段是否为静音段来从帧段中选择出现 卡帧的帧段包括:
[0078] S302,若帧段为静音段,则判断属于静音段的帧段是否满足第一卡帧条件;
[0079] 可选地,在本实施例中的第一卡帧条件包括但不限于以下至少之一:卡帧帧数、自 然静音条件、音频瞬断条件、尖锐下滑/时域截断条件。
[0080] 例如,音频信号中包括A、B、C、D、E、F、G、Η八个帧段,判断得出属于静音段的帧段 为A、B、C、D、Ε,则判断帧段A、B、C、D、Ε的卡帧帧数是否满足预定阈值条件(例如,帧数大于 Μ)。
[0081] S304,若属于静音段的帧段不满足第一卡帧条件,则判断出属于静音段的帧段不 为出现卡帧的帧段;
[0082] 例如,属于静音段的帧段A、B、C、D、Ε中帧段D、Ε的卡帧帧数不满足第一卡帧条 件,例如,帧数小于或等于Μ,则判断得出帧段D、E不为出现卡帧的帧段,不将帧段D、E标记 为第二卡巾贞段。
[0083] S306,若属于静音段的巾贞段满足第 ^巾贞条件,贝 1J判断出属于静音段的巾贞段为出 现卡帧的帧段。
[0084] 例如,属于静音段的帧段A、B、C、D、E中帧段A、B、C的卡帧帧数满足第一卡帧条 件,例如,帧数大于M,则判断得出帧段A、B、C为出现卡帧的帧段,并将帧段A、B、C标记为第 二卡帧段。
[0085] 需要说明的是,因人耳的区辨能力有限,每一帧加窗的窗口在毫秒级别,连续卡帧 的帧数太小时,基于人耳主观很难感受到极短的音频区域,因此,这样的卡帧可以被忽略不 计。
[0086] 通过本申请提供的实施例,对属于静音段的帧段进行细化的判断,判断是否满足 第一卡帧条件,进而可以准确得出音频通信系统中可以被识别的卡帧帧段。
[0087] 作为一种可选的方案,如图4所示,判断属于静音段的帧段是否满足第一卡帧条 件包括:
[0088] S402,判断属于静音段的帧段的帧数是否大于第一预定阈值;
[0089] 可选地,在本实施例中第一预定阈值的设置与人耳对音频的卡顿现象的识别能力 有关,该第一预定阈值在实际评估中可以通过训练得到或者根据产品质量严格等级程度来 确定。
[0090] 例如,音频信号中包括A、B、C、D、E、F、G、Η八个帧段,判断属于静音段的帧段为A、 B、C、D、E,则判断帧段A、B、C、D、E的卡帧帧数是否大于第一预定阈值,例如,帧数大于Μ。
[0091] S404,若帧数大于第一预定阈值,则判断出属于静音段的帧段满足第一卡帧条 件;
[0092] 例如,属于静音段的帧段A、B、C、D、Ε中帧段A、B、C的卡帧帧数大于第一预定阈 值,例如,帧数大于Μ,则判断得出属于静音段的帧段A、B、C满足第一卡帧条件。
[0093] S406,若帧数小于等于第一预定阈值,则判断出属于静音段的帧段不满足第一卡 帧条件。
[0094] 例如,属于静音段的帧段A、B、C、D、E中帧段D、E的卡帧帧数小于等于第一预定阈 值,例如,帧数小于等于M,则判断得出属于静音段的帧段D、E不满足第一卡帧条件。
[0095] 通过本申请提供的实施例,对卡帧帧段的帧数设置门限阈值,可以用来更准确地 选择出人耳可以识别的音频系统中的卡帧帧段。
[0096] 作为一种可选的方案,判断出属于静音段的帧段不为出现卡帧的帧段包括:
[0097] S1,对属于静音段的帧段的特征参数进行检测;
[0098] 可选地,在本实施例中的特征参数包括但不限于以下至少之一:当前静音段的长 度、能量、均值。
[0099] 例如,结合图5所示,对待测音频信号中经判断后属于静音段的当前帧段的长度、 能量及均值进行特征参数检测。
[0100] 又例如,音频信号中包括A、B、C、D、E、F、G、Η八个帧段,判断属于静音段的帧段为 A、B、C、D、Ε,则对属于静音段的帧段A、B、C、D、Ε进行特征参数(例如,特征参数为当前帧段 的长度、能量及均值)的检测。
[0101] S2,根据检测结果判断属于静音段的帧段是否满足第一卡帧条件中的自然静音条 件;
[0102] 可选地,在本实施例中的第一^^帧条件包括但不限于:自然静音。例如,如图7所 示为判断音频的信号段中的帧段是否为自然静音条件的判决算法流程图,该图仅作为一个 示例来说明自然静音条件的判决算法流程,本申请对此不做限定。
[0103] 可选地,根据上述检测结果判断属于静音段的帧段是否满足自然静音条件。
[0104] 需要说明的是,并不是所有的静音段都是卡帧,音频通话中有些交流间的静音是 自然的停顿,这样的自然静音并不是出现了音频卡顿,因而并不作为有效的卡帧(例如,第 二卡帧段)。
[0105] S3,若属于静音段的帧段满足自然静音条件,则判断出帧段不满足第一卡帧条件。
[0106] 例如,结合图5所不,属于静音段的巾贞段为A、B、C、D、Ε中巾贞段Ε满足第 ^巾贞条 件中的自然静音条件,也就是说,帧段Ε的静音为正常静音,则不将帧段Ε标记为第二卡帧 段。
[0107] 通过本申请提供的实施例,通过对音频信号中对属于静音段的帧段判断是否满足 自然静音条件,排除了因自然静音导致的误判为卡帧的情况,从而更有效准确地得到音频 信号中的卡帧。
[0108] 作为一种可选的方案,在根据检测结果判断属于静音段的帧段是否满足第一卡帧 条件中的自然静音条件之后,还包括:
[0109] S1,若属于静音段的帧段不满足自然静音条件,则判断属于静音段的帧段是否满 足第一^^巾贞条件中的音频瞬断条件;
[0110] 可选地,在本实施例中的第一卡帧条件包括但不限于:音频瞬断条件。例如,如图 8所示为判断音频的信号段中的帧段是否满足音频瞬断条件的判决算法流程图,该图仅作 为一个示例来说明音频瞬断的判决算法流程,本申请对此不做限定。
[0111] 例如,结合图5所示,属于静音段的帧段A、B、C、D、E中不满足自然静音条件的帧 段为帧段A、B、C、D,判断上述帧段A、B、C、D是否满足第一卡帧条件的音频瞬断条件。
[0112] 需要说明的是,音频瞬断为声音瞬断导致,若上述声音没有瞬断现象,则有可能并 非音频系统的有效卡帧帧段(例如,第二卡帧段),因而有必要对待测音频进行音频瞬断条 件的判断。
[0113] S2,若属于静音段的帧段满足音频瞬断条件,则判断满足音频瞬断条件的帧段的 帧数是否大于第二预定阈值;
[0114] 可选地,在本实施例中的第二预定阈值的设置也与人耳对音频的卡顿现象的识别 能力有关,该第二预定阈值在实际评估中可以通过训练得到或者根据产品质量严格等级程 度来确定。
[0115] 例如,结合图5所示,当音频信号中包括A、B、C、D、E、F、G、Η八个帧段,属于静音 段的帧段A、B、C、D、E中不满足自然静音条件的帧段为帧段A、B、C、D,又判断得出其中满足 音频瞬断条件的帧段为A、B,则判断帧段A、B的卡帧帧数是否大于第二预定阈值(例如,帧 数为P)。
[0116] S3,若帧数大于第二预定阈值,则判断出满足音频瞬断条件的帧段满足第一卡帧 条件;若帧数小于等于第二预定阈值,则判断出满足音频瞬断条件的帧段不满足第一卡帧 条件。
[0117] 例如,判断属于静音段的帧段A、B、C、D、E中不满足自然静音条件的帧段为帧段A、 B、C、D,又判断得出其中满足音频瞬断条件的帧段为A、B,若经判断得知帧段B的帧数大于 第二预定阈值,例如,帧数大于P,则判断得出满足音频瞬断条件的帧段B满足第一卡帧条 件,并将帧段B记入第二卡帧段。若经判断得知帧段A的帧数小于等于第二预定阈值,例如, 帧数小于等于P,则判断得出满足音频瞬断条件的帧段A不满足第一卡帧条件,不将帧段A 标记为第二卡帧段。
[0118] 通过本申请提供的实施例,通过对音频信号中属于静音段的帧段判断是否为音频 瞬断,进一步判断帧数是否满足门限设置,从而更有效准确地得到音频信号中的卡帧。
[0119] 作为一种可选的方案,在判断属于静音段的帧段是否满足第一卡帧条件中的音频 瞬断条件之后,还包括:
[0120] S1,若属于静音段的帧段不满足音频瞬断条件,则判断属于静音段的帧段是否满 足第一卡帧条件中的尖锐下滑/时域截断条件;
[0121] 可选地,在本实施例中的第一卡帧条件包括但不限于:尖锐下滑/时域截断条件。 例如,如图9所示为判断音频的信号段中的帧段是否满足尖锐下滑/时域截断条件的判决 算法流程图,该图仅作为一个示例来说明音频信号尖锐下滑/时域截断的判决算法流程, 本申请对此不做限定。
[0122] 例如,结合图5所示,属于静音段的帧段A、B、C、D、E中不满足自然静音条件的帧 段为帧段A、B、C、D,判断上述帧段A、B、C、D不满足第一卡帧条件的音频瞬断条件的帧段为 c、D,再对帧段C、D进行判断是否满足尖锐下滑/时域截断条件。
[0123] 需要说明的是,尖锐下滑/时域截断为时域突然截断导致,若上述帧段既不是音 频瞬断也不是尖锐下滑/时域截断导致的突然静音,则有可能并非音频系统的有效卡帧帧 段(例如,第二卡帧段),因而有必要对待测音频进行尖锐下滑/时域截断条件的判断。
[0124] S2,若属于静音段的帧段不满足尖锐下滑/时域截断条件,则判断出不满足尖锐 下滑/时域截断条件的帧段满足第一卡帧条件;
[0125] 例如,结合图5所示,对不满足第一卡帧条件中的音频瞬断条件的帧段C、D进行尖 锐下滑/时域截断条件的判断,得出帧段D不满足尖锐下滑/时域截断条件,则不将帧段D 标记为第二卡帧段。
[0126] S3,若属于静音段的帧段满足尖锐下滑/时域截断条件,则判断满足尖锐下滑/时 域截断条件的帧段的帧数是否大于第三预定阈值;
[0127] 可选地,在本实施例中的第三预定阈值的设置也与人耳对音频的卡顿现象的识别 能力有关,该第三预定阈值在实际评估中可以通过训练得到或者根据产品质量严格等级程 度来确定。
[0128] 例如,结合图5所示,对不满足第一卡帧条件中的音频瞬断条件的帧段C、D进行尖 锐下滑/时域截断条件的判断,得出帧段C满足尖锐下滑/时域截断条件,则判断帧段C的 卡帧帧数是否大于第三预定阈值(例如,帧数为Q)。
[0129] S4,若帧数大于第三预定阈值,则判断出满足尖锐下滑/时域截断条件的帧段满 足第一卡帧条件;若帧数小于等于第三预定阈值,则判断出满足尖锐下滑/时域截断条件 的帧段不满足第一卡帧条件。
[0130] 例如,结合图5所示,对满足尖锐下滑/时域截断条件的帧段C的卡帧帧数进行判 断,若经判断得知帧段C的帧数大于第三预定阈值,例如,帧数大于Q,则判断得出满足尖锐 下滑/时域截断条件的帧段C满足第一卡帧条件,则将帧段C标记为第二卡帧段;若经判断 得知帧段C的帧数是小于等于第三预定阈值,例如,帧数小于等于Q,则判断得出满足尖锐 下滑/时域截断条件的帧段C不满足第一卡帧条件,则不将帧段C标记为第二卡帧段。
[0131] 通过本申请提供的实施例,通过对音频信号中属于静音段的帧段判断是否为尖锐 下滑/时域截断,进一步判断帧数是否满足门限设置,从而更有效准确地得到音频信号中 的卡中贞。
[0132] 作为一种可选的方案,根据帧段是否为静音段来从帧段中选择出现卡帧的帧段包 括:
[0133] S1,若帧段不为静音段,则判断帧段是否满足第二卡帧条件;
[0134] 可选地,结合图5所示,在本实施例中的第二卡帧条件包括但不限于:音频特征的 相关性、周期性判断。例如,重音条件,磁化/机械音条件。
[0135] 例如,音频信号中包括A、B、C、D、E、F、G、Η八个帧段,判断不属于静音段的帧段为 F、G、Η,则判断帧段为F、G、Η是否为重音。
[0136] S2,若帧段不满足第二卡帧条件,则判断出帧段不为出现卡帧的帧段;
[0137] 例如,结合图5所示,若不属于静音段的帧段F、G、Η中帧段G、Η不满足第二卡帧 条件,例如,判断得出帧段G、H不为重音,且磁化/机械音频率成分没有超出预设比例,则判 断得出帧段G、Η不为出现卡帧的帧段,则不将帧段G、Η标记为第二卡帧段。
[0138] S3,若帧段满足第二卡帧条件,则判断出帧段为出现卡帧的帧段。
[0139] 例如,结合图5所示,若不属于静音段的帧段F、G、Η中帧段F满足第二卡帧条件, 例如,判断得出帧段F为重音,且卡帧帧数满足人耳可识别的条件,则判断得出帧段F为出 现卡帧的帧段,则将帧段F标记为第二卡帧段。
[0140] 通过本申请提供的实施例,通过对不属于静音段的帧段进行判断,判断是否满足 第二卡帧条件,进而对非静音段的帧段做出判别,准确得出音频通信系统中可以被识别的 卡帧帧段。
[0141] 作为一种可选的方案,判断帧段是否满足第二卡帧条件包括:
[0142] S1,判断帧段是否满足第二卡帧条件中的重音条件;
[0143] 可选地,在本实施例中第二卡帧条件包括但不限于:重音条件、磁化/机械音条 件。
[0144] 例如,结合图5所示,判断得出不属于静音段的帧段F、G、Η后,再判断上述帧段是 否满足第二卡帧条件中的重音条件。例如,如图10所示为判断音频的信号段中的帧段是否 满足重音条件的判决算法流程图,该图仅作为一个示例来说明音频信号重音的判决算法流 程,本申请对此不做限定。
[0145] S2,若帧段不满足重音条件,则判断帧段是否满足第二卡帧条件中的磁化/机械 音条件;
[0146] 例如,结合图5所示,若判断得出帧段G、Η不满足重音条件,则判断帧段G、Η是否 满足第二卡帧条件中的磁化/机械音条件,也就是说,判断帧段G、H的磁化/机械音频率成 分是否超出预设比例。例如,如图11所示为判断音频的信号段中的帧段是否满足磁化/机 械音条件的判决算法流程图,该图仅作为一个示例来说明磁化/机械音的判决算法流程, 本申请对此不做限定。
[0147] S3,若帧段不满足第二卡帧条件中的磁化/机械音条件,则判断出帧段不满足第 二卡巾贞条件。
[0148] 需要说明的是,结合图5所示,不属于静音段的帧段不满足重音条件,又判断出不 满足磁化/机械音条件,则这样的帧段并不是真正有效地卡帧帧段,而是误判的帧段,因而 并不作为有效的卡帧(例如,第二卡帧段)。
[0149] 例如,结合图5所示,若判断得出不满足第二卡帧条件中的重音条件帧段G、H中的 帧段H,也不满足第二卡帧条件中的磁化/机械音条件,也就是说,判断帧段Η的磁化/机械 音频率成分没有超出预设比例,则判断出帧段Η不满足第二卡帧条件,则不将帧段Η标记为 第二卡巾贞段。
[0150] 通过本申请提供的实施例,通过对不属于静音段的帧段进行细化的辨别,判断是 否满足第二卡帧条件中的重音条件及磁化/机械音条件,进而对非静音段的帧段做出判 另IJ,准确得出音频通信系统中可以被识别的卡帧帧段。
[0151] 作为一种可选的方案,若帧段满足重音条件或者满足磁化/机械音条件,方法还 包括:
[0152] S1,判断属于帧段的帧数是否大于第四预定阈值;
[0153] 可选地,在本实施例中的第四预定阈值的设置也与人耳对音频的卡顿现象的识别 能力有关,该第四预定阈值在实际评估中可以通过训练得到或者根据产品质量严格等级程 度来确定。
[0154] 例如,音频信号中包括A、B、C、D、E、F、G、Η八个帧段,判断帧段满足重音条件或者 满足磁化/机械音条件的帧段为G,则判断帧段G的卡帧帧数是否大于第四预定阈值(例如, 第四预定阈值为S)。
[0155] S2,若帧数大于第四预定阈值,则判断出属于帧段满足第二卡帧条件;若帧数小于 等于第四预定阈值,则判断出属于帧段不满足第二卡帧条件。
[0156] 例如,若帧段G的卡帧帧数大于第四预定阈值,例如,帧数大于S,则判断出属于帧 段G满足第二卡帧条件,则将帧段G记入第二卡帧断;若帧段G的卡帧帧数小于等于第四预 定阈值,例如,帧数小于等于S,则判断出属于帧段G不满足第二卡帧条件,则不将帧段G标 记为第二卡巾贞段。
[0157] 通过本申请提供的实施例,通过对音频信号中不属于静音段且满足重音条件或者 满足磁化/机械音条件的帧段,进一步判断帧数是否满足门限设置,从而更有效准确地得 到音频信号中的卡帧。
[0158] 作为一种可选的方案,从各帧中查找并标记出特征值出现异常的帧段包括:
[0159] S602,若各帧中的连读多个帧中的每一个的至少一个特征值均不在对应的阈值范 围之内,则将连续多个帧组成的帧段标记为特征值出现异常的帧段;
[0160] 可选地,在本实施例中的特征值中的每一个对应的阈值范围相同或不同。
[0161] 例如,从各帧中查找并标记出特征值出现异常的帧段时,是从连读多个帧中查找 每一个帧的至少一个特征值均不在对应的阈值范围之内,并标记上述连续多个帧组成的帧 段为特征值出现异常的帧段。
[0162] 作为一种可选的方案,本实施例中的特征值包括以下至少之一:能量包络值、频谱 流量、频谱平滑度、谱偏斜、谱峰态。
[0163] 可选地,在本实施例中上述特征值的相关计算方法可以表示如下:
[0164] 1)能量包络值,用于表示音频短时能量的变化,其中,所加的窗函数包括以下至少 之一:矩形窗、汉明窗,汉宁窗,三角窗,巴多莱窗。其中,矩形窗的窗函数的表达公式如下 :
[0165]

【权利要求】
1. 一种卡帧检测方法,其特征在于,包括: 对待测音频信号进行特征检测,得到所述待测音频信号中的各帧的特征值; 从所述各帧中查找并标记出所述特征值出现异常的帧段,其中,所述帧段的标记信息 包括以下至少之一:所述帧段的起始帧的时间信息以及所述帧段的帧长; 根据所述帧段是否为静音段来从所述帧段中选择出现卡帧的帧段; 输出所述出现卡帧的帧段的标记信息。
2. 根据权利要求1所述的方法,其特征在于,所述根据所述帧段是否为静音段来从所 述帧段中选择出现卡帧的帧段包括: 若所述帧段为所述静音段,则判断属于所述静音段的所述帧段是否满足第一卡帧条 件; 若属于所述静音段的所述帧段不满足所述第一卡帧条件,则判断出属于所述静音段的 所述帧段不为所述出现卡帧的帧段; 若属于所述静音段的所述帧段满足所述第一卡帧条件,则判断出属于所述静音段的所 述帧段为所述出现卡帧的帧段。
3. 根据权利要求2所述的方法,其特征在于,所述判断属于所述静音段的所述帧段是 否满足第一卡帧条件包括: 判断属于所述静音段的所述帧段的帧数是否大于第一预定阈值; 若所述帧数大于所述第一预定阈值,则判断出属于所述静音段的所述帧段满足所述第 一卡帧条件;若所述帧数小于等于所述第一预定阈值,则判断出属于所述静音段的所述帧 段不满足所述第一卡帧条件。
4. 根据权利要求2所述的方法,其特征在于,所述判断出属于所述静音段的所述帧段 不为所述出现卡帧的帧段包括: 对属于所述静音段的所述帧段的特征参数进行检测; 根据所述检测结果判断所述属于所述静音段的所述帧段是否满足所述第一卡帧条件 中的自然静音条件; 若所述属于所述静音段的所述帧段满足所述自然静音条件,则判断出所述帧段不满足 所述第一^^帧条件。
5. 根据权利要求4所述的方法,其特征在于,在根据所述检测结果判断所述属于所述 静音段的所述帧段是否满足所述第一卡帧条件中的自然静音条件之后,还包括: 若所述属于所述静音段的所述帧段不满足所述自然静音条件,则判断属于所述静音段 的所述帧段是否满足所述第一卡帧条件中的音频瞬断条件; 若所述属于所述静音段的所述帧段满足所述音频瞬断条件,则判断满足所述音频瞬断 条件的所述帧段的帧数是否大于第二预定阈值; 若所述帧数大于所述第二预定阈值,则判断出满足所述音频瞬断条件的所述帧段满足 所述第一卡帧条件;若所述帧数小于等于所述第二预定阈值,则判断出满足所述音频瞬断 条件的所述帧段不满足所述第一卡帧条件。
6. 根据权利要求5所述的方法,其特征在于,在判断属于所述静音段的所述帧段是否 满足所述第一卡帧条件中的音频瞬断条件之后,还包括: 若所述属于所述静音段的所述帧段不满足所述音频瞬断条件,则判断所述属于所述静 音段的所述帧段是否满足所述第一卡帧条件中的尖锐下滑/时域截断条件; 若所述属于所述静音段的所述帧段不满足所述尖锐下滑/时域截断条件,则判断出不 满足所述尖锐下滑/时域截断条件的所述帧段满足所述第一卡帧条件; 若所述属于所述静音段的所述帧段满足所述尖锐下滑/时域截断条件,则判断满足所 述尖锐下滑/时域截断条件的所述帧段的帧数是否大于第三预定阈值; 若所述帧数大于所述第三预定阈值,则判断出满足所述尖锐下滑/时域截断条件的所 述帧段满足所述第一卡帧条件;若所述帧数小于等于所述第三预定阈值,则判断出满足所 述尖锐下滑/时域截断条件的所述帧段不满足所述第一卡帧条件。
7. 根据权利要求1所述的方法,其特征在于,所述根据所述帧段是否为静音段来从所 述帧段中选择出现卡帧的帧段包括: 若所述帧段不为所述静音段,则判断所述帧段是否满足第二卡帧条件; 若所述帧段不满足所述第二卡帧条件,则判断出所述帧段不为所述出现卡帧的帧段; 若所述帧段满足所述第二卡帧条件,则判断出所述帧段为所述出现卡帧的帧段。
8. 根据权利要求7所述的方法,其特征在于,所述判断所述帧段是否满足所述第二卡 中贞条件包括: 判断所述帧段是否满足所述第二卡帧条件中的重音条件; 若所述帧段不满足所述重音条件,则判断所述帧段是否满足所述第二卡帧条件中的磁 化/机械音条件; 若所述帧段不满足所述第二卡帧条件中的磁化/机械音条件,则判断出所述帧段不满 足所述第二卡帧条件。
9. 根据权利要求8所述的方法,其特征在于,若所述帧段满足所述重音条件或者满足 所述磁化/机械音条件,所述方法还包括: 判断属于所述帧段的帧数是否大于第四预定阈值; 若所述帧数大于所述第四预定阈值,则判断出属于所述帧段满足所述第二卡帧条件; 若所述帧数小于等于所述第四预定阈值,则判断出属于所述帧段不满足所述第二卡帧条 件。
10. 根据权利要求1至9中任一项所述的方法,其特征在于,从所述各帧中查找并标记 出所述特征值出现异常的帧段包括:若所述各帧中的连读多个帧中的每一个的至少一个所 述特征值均不在对应的阈值范围之内,则将所述连续多个帧组成的帧段标记为所述特征值 出现异常的帧段,其中,所述特征值中的每一个对应的所述阈值范围相同或不同。
11. 根据权利要求10所述的方法,其特征在于,所述特征值包括以下至少之一:能量包 络值、频谱流量、频谱平滑度、谱偏斜、谱峰态。
12. -种卡帧检测装置,其特征在于,包括: 检测单元,用于对待测音频信号进行特征检测,得到所述待测音频信号中的各帧的特 征值; 查找标记单元,用于从所述各帧中查找并标记出所述特征值出现异常的帧段,其中,所 述帧段的标记信息包括以下至少之一:所述帧段的起始帧的时间信息以及所述帧段的帧 长; 选择单元,用于根据所述帧段是否为静音段来从所述帧段中选择出现卡帧的帧段; 输出单元,用于输出所述出现卡帧的帧段的标记信息。
13. 根据权利要求12所述的装置,其特征在于,所述选择单元包括: 第一判断模块,用于在所述帧段为所述静音段时,判断属于所述静音段的所述帧段是 否满足第一卡帧条件;在判断出属于所述静音段的所述帧段不满足所述第一卡帧条件时, 判断出属于所述静音段的所述帧段不为所述出现卡帧的帧段;在判断出属于所述静音段的 所述帧段满足所述第一卡帧条件,判断出属于所述静音段的所述帧段为所述出现卡帧的帧 段。
14. 根据权利要求13所述的装置,其特征在于,所述第一判断模块包括: 第一判断子模块,用于判断属于所述静音段的所述帧段的帧数是否大于第一预定阈 值;在所述帧数大于所述第一预定阈值时,判断出属于所述静音段的所述帧段满足所述第 一卡帧条件;在所述帧数小于等于所述第一预定阈值时,判断出属于所述静音段的所述帧 段不满足所述第一卡帧条件。
15. 根据权利要求13所述的装置,其特征在于,所述第一判断模块包括: 检测子模块,用于对属于所述静音段的所述帧段的特征参数进行检测; 第二判断子模块,用于根据所述检测模块的检测结果判断所述属于所述静音段的所述 帧段是否满足所述第一卡帧条件中的自然静音条件;在所述属于所述静音段的所述帧段满 足所述自然静音条件时,判断出所述帧段不满足所述第一卡帧条件。
16. 根据权利要求15所述的装置,其特征在于,所述第一判断模块包括: 第三判断子模块,用于在所述属于所述静音段的所述帧段不满足所述自然静音条件 时,判断属于所述静音段的所述帧段是否满足所述第一卡帧条件中的音频瞬断条件; 第四判断子模块,用于在所述属于所述静音段的所述帧段满足所述音频瞬断条件时, 判断满足所述音频瞬断条件的所述帧段的帧数是否大于第二预定阈值;在所述帧数大于所 述第二预定阈值时,判断出满足所述音频瞬断条件的所述帧段满足所述第一卡帧条件;在 所述帧数小于等于所述第二预定阈值时,判断出满足所述音频瞬断条件的所述帧段不满足 所述第一卡帧条件。
17. 根据权利要求16所述的装置,其特征在于,所述第一判断模块包括: 第五判断子模块,用于在所述属于所述静音段的所述帧段不满足所述音频瞬断条件 时,判断所述属于所述静音段的所述帧段是否满足所述第一卡帧条件中的尖锐下滑/时域 截断条件;在所述属于所述静音段的所述帧段不满足所述尖锐下滑/时域截断条件时,判 断出不满足所述尖锐下滑/时域截断条件的所述帧段满足所述第一卡帧条件; 第六判断子模块,用于在所述属于所述静音段的所述帧段满足所述尖锐下滑/时域截 断条件时,判断满足所述尖锐下滑/时域截断条件的所述帧段的帧数是否大于第三预定阈 值;在所述帧数大于所述第三预定阈值时,判断出满足所述尖锐下滑/时域截断条件的所 述帧段满足所述第一卡帧条件;在所述帧数小于等于所述第三预定阈值时,判断出满足所 述尖锐下滑/时域截断条件的所述帧段不满足所述第一卡帧条件。
18. 根据权利要求12所述的装置,其特征在于,所述选择单元包括: 第二判断模块,用于在所述帧段不为所述静音段时,判断所述帧段是否满足第二卡帧 条件;在所述帧段不满足所述第二卡帧条件时,判断出所述帧段不为所述出现卡帧的帧段; 在所述帧段满足所述第二卡帧条件时,则判断出所述帧段为所述出现卡帧的帧段。
19. 根据权利要求18所述的装置,其特征在于,所述第二判断模块包括: 第七判断子模块,用于判断所述帧段是否满足所述第二卡帧条件中的重音条件; 第八判断子模块,用于在所述帧段不满足所述重音条件时,判断所述帧段是否满足所 述第二卡帧条件中的磁化/机械音条件;在所述帧段不满足所述第二卡帧条件中的磁化/ 机械音条件时,判断出所述帧段不满足所述第二卡帧条件。
20. 根据权利要求19所述的装置,其特征在于,所述第二判断模块包括: 第九判断子模块,用于在所述帧段满足所述重音条件或者满足所述磁化/机械音条件 时,判断属于所述帧段的帧数是否大于第四预定阈值;在所述帧数大于所述第四预定阈值 时,判断出属于所述帧段满足所述第二卡帧条件;在所述帧数小于等于所述第四预定阈值 时,判断出属于所述帧段不满足所述第二卡帧条件。
21. 根据权利要求12至20中任一项所述的装置,其特征在于,所述查找标记单元包 括: 标记模块,用于在所述各帧中的连读多个帧中的每一个的至少一个所述特征值均不在 对应的阈值范围之内,将所述连续多个帧组成的帧段标记为所述特征值出现异常的帧段, 其中,所述特征值中的每一个对应的所述阈值范围相同或不同。
22. 根据权利要求21所述的装置,其特征在于,所述特征值包括以下至少之一:能量包 络值、频谱流量、频谱平滑度、谱偏斜、谱峰态。
【文档编号】G10L25/78GK104123949SQ201410036425
【公开日】2014年10月29日 申请日期:2014年1月24日 优先权日:2014年1月24日
【发明者】邹连平, 张文婷, 何航 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1