基于对延迟抖动和对话动态的监视的抖动缓冲器控制的制作方法

文档序号:9372028阅读:446来源:国知局
基于对延迟抖动和对话动态的监视的抖动缓冲器控制的制作方法
【技术领域】
[0001] 本公开内容涉及音频信号处理。具体地,本公开内容涉及对远程通信的音频信号 的处理,包括但不限于对电话会议或视频会议的音频信号的处理。
【背景技术】
[0002] 分组网络上的语音传输会遭遇延迟变化,通常称为抖动。例如,可以根据到达间隔 时间(IAT)变化或分组延迟变化(PDV)来测量抖动。可以根据相邻分组的接收时间差来测 量IAT变化。例如,可以参照来自数据或"锚"分组接收时间的时间间隔来测量rov。在基于 因特网协议(IP)的网络中,固定延迟可以归因于由于材料和距离导致的算法、处理和传播 延迟,而可变延迟是由于IP网络信息业务量的波动、因特网上不同的传输路径等引起的。
[0003] VoIP (网络电话)接收机通常依赖"抖动缓冲器"来对抗抖动的负面影响。通过引 入接收音频数据的分组的时刻与再现该分组的时刻之间的附加延迟,抖动缓冲器旨在将到 达分组的不均匀流转换成规则的分组流,使得延迟变化不会对终端用户造成可感知的音质 下降。语音通信对于延迟非常敏感。例如,根据ITU推荐G. 114,对于正常的对话,单向延迟 应当保持低于150ms,超过400ms被认为不可接受。因此,由抖动缓冲器添加的附加延迟需 要足够小以避免造成可感知的音质下降。不幸的是,当分组由于网络延迟而比预期晚到达 时,小的抖动缓冲器会导致更频繁的分组丢失。

【发明内容】

[0004] 根据本文中所描述的一些实现,方法可以涉及接收音频数据。音频数据可以包括 在时间间隔期间在实际分组达到时间接收到的音频分组,该时间间隔可以对应于对话分析 片段。对话分析片段可以包括多个谈话突峰(talkspurt)。该方法可以涉及分析对话分析 片段的音频数据以确定网络抖动动态数据和对话交互性数据。网络抖动动态数据可以提供 中继音频数据分组的网络中的抖动的指示。对话交互性数据可以提供由音频数据表示的对 话的参与者之间的交互性的指示。该方法可以涉及根据网络抖动动态数据和对话交互性数 据两者控制抖动缓冲器大小。
[0005] 分析音频数据以确定网络抖动动态数据可以涉及至少部分地基于实际分组到达 时间确定分组延迟变化(PDV)或到达间隔时间(IAT)变化中的至少之一。确定PDV可以涉 及将预期分组到达时间与实际分组到达时间进行比较。
[0006] 根据一些实现,分析音频数据可以涉及确定分组延迟时间的百分位范围。确定 网络抖动动态数据可以涉及确定对应于第一百分位范围的第一分组延迟时间与第二百分 位范围的第二分组延迟时间之间的差的分组延迟的百分位间距范围(inter-percentile range)。在一些示例中,分析音频数据可以涉及根据分组延迟变化的次序统计确定分组延 迟时间的范围。分组延迟时间的范围可以包括最短分组延迟时间、中间分组延迟时间和最 长分组延迟时间。确定网络抖动动态数据可以包括确定最大分组延迟时间之一与中间分组 延迟时间之一之间的差。在一些实现中,分析音频数据以确定网络抖动动态数据可以包括 确定延迟尖峰出现概率和/或延迟尖峰强度。
[0007] 在一些示例中,分析音频数据以确定对话交互性数据可以涉及确定其间可能仅单 个对话参与者在讲话的单向谈话时间、其间可能有两个或更多个对话参与者在讲话的双向 谈话时间、以及其间可能没有对话参与者讲话的相互静默时间。分析音频数据以确定对话 交互性数据可以涉及讲话者交替率或讲话者中断率中的至少之一。
[0008] -些方法可以涉及接收讲话者静音指示和/或演讲指示。确定对话交互性数据可 以涉及根据讲话者静音指示或演讲指示中的至少之一来确定对话交互性。
[0009] 在一些实现中,分析音频数据以确定对话交互性数据可以涉及确定对话交互性度 量(cn〇。cm例如可以基于启发式规则和/或对话相对熵。
[0010] 例如,(ΠΜ可以至少部分地基于启发式规则,启发式规则涉及对讲话者交替率的阈 值、其间可能仅单个对话参与者在讲话的单向谈话时间的阈值、其间可能有两个或更多个 对话参与者在讲话的双向谈话时间的阈值、和/或其间可能没有对话参与者在讲话的相互 静默时间的阈值的应用。
[0011] 在一些实现中,(ΠΜ可以至少部分地基于对话相对熵。可以至少部分地根据对话 状态的概率来确定对话相对熵。对话状态可以包括其间可能仅单个对话参与者在讲话的单 向谈话时间的概率、其间可能有两个或更多个对话参与者在讲话的双向谈话时间的概率、 以及其间可能没有对话参与者在讲话的相互静默时间的概率。
[0012] 根据一些实现,确定对话交互性数据可以涉及分析仅单个对话参与者的对话活 动。例如,分析单个对话参与者的对话活动可以涉及确定单个对话参与者是否在谈话。控 制抖动缓冲器大小可以涉及:当单个对话参与者在谈话时,将抖动缓冲器设置成相对较小 的大小,以及当单个对话参与者没有谈话时,将抖动缓冲器设置成相对较大的大小。
[0013] 在一些实现中,控制抖动缓冲器大小可以涉及当网络抖动动态数据指示大于网络 抖动的阈值量时将抖动缓冲器设置成相对较大的大小。例如,控制抖动缓冲器大小可以涉 及:当网络抖动动态数据指示大于网络抖动的阈值量时或当对话交互性数据指示小于第一 对话参与者的对话参与的阈值量时,将第一对话参与者的抖动缓冲器设置成相对较大的大 小。
[0014] 根据一些实现,控制抖动缓冲器大小可以涉及:当网络抖动动态数据指示小于网 络抖动的阈值量时或当对话交互性数据指示至少对话交互性的阈值量时,将抖动缓冲器设 置成相对较小的大小。在一些示例中,控制抖动缓冲器大小可以涉及:当网络抖动动态数据 指示小于网络抖动的阈值量时或当对话交互性数据指示至少第一对话参与者的对话参与 的阈值量时,将第一对话参与者的抖动缓冲器设置成相对较小的大小。在一些示例中,控制 抖动缓冲器大小可以涉及给网络抖动动态数据分配相对较小的权重以及给对话交互性数 据分配相对较大的权重。
[0015] 根据一些实现,控制抖动缓冲器大小可以涉及根据至少三个抖动缓冲器控制模式 之一来设置抖动缓冲器大小。例如,抖动缓冲器控制模式可以包括峰值模式、低丢失模式和 正常模式。在一些这种实现中,每个抖动缓冲器控制模式可以对应于抖动缓冲器大小。然 而,在一些示例中,每个抖动缓冲器控制模式可以对应于抖动缓冲器大小的范围。
[0016] 抖动缓冲器控制模式中至少之一可以对应于至少指示网络抖动的阈值量的网络 抖动动态数据以及至少指示对话交互性的阈值量的对话交互性数据。抖动缓冲器控制模式 中至少之一可以对应于至少指示网络抖动的阈值量的网络抖动动态数据以及指示小于对 话交互性的阈值量的对话交互性数据。抖动缓冲器控制模式中至少之一可以对应于指示小 于网络抖动的阈值量的网络抖动动态数据以及至少指示对话交互性的阈值量的对话交互 性数据。抖动缓冲器控制模式中至少之一可以对应于指示小于网络抖动的阈值量的网络抖 动动态数据以及指示小于对话交互性的阈值量的对话交互性数据。
[0017] 根据一些实现,本文中所公开的这些方法和/或其他方法可以经由存储有软件的 一个或更多个非暂态介质来实现。软件可以包括用于控制一个或更多个装置至少部分地执 行这种方法的指令。
[0018] 本公开内容的至少一些方面可以经由设备来实现。例如,一个或更多个装置能够 至少部分地执行本文中所公开的方法。在一些实现中,设备可以包括接口系统、可以包括抖 动缓冲器的存储器系统、以及逻辑系统。逻辑系统能够经由接口系统接收音频数据。音频 数据可以包括在可以对应于对话分析分段的时间间隔期间在实际分组到达时间接收到的 音频分组。
[0019] 接口系统可以包括网路接口、逻辑系统与存储器系统之间的接口、和/或外部装 置接口。逻辑系统可以包括通用单芯片处理器或多芯片处理器、数字信号处理器(DSP)、专 用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立的门或晶体管 逻辑、或分立的硬件部件中的至少之一。
[0020] 逻辑系统能够分析对话分析片段的音频数据以确定网络抖动动态数据和对话交 互性数据。网络抖动动态数据可以提供对中继音频数据分组的网络中的抖动的指示。对话 交互性数据可以提供由音频数据表示的对话的参与者之间的交互性的指示。逻辑系统能够 根据网络抖动动态数据和对话交互性数据来控制抖动缓冲器大小。时间间隔可以对应于包 括多个谈话突峰的对话分析片段。
[0021] 在一些实现中,分析音频数据以确定网络抖动动态数据可以涉及通过将预期分组 到达时间与实际分组到达时间进行比较来确定分组延迟变化(PDV)或到达间隔时间(IAT) 变化中的至少之一。在一些示例中,分析音频数据以确定网络抖动动态数据可以涉及确定 延迟尖峰出现概率或延迟尖峰强度中的至少之一。
[0022] 根据一些实现,分析音频数据以确定对话交互性数据可以涉及确定其间可能仅单 个对话参与者在讲话的单向谈话时间、其间可能有两个或更多个对话参与者在讲话的双向 谈话时间、以及其间可能没有对话参与者在讲话的相互静默时间。分析音频数据以确定对 话交互性数据可以涉及基于启发式规则或对话相对熵中至少之一来确定对话交互性度量 (CIM) 0
[0023] 在附图和下面的描述中阐述了本说明书中所描述的主题的一个或更多个实现的 细节。根据该描述、附图和权利要求,其他特征、方面和优点将变得明显。注意,可能没有按 比例绘制下面的附图的相对尺寸。
【附图说明】
[0024] 图IA是示意性地示出可以应用本申请的实施方式的语音通信系统的示例的图;
[0025] 图IB是示意性地示出可以实现本申请的方面的语音通信系统的另一示例的图;
[0026] 图2是示出本文所提供的一些抖动缓冲器控制方法的块的流程图;
[0027] 图3提供了两方对话模式的示例,该两方对话模式提供了对话状态的一些示例;
[0028] 图4是示出本文所提供的一些抖动缓冲器控制方法的块的流程图;
[0029] 图5是提供能够实现本公开内容的各个方面的设备的部件示例的框图;以及
[0030] 图6是提供音频处理设备的部件示例的框图。
[0031] 各个图中的相似的附图标记和名称指示相似的元素。
【具体实施方式】
[0032] 下面的描述针对用于描述本公开内容的一些创新方面的某些实现,以及可以实现 这些创新方面的上下文的示例。然而,可以以各种不同的方式来应用本文中的教示。例如, 尽管就音频数据处理的具体示例描
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1